Студентка Новосибирского государственного университета Алена Цанда создала мультимодальный датасет, предназначенный для краткого пересказа научных статей, сообщает пресс-служба вуза.
По словам исследователя, главная задача датасета заключается в генерации краткого содержания.
«Существующие системы генерируют краткое содержание на основе лишь текстовой информации. Мы предполагаем, что графическая информация, которой сопровождаются почти все научные статьи позволит улучшить качество аннотаций», — комментиурет Алена Цанда.
Разработчики протестировали популярные большие языковые модели: Gigachat, YandexGPT и GPT-3.5 Turbo. Исследователь планирует расширить датасет такими техническими областями, как математика и физика.
Ранее Новосибирский студент проанализировал поэзию Шевчука с помощью математики
Андрей Иванов
Подписывайтесь на Telegram-канал НДН.инфо, чтобы не пропустить важные и актуальные новости!