Яндекс и Институт востоковедения РАН запустили ИИ-помощника для работы с научной информацией на восточных языках

ГигаЧат кратко объясняет суть статьи
Яндекс и Институт востоковедения РАН разработали ИИ-помощника, ускоряющий обработку данных на восточных языках в сотни раз. Система способна анализировать до тысячи источников в сутки, формируя краткие аналитические выжимки и облегчая доступ к материалам на национальных языках стран Азии, Африки и Ближнего Востока. Разработанный на платформе Yandex AI Studio, помощник обучался специалистами Yandex Cloud и студентами Школы анализа данных. Он сокращает время анализа с нескольких часов до 10-15 минут, позволяя исследователям охватывать больший объем информации и формировать объективное представление о регионах. Архив востоковедных знаний включает свыше 1,5 млн документов на четырех вариантах китайского языка. В дальнейшем планируется расширение поддержки других восточных языков, включая японский, арабский, турецкий и персидский.
Яндекс и Институт востоковедения РАН создали ИИ-помощника, который в сотни раз ускоряет анализ данных на восточных языках.
Он обрабатывает до 1000 источников в день вместо 8–10 и помогает исследователям быстрее работать с первоисточниками стран Азии, Африки и Ближнего Востока. Сейчас на этапе тестирования помощник доступен для сотрудников Института востоковедения РАН, позже будет размещен для всех исследователей в открытом доступе.
Сегодня доступ к оригинальным источникам по восточным странам ограничен: многие материалы выходят только на национальных языках и редко переводятся. Это затрудняет академические и аналитические исследования, а зачастую формирует искажённое восприятие событий через англоязычные интерпретации.
ИИ-помощник разработан на базе платформы для разработки ИИ-приложений и агентов Yandex AI Studio и облегчает работу с такими источниками. Он обрабатывает научные тексты, выделяет ключевые факты и формирует краткие аналитические выжимки. Обучением генеративных моделей занимались специалисты платформы Yandex Cloud и студенты Школы анализа данных. Решение также анализирует публикации в китайских СМИ и создаёт русскоязычные дайджесты, что позволяет исследователям оперативно получать информацию о событиях в регионе.
«До недавнего времени учёные сталкивались с тем, что анализ материалов на оригинальных языках занимал много времени и ограничивал количество обрабатываемых источников. С помощью ИИ этот процесс ускоряется: время поиска и анализа сокращается в 6–8 раз — с нескольких часов до 10–15 минут на одну исследовательскую задачу. Это даёт исследователям возможность обрабатывать больше материалов ежедневно, проводить более глубокий анализ и получать полное представление о тенденциях в регионе», — отмечает Александр Костыркин, старший научный сотрудник Лаборатории цифровых исследований современного Востока Институт востоковедения РАН.
Для информационного наполнения применен архив востоковедных знаний, составленный на основе публикаций Института востоковедения РАН — монографий, научных статей сотрудников и других материалов. База ИИ-помощника уже превысила 1,5 миллиона документов, представленных в четырёх вариантах китайского языка — континентальном, тайваньском, гонконгском и сингапурском.
«Востоковедам особенно важно работать с первоисточниками — понимать язык, контекст и логику региона, о котором они пишут. Искусственный интеллект позволяет сделать это быстрее, точнее и глубже. Наша цель — чтобы технологии помогали учёным видеть больше и работать с данными, которые раньше были труднодоступны», — говорит Анна Лемякина, директор по национальным и стратегическим проектам Yandex Cloud.
«Институт востоковедения РАН проходит масштабную цифровую трансформацию, в центре которой — системная интеграция ИИ-технологий для работы с первоисточниками. Партнёрство с Яндексом позволяет нам существенно расширить объём и глубину анализа материалов, сохраняя фундаментальность академического подхода» — говорит директор Института востоковедения РАН, доктор исторических наук Аликбер Аликберов.
Проект реализуется в рамках Центра технологий для общества Яндекса совместно со студентами Школы анализа данных. В будущем планируется расширить языковую поддержку — добавить японский, арабский, турецкий, персидский и другие восточные языки, чтобы предоставить российским исследователям прямой доступ к уникальным корпусам знаний и источникам.
Читать первым в Telegram-канале «Код Дурова»




























































