Разработка MWS AI (дочка МТС) способна одновременно анализировать и интерпретировать изображения и текст, пишет Forbes со ссылкой на генерального директора MWS AI Дениса Филиппова.
Сообщается, что Cotype VL основана на открытой модели Qwen 2.5-VL от Alibaba Cloud, содержит 32 млрд параметров и распознает изображения с печатным, рукописным и смешанным текстом.
MWS AI поставляет Cotype VL как в виде отдельного продукта, так и в составе ИИ-помощников для широкого круга сценариев: от поиска по документам, содержащим визуальную информацию, до клиентской поддержки пользователей по скриншотам и подготовки отчётов на основе графических данных.
Кроме того, модель учитывает визуальный контекст при переводе с одного языка на другой, умеет создавать краткое и развернутое описание изображений и отвечать на сложные и логические вопросы по их содержанию, требующие рассуждений, сравнений и выводов.
«Наша новая модель умеет работать со схемами, чертежами, техническими иллюстрациями, картами и другими визуальными данными, благодаря чему будет востребована в ИИ-решениях, ориентированных на проектные и инженерные службы, юридические, финансовые и кадровые департаменты, а также на маркетинг, где предполагается работа с разными форматами контента», — отметил Филиппов.
В MWS AI подчеркнули, что для обучения Cotype VL команда собрала набор данных на русском языке из различных доменов, включая финансы, промышленность, IT, телеком и здравоохранение — всего более 150 000 документов с визуальными данными. Также модель была обучена на скриншотах интерфейсов бизнес-приложений, инженерного ПО, приложений экосистемы МТС и игр.
Читать первым в Telegram-канале «Код Дурова»