1 июля 2025

eur = 92.27 -0.01 (-0.01 %)

btc = 107 359.00$ - 191.28 (-0.18 %)

eth = 2 467.04$ 32.09 (1.32 %)

ton = 2.95$ 0.08 (2.75 %)

usd = 78.53 0.06 (0.08 %)

eur = 92.27 -0.01 (-0.01 %)

btc = 107 359.00$ - 191.28 (-0.18 %)

ИИ-технологии Сбера и база научных публикаций теперь доступны всем пользователям

3 минуты на чтение
Изображение: розовый элемент с надписью «UA», подключённый к серому кабелю.Как видит новость Kandinsky

GigaChat Max кратко объясняет суть статьи

Команда Сбера активно развивает русскоязычное сообщество ИИ, публикуя в open-source мощные модели искусственного интеллекта: - GigaChat Lite: архитектура Lite 20B MoE с 3.3 млрд активных параметров обеспечивает высокую производительность при низком потреблении ресурсов. - GigaEmbeddings-instruct: лучшая в своем классе модель векторизации текста, подходящая для задач Retrieval Augmented Generation. - Обновленное семейство GigaAM: улучшена точность распознавания речи и эмоций на русском языке, снизив Word Error Rate на 25% для модели GigaAM-RNNT и превзойдя OpenAI-Whisper-large-v3 на 56%. На конференции AI Journey-2024 открыта база научных публикаций по ИИ от российских авторов, содержащая свыше 5,5 тыс. статья с 2014 года. Регистрация позволяет добавлять публикации и использовать аналитические инструменты платформы. Платформа создается ИТМО по заказу Альянса ИИ и поддерживается учеными, университетами и лабораториями.

Научная команда Сбера начала активно публиковать в open-source различные модели искусственного интеллекта для развития русскоязычного ИИ-сообщества.

В пресс-службе Сбера сообщили «Коду Дурова», что в открытом доступе теперь есть базовая и инструктивная версии GigaChat Lite. Эта модель считается очень сильной в своём классе и отлично справляется с решением типовых задач, где важна скорость:

«Архитектура Lite 20B MoE (Mixture-of-Experts) с 3.3B активных параметров, при этом качество её работы соответствует уровню более мощных моделей».

В open-source также выложили GigaEmbeddings-instruct — эта модель преобразует текст в его числовое представление (вектор), кодируя всю информацию, которая содержится в запросе:

«Она подходит для решения задач с применением технологии RAG (Retrieval Augmented Generation). GigaEmbeddings-instruct является лучшей в своем классе по данным бенчмарка ruMTEB».
GigaAM — семейство открытых моделей распознавания речи (MIT). WER: RNNT — 5.5%, CTC — 5.8%. Поддержка коммерческого

Технический директор GigaChat Федор Минькин на международной конференции AI Journey-2024 также анонсировал большое обновление у семейства open-source моделей машинного обучения для распознавания речи и эмоций GigaAM (Giga Acoustic Model):

  • Как и GigaEmbeddings-instruct, GigaAM не требует больших вычислительных мощностей. В её новой версии улучшены подготовка данных и технология предобучения базовой модели.
  • Это позволило значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов.
  • Для самой сильной модели семейства GigaAM-RNNT показатель улучшен на 25% относительно предыдущей версии и на 56% превосходит OpenAI-Whisper-large-v3.

Переход на другое позиционное кодирование привело к поддержке акустическими моделями дообучения и инференса с Flash Attention — это, по уверениям Сбера, даёт существенное ускорение на современных видеокартах.

При этом упрощён код, снижено число зависимостей и подготовлена конвертация в формат ONNX:

Новые модели публикуются с лицензией MIT, что допускает их коммерческое использование. Вся линейка больших языковых моделей, в том числе самая мощная GigaChat MAX, уже доступны бизнесу через облачный API
Поиск по базе научных публикаций в области ИИ

Кроме всего прочего, Альянс в сфере искусственного интеллекта в рамках научного дня конференции AI Journey открыл для пользователей базу научных публикаций по ИИ — открытую платформу, на которой собирается информация о статьях российских авторов на ведущих мировых научных конференциях.

  • Речь о мероприятиях уровня А*, А и других, а также об индексируемых журналах Q1 — Q4.
  • Сейчас в базе доступна информация о более 5,5 тыс. статей с российскими аффилиациями, опубликованных с 2014 года.
  • Из них эталонный, верифицированный датасет составляет 1000 публикаций Высшей школы экономики, ИТМО и МФТИ за 2019-2024 гг.

Авторам, сотрудникам вузов, компаний и других организаций, ведущих научную деятельность, доступна регистрация, проверка данных и добавление информации в базу. Без регистрации можно совершать поиск по авторам, организациям, конференциям и журналам без регистрации.

Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев рассказал, что ИИ — «одна из самых наукоёмких технологий, где прогресс во многом достигается именно учёными»:

«База публикаций, созданная Альянсом, поможет нам получить максимально полную картину по научным публикациям за последние 10 лет, проанализировать динамику на уровне отдельных организаций, направлений исследований, авторов и использовать эту аналитику для развития российской науки».

Директор по развитию технологий искусственного интеллекта Яндекса Александр Крайнов акцентировал внимание на желании «собрать и структурировать максимально полную информацию об отечественных научных работах в области ИИ»:

«И, разумеется, [мы хотим] сделать её полностью открытой без каких либо оговорок. Но получится это только в том случае, если в проект поддержат учёные, университеты и научные лаборатории. Поддержат наполнением создаваемой базы».

По уверениям Сбера, зарегистрированные пользователи получат бесплатный доступ по API со всей необходимой информацией. В самой базе, которую по заказу Альянса создаёт ИТМО, настроены аналитические инструменты для анализа публикационной активности по разным параметрам.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
2737c621-d628-4a44-9350-431fc416c777-изображение-0648c944a-47e1-4190-a7e4-00141e05901a-изображение-1

GigaChat Max: коротко о главном

Инсайдер: Apple разрабатывает 7 AR- и VR-устройств, которые выйдут в ближайшие четыре года

Полная версия 
a96a0e6a-3fe9-4b49-b564-965013b85900-изображение-0da98c41b-6488-405f-bad3-8e0963b48652-изображение-1

GigaChat Max: коротко о главном

В Китае провели футбольный матч между гуманоидными роботами

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 366
X5 Tech
Газпромбанк
билайн
Сбер
Т-Банк
МТС
Яндекс Практикум
Ozon Tech
Циан
Банк 131

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы