24 июня 2025

eur = 90.14 0.30 (0.33 %)

btc = 101 325.00$ 2 140.75 (2.16 %)

eth = 2 241.09$ 58.70 (2.69 %)

ton = 2.80$ 0.08 (3.04 %)

usd = 78.50 0.02 (0.02 %)

eur = 90.14 0.30 (0.33 %)

btc = 101 325.00$ 2 140.75 (2.16 %)

ИИ-технологии Сбера и база научных публикаций теперь доступны всем пользователям

3 минуты на чтение
Изображение: розовый элемент с надписью «UA», подключённый к серому кабелю.Как видит новость Kandinsky

GigaChat Max кратко объясняет суть статьи

Команда Сбера активно развивает русскоязычное сообщество ИИ, публикуя в open-source мощные модели искусственного интеллекта: - GigaChat Lite: архитектура Lite 20B MoE с 3.3 млрд активных параметров обеспечивает высокую производительность при низком потреблении ресурсов. - GigaEmbeddings-instruct: лучшая в своем классе модель векторизации текста, подходящая для задач Retrieval Augmented Generation. - Обновленное семейство GigaAM: улучшена точность распознавания речи и эмоций на русском языке, снизив Word Error Rate на 25% для модели GigaAM-RNNT и превзойдя OpenAI-Whisper-large-v3 на 56%. На конференции AI Journey-2024 открыта база научных публикаций по ИИ от российских авторов, содержащая свыше 5,5 тыс. статья с 2014 года. Регистрация позволяет добавлять публикации и использовать аналитические инструменты платформы. Платформа создается ИТМО по заказу Альянса ИИ и поддерживается учеными, университетами и лабораториями.

Научная команда Сбера начала активно публиковать в open-source различные модели искусственного интеллекта для развития русскоязычного ИИ-сообщества.

В пресс-службе Сбера сообщили «Коду Дурова», что в открытом доступе теперь есть базовая и инструктивная версии GigaChat Lite. Эта модель считается очень сильной в своём классе и отлично справляется с решением типовых задач, где важна скорость:

«Архитектура Lite 20B MoE (Mixture-of-Experts) с 3.3B активных параметров, при этом качество её работы соответствует уровню более мощных моделей».

В open-source также выложили GigaEmbeddings-instruct — эта модель преобразует текст в его числовое представление (вектор), кодируя всю информацию, которая содержится в запросе:

«Она подходит для решения задач с применением технологии RAG (Retrieval Augmented Generation). GigaEmbeddings-instruct является лучшей в своем классе по данным бенчмарка ruMTEB».
GigaAM — семейство открытых моделей распознавания речи (MIT). WER: RNNT — 5.5%, CTC — 5.8%. Поддержка коммерческого

Технический директор GigaChat Федор Минькин на международной конференции AI Journey-2024 также анонсировал большое обновление у семейства open-source моделей машинного обучения для распознавания речи и эмоций GigaAM (Giga Acoustic Model):

  • Как и GigaEmbeddings-instruct, GigaAM не требует больших вычислительных мощностей. В её новой версии улучшены подготовка данных и технология предобучения базовой модели.
  • Это позволило значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов.
  • Для самой сильной модели семейства GigaAM-RNNT показатель улучшен на 25% относительно предыдущей версии и на 56% превосходит OpenAI-Whisper-large-v3.

Переход на другое позиционное кодирование привело к поддержке акустическими моделями дообучения и инференса с Flash Attention — это, по уверениям Сбера, даёт существенное ускорение на современных видеокартах.

При этом упрощён код, снижено число зависимостей и подготовлена конвертация в формат ONNX:

Новые модели публикуются с лицензией MIT, что допускает их коммерческое использование. Вся линейка больших языковых моделей, в том числе самая мощная GigaChat MAX, уже доступны бизнесу через облачный API
Поиск по базе научных публикаций в области ИИ

Кроме всего прочего, Альянс в сфере искусственного интеллекта в рамках научного дня конференции AI Journey открыл для пользователей базу научных публикаций по ИИ — открытую платформу, на которой собирается информация о статьях российских авторов на ведущих мировых научных конференциях.

  • Речь о мероприятиях уровня А*, А и других, а также об индексируемых журналах Q1 — Q4.
  • Сейчас в базе доступна информация о более 5,5 тыс. статей с российскими аффилиациями, опубликованных с 2014 года.
  • Из них эталонный, верифицированный датасет составляет 1000 публикаций Высшей школы экономики, ИТМО и МФТИ за 2019-2024 гг.

Авторам, сотрудникам вузов, компаний и других организаций, ведущих научную деятельность, доступна регистрация, проверка данных и добавление информации в базу. Без регистрации можно совершать поиск по авторам, организациям, конференциям и журналам без регистрации.

Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев рассказал, что ИИ — «одна из самых наукоёмких технологий, где прогресс во многом достигается именно учёными»:

«База публикаций, созданная Альянсом, поможет нам получить максимально полную картину по научным публикациям за последние 10 лет, проанализировать динамику на уровне отдельных организаций, направлений исследований, авторов и использовать эту аналитику для развития российской науки».

Директор по развитию технологий искусственного интеллекта Яндекса Александр Крайнов акцентировал внимание на желании «собрать и структурировать максимально полную информацию об отечественных научных работах в области ИИ»:

«И, разумеется, [мы хотим] сделать её полностью открытой без каких либо оговорок. Но получится это только в том случае, если в проект поддержат учёные, университеты и научные лаборатории. Поддержат наполнением создаваемой базы».

По уверениям Сбера, зарегистрированные пользователи получат бесплатный доступ по API со всей необходимой информацией. В самой базе, которую по заказу Альянса создаёт ИТМО, настроены аналитические инструменты для анализа публикационной активности по разным параметрам.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
3fe60275-8764-4f37-9c98-666e69c66bc1-изображение-0098f405a-c5ac-4a1e-9c17-00be19fba9c3-изображение-1

GigaChat Max: коротко о главном

Li Auto дала возможность «легализовать» автомобили, ввезённые по параллельному импорту

Полная версия 
9fd4a777-5a0a-43bd-a6b4-bd0980193544-изображение-0

GigaChat Max: коротко о главном

Reuters: DeepSeek предоставляет информацию о пользователях китайским военным

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 365
Газпромбанк
билайн
Сбер
Т-Банк
X5 Tech
МТС
Яндекс Практикум
Ozon Tech
Циан
Банк 131

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы