21 января 2025

eur = 105.05 0.18 (0.18 %)

btc = 101 970.00$ -6 006.98 (-5.56 %)

eth = 3 237.09$ - 151.39 (-4.47 %)

ton = 4.95$ -0.23 (-4.41 %)

usd = 101.96 -0.46 (-0.45 %)

eur = 105.05 0.18 (0.18 %)

btc = 101 970.00$ -6 006.98 (-5.56 %)

Форум

ИИ-технологии Сбера и база научных публикаций теперь доступны всем пользователям

3 минуты на чтение
ИИ-технологии Сбера и база научных публикаций теперь доступны всем пользователямКак видит новость Kandinsky

Научная команда Сбера начала активно публиковать в open-source различные модели искусственного интеллекта для развития русскоязычного ИИ-сообщества.

В пресс-службе Сбера сообщили «Коду Дурова», что в открытом доступе теперь есть базовая и инструктивная версии GigaChat Lite. Эта модель считается очень сильной в своём классе и отлично справляется с решением типовых задач, где важна скорость:

«Архитектура Lite 20B MoE (Mixture-of-Experts) с 3.3B активных параметров, при этом качество её работы соответствует уровню более мощных моделей».

В open-source также выложили GigaEmbeddings-instruct — эта модель преобразует текст в его числовое представление (вектор), кодируя всю информацию, которая содержится в запросе:

«Она подходит для решения задач с применением технологии RAG (Retrieval Augmented Generation). GigaEmbeddings-instruct является лучшей в своем классе по данным бенчмарка ruMTEB».

Технический директор GigaChat Федор Минькин на международной конференции AI Journey-2024 также анонсировал большое обновление у семейства open-source моделей машинного обучения для распознавания речи и эмоций GigaAM (Giga Acoustic Model):

  • Как и GigaEmbeddings-instruct, GigaAM не требует больших вычислительных мощностей. В её новой версии улучшены подготовка данных и технология предобучения базовой модели.
  • Это позволило значительно снизить количество ошибок в словах (Word Error Rate) при распознавании русскоязычных запросов.
  • Для самой сильной модели семейства GigaAM-RNNT показатель улучшен на 25% относительно предыдущей версии и на 56% превосходит OpenAI-Whisper-large-v3.

Переход на другое позиционное кодирование привело к поддержке акустическими моделями дообучения и инференса с Flash Attention — это, по уверениям Сбера, даёт существенное ускорение на современных видеокартах.

При этом упрощён код, снижено число зависимостей и подготовлена конвертация в формат ONNX:

Новые модели публикуются с лицензией MIT, что допускает их коммерческое использование. Вся линейка больших языковых моделей, в том числе самая мощная GigaChat MAX, уже доступны бизнесу через облачный API

Кроме всего прочего, Альянс в сфере искусственного интеллекта в рамках научного дня конференции AI Journey открыл для пользователей базу научных публикаций по ИИ — открытую платформу, на которой собирается информация о статьях российских авторов на ведущих мировых научных конференциях.

  • Речь о мероприятиях уровня А*, А и других, а также об индексируемых журналах Q1 — Q4.
  • Сейчас в базе доступна информация о более 5,5 тыс. статей с российскими аффилиациями, опубликованных с 2014 года.
  • Из них эталонный, верифицированный датасет составляет 1000 публикаций Высшей школы экономики, ИТМО и МФТИ за 2019-2024 гг.

Авторам, сотрудникам вузов, компаний и других организаций, ведущих научную деятельность, доступна регистрация, проверка данных и добавление информации в базу. Без регистрации можно совершать поиск по авторам, организациям, конференциям и журналам без регистрации.

Старший вице-президент, руководитель блока «Технологическое развитие» Сбербанка Андрей Белевцев рассказал, что ИИ — «одна из самых наукоёмких технологий, где прогресс во многом достигается именно учёными»:

«База публикаций, созданная Альянсом, поможет нам получить максимально полную картину по научным публикациям за последние 10 лет, проанализировать динамику на уровне отдельных организаций, направлений исследований, авторов и использовать эту аналитику для развития российской науки».

Директор по развитию технологий искусственного интеллекта Яндекса Александр Крайнов акцентировал внимание на желании «собрать и структурировать максимально полную информацию об отечественных научных работах в области ИИ»:

«И, разумеется, [мы хотим] сделать её полностью открытой без каких либо оговорок. Но получится это только в том случае, если в проект поддержат учёные, университеты и научные лаборатории. Поддержат наполнением создаваемой базы».

По уверениям Сбера, зарегистрированные пользователи получат бесплатный доступ по API со всей необходимой информацией. В самой базе, которую по заказу Альянса создаёт ИТМО, настроены аналитические инструменты для анализа публикационной активности по разным параметрам.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
7491498a-abf5-488b-8bf2-ea0651e5a00d-изображение-0

GigaChat Max: коротко о главном

Трамп на 75 дней отсрочил запрет на TikTok в США

Полная версия 
9ccc61f1-2a75-46e2-bef4-f8b9088d8a8f-изображение-0

GigaChat Max: коротко о главном

Теневой прокат принес российским кинотеатрам 4,3 млрд рублей в 2024 году

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 307
Газпромбанк
МТС
Т-Банк
X5 Tech
Сбер
билайн
Яндекс Практикум
Ozon Tech
Циан
Банк 131