2 июля 2025

eur = 92.68 -0.07 (-0.07 %)

btc = 109 250.00$ 3 027.61 (2.85 %)

eth = 2 538.60$ 107.92 (4.44 %)

ton = 2.88$ 0.09 (3.12 %)

usd = 78.65 0.24 (0.30 %)

eur = 92.68 -0.07 (-0.07 %)

btc = 109 250.00$ 3 027.61 (2.85 %)

Яндекс выкладывает в открытый доступ модель семейства нейросетей YandexGPT

2 минуты на чтение
Изображение — лицо человека в пиксельном стиле с логотипом «YandexGPT 5».Как видит новость Kandinsky

GigaChat Max кратко объясняет суть статьи

Яндекс выпустил в открытый доступ языковую модель YandexGPT 5 Lite Pretrain с 8 миллиардами параметров и поддержкой контекста в 32 тысячи токенов. Модель превосходит зарубежные аналоги по качеству ответов и подходит для доработки под специфические задачи разработчиков и бизнеса. Обученная на 15 триллионах токенов, она содержит обширные знания и хорошо справляется с пониманием контекста и особенностей языка. YandexGPT 5 Lite Pretrain компактна, эффективна и показывает значительное улучшение в математике и программировании по сравнению с предыдущей версией. YandexGPT 5 Pro, наиболее мощная модель семейства, доступна бизнесу через платформу Yandex Cloud и пользователям через чат с Алисой. Обучение Pro-модели было оптимизировано с использованием методов DPO, PPO и оригинальной технологии LogDPO, а также библиотеки YaFSDP, снизившей затраты ресурсов на 25%.

Яндекс опубликовал в открытом доступе YandexGPT 5 Lite Pretrain — большую языковую модель (LLM) на 8 млрд параметров с поддержкой контекста в 32 тыс. токенов.

Новая модель превосходит по качеству ответов зарубежные аналоги в большинстве бенчмарков. Она будет полезна разработчикам и представителям бизнеса, которые смогут дообучить её под свои задачи и не тратить время на создание собственной базовой модели.  

Pretrain-версия модели уже имеет обширные знания о мире, понимает контекст и закономерности языка. Её обучали с помощью технологий Яндекса в два этапа. На первом этапе модель обучали на русскоязычных и англоязычных текстах, коде, вычислениях и других данных общим объёмом 15 трлн токенов — это как 2,5 млрд веб-страниц. На втором этапе использовались высококачественные данные объёмом 320 млрд токенов, в том числе тексты образовательной тематики. Для обогащения знаний модели Яндекс улучшил метод отбора данных, чтобы использовать больше полезных текстовых материалов из интернета, не теряя в их качестве.

Базовую (Pretrain) версию модели можно адаптировать под любые нужды. Она имеет максимально широкое применение и может быть использована в разработке, бизнесе и научных исследованиях. Кроме того, благодаря своей компактности YandexGPT 5 Lite Pretrain не требует больших вычислительных мощностей и будет полезна тем, кому нужна небольшая русскоязычная модель.

По сравнению с моделью предыдущего поколения, YandexGPT 4 Lite Pretrain, новая модель показывает значительный рост качества в решении математических задач и написании кода. А в сравнении с аналогичными зарубежными моделями, такими как LLaMa3.1-8B и Qwen-2.5-7B-base, YandexGPT 5 Lite Pretrain лидирует почти во всех типах задач.

Экзамены: RU 70.3, EN 76.8; Факты: RU 83.4; Рассуждения: EN 69.6–81.3, RU 84.1; Чтение: RU 56.1, EN 67.8; Код: EN 66.5;

Последний раз Яндекс выкладывал в открытый доступ  большую языковую модель в 2022 году — это была YaLM-100B. При этом Яндекс остаётся лидером по числу опенсорс-решений в области машинного обучения (ML) и работы с данными согласно исследованию ИТМО. Сейчас разработчикам доступно более 120 открытых технологий Яндекса в этой сфере. В частности, компания продолжала делиться инструментами для работы с LLM — такими как библиотека YaFSDP, ускоряющая обучение больших языковых моделей до 25%.

Оценка знаний и навыков по различным предметам, включая математику, русский язык, программирование и другие дисциплины.

YandexGPT 5 Lite Pretrain входит в новое поколение нейросетей Яндекса — YandexGPT 5 — и доступна бесплатно на HuggingFace. Вторая модель семейства, YandexGPT 5 Pro, доступна представителям бизнеса на облачной платформе Yandex Cloud, а пользователям — в чате с Алисой. Это новейшая и самая мощная модель компании, прошедшая все этапы обучения.

Для обучения YandexGPT 5 Pro Яндекс добавил в датасет больше сложных и разнообразных примеров, усложнил задания, добавил методы обучения с подкреплением DPO (Direct Preference Optimization) и PPO (Proximal Policy Optimization), а также свою модификацию — LogDPO, повышающую стабильность обучения модели. Сам процесс обучения компания оптимизировала при помощи библиотеки YaFSDP, что позволило снизить потребность в вычислительных ресурсах на 25%.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
e0b6fd34-769f-4450-8382-61b93987619e-изображение-0

GigaChat Max: коротко о главном

Глава Сбербанка не видит никаких перспектив цифрового рубля

Полная версия 
c0828077-7974-47a3-b9f3-c1236a1601b4-изображение-0

GigaChat Max: коротко о главном

Apple начала тестировать первый складной iPhone

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 369
OTP Bank
Т-Банк
Газпромбанк
X5 Tech
билайн
Сбер
МТС
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы