Яндекс рассказал, как ускорил обучение нейросетей и теперь экономит 4,8 млрд рублей в год

Читайте в Telegram
|
Яндекс повысил эффективность процессов обучения больших языковых моделей без снижения качества и масштабов разработок, сообщили «Коду Дурова» в компании.
Главным технологическим решением, благодаря которому этого удалось достичь, стала собственная библиотека YCCL (Yet Another Collective Communication Library).
По данным компании, её использование в 2 раза ускорило обмен данными между графическими процессорами при обучении нейросетей и сократило объём передаваемой при этом информации. Управление же было перенесено с графических на центральные процессоры.
В Яндексе подчеркнули, что библиотека YCCL масштабируется на крупные кластеры, а её аналоги есть лишь у ведущих мировых компаний — Nvidia, AMD — и китайских IT‑гигантов.
Дополнительные улучшения дал переход Яндекса на FP8 — формат с пониженной точностью вычислений, который позволяет быстрее обучать нейросети и тратить на это меньше ресурсов.
Благодаря FP8 удалось ускорить обучение моделей на 30% и сократить коммуникации — обмен данными — в 2 раза, отметили в компании.
Кроме того, Яндекс провёл исследования, которые показали, что увеличение батча — объёма передаваемых данных — не приводит к замедлению обучения.
Компания увеличила батч до 16–32 млн токенов, что позволило обучать модели в режиме с минимальным простоем ресурсов графических процессоров.
За счёт подобной оптимизации Яндексу удалось сократить операционные расходы — годовая экономия достигает 4,8 млрд рублей (в среднем 400 млн рублей в месяц).







