Яндекс рассказал, как ускорил обучение нейросетей и теперь экономит 4,8 млрд рублей в год

Кодик кратко объясняет суть статьи
Яндекс повысил эффективность обучения больших языковых моделей без потери качества за счёт внедрения собственной библиотеки YCCL, которая в два раза ускорила обмен данными между GPU и сократила объём передаваемой информации, перенеся управление на CPU. Библиотека масштабируется на крупные кластеры и аналогична решениям Nvidia, AMD и китайских IT-гигантов. Переход на формат вычислений FP8 позволил ускорить обучение на 30% и вдвое сократить коммуникации. Увеличение размера батча до 16–32 млн токенов минимизировало простои GPU. В результате операционные расходы сократились на 4,8 млрд рублей в год.
Читайте в Telegram
|
Яндекс повысил эффективность процессов обучения больших языковых моделей без снижения качества и масштабов разработок, сообщили «Коду Дурова» в компании.
Главным технологическим решением, благодаря которому этого удалось достичь, стала собственная библиотека YCCL (Yet Another Collective Communication Library).
По данным компании, её использование в 2 раза ускорило обмен данными между графическими процессорами при обучении нейросетей и сократило объём передаваемой при этом информации. Управление же было перенесено с графических на центральные процессоры.
В Яндексе подчеркнули, что библиотека YCCL масштабируется на крупные кластеры, а её аналоги есть лишь у ведущих мировых компаний — Nvidia, AMD — и китайских IT‑гигантов.
Дополнительные улучшения дал переход Яндекса на FP8 — формат с пониженной точностью вычислений, который позволяет быстрее обучать нейросети и тратить на это меньше ресурсов.
Благодаря FP8 удалось ускорить обучение моделей на 30% и сократить коммуникации — обмен данными — в 2 раза, отметили в компании.
Кроме того, Яндекс провёл исследования, которые показали, что увеличение батча — объёма передаваемых данных — не приводит к замедлению обучения.
Компания увеличила батч до 16–32 млн токенов, что позволило обучать модели в режиме с минимальным простоем ресурсов графических процессоров.
За счёт подобной оптимизации Яндексу удалось сократить операционные расходы — годовая экономия достигает 4,8 млрд рублей (в среднем 400 млн рублей в месяц).







