Яндекс модернизировал инфраструктуру для ускорения разработки ИИ-сервисов

Яндекс обновил подход к дата-центрам и разработал сервис Dev Cluster для динамического распределения GPU-ресурсов. Оба решения должны ускорить создание, тестирование и вывод на рынок ИИ-сервисов компании, сообщили «Коду Дурова» в компании.
В инфраструктуре дата-центров Яндекс переходит к концепции кампусов: несколько независимых дата-центров размещаются в одной локации и используют общую внешнюю инфраструктуру. Такой подход позволяет эффективнее распределять ресурсы, снижать издержки и увеличивать доступные мощности. По данным компании, кампусы позволяют нарастить мощность до 180 МВт — рекордного для России показателя.
Также Яндекс внедряет жидкостное охлаждение. Для уже существующих дата-центров инженеры разработали сайдкары — дополнительные стойки с жидкостно-воздушными радиаторами. Они позволяют использовать жидкостное охлаждение вместе с фрикулингом без масштабной реконструкции инфраструктуры.
В компании отмечают, что дата-центры Яндекса уже достигают показателя энергоэффективности PUE 1,1. Внедрение жидкостного охлаждения должно дополнительно снизить энергозатраты и помочь инфраструктуре справляться с растущими нагрузками от ИИ-сервисов.
Второе решение — Dev Cluster. Это сервис, который позволяет ML-разработчикам за несколько кликов получать нужную конфигурацию GPU-ресурсов для обучения моделей и проверки гипотез. Разработчику не нужно вручную настраивать инфраструктуру или управлять загрузкой GPU.
Dev Cluster помогает быстрее проводить ИИ-эксперименты, сокращать время разработки моделей и избегать простоя вычислительных ресурсов. По словам Яндекса, нужный контейнер с GPU можно получить за секунды.
Сервис входит в единую ML-платформу Яндекса. Она объединяет инструменты для разных этапов машинного обучения: подготовки данных, создания, обучения и применения моделей.
В Яндексе отмечают, что ключевая задача такой инфраструктуры — ускорять time-to-market и давать бизнес-командам удобные инструменты для ML-экспериментов. По данным компании, удовлетворённость ML-инженеров инфраструктурой за последний год выросла в два раза.