Яндекс модернизировал инфраструктуру для ускорения разработки ИИ-сервисов

Кодик кратко объясняет суть статьи
Яндекс обновил инфраструктуру дата-центров, внедрив концепцию кампусов — групп независимых дата-центров в одной локации с общей внешней инфраструктурой. Это позволяет эффективнее использовать ресурсы, снизить издержки и увеличить мощность до 180 МВт. Компания также применяет жидкостное охлаждение, включая сайдкары для существующих объектов, что помогает снизить энергопотребление и достигнуть PUE 1,1. Дополнительно представлен сервис Dev Cluster — часть единой ML-платформы, позволяющий разработчикам быстро получать GPU-ресурсы для обучения моделей без ручной настройки инфраструктуры. Это ускоряет ИИ-эксперименты, сокращает время вывода моделей на рынок и повышает эффективность использования вычислительных мощностей. Удовлетворённость ML-инженеров инфраструктурой за год выросла вдвое.
Читайте в Telegram
|
Яндекс обновил подход к дата-центрам и разработал сервис Dev Cluster для динамического распределения GPU-ресурсов. Оба решения должны ускорить создание, тестирование и вывод на рынок ИИ-сервисов компании, сообщили «Коду Дурова» в компании.
В инфраструктуре дата-центров Яндекс переходит к концепции кампусов: несколько независимых дата-центров размещаются в одной локации и используют общую внешнюю инфраструктуру. Такой подход позволяет эффективнее распределять ресурсы, снижать издержки и увеличивать доступные мощности. По данным компании, кампусы позволяют нарастить мощность до 180 МВт — рекордного для России показателя.
Также Яндекс внедряет жидкостное охлаждение. Для уже существующих дата-центров инженеры разработали сайдкары — дополнительные стойки с жидкостно-воздушными радиаторами. Они позволяют использовать жидкостное охлаждение вместе с фрикулингом без масштабной реконструкции инфраструктуры.
В компании отмечают, что дата-центры Яндекса уже достигают показателя энергоэффективности PUE 1,1. Внедрение жидкостного охлаждения должно дополнительно снизить энергозатраты и помочь инфраструктуре справляться с растущими нагрузками от ИИ-сервисов.
Второе решение — Dev Cluster. Это сервис, который позволяет ML-разработчикам за несколько кликов получать нужную конфигурацию GPU-ресурсов для обучения моделей и проверки гипотез. Разработчику не нужно вручную настраивать инфраструктуру или управлять загрузкой GPU.
Dev Cluster помогает быстрее проводить ИИ-эксперименты, сокращать время разработки моделей и избегать простоя вычислительных ресурсов. По словам Яндекса, нужный контейнер с GPU можно получить за секунды.
Сервис входит в единую ML-платформу Яндекса. Она объединяет инструменты для разных этапов машинного обучения: подготовки данных, создания, обучения и применения моделей.
В Яндексе отмечают, что ключевая задача такой инфраструктуры — ускорять time-to-market и давать бизнес-командам удобные инструменты для ML-экспериментов. По данным компании, удовлетворённость ML-инженеров инфраструктурой за последний год выросла в два раза.







