Читайте нас в Telegram или Макс

Cloud.ru запустил платформу для обучения ИИ-моделей в частном и гибридном облаке

Cloud.ru запустил в коммерческую эксплуатацию Evolution Stack.ML — платформу для распределённого обучения ИИ-моделей и разработки ИИ-приложений в частном и гибридном облаке, сообщили «Коду Дурова» в пресс-службе облачного провайдера.

Компании смогут обучать и донастраивать модели на собственной инфраструктуре, сохраняя контроль над данными, а при необходимости масштабироваться в публичное облако. Решение рассчитано на крупный бизнес, госкомпании, финансовый сектор, операторов ЦОДов и промышленные предприятия.

  • В основе платформы лежит сервис Evolution Distributed Train. Он объединяет инструменты для обучения и тюнинга ML-моделей, управления экспериментами, мониторинга и совместной работы команд дата-сайентистов.
  • Evolution Stack.ML позволяет запускать изолированные рабочие пространства для более чем 200 команд одновременно. Система очередей, приоритетов, аллокаций и спотов помогает распределять нагрузку между задачами и эффективнее использовать GPU-инфраструктуру.
По данным Cloud.ru, платформа может повысить утилизацию GPU с 35% до 90%, а расходы на серверные мощности могут окупиться менее чем за три месяца. Совместное использование кластеров позволяет ускорить обучение и разработку новых ИИ-решений на 20%.
  • Также в платформе есть механизмы self-healing: система автоматически обнаруживает сбои оборудования, перезапускает задачи и заменяет GPU-ноды. Это должно помочь стабильнее выполнять распределённое обучение на больших кластерах.

В Cloud.ru отмечают, что Evolution Stack.ML подходит компаниям с высокими требованиями к безопасности и регуляторике, включая обработку персональных и финансовых данных, а также размещение ГИС и КИИ.