Леонид Савченков: про опенсорс, рынок данных и приоритеты Yandex Cloud в развитии СУБД

По прогнозам Центра стратегических разработок (ЦСР), среднегодовой темп роста российского рынка СУБД будет на уровне мирового (16%) в течение следующих пяти лет, а основными драйверами рынка в России будут импортозамещение и искусственный интеллект.

Мы поговорили с Леонидом Савченковым, руководителем продуктовой архитектуры платформы данных Yandex Cloud, о том, как развивается российский рынок СУБД уже сейчас, о перспективах и фокусах развития платформы данных компании и не только.

— Как оцениваете объём и темпы роста рынка СУБД? Какой сейчас этап развития рынка? Какие тренды можете выделить?

— По нашим оценкам, в России рынок СУБД и инструментов для работы с данными в 2025 году достигнет 41,7 млрд рублей. При этом его драйвит не только локализация решений, но и развитие новых технологий. ИИ будет, с одной стороны, менять сами системы управления и обработки данных, с другой, решения на базе генеративных моделей помогут ускорить работу дата-инженеров и аналитиков за счет автоматической генерации базовых запросов к базам данных для аналитических задач.

— Какие фокусы развития платформы данных Yandex Cloud вы видите сейчас?

— Мы строим платформу данных Yandex Cloud, которая закрывает все потребности заказчика от обеспечения бесперебойной работы транзакционных источников и приложений до бизнес-аналитики и ML. Сейчас у нас больше 20 сервисов. Платформа данных в общем объёме выручки Yandex Cloud заняла 19% за 2024 год.

Если коротко говорить про технологические фокусы — это надежность и масштабируемость. Мы, например, очень много времени тратим на то, чтобы пользователи Postgres в нашем облаке не сталкивались с проблемами. Это не про фичи ради маркетинга, а про то, чтобы проблемы случались как можно реже.

Другой фокус — шардирование. Postgres исторически не умеет масштабироваться за пределы одной базы. Мы это исправляем, потому что реальность такова: рано или поздно у клиента данных становится столько, что один кластер не вывезет. Для этого уже какое-то время мы активно вкладываемся в опенсорс-решение (pg-sharding.tech) и, возможно, скоро запустим его облачную версию.

Также в 2024 году мы начали активно развивать новую модель поставок технологий — on-premises. Решения Яндекса по работе с данными можно не только использовать в облаке, но и развернуть у себя на серверах. Среди них — СУБД YDB и YTsaurus. Проекты в системах размещают команды Алисы, Такси, Маркета, Метрики и других сервисов — сейчас их почти 500. В 2025 году мы продолжим развивать эту модель, рассчитываем, что доля таких решений в общей выручке кратно возрастёт.

— В течение последних лет несколько международных компаний или изменяли тип лицензии продукта или закрывали исходный код. Как это повлияло на предоставляемые вами продукты?

— Действительно, были такие случаи. Из резонансного — закрытие открытой версии Greenplum. Так как мы хотим предоставлять нашим клиентам непрерывный сервис и обеспечить работоспособность клиентских систем, мы продолжили поддерживать и развивать последнюю опенсорсную версию Greenplum (шестую) и параллельно начали развивать решение на базе Apache Cloudberry. Сама технология Greenplum довольно востребована на рынке, Apache Cloudberry — уже догнал, а где-то перегнал Greenplum 7 версии. Наши клиенты смогут пользоваться и тем и другим. Так, с помощью нашего Greenplum Автостэлс‑Тех разработал аналитическую платформу для управления данными объёмом 1,2 ТБ, а Ростикс ускорил разработку новых технологических проектов в три раза.

— Как сообщество реагирует на проект Cloudberry? Почему Яндекс сделал ставку на него в том числе?

— Во-первых, это настоящий опенсорс. Не в духе "мы просто назвались форком", а по-настоящему: проект входит в Apache Software Foundation, что говорит о признании и поддержке проекта сообществом и  гарантирует открытость и независимость.

Во-вторых, проект активно развивается. Иногда даже слишком — новые фичи появляются так быстро, что инженерам приходится бегать с огнетушителем. Но лучше уж так, чем стагнация. В старом Greenplum ничего не происходило месяцами. В Cloudberry — всё наоборот: и технологии появляются, и производительность подтягивается, и сообщество живёт.

Сейчас мы активно коммитим в Cloudberry, участвуем в развитии. Идея простая: если умирает какой-то проект, значит, надо идти туда, где есть жизнь, где есть достаточная концентрация усилий комьюнити разработки. Cloudberry — это про будущее Greenplum.

— А как ваша разработка вовлекается в развитие опенсорс-решений?

— Мы опенсорсим свои СУБД и активно контрибьютим в ядро ключевых технологий.  Вот, например, Postgres. Мы коммитим в ядро и первыми в мире перешли на кворумную репликацию в отказоустойчивых кластерах Postgres — исправили проблемы, которые затем аналогичными патчами решали AWS RDS и Azure. Кворумная репликация — способ гарантировать консистентность и целостность данных при широком классе отказов, в том числе достаточно сложносочиненных и редких.

Разработчики решают проблемы, которые появляются только у облаков с большой нагрузкой. Например, в Postgres мы закрыли баг, при котором пользователь мог увидеть данные, которые потом не сохранились, если внезапно падал один из узлов в кластере. Это редкая ситуация, но очень неприятная. И да, мы потратили кучу времени, чтобы её решить.

Аналогично в Greenplum: есть публичный репозиторий, где мы выкладываем код, на котором работает наша облачная версия Greenplum. Он открыт, в нём коммиты, он живой. Более того, мы добавили возможность миграции с нашей версии Greenplum 6 на Cloudberry. Сделали собственную реализацию, протестили, отдали сообществу.

— А сам Яндекс использует опенсорс или собственные решения для работы с данными?

— В основном мы применяем собственные решения. Например, YDB используется уже больше восьми лет. На мультитенантных кластерах развёрнуты базы с очень разными нагрузками и паттернами доступа к данным. На практике мы встречаемся с многократным ростом баз данных, ростом объёмов данных с единиц гигабайт до сотен терабайт и ростом нагрузок с тысяч до миллионов RPS. YTsaurus, который может обрабатывать эксабайты данных, используют для хранения данных большинства сервисов (то, что  называют Data Lake или Data Warehouse — озеро данных, КХД), обучения YandexGPT и других нейросетей, задач поискового индекса. Например, Яндекс Маркет с помощью платформы разрабатывают систему промоакций, а автономный транспорт обрабатывает данные о поездках и улучшает алгоритмы.

— Над какими обновлениями платформы данных вы работаете сейчас?

— Совсем недавно проходила конференция Data&ML2Business— на ней мы как раз  анонсировали многие наши решения. Мы увеличили количество сервисов на базе решений с открытым исходным кодом. Кроме этого, сделали доступным для бизнеса платформу собственной разработки для хранения и обработки больших данных — YTsaurus. С её помощью можно анализировать эксабайты данных в компаниях и обучать сложные модели машинного обучения с миллиардами параметров. В облаке решение будет доступно как управляемый сервис, то есть поддержкой платформы будут полностью заниматься специалисты Яндекса. Появились и новые возможности в BI — в DataLens появилась публичная галерея дашбордов — теперь пользователи могут делиться своими решениями и брать за основу чужие при согласии автора. Обновление также включает DataLens Editor — инструмент для кастомизации графиков и таблиц с помощью JavaScript, что открывает путь к более сложным и гибким визуализациям. А ещё — запустили официальную сертификацию аналитиков, позволяющую подтвердить экспертизу в работе с DataLens и получить статус сертифицированного специалиста.