Интервью с Игорем Бардинцевым, человеком, который отвечает за большие данные в билайн
Читать первым в Telegram-канале «Код Дурова»
«Код Дурова» пообщался с Игорем Бардинцевым — вице-президентом блока по работе с данными билайн. Он рассказал нам о том, зачем оператору работать с большими данными и какие задачи это решает — от клиентских до операторских. Также мы поговорили о кибербезопасности и о тренде этого сезона — Мобильном ID и том, как и в каких случаях он может быть полезен. Не забыли спросить и о любопытном решении билайн, которое позволит пользователям возвращать контроль над своими персональными данными, которые они когда-то кому-то предоставили. Приятного чтения!
— билайн стремится занять свою нишу и показать экспертизу в сфере ML и ИИ, обладая при этом огромным массивом данных. Для чего это вашей компании?
— На мой взгляд, есть два основных драйвера использования машинного обучения. Первый заключается в том, что, используя алгоритмы машинного обучения, мы можем извлекать новые знания, которые раньше нам были недоступны. Дело в том, что у нас огромное количество данных совершенно разного плана, и их объединение традиционными способами дата-майнинга не даст тех результатов, которые можно получить при обработке с помощью единого алгоритма. Например, если мы собираем в какой-то единой большой базе практически все логи, которые характеризуют поведенческие паттерны клиентов, то при обработке этого массива данных при помощи алгоритмов можно довольно точно искать аномалии — практически в реальном времени выявлять фродовые операции, когда злоумышленники пытаются украсть «симку» у клиента или взломать сотовый телефон. Мы, глядя на один из параметров, никогда не увидим, что что-то не так, а обучив алгоритм, который использует огромное количество несвязанных параметров, мы довольно точно можем выявлять паттерн поведения, нехарактерный для конкретного клиента.
Второй драйвер заключается в том, что некоторые виды бизнеса сейчас уже немыслимы без машинного обучения. Например, всё, что касается видео или аудио аналитики. Для этой сферы машинное обучение — это не передний край исследований, а, скорее, рутинный процесс. Там используются давно изученные и распространённые алгоритмы. Мы видим большой спрос у клиентов на такие решения, поэтому применяем их.
— Как ещё используются данные? Какие задачи помогают решать?
— Для решения практически всех задач самые востребованный кейс сегодня — это умное планирование стройки. Площадь нашей страны большая, и нет никаких шансов покрыть сплошным ковром сотовой связи всю территорию, поэтому нам нужно планировать стройку нашей сети так, чтобы максимальное количество клиентов имели приемлемый уровень качества услуг, но при этом чтобы на такую стройку хватало средств. Здесь применяются довольно сложные алгоритмы, которые принимают во внимание геораспределённые агрегированные данные: где люди живут, работают, как перемещаются, какой у них паттерн потребления, учитываются демографические параметры, какие социальные сервисы доступны на этой территории и тому подобное. Также мы закладываем тренды по туристической активности. Например, в связи с ковидом мигрантов стало меньше, но резко увеличился внутренний туризм. Такие классы данных мы объединяем, и модель искусственного интеллекта даёт определённый план постройки, который потом реализуется в инвестиционный.
Есть целый класс решений, которые направлены на повышение клиентского качества. Например, мы запустили систему, которая анализирует большое количество логов с разных элементов нашей сети и в реальном времени предсказывает деградацию клиентского сервиса. То есть мы способны предсказывать нарастание проблемы ещё до того, как нам начинают жаловаться.
Существуют также решения на базе искусственного интеллекта, которые в реальном времени подстраивают параметры работы сети. Базовая станция, тот самый серый ящик, который мы видим на столбах, на самом деле, очень сложная штука. Она имеет от 1 до 2 тысяч настраиваемых параметров и их можно изменять в реальном времени. Это особенно важно в больших городах, где особенно важна внутренняя миграция в течение суток. То есть утром люди встали, сели в транспорт и поехали в центр работать, а вечером вернулись домой. Так вот с помощью этой системы можно перераспределить ресурсы сети в спальных районах, где утром уже не требуется большая пропускная способность, на те элементы, которые работают в центральной части города. И наоборот, соответственно.
— Для хранения такого объёма данных нужны соответствующие мощности (серверы, дата-центры). Как обстоят дела с этим? Где вы храните данные?
— Телеком-операторы стали строить большие ЦОДы ещё задолго до того, как это стало мейнстримом, потому что основной бизнес телекома — это как раз передача данных. Сейчас с учетом использования данных для решения гораздо большего количества задач, чем это было ранее, у нас в распоряжении есть платформы по управлению данными. Это один из сегментов ЦОДа, который расположен в Ярославле.
Сейчас объём возможного хранения в нем порядка 25 петабайт, мы храним около 15 петабайт. Но это далеко не все данные, которые есть в компании, это только те, которым мы нашли применение. В следующем году у нас планы вырасти до 30 петабайт примерно. Но это гонка без финиша.
— Так ЦОД рассчитан на 25. Будет ещё один?
— Нет, мы просто расширим возможности существующего. Будут новые сервера для хранения. Самого размера ЦОДа нам достаточно.
— Как вы защищаете данные? Какие сейчас у компании есть инструменты по защите от DDos-атак и взломов?
— Тут есть два аспекта. Первый — защита внешнего периметра. Тут я ничего нового не скажу, это прерогатива информационной безопасности. Всем давно известен набор ключевых технологий, которые должны использоваться. Это и правильное проектирование сети, и разделение сегментов, и их изоляция, чтобы даже если кто-то смог проникнуть в один сегмент, то по всем ресурсам сети не имел возможности беспрепятственно бродить — своеобразные переборки.
— Как на подводной лодке?
— Да, принцип тот же. Всё это у нас есть и используется. Второй аспект – это защита внутреннего периметра, которая называется политика по защите данных. У нас, как у оператора связи, есть некоторая особенность. Дело в том, что в отличие от большинства компаний, на нас распространяется не только закон о защите персональных данных, но и закон о тайне связи, который разграничивает типы данных, и они защищаются по-разному.
Есть данные, предоставляющие коммерческую тайну, персональные данные или тайну связи. В соответствии с их типом накладываются соответствующие ограничения на их использование, причём не только на сами данные, но и на всю цепочку их обработки.
— Что можно сказать о культуре работы с данными в нашей стране в целом? Как мы выглядим на фоне западных стран?
— В целом, ИТ-отрасль у нас довольно зрелая. Есть различные мировые профильные форумы и сообщества, например, Kaggle, где, например, какая-то компания может выкладывать свой датасет и просит на этом датасете построить самую точную рекомендательную систему. Соответственно, дата-сайентисты со всего мира могут в этом конкурсе поучаствовать. Все предложенные модели автоматически ранжируются по целевой метрике, и становится понятно, у кого решение получилось лучше. Так вот в топ-10 решений значимых конкурсов всегда 2-3 представителя от России. Там много представителей Индии, Китая и, собственно, России. Глядя на эту картину, я могу сказать, что у нас очень высокий уровень кодеров и дата-сайнтистов. Но в нашей стране рынок маленький, поэтому самые талантливые утекают за границу — у нас вы можете быть крутым программистом в Яндексе, но с таким набором знаний и умений вас точно возьмут в Google или Facebook на гораздо более привлекательные условия.
— Как решить эту проблему я спрашивать не буду, потому что это можно обсуждать вечно. Предлагаю перейти к тренду этого сезона — Мобильному ID. Для чего он нужен? Некоторые говорят, что это может стать революцией.
— Мобильный ID — это прежде всего способ аутентификации на различных информационных ресурсах. Сам запрос на аутентификацию сейчас крайне высок и будет расти всё больше и больше, потому что наша жизнь постепенно перетекает в цифровую среду. Практически все сервисы переходят в цифровой мир. Даже парикмахерские заводят мобильные приложения, где можно записаться к своему мастеру, посмотреть фото его работ, оставить комментарии, предварительно зарегистрировавшись в приложении. Это означает, что у каждого человека возникают десятки или сотни аккаунтов, которые требуют аутентификации, и, соответственно, защиты. Если пользователь будет использовать везде один и тот же пароль и логин, то для него это будет удобно, но весьма небезопасно. Поэтому появляется целый класс решений типа менеджера паролей, которые для каждого сервиса создают свой уникальный пароль, но нужно, в свою очередь, помнить данные для входа в этот менеджер и в целом это сильно усложняет клиентский путь.
Мобильный ID решает все эти проблемы и выводит клиентский опыт на новый уровень, потому что ключом доступа ко всем ресурсам становится просто ваш номер телефона. То есть вы заходите на ресурс, вводите номер телефона, вам на ваш телефон приходит пуш с подтверждением входа, вы нажимаете кнопку «да» и всё, — вы зашли под своим аккаунтом. Самый простой клиентский путь. Проще придумать невозможно. Можно защитить Мобильный ID пин-кодом, и если телефон украли или вы его потеряли, то тот, кто его украл или нашёл, не сможет воспользоваться вашими аккаунтами.
— Что можно делать при помощи Мобильного ID сейчас? И что можно будет делать в ближайшем будущем?
— Это лишь первая часть функционала Мобильного ID. Есть много сценариев, где вам нужно передавать персональные данные. Например, вы пришли в поликлинику и вам надо заполнить анкету с огромным количеством полей. На это тратится примерно треть времени, которое люди проводят в регистратутре поликлиники. Сотовый оператор безопасно хранит ваши паспортные данные у себя, так как симка оформлена при помощи паспорта. Соответственно, при помощи Мобильного ID в автоматическом режиме с вашего разрешения и подтверждения можно передать все необходимые данные поликлинике одним нажатием кнопки. Такой же сценарий может использоваться и при заполнении документов на визу. Мобильный ID в будущем сможет также использоваться для подписания договоров между двумя физическими или юридическими лицами, если они дадут на это согласие друг другу. То есть выполнять роль цифровой подписи.
— А расскажите в этой связи про возможность отозвать согласие на обработку персональной информации? Это крайне любопытно.
— Один из сценариев использования Мобильного ID – это выдача персональных данных и разрешение на их использование. Не многие знают, что по закону у каждого человека есть право выданное разрешение отозвать. Но даже если вы знаете об этом, механизма по отзыву практически не существует. Мы разработали решение под называнием permission centre. Он представляет собой ленту, где собраны все компании или сервисы, которым вы разрешили использовать ваши персональные данные при помощи Мобильного ID. Функционал этого центра позволяет отозвать разрешение на использование ваших персональных данных, то есть фактически мы возвращаем пользователям их законные права, возвращаем контроль над их персональными данными. Для того, чтобы это решение масштабировать, нужно, чтобы Мобильный ID проник во многие сферы и сервисы. Но в наших планах расширить функционал permission centre и дать возможность клиенту отзывать согласие на обработку персональных данных, выданное не только через Мобильный ID.
— И в заключение нашего интервью не могу не спросить, каким вы видите билайн через 3-5 лет?
— Я вижу компанию, которая делает лучший на рынке базовый продукт с точки зрения клиента и его потребностей. При этом я не исключаю, что мы будем искать какие-то нетелекомовские бизнесы, которые смогут встроиться в нашу модель. Мы не будем пытаться заниматься всем, но однозначно будем пробовать новые цифровые продукты в разных областях. На горизонте 3-5 лет я вижу билайн лучшим мобильным оператором с прорывом в некоторых областях, которые для нас приоритетные. Мы очень пристально смотрим на personal security, на рынок рекламы, рынок М2М решений, то есть IoT.
Заглавная фотография: Игорь Бардинцев. Все фото в материале предоставлены пресс-службой билайн.