Каждый день мы слышим, что данные — главный ресурс цифровой экономики. Но мало кто задумывается о том, как организована работа с данными в крупных организациях, как они хранятся, обрабатываются, защищаются. То, что со стороны кажется простым накоплением информации, на деле представляет собой сложнейший процесс.
Сама сфера управления данными — одна из самых молодых в области информационных технологий. Ей не больше пятнадцати лет. И она появилась потому, что накопленный объем информации достиг таких масштабов, что без специальных подходов с ним не справиться.
Несколько лет назад мы с коллегами делали примерные расчеты: на тот момент на каждого жителя Земли приходился объем данных, равный примерно шести Ленинским библиотекам. И эта цифра удваивается каждый год. Бесконечные логи, потоковые данные, музыка, трансляции, тиктоки — зетабайты информации множатся в геометрической прогрессии, и при этом абсолютное большинство всего этого в широком смысле не нужно большинству потребителей.
Но и полезной информации тоже становится больше. За последние годы кардинально изменилось само отношение к данным и способы их использования. Если раньше основными потребителями корпоративных данных были финансисты, готовившие отчетность по РСБУ и МСФО, да риск-менеджеры, чья значимость особенно выросла после краха Lehman Brothers, то сегодня они стали критически важным ресурсом для всех бизнес-процессов.
От личного общения к цифровому профилю
Тридцать лет назад все было по-другому. Клиент приходил в отделение банка, уютно усаживался в кресло напротив операциониста, и тот мог лично убедиться, что перед ним именно тот человек, за кого себя выдает.
Сегодня же большинство операций мы совершаем с помощью смартфона. Многие банки предлагают полностью дистанционное открытие счета по фотографии паспорта, не требуя личного визита в отделение.
Эта трансформация не случилась в одночасье. Сначала появились банк-клиенты, затем — интернет-банки, за ними — мобильные приложения. Теперь мы наблюдаем развитие целых экосистем, обменивающихся данными между собой. И с каждым таким шагом объем собираемой информации растет.
Как укрощается информационный поток
Так как же все работает в крупных организациях? В основе лежит корпоративное хранилище данных (КХД) — своеобразный фундамент, где консолидируется информация из всех систем организации. Это может быть классическое реляционное хранилище, озеро данных или что-либо еще — здесь важна не технология, а сам факт наличия площадки консолидации данных. Без этого фундамента невозможно построить эффективную работу с данными.
Следующий важный элемент — системы класса MDM (Master Data Management). Это специальные системы управления основными данными, которые собирают и согласовывают информацию из разных источников, создавая единое надежное представление о каждом объекте: клиенте, продукте, сделке или контрагенте. Их главная задача — создавать так называемый «золотой профиль», то есть наиболее полную и достоверную версию данных об объекте.
Простой пример: клиентка выходит замуж и в связи с этим меняет фамилию, адрес и телефон. MDM-система помогает понять, что это тот же самый человек, сохраняя всю историю взаимодействия с банком, включая сбережения. При этом MDM-системы бывают разными: существуют системы для работы с физическими лицами, для юридических лиц, для сделок.
Отдельный класс MDM — для работы со справочными системами. Просто собрать данные недостаточно — нужно сделать их понятными для сотрудников. Корпоративные хранилища данных могут содержать петабайты информации, где все наименования — на малопонятном для обычного человека языке (Naming Convention).
В названии одного атрибута может быть 50 согласных букв подряд, и нормальный человек не догадается, что имели ввиду разработчики. И даже если используются более-менее человекопонятные наименования, атрибутирование данных все равно создает проблемы.
Для их решения используются репозитории метаданных, каталоги данных и глоссарии. В целом работу этих систем можно сравнить с «Алисой» для корпоративных данных: вы задаете вопрос на «человеческом» языке, а система подсказывает, где искать нужную информацию. В результате трудоемкость поиска информации сокращается на порядки.
Но каталоги и глоссарии решают не только проблему поиска. Не менее важная их задача — создание единого языка общения внутри организации, четкое определение каждого термина и вариантов его использования. Возьмем простое слово «клиент». Что может быть проще?
Но в разных подразделениях компании его могут понимать по-разному. Для одних клиент — тот, кто заключил договор обслуживания. Для других — только тот, у кого есть действующий кредит. Третьи считают клиентами всех, кто когда-либо открывал счет. А некоторые продолжают учитывать даже тех, кто уже погасил кредит, но с момента последней операции не прошло пяти лет.
В результате может возникнуть парадоксальная ситуации: одно подразделение считает, что клиентов пять миллионов, другое уверено, что их десять миллионов, а третье оперирует цифрой в два миллиона. И все формально правы — просто каждый считает по-своему. Такие расхождения не просто затрудняют подготовку отчетности — они могут привести к серьезным ошибкам в бизнес-планировании.
Именно поэтому так важно, чтобы глоссарий четко определял каждый термин: «активные клиенты», «кредитные клиенты», «клиенты с открытыми счетами» и так далее. Это не просто вопрос терминологии — это вопрос точности бизнес-процессов и корректности принимаемых решений.
Темная сторона больших данных
При этом нужно понимать, что ошибок в данных не избежать. Они могут возникать, например, в результате ручного ввода, когда сотрудник пропускает букву, неверно вводит цифру. Или же при сборе через системы распознавания документов. И хотя машины ошибаются реже людей (для сравнения: даже высококвалифицированный специалист уровня авиадиспетчера допускает одну ошибку на тысячу операций), полностью исключить погрешности не удается.
Но настоящая проблема заключается даже не в самих ошибках, а в том, что называется «каскадным инфицированием». Одна неточность в первичных данных, проходя через цепочку обработки, начинает размножаться как вирус. Ошибка проникает во все новые массивы данных, реплицируется при каждом использовании информации и в итоге может «заразить» тысячи информационных объектов в организации.
Исправлять такие ошибки не только сложно, но и очень дорого. Недостаточно просто найти и исправить исходную ошибку — нужно ее обнаружить, идентифицировать, найти источник, а затем отследить все места, куда она успела проникнуть. По нормативам на исправление всего одной ошибки в персональных данных уходит до двух часов работы специалиста. Это чудовищно дорого, если учесть масштаб проблемы.
Предотвращать ошибки гораздо дешевле, чем потом их исправлять. В нашей практике мы внедряем сотни и тысячи превентивных контролей качества данных. Некоторые из них довольно простые: например, мы точно знаем, что в паспорте гражданина РФ серия — это четыре цифры, а номер — шесть. Такие форматно-логические контроли легко автоматизировать.
Но есть и более тонкие проверки на «разумность» данных. Если клиент обращается за кредитом, его возраст вряд ли может быть меньше 14 или больше 100 лет. Или, например, если клиента зовут Екатерина, а в поле «пол» указано «мужской» — это явно ошибка. Такие формы контроля мы внедряем на уровне фронт-офиса, чтобы у сотрудника просто не было технической возможности ввести некорректные данные.
Разработка и внедрение таких проверок требует времени и ресурсов. Но эти затраты несопоставимы с тем, во что обходится последующее исправление ошибок. По сути, мы экономим колоссальные суммы, которые пришлось бы тратить на работу армии корректировщиков.
На страже цифрового будущего
Да, централизация информации создает новые угрозы. Все прекрасно знают, сколько раз в день могут звонить разные «следователи МВД» и «капитаны ФСБ». Но консолидация данных неизбежна.
Как бы мы ни хотели разложить информацию по разным изолированным базам, это просто невозможно: для поддержки сложных процессов, будь то предиктивная аналитика или функционирование государственных информационных систем, необходимо консолидировать максимум данных. Конечно, можно было бы волевым решением откатиться на 30 лет назад, но это все равно что сейчас пересаживаться на конную тягу.
Главную опасность по-прежнему представляет не внешние факторы, а человеческий. Когда накапливаются такие массивы данных, утечки, к сожалению, неизбежны, и большинство кейсов, связанных с массовой утечкой персональных данных, — это не результат взлома компании некими хакерами, а просто «вынос» информации изнутри.
К счастью, это все же не тот апокалиптический сценарий, который нам показывали в фантастических фильмах 1990-х, — никакой «Скайнет» уничтожать нас пока не собирается. Но соблюдение цифровой гигиены становится критически важным. Вот три простых правила, которые я всегда советую использовать.
- Первое — делитесь только необходимым минимумом данных. Если сервису достаточно имени и электронной почты, не стоит указывать домашний адрес и номер телефона.
- Второе — доверяйте персональные данные только достаточно крупным организациям, у которых есть ресурсы для обеспечения должного уровня защиты. По крайней мере, они будут стараться защищать ваши данные изо всех сил, в отличие от небольших организаций, где и контроль за сотрудниками слабее, и возможности по защите ниже.
- И третье — помните, что в цифровом мире, как и в реальном, технические меры безопасности должны сочетаться со здравым смыслом.
В этой статье я затронул лишь основные аспекты управления данными в современной организации. За рамками разговора остались детали технологических процессов, тонкости построения систем контроля качества, особенности защиты информации.
Работа с данными становится все более комплексной задачей, требующей новых подходов и технологий. И хотя универсальных решений здесь нет, очевидно одно: способность эффективно управлять данными сегодня определяет конкурентоспособность любой крупной организации.
Читать другие полезные материалы:
— Из археологии в IT: как я не стал археологом, зато стал работать с большими данными
— Бухгалтерия, трубы и стартапы: как я стал экспертом по Data Science в банке
— Меньше шума, больше пользы: как мы запустили маркетинговый оптимизатор
Читать первым в Telegram-канале «Код Дурова»