«У нас был оркестратор, органайзер, дашборды и Telegram-бот, но не сразу»: как проходила крупнейшая миграция глазами техподдержки
В 2022 году X5 Group совершила крупнейшую миграцию процессинга в российском ритейле, которая была реализована буквально за 3,5 месяца, хотя обычно на такие масштабные проекты уходит от года и более. Рассказываем, как этот процесс выглядел со стороны техподдержки и какие инструменты удалось реализовать с нуля для оперативного поиска ошибок.
Наша предыдущая программа лояльности строилась на основе решений западного партнёра, вся инфраструктура находилась на его стороне, поэтому поддержкой занимался тоже он. Если возникала проблема, мы обращались к подрядчику и сами в коде не «копались». Однако с переходом на новую систему процессинга мы пересмотрели подход.
О том, как работает новая программа лояльности и какие технологии теперь помогают нам экономить на ежедневных покупках, читайте в нашем материале по ссылке:
Как мы сопровождали пилотный запуск
Обновление процессинга в двух торговых сетях — непростая задача, поэтому мы разбили её на несколько этапов. Первым делом провели подготовительные работы. Коллеги из компании Loymax (именно на их системе построена новая программа лояльности) составили технические планы, описали точки интеграции в ИТ-ландшафт Х5, описали потоки данных. Затем на основании прогнозной нагрузки на систему и архитектуры решения команда Х5 Tech подобрала оборудование для функционирования новой системы процессинга лояльности. Параллельно с работами по внедрению и интеграции мы проводили организационную и техническую подготовку. В новых реалиях с учётом огромного количества клиентов нам была нужна классическая схема из трёх линий поддержки:
- первая обрабатывала шаблонные инциденты непосредственно в контакте с внутренним или внешним клиентом;
- вторая брала на себя более сложные обращения или задания от первой линии;
- третья, часто в тесном взаимодействии с поставщиком решения, решала самые сложные кейсы, иногда требующие исправлений в самой системе.
Мы понимали, что важной составляющей процесса работы с обращениями является их категоризация, иначе даже в сравнительно небольшом потоке обращений крайне сложно выявлять корневые проблемы, а в наших масштабах это просто невозможно. Поэтому одним из первых шагов для нас стала проработка и настройка в CRM тематик обращений, интуитивно понятных для пользователей и точно отражающих ситуацию в магазинах торговых сетей.
Первые тесты системы лояльности прошли в пяти точках Москвы и МО. После мы масштабировали её на другие магазины. В проекте участвовало сразу большое количество подразделений, в том числе колл-центр, который принимает звонки от покупателей, и все три линии техподдержки.
В таких условиях было важно синхронизировать задачи, поэтому каждый день, а иногда и несколько раз в день, мы проводили встречи и обсуждали технические вопросы.
В то же время специалисты техподдержки ежедневно исследовали логи тестируемых магазинов. Они анализировали клиентские кейсы, по которым возникали ошибки в системе лояльности, и передавали информацию команде разработки.
В ходе этих процессов команда очень высокими темпами набирала техническую экспертизу и, что не менее важно, срабатывалась именно как команда, где каждый понимал зону своей ответственности и болел за общий результат.
Благодаря этому в следующих пилотных магазинах новая версия процессинга устанавливалась уже без багов. Первое время у специалистов поддержки не было удобных инструментов для мониторинга и визуализации логов — они изучали сырые логи с касс. Но ситуация быстро изменилась.
Пять инструментов, которые мы использовали
В первую очередь, для оценки и принятия решений на основании измеримых показателей техподдержке были необходимы дашборды процессинга, а также системы мониторинга кассовых транзакций, однако появились они не сразу. Первая версия мониторинга соответствующей командой X5 Tech была запущена только через полторы недели после включения новой программы лояльности в первом супермаркете. До этого момента специалисты поддержки работали с сырыми логами, при этом количество «раскатанных» магазинов за это время успело вырасти до десятка.
Но мониторинг сразу не был идеальным и постоянно дорабатывался на протяжении следующих полутора месяцев. В процессе его создания и настройки задачи для разработчиков формулировали специалисты техподдержки, так как они лучше других понимали, как должен выглядеть инструментарий, чтобы с ним можно было эффективно работать. И вот, что получилось в итоге.
Дашборды. У нас несколько видов дашбордов на Zabbix. Один находится на стороне Loymax и фиксирует техническую информацию о состоянии оборудования и процессинга. Другие являются частью системы бизнес-мониторинга и собирают данные о работе касс — ошибки, клавиши, которые нажимает кассир, просканированные бонусные карты покупателей — а затем передают их специалистам техподдержки в удобном виде.
Например, дашборд для мониторинга доступности сервиса лояльности сопоставляет количество транзакций на кассах с числом критичных ошибок. Он является нашими «глазами» и позволяет оценить здоровье сервисов в прямом эфире — наличие массовых сбоев или временных всплесков в магазинах. Обычно уровень доступности составляет от 99,7 до 100%. В случае резкого отклонения от целевых значений система автоматически отправляет письмо на почту круглосуточной группы оперативного реагирования («хот-лайн»). Далее специалисты оповещают техподдержку, которая проводит первичный анализ. Если проблема со стороны инфраструктуры или кода, обращение переводят на третью линию поддержки и далее в Loymax.
Вторым важным компонентом системы мониторинга является дашборд для оценки доступности и анализа ошибок кассового сервиса. С его помощью сотрудники поддержки выявляют системные проблемы по лояльности, ведут топ неполадок и эффективно проверяют состояние магазина в текущий момент времени. Собственно, на основе этого дашборда и формируются оповещения для «хот-лайна».
Третий дашборд связан с операциями по платёжной «Х5 Карте». Он помогает контролировать работоспособность финансового продукта. Благодаря ему мы знаем, сколько операций прошло с помощью ко-брендовых карт и с какими сложностями сталкиваются клиенты.
Благодаря четвёртому дашборду Gravitee отслеживается взаимодействие касс и интеграционных процессов с системой лояльности.
Но кроме дашбордов в распоряжении техподдержки есть и другие инструменты.
Парсер лояльности. Нужен для обработки обращений на стороне колл-центра без участия IT-поддержки. Операторы имеют оперативный доступ к информации по покупкам клиента с использованием карт лояльности. Например, если покупатель пожаловался, что ему не начислили баллы за товары, то специалисты контактного центра могут просмотреть все транзакции на указанную дату и оценить продуктовую корзину. Если там много товаров с промо, за которые мы не начисляем бонусы, оператор сразу это увидит.
Парсер также играет роль своеобразного «словаря», который переводит коды ошибок на человеческий язык. Так, оператор первой линии может сказать, что проблема возникла из-за заблокированной карты или истёкшего QR-кода в приложении. В итоге колл-центр имеет собственный инструмент для быстрой обработки обращений, что сокращает время консультаций и минимизирует количество тикетов в IT-поддержку.
Органайзер. Нужен для быстрого доступа к логам кассы и решения обращений на стороне IT-поддержки. Сами по себе логи содержат большое количество сервисной информации. Органайзер выборочно выгружает необходимые данные — например, какие товары были просканированы на кассе или на какие клавиши нажал сотрудник магазина. Этот инструмент позволил сократить время анализа логов и их поиск без использования скриптов.
Telegram-бот. Предоставляет быстрый доступ к здоровью сервиса лояльности Loymax. Так, любой сотрудник IT-поддержки вне офиса может оценить доступность систем и общую ситуацию в магазинах с помощью смартфона.
Оркестратор. Это наша автоматизированная система обработки обращений по заданному шаблону. Она ориентируется на специальные теги, которые устанавливает касса при неполадках и ошибках. Её задача — снизить нагрузку на IT-поддержку и взять в работу однообразные кейсы, не требующие квалифицированного анализа человеком.
Наша вовлечённость на самых ранних стадиях проекта позволила нам не только в кратчайшие сроки подготовить инструменты мониторинга и принятия решений, но и в целом повлияла на работу новой программы лояльности: мы формулировали требования к метрикам и визуализации, тестировали, помогали выявить недостатки в работе процессинговой платформы и логике программы лояльности, выявляли узкие места в клиентском пути и вносили предложения по улучшению использования сервиса.
Какие ошибки мы нашли и исправили
Важная задача при переходе на новый процессинг — сохранить удобство и простоту сервиса, при этом выполнить все изменения незаметно для покупателей, чтобы они продолжали пользоваться программой лояльности в привычном режиме: применяли свои прежние бонусные карты, списывали накопленные баллы и получали низкую цену на товары по карте.
В ходе предстартовых тестов нам удалось обнаружить несколько покупательских кейсов, требовавших исправлений. Например, была выявлена массовая проблема с переносом пользователей без подтверждённого номера телефона. Изначально мы считали такие карты неактивными и решили их не учитывать в новой системе, однако вскоре стали получать сообщения об ошибках от сотрудников магазинов. В итоге мы приняли решение перенести все карты, которые подходили под критерии безопасности и не были отмечены как мошеннические.
В процессе анализа мы нашли ошибку с отсутствующими кассами и магазинами в базе Loymax. Команде Х5 Tech пришлось перенастроить собственный микросервис, чтобы он автоматически подгружал эту информацию. Также мы выявили кейс с некорректным добавлением пакета в чек. Кассир пробивал товар, переходил к оплате и возвращался в окно с покупками, чтобы добавить пакет. Система считала, что это две разные транзакции, и блокировала накопление баллов у клиента.
Мы старались заложить качественную основу в систему процессинга, чтобы далее планомерно развивать функциональность. Здесь можно провести аналогию со строительством дома — результат зависит от того, насколько хорошо заложен фундамент. Поэтому каждый день мы проводили встречи, а по вечерам анализировали свежие кейсы и ошибки, чтобы сообщить о них разработчикам.
Таким образом, нам удалось запустить новую программу лояльности за считанные месяцы, и добиться этого результата нам помогла слаженная командная работа.
Небольшая ретроспектива: вот здесь можно почитать о том, как в Х5 с самого начала запускали программы лояльности.
Читать первым в Telegram-канале «Код Дурова»