Борьба с читерами и прописи для сотрудников: как «Тинькофф» запустил «Умную камеру»
За последние пару лет в приложении Тинькофф появился сканер QR-кодов, реквизитов квитанций и номеров телефона — как печатных, так и написанных от руки.
В процессе добавления новых фич нам пришлось разбить функции камеры на две кнопки, что сильно запутало пользователей. Чтобы решить проблему, мы придумали себе челлендж — создать мультирежимную Умную камеру, который нет ни у кого на российском банковском рынке.
Теперь по одной кнопке у нас запускается решение, которое умеет распознавать самые разные объекты — от финансовой информации до живых существ, делая путь клиента проще и интереснее. И это не предел! Рассказываем подробнее, как мы к этому пришли.
А давайте сделаем…
Все продуктовые идеи в Тинькофф начинаются с того, чтобы как-то упростить жизнь пользователя — научить приложение делать работу за него. Сначала мы добавили в приложение возможность оплачивать налоги, штрафы и коммунальные платежи по QR-коду. Решение работало и сейчас работает на базе технологии от Smart Engines. Но столкнулись с проблемой, что в некоторых квитанциях по квартплате QR-кода нет. В таких случаях клиенту нужно вбивать все данные вручную.
Пообщавшись с коллегами из команд платежей и переводов, узнали, что такая проблема у многих. Так у нас появилась идея добавить функцию, которая позволит пользователям мгновенно по фото распознавать нужные поля и автоматически переносить банковские реквизиты в приложение для оплаты.
Чтобы научить приложение «понимать» смысл напечатанных символов, к проекту присоединились ребята из Центра технологий искусственного интеллекта Тинькофф, в котором сейчас работают около 700 человек. Так что камера — совместное детище двух отделов.
Распознавать поля с реквизитами в квитанциях (БИК, номер счета, ИНН) с помощью камеры — не очень сложная задача для ИИ. Тем не менее, до нас такого никто из российских финтех-компаний не делал. Схема сбора данных для машинного обучения была простой: попросили коллег и знакомых прислать платежки по ЖКХ, разметили поля и сгенерировали много синтетических данных, — Саша Иванов, Tech Lead, направление компьютерного зрения в Тинькофф.
После обучения протестировали камеру и добавили в приложение. Всё заработало. На этом можно было бы остановиться.
30% переводов в приложении Тинькофф — по книге контактов.
В 2021 году мы провели исследование и узнали, что 30% переводов происходят по контактной книжке. Вспомнили истории из жизни, когда ты что-то покупаешь на улице или на рынке и вводишь вручную написанный номер телефона.
QR-коды тогда были не у всех — после пандемии с самоизоляцией у некоторых они вовсе вызывали аллергию. Так возникла мысль сделать камеру, которая будет распознавать номер телефона для перевода.
Собрали цифры
Здесь задачка для обучения ИИ уже была посложнее, поэтому данных тоже нужно было больше. В помощь мы подключили фрилансеров-разметчиков (асессоров) — дали им задание фотографировать разные номера для перевода там, где они обычно встречаются: в маршрутках, на рынках, в общепите и так далее.
Некоторые ребята сталкивались с проблемами: были люди, которые агрессивно реагировали на попытку сделать фото их номера телефона.
Главный герой этого этапа со знаком «плюс» — замечательная женщина из Адлера. Она помогла собрать почти треть обучающей выборки, одним днем обойдя множество мини-рынков на побережье и получив за это приличную сумму. Со знаком «минус» — читеры, которые хотели скачать фото из интернета с номерами телефонов и получить от нас за это деньги, — Илья Терезников, руководитель группы мобильной разработки в Тинькофф.
За изображения с номерами телефонов мы давали асессорам достойную оплату, поэтому некоторые хитрили. Всё это мы раскрыли на этапе валидации: чтобы избежать дубликатов, сразу размечали номера и проверяли, сколько раз они уже встречаются в датасете. Если номер попадался часто, человека банили.
Третий шаг — разметка. Нужно было посимвольно выделить каждую цифру. Нам удалось собрать много номеров, которых было достаточно, чтобы искусственный интеллект научился находить тексты на картинках. Но для качественного чтения текстов, написанных различными рукописными почерками, нужно было еще больше данных. Поэтому мы создали синтетический датасет. Для этого придумали специальные прописи и пошли просить коллег по офису заполнять цифрами от руки. На основе этих почерков и печатных вариантов сгенерировали данные, которые использовали для обучения модели.
Бонус для команды: сканер номеров телефонов и платежек стал дипломным проектом двух специалистов Тинькофф, которые в это время заканчивали магистратуру.
3-в-1
К началу 2023 года мы пришли с тремя функциями в камере: сканирование QR-кодов (на основе технологии от Smart Engines), а также распознавание реквизитов и номеров телефона — наше собственное технологическое творение. И для этих задач в приложении Тинькофф были две кнопки. Но люди их постоянно путали и нажимали не туда — например, камерой для сканирования номеров телефонов пытались сканировать QR-коды и наоборот. Чтобы избавить пользователей от страданий, мы решили сделать универсальную Умную камеру, объединив все функции в одну кнопку.
Челленджей в процессе образовалось тоже три:
- Научить мультирежимную камеру работать не хуже по качеству и скорости, чем прошлые монопродукты. Это было важно, чтобы не уронить конверсию в платежи. Здесь мы провели А/В-тест, где Умная камера показала себя хорошо. После теста выкатили ее в прод на всех пользователей.
- Перейти от распознавания по фотографии к распознаванию по видеопотоку и наведению на объект. Важным обновлением стало добавление зума и фокусировки.
- Придумать новые способы применения камеры. Например, продукт в текущем виде умеет открывать любые, даже неплатежные ссылки. А ещё мы научили Умную камеру быстро распознавать сложные объекты и использовали эту возможность в благотворительных целях.
В декабре прошлого года мы провели благотворительную акцию с использованием Умной камеры. Специально для этого в сжатые сроки обучили камеру распознавать живых существ — в пилотном проекте кошек и собак, — Миша Коваленко, Product manager Умной камеры в Тинькофф.
Что в итоге
Создав мультирежимную Умную камеру, мы нашли прикладное применение технологии компьютерного зрения, которое приносит клиенту реальную пользу — сокращает время на переводы и платежи, уменьшает количество ошибок и упрощает пользовательский опыт. В марте 2023 года MAU (количество пользователей, которые хотя бы раз в месяц воспользовались продуктом) всех камер было 3,5 миллиона пользователей, а в марте 2024 года — уже 7 миллионов. Количество пользователей продукта растет каждый месяц с момента запуска. Также Умная камера подняла конверсию в платеж при сравнении со старой камерой.
Сейчас мы продолжаем совершенствовать функционал камеры, чтобы она стала еще умнее, а пользователи могли по-другому взглянуть на привычные вещи.
С одной стороны, анализируем опыт пользователей и ищем точки роста, чтобы ещё какие-то рутины отдать приложению. С другой — думаем, каким будет мир будущего с камерой, которая умеет все. Например, чтобы через камеру человек мог посмотреть на свои деньги в живом наличном эквиваленте, как если бы снял их в банкомате. Возможно, и такой челлендж мы поставим перед собой в будущем.
А какие функции камеры добавили бы вы?
Читать первым в Telegram-канале «Код Дурова»