Разработчики ВКонтакте создали нейросеть для генерации новостных заголовков
Читать первым в Telegram-канале «Код Дурова»
Команда прикладных исследований ВКонтакте разработала нейросеть, которая создаёт новостные заголовки на русском и английском языках. Об этом «Коду Дурова» сообщили в пресс-службе ВКонтакте.
Для обучения нейросети разработчики ВКонтакте использовали тексты информационного агентства «РИА Новости» и издания The New York Times. Чтобы сгенерировать заголовок, нужен только текст новости. Алгоритмы обрабатывают текст и формулируют заголовок из фрагментов слов новости — это позволяет нейросети в ходе генерации заголовка добиваться правильных падежей и склонений.
Разработчик-исследователь ВКонтакте Даниил Гаврилов заявил, что такая технология может использоваться для различных задач, связанных с удобством потребления контента:
Наша и другие разработки помогут быстро выделять главную мысль из длинных текстов — это действительно полезно, ведь информации вокруг нас уже много и становится только больше. Например, ВКонтакте [эту технологию] потенциально можно применить для умного сокращения постов в ленте пользователя или для создания новостных дайджестов.
Отмечается, что по некоторым показателям нейросеть ВКонтакте показывает себя лучше, чем другие существующие подходы генерации заголовков. Результат работы моделей определяется метриками, оценивающими, насколько сгенерированный заголовок пересекается с оригинальным, который был написан человеком.
Как сообщают ВКонтакте, стандартные метрики не могут корректно оценивать случаи, когда смысл новости в сгенерированных и оригинальных заголовках передан верно, но по строению полностью отличаются друг от друга. Именно поэтому разработчики провели исследование, в ходе которого показывали добровольцам новость и два заголовка к ней: в 45% случаев сгенерированный заголовок был не хуже оригинального, а в 15% — лучше:
Исследование с добровольцами показало, что заголовки, созданные нейросетью, пока не всегда получаются такими же качественными, как написанные человеком. Однако мы не перестаём улучшать модель — и непременно добьёмся равных результатов. Наша и другие разработки помогут быстро выделять главную мысль из длинных текстов — это действительно полезно, ведь информации вокруг нас уже много и становится только больше, — считает Гаврилов.
Для создания нейросети Команда прикладных исследований ВКонтакте использовала архитектуру Universal Transformer и технику компрессии данных Byte Pair Encoding, которые обычно применяются в машинном переводе и позволяют для генерации заголовков ограничиваться небольшим словарём:
Сотрудники ВКонтакте — первые, кто использовал BPE для модели суммаризации текста, а также первые, кто обучал такую модель на русскоязычных новостных материалах, — уверяют в компании.
Презентация работы нейросети состоялась на Европейской конференции по информационному поиску, которая прошла в этом году 14-18 апреля в Кёльне. Подробная статья по поводу технологии была опубликована в соответствующем сборнике.