Ученый Йенского университета Сергей Монахов разработал алгоритм, который позволяют путем анализа социолингвистики вычислить тролля в Twitter. Об этом сообщил Indicator со ссылкой на статью в научном журнале PLOS ONE.
Обычно алгоритмы выявления троллей опираются на теги, геопозицию, время публикации постов и набор некоторых других больших данных, в то время как Сергей Монахов решил анализировать лингвистические особенности этих публикаций.
В основе подхода ученого лежит идея, что тролли обычно транслируют одну и ту же мысль большое количество раз, по сути, лишь переформулируя главный тезис. Проанализировав библиотеку твитов «русских троллей» и реальных американских конгрессменов, Монахов смог определить ряд специфических для троллей черт, например, некоторые повторяющиеся слова или словосочетания. Именно они и помогают идентифицировать тролля в социальных сетях.
Во время тестирования алгоритма, основанного на социолингвистике, ученый обнаружил, что для получения относительно точного результата хватает анализа лишь 50-ти твитов. Сергей также отметил, что его алгоритм корректно отличал сообщения троллей от твитов президента США Дональда Трампа, хотя те нередко бывают провокационными и «могут ввести в заблуждение».
По мнению ученого, его наработки могут быть полезны во время информационных войн, так как позволят оградить пользователей от троллей, но при этом сохранить свободу слова. Впрочем, еще необходимы дополнительные исследования, которые лягут в основу алгоритма, способного отличать не только троллей от конгрессменов, но и от других сообщений, публикуемых не общественными деятелями.
Напомним, что ранее Facebook начал маркировать страницы СМИ, которые контролируются государственными структурами, а Twitter ввел метки для учетных записей, которые принадлежат представителям дипломатических ведомств разных стран, связанным с государством СМИ и их руководящим сотрудникам:
Читать первым в Telegram-канале «Код Дурова»