Тестировщики Google признались, что оценивали ответы чат-бота Bard наугад
Читать первым в Telegram-канале «Код Дурова»
Подрядчики Google в проекте по оценке ответов чат-бота Bard из-за нехватки времени часто ставили оценки на ответы ИИ по сложным запросам наугад.
Сотрудникам Appen было поставлено задание в краткие сроки помочь Google отфильтровать неправильные ответы и научить чат-бота связности и точности. Обычно эти люди занимаются оценкой поисковых алгоритмов техногиганта и рекламных объявлений, отображаемых в выдаче, а также отфильтровывают опасные сайты, чтобы они не оказались в выдаче.
В рамках своей работы подрядчики видели запрос чат-боту от пользователя для чат-бота вместе с двумя возможными ответами ИИ. Они должны были оценить, какой ответ лучше. При необходимости сотрудники также могли уточнить в отдельном текстовом поле, почему они выбрали один ответ вместо другого, чтобы помочь чат-боту понимать, какие именно атрибуты следует искать в приемлемых ответах.
Зачастую тестировщикам нужно было выбрать за минуту правильный ответ на генерацию от Bard по запросам на разную тематику. В большинстве случаев из-за сложности ответа или непонимания темы сотрудники не могли осмысленно подойти к оценке и выбирали наугад правильную форму ответа, чтобы перейти к следующей задаче и выполнить нужный объём работ вовремя, поскольку Google не платила им за переработки и поставила сжатые временные рамки на задачу.
В итоге часть ответов чат-бота не была проверена должным образом. По мнению сотрудников Appen, более скрупулёзный анализ ответов Bard требует по несколько часов, так как, в случае неправильного ответа, подрядчикам нужно было в развёрнутом виде письменно обозначить неточности в ответах чат-бота и передать эту информацию в Google.