26 августа 2025

eur = 93.63 0.12 (0.13 %)

btc = 109 514.00$ -3 458.87 (-3.06 %)

eth = 4 370.67$ - 332.67 (-7.07 %)

ton = 3.12$ -0.16 (-4.77 %)

usd = 80.75 0.49 (0.62 %)

eur = 93.63 0.12 (0.13 %)

btc = 109 514.00$ -3 458.87 (-3.06 %)

Тестировщики Google признались, что оценивали ответы чат-бота Bard наугад

1 минута на чтение
Тестировщики Google признались, что оценивали ответы чат-бота Bard наугад

Подрядчики Google в проекте по оценке ответов чат-бота Bard из-за нехватки времени часто ставили оценки на ответы ИИ по сложным запросам наугад.

Сотрудникам Appen было поставлено задание в краткие сроки помочь Google отфильтровать неправильные ответы и научить чат-бота связности и точности. Обычно эти люди занимаются оценкой поисковых алгоритмов техногиганта и рекламных объявлений, отображаемых в выдаче, а также отфильтровывают опасные сайты, чтобы они не оказались в выдаче.

В рамках своей работы подрядчики видели запрос чат-боту от пользователя для чат-бота вместе с двумя возможными ответами ИИ. Они должны были оценить, какой ответ лучше. При необходимости сотрудники также могли уточнить в отдельном текстовом поле, почему они выбрали один ответ вместо другого, чтобы помочь чат-боту понимать, какие именно атрибуты следует искать в приемлемых ответах.

Зачастую тестировщикам нужно было выбрать за минуту правильный ответ на генерацию от Bard по запросам на разную тематику. В большинстве случаев из-за сложности ответа или непонимания темы сотрудники не могли осмысленно подойти к оценке и выбирали наугад правильную форму ответа, чтобы перейти к следующей задаче и выполнить нужный объём работ вовремя, поскольку Google не платила им за переработки и поставила сжатые временные рамки на задачу.

В итоге часть ответов чат-бота не была проверена должным образом. По мнению сотрудников Appen, более скрупулёзный анализ ответов Bard требует по несколько часов, так как, в случае неправильного ответа, подрядчикам нужно было в развёрнутом виде письменно обозначить неточности в ответах чат-бота и передать эту информацию в Google.

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
Telegram ограничил вывод TON для пользователейTelegram ограничил вывод TON для пользователейTelegram ограничил вывод TON для пользователей

GigaChat Max: коротко о главном

Telegram ограничил вывод TON для пользователей

Полная версия 
Telegram представил новый дизайн профилей для Android — впервые за 4 годаTelegram представил новый дизайн профилей для Android — впервые за 4 годаTelegram представил новый дизайн профилей для Android — впервые за 4 года

GigaChat Max: коротко о главном

Telegram представил новый дизайн профилей для Android — впервые за 4 года

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 404
X5 Tech
Газпромбанк
OTP Bank
билайн
МТС
Сбер
Т-Банк
Яндекс Практикум
Ozon Tech
Циан

Пользуясь сайтом, вы соглашаетесь с политикой конфиденциальности
и тем, что мы используем cookie-файлы