27 марта 2025

eur = 92.00 -0.34 (-0.37 %)

btc = 87 543.00$ - 123.60 (-0.14 %)

eth = 2 029.21$ -32.86 (-1.59 %)

ton = 3.79$ 0.17 (4.65 %)

usd = 84.21 0.01 (0.02 %)

eur = 92.00 -0.34 (-0.37 %)

btc = 87 543.00$ - 123.60 (-0.14 %)

Яндекс.Картинки — в поисках свежести

1 минута на чтение
Яндекс.Картинки — в поисках свежести

В марте 2010 года началось извержение вулкана Эйяфьядлайёкюдль, в июле 2015 года New Horizons передала на Землю фотографии Плутона, а в апреле 2019 года случился пожар в соборе Парижской Богоматери. Каждое подобное событие вызывает всплеск интереса и пользователи активно идут смотреть актуальные снимки, которых несколько часов назад еще в принципе не было.

Именно критерий «свежести» подобных изображений противоречит таким важным свойствам поиска, как, например, релевантность и авторитетность источника, поэтому поисковику требуются особые технологии, позволяющие не просто находить и фильтровать новый контент, но и сохранять баланс в результатах.

Алгоритмы поиска по картинкам Яндекса решают сразу пять задач: быстро находят и скачивают новые картинки, затем их обрабатывают, далее быстро собирают документы для поиска, формулируют критерии качества качества поиска свежего контента и в конце ранжируют и смешивают контент в выдаче, исходя из требований качества.

Для решения первой задачи используется работающая на базе машинного обучения формула, которая приоритизирует обход поискового робота в зависимости от качества и актуальности контента. Как только новые и актуальные изображения найдены, их нужно скачать на серверы Яндекса, но при этом не «заDDOSить» источники — в приоритизации скачивания картинок тоже помогает машинное обучение.

Обработка картинок включает в себя три этапа: подготовку версий разных размеров, расчет нейросетевых «фич», включая оценку красивости, эстетичности, нежелательности контента и многого другого, а также склейку дубликатов. Любопытно, что третий этап делается не нейросетью, а менее «модными» инструментами, так как они с этим справляются точнее.

Далее картинки собираются в документы, которые помимо самого изображения включают в себя целый букет разнородной информации: нейросетевые и прочие «фичи», сведения о страницах, где она помещена, тексты, которые на этих страницах её описывают, статистика поведения пользователей и так далее.

Затем каждый результат оценивается по сложной формуле, включающей в себя множество переменных. На этом этапе на помощь сложным машинным алгоритмам приходят толокеры и асессоры, которые в том числе помогают разобраться с оценкой свежих и актуальных на данный момент времени изображений.

На последнем этапе идет ранжирование результатов и смешивание основной поисковой выдачи со свежим и актуальным контентом по специальному алгоритму, который в Яндексе недавно серьезно обновили.

Еще больше технических и «подкапотных» подробностей о работе поиска по картинкам можно узнать по ссылке:

https://habr.com/ru/company/yandex/blog/514962/

Читать первым в Telegram-канале «Код Дурова»

Важные новости коротко — от GigaChat Max 
1-bg-изображение-0
img-content-1-изображение-0

GigaChat Max: коротко о главном

Как изменился Код Дурова вместе с GigaChat Max?

Узнай о всех возможностях в FAQ-статье 
31e48a24-292a-45c2-9c14-53c60dd2c052-изображение-0

GigaChat Max: коротко о главном

Минцифры допустило введение наказания за недопуск провайдеров в дома на фоне сбоя Lovit

Полная версия 
702bc242-2aaa-417f-a585-7a4914de60a9-изображение-0

GigaChat Max: коротко о главном

OpenAI отложила бесплатный запуск нового генератора изображений в ChatGPT

Полная версия 

Реализовано через GigaChat Max 

Сейчас читают
Карьера
Блоги 329
Газпромбанк
билайн
МТС
X5 Tech
Т-Банк
Сбер
Яндекс Практикум
Ozon Tech
Циан
Банк 131