Читать первым в Telegram-канале «Код Дурова»
5 апреля Роскомнадзор потребовал от Google восстановить в поисковой выдаче сайты государственных органов России. По уверениям регулятора, Google исключил из результатов поисковой выдачи для российской аудитории сайты Министерства обороны и МВД:
Подобные действия Google нарушают ключевые принципы свободного распространения информации и беспрепятственного доступа к ней граждан России.
После этого в пресс-службе поисковика сообщили, что сайт Министерства обороны России не блокировался со стороны Google:
Похоже, веб-страница блокирует наши системы и не позволяет им обнаружить её. Поэтому при определённых поисковых запросах сайт не отображается в результатах поиска.
На момент публикации заметки 6 апреля в Министерстве обороны и Роскомнадзоре не дали официальных комментариев, касающихся технической ошибки, в которой, вероятно, не виновата компания Google.
Заблокировали себя в Google?
Автор Telegram-канала «Мы и Жо» Александр Амзин подтвердил, что это действительно так. Он объяснил: для индексирования сайта поиском Google нужно, чтобы робот поисковой системы мог зайти на страницу и увидеть примерно то же, что и обычный человек:
Дальше он индексирует страницу — то есть кладет её в базу, из которой и извлекаются поисковые результаты. Бывает, что робот — нежелательный гость. Тогда можно посоветовать ему не индексировать сайт (не запрещать, а именно посоветовать). Для этого вписывают рекомендацию в специальный файл robots.txt.
По уверениям Амзина, если зайти в robots.txt, там не найти запрета на индексацию, как и директивы noindex на странице. Но проверить, как тогда в результате отображается заголовок портала Министерства обороны для робота, можно при помощи сайта reqbin.com. Данный сервис позволяет запускать из браузера программу curl, при помощи которой можно понять, что происходит на сервере.
По умолчанию там происходит проверка отклика для американских серверов, где, собственно, и находятся сервера Google. Если указать адрес «Кода Дурова» и переключиться на вкладку Headers, можно увидеть статус отклика «200 (OK)» и множество строчек. Это говорит о том, что страница отдаётся нормально:
Я не сайт. Я чайник.
При проверке сайта Министерства обороны во вкладке Headers всего четыре строчки. В строке «Content-Length» прописано «0» — это говорит о том, что длина страницы равна нулю, поэтому индексировать Google нечего:
Страница возвращает необычный код 418. Не всякий специалист его знает — он расшифровывается 418 I'm a teapot (418 — я чайник). Этот код посвящён первоапрельской шутке 1998 года, вводящей стандарт гипертекстового протокола кофейников. Означает он лишь то, что сервер не может приготовить кофе, потому что он чайник.
Амзин рассказал, что код 418 возвращается для американских серверов, но проверка сайта в Германии подтверждает, что сайт возвращает статус отклика «200 (OK)»:
Вебмастера сайта mil.ru заблокировали сами себя в Google, замаскировавшись под чайник для американских роботов, пытающихся получить доступ к контенту. Это не обязательно провокация — вполне возможно, что это часть защиты от DDoS-атак, — заключил Амзин.