Google отчиталась о причине глобального сбоя в Интернете

Вчера вечером примерно в 21:00 многие пользователи столкнулись с масштабным сбоем интернета по всему миру.

Сбой затронул Gmail, YouTube, Spotify, Steam, Twitch, ChatGPT, Discord, Snapchat и десяток видеоигр. Пики жалоб на Downdetector пришлись на 22:30, после кратковременного восстановления около 22:40 проблемы вернулись и окончательно сошли на нет лишь ближе к полуночи.

Как выяснилось в результате расследования Cloudflare и Google, сбой был связан с инфраструктурой Google Cloud, в которой сработало автоматическое обновление квот (лимиты на запросы) в системе управления API глобальной службы Identity & Access Management (IAM).

  • IAM используется как сервис проверки безопасности подключения пользователей. Когда из-за ошибочного обновления в её базе лимит на запросы был превышен, IAM начала отклонять внешний трафик тысячами ответов с ошибками 503/401, что и вызвало проблему на всех ключевых крупных сервисах продуктов Google и его партнёров.
  • Проблема также коснулась и другого ключевого поставщика IT-инфраструктуры – Cloudflare. Об этом компания заявила в своём блоге, в нём Cloudflare извинилась за произошедшее и переложила ответственность на «неназванного партнёра», коим и является Google Cloud, исходя из текущих обстоятельств и предыдущих публикаций компании.
  • Всё дело в том, что большая часть хранилища ключей Cloudflare Workers KV располагается в Google Cloud, а KV хранит конфигурации для целой линейки сервисов безопасности: Access, WARP, Gateway, Turnstile и Stream. Когда IAM перестала выдавать токены к этому хранилищу, 90% запросов к KV завершались ошибками 500/503, а все эти авторизации через Cloudflare Access отклонялись. В результате пострадали все клиенты Cloudflare, коих огромное множество.

На фоне текущей проблемы, в Cloudflare пообещали ускорить перенос KV на собственное хранилище R2 чтобы не зависеть от чужой инфраструктуры, планы сделать это у компании ещё были давно.

На фоне шквала сообщений Downdetector появились и сообщения о проблемах у Amazon Web Services, однако представитель AWS заявил TechCrunch, что их инфраструктура «работала штатно, никаких перебоев не фиксировалось». Тем не менее из-за путаницы c Cloudflare, на трекерах появлялись и ложные жалобы о недоступности сервисов AWS, что Amazon оперативно опровергала.