GigaChat Max кратко объясняет суть статьи
Вечером произошел глобальный сбой интернета, затронувший сервисы Google (Gmail, YouTube), Spotify, Steam, Twitch, ChatGPT, Discord, Snapchat и ряд игр. Проблемы возникли из-за ошибки в обновлении системы управления API Google Cloud, вызвавшей отказ сервиса Identity & Access Management (IAM). Это привело к массовым ошибкам аутентификации и доступности сервисов. Сбой также повлиял на инфраструктуру Cloudflare, поскольку значительная часть её хранилища расположена в Google Cloud. Компания Cloudflare признала инцидент и объявила о планах ускорения переноса своего хранилища на собственную платформу R2. Сообщения о проблемах у Amazon Web Services оказались ложными.
Вчера вечером примерно в 21:00 многие пользователи столкнулись с масштабным сбоем интернета по всему миру.
Сбой затронул Gmail, YouTube, Spotify, Steam, Twitch, ChatGPT, Discord, Snapchat и десяток видеоигр. Пики жалоб на Downdetector пришлись на 22:30, после кратковременного восстановления около 22:40 проблемы вернулись и окончательно сошли на нет лишь ближе к полуночи.
Как выяснилось в результате расследования Cloudflare и Google, сбой был связан с инфраструктурой Google Cloud, в которой сработало автоматическое обновление квот (лимиты на запросы) в системе управления API глобальной службы Identity & Access Management (IAM).
- IAM используется как сервис проверки безопасности подключения пользователей. Когда из-за ошибочного обновления в её базе лимит на запросы был превышен, IAM начала отклонять внешний трафик тысячами ответов с ошибками 503/401, что и вызвало проблему на всех ключевых крупных сервисах продуктов Google и его партнёров.
- Проблема также коснулась и другого ключевого поставщика IT-инфраструктуры – Cloudflare. Об этом компания заявила в своём блоге, в нём Cloudflare извинилась за произошедшее и переложила ответственность на «неназванного партнёра», коим и является Google Cloud, исходя из текущих обстоятельств и предыдущих публикаций компании.

- Всё дело в том, что большая часть хранилища ключей Cloudflare Workers KV располагается в Google Cloud, а KV хранит конфигурации для целой линейки сервисов безопасности: Access, WARP, Gateway, Turnstile и Stream. Когда IAM перестала выдавать токены к этому хранилищу, 90% запросов к KV завершались ошибками 500/503, а все эти авторизации через Cloudflare Access отклонялись. В результате пострадали все клиенты Cloudflare, коих огромное множество.

На фоне текущей проблемы, в Cloudflare пообещали ускорить перенос KV на собственное хранилище R2 чтобы не зависеть от чужой инфраструктуры, планы сделать это у компании ещё были давно.
На фоне шквала сообщений Downdetector появились и сообщения о проблемах у Amazon Web Services, однако представитель AWS заявил TechCrunch, что их инфраструктура «работала штатно, никаких перебоев не фиксировалось». Тем не менее из-за путаницы c Cloudflare, на трекерах появлялись и ложные жалобы о недоступности сервисов AWS, что Amazon оперативно опровергала.
Читать первым в Telegram-канале «Код Дурова»