Новости

Крах половины интернета: как внутренняя ошибка в Cloudflare вызвала глобальный сбой

Масштабный инцидент, произошедший вчера в сетевой инфраструктуре Cloudflare, стал крупнейшим за последние годы и парализовал работу огромного числа онлайн-ресурсов. По данным компании, сбой, начавшийся в 14:20 по московскому времени, не имел отношения к кибератакам или внешнему вмешательству — причины оказались полностью внутренними.

Причины и механизм отказа

Как уточняется в техническом отчёте Cloudflare, сбой вызвало ошибочное изменение прав доступа в системе баз данных. Изменение конфигурации кластера clickhouse привело к дублированию записей в файле признаков, используемом системой bot management, которая анализирует угрозы в реальном времени с применением ИИ.

Этот файл неожиданно увеличился вдвое и превысил жёсткие лимиты памяти прокси-серверов. В результате механизм предварительного выделения ресурсов спровоцировал аварийную остановку исполнения кода на rust (unwrap на значении err) и возникновение массовых ошибок 5xx в глобальной сети доставки контента cloudflare.

Цикличность генерации конфигураций каждые пять минут приводила к повторным падениям, что сначала создало ложное впечатление гипермасштабной ddos-атаки. Недоступными оказались не только публичные сайты, но и ключевые сервисы компании: workers kv, панель управления, механизмы аутентификации access и даже страница статуса.

Масштаб последствий

Инцидент затронул миллионы пользователей по всему миру. Cloudflare обслуживает около 19% всех активных сайтов и инфраструктуру 35% компаний из списка fortune 500. Перебои ощущали организации критической важности, включая new jersey transit, new york city emergency management, французскую железную дорогу sncf и другие крупные структуры.

Первоначально Cloudflare сообщила о «всплеске необычного трафика», что породило предположения о возможной кибератаке. Однако технический директор компании Дэн Кнехт оперативно опроверг эту версию, подчеркнув внутренний характер проблемы.

Как проходило восстановление

Согласно хронологии инцидента, опубликованной на сайте статуса Cloudflare, расследование началось в 11:48 по UTC, а исправление конфигурации было внедрено в 14:42 UTC. Отдельные проблемы сохранялись ещё несколько часов.

К 17:30 по московскому времени инженерам удалось стабилизировать систему, остановив генерацию повреждённого файла и принудительно внедрив корректную версию конфигурации.

Реакция компании и признание ошибок

В Cloudflare открыто признали не только саму конфигурационную ошибку, но и недостаточно оперативное реагирование. Компания заявила о намерении ужесточить внутренние проверки конфигурационных файлов, пересмотреть подходы к обработке ошибок и корректировке настроек, чтобы предотвратить повторение подобных ситуаций.

Соучредитель и генеральный директор Cloudflare Мэтью Принс принес извинения и опубликовал расширенные разъяснения (https://blog.cloudflare.com/18-november-2025-outage/), назвав произошедшее самым масштабным сбоем с 2019 года.

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Telegram

Telegram

Кнопка «Наверх»