
Масштабный инцидент, произошедший вчера в сетевой инфраструктуре Cloudflare, стал крупнейшим за последние годы и парализовал работу огромного числа онлайн-ресурсов. По данным компании, сбой, начавшийся в 14:20 по московскому времени, не имел отношения к кибератакам или внешнему вмешательству — причины оказались полностью внутренними.
Причины и механизм отказа
Как уточняется в техническом отчёте Cloudflare, сбой вызвало ошибочное изменение прав доступа в системе баз данных. Изменение конфигурации кластера clickhouse привело к дублированию записей в файле признаков, используемом системой bot management, которая анализирует угрозы в реальном времени с применением ИИ.
Этот файл неожиданно увеличился вдвое и превысил жёсткие лимиты памяти прокси-серверов. В результате механизм предварительного выделения ресурсов спровоцировал аварийную остановку исполнения кода на rust (unwrap на значении err) и возникновение массовых ошибок 5xx в глобальной сети доставки контента cloudflare.
Цикличность генерации конфигураций каждые пять минут приводила к повторным падениям, что сначала создало ложное впечатление гипермасштабной ddos-атаки. Недоступными оказались не только публичные сайты, но и ключевые сервисы компании: workers kv, панель управления, механизмы аутентификации access и даже страница статуса.
Масштаб последствий
Инцидент затронул миллионы пользователей по всему миру. Cloudflare обслуживает около 19% всех активных сайтов и инфраструктуру 35% компаний из списка fortune 500. Перебои ощущали организации критической важности, включая new jersey transit, new york city emergency management, французскую железную дорогу sncf и другие крупные структуры.
Первоначально Cloudflare сообщила о «всплеске необычного трафика», что породило предположения о возможной кибератаке. Однако технический директор компании Дэн Кнехт оперативно опроверг эту версию, подчеркнув внутренний характер проблемы.
Как проходило восстановление
Согласно хронологии инцидента, опубликованной на сайте статуса Cloudflare, расследование началось в 11:48 по UTC, а исправление конфигурации было внедрено в 14:42 UTC. Отдельные проблемы сохранялись ещё несколько часов.
К 17:30 по московскому времени инженерам удалось стабилизировать систему, остановив генерацию повреждённого файла и принудительно внедрив корректную версию конфигурации.
Реакция компании и признание ошибок
В Cloudflare открыто признали не только саму конфигурационную ошибку, но и недостаточно оперативное реагирование. Компания заявила о намерении ужесточить внутренние проверки конфигурационных файлов, пересмотреть подходы к обработке ошибок и корректировке настроек, чтобы предотвратить повторение подобных ситуаций.
Соучредитель и генеральный директор Cloudflare Мэтью Принс принес извинения и опубликовал расширенные разъяснения (https://blog.cloudflare.com/18-november-2025-outage/), назвав произошедшее самым масштабным сбоем с 2019 года.

