Cloudflare 全球故障原因曝光:一次错误更新引发的大规模中断,并非遭遇大规模DDOS攻击
Cloudflare 在 11 月 18 日发生了自 2019 年以来最大的一次全球性故障,影响到 ChatGPT、X、Spotify、Canva、Authy、IKEA 网站等大量知名服务。虽然许多人一度怀疑是大规模 DDoS 攻击或国家级黑客行为,但最终证实——问题来自 Cloudflare 内部的一份错误“特征文件”更新。
Cloudflare 的 Bot Management 系统用于识别和过滤恶意机器人,平时用户几乎察觉不到它的存在。但这次,一个异常膨胀的特征文件像病毒一样在全球数据中心扩散,引发系统“恐慌”,导致大量合法访问被误判,返回 500 错误。
Cloudflare CEO Matthew Prince 表示,团队起初以为遭遇了超大规模 DDoS 攻击,毕竟此前的攻击规模不断刷新记录,从 5.6 Tbps 激增至 22.2 Tbps。然而,这次并非外部攻击,而是一个超过限制大小的特征文件造成的。该文件本应包含不超过 200 项特征,但由于数据库权限异常导致重复条目,文件膨胀成两倍大小,使系统崩溃。
此次故障具有非常不典型的表现:并非集中爆发,而是出现全球范围内的间歇性中断,甚至以五分钟为周期反复出现——与 Cloudflare ClickHouse 数据库生成新特征文件的周期一致。最终,随着错误文件在所有 ClickHouse 节点扩散,全球范围的网站访问几乎全部受阻。
值得注意的是,这次事件与 2024 年 7 月 CrowdStrike 全球宕机事件有惊人的相似之处:都是更新文件格式异常导致的系统级崩溃。CrowdStrike 的事件是因为发送了 21 个字段而非预期的 20 个;Cloudflare 则是超大特征文件。两者的共同点在于:高速分发、全网同步、数据格式异常、系统无法回退。
经过数小时排查和修复,Cloudflare 在当天傍晚恢复了全部服务。Prince 表示,虽然此次事件极为罕见,但 Cloudflare 将重新审视快速更新机制,例如增加文件大小验证等步骤,以避免类似故障再次发生。
Cloudflare 占全球 Web 流量的 20%,并间接参与更多互联网访问,其影响力巨大。当它自身出现故障时,对互联网生态产生的冲击也会被放大。此次事件再次提醒企业:便利带来效率,但单点依赖也意味着风险。虽然此类事件概率极低,但企业仍应提前规划应急方案,而不是在事故发生时手忙脚乱。




