Cloudflare 全球故障原因曝光：一次错误更新引发的大规模中断，并非遭遇大规模DDOS攻击

evan 行业资讯 11-20 174

Cloudflare 在 11 月 18 日发生了自 2019 年以来最大的一次全球性故障，影响到 ChatGPT、X、Spotify、Canva、Authy、IKEA 网站等大量知名服务。虽然许多人一度怀疑是大规模 DDoS 攻击或国家级黑客行为，但最终证实——问题来自 Cloudflare 内部的一份错误“特征文件”更新。

Cloudflare 的 Bot Management 系统用于识别和过滤恶意机器人，平时用户几乎察觉不到它的存在。但这次，一个异常膨胀的特征文件像病毒一样在全球数据中心扩散，引发系统“恐慌”，导致大量合法访问被误判，返回 500 错误。

Cloudflare CEO Matthew Prince 表示，团队起初以为遭遇了超大规模 DDoS 攻击，毕竟此前的攻击规模不断刷新记录，从 5.6 Tbps 激增至 22.2 Tbps。然而，这次并非外部攻击，而是一个超过限制大小的特征文件造成的。该文件本应包含不超过 200 项特征，但由于数据库权限异常导致重复条目，文件膨胀成两倍大小，使系统崩溃。

此次故障具有非常不典型的表现：并非集中爆发，而是出现全球范围内的间歇性中断，甚至以五分钟为周期反复出现——与 Cloudflare ClickHouse 数据库生成新特征文件的周期一致。最终，随着错误文件在所有 ClickHouse 节点扩散，全球范围的网站访问几乎全部受阻。

值得注意的是，这次事件与 2024 年 7 月 CrowdStrike 全球宕机事件有惊人的相似之处：都是更新文件格式异常导致的系统级崩溃。CrowdStrike 的事件是因为发送了 21 个字段而非预期的 20 个；Cloudflare 则是超大特征文件。两者的共同点在于：高速分发、全网同步、数据格式异常、系统无法回退。

经过数小时排查和修复，Cloudflare 在当天傍晚恢复了全部服务。Prince 表示，虽然此次事件极为罕见，但 Cloudflare 将重新审视快速更新机制，例如增加文件大小验证等步骤，以避免类似故障再次发生。

Cloudflare 占全球 Web 流量的 20%，并间接参与更多互联网访问，其影响力巨大。当它自身出现故障时，对互联网生态产生的冲击也会被放大。此次事件再次提醒企业：便利带来效率，但单点依赖也意味着风险。虽然此类事件概率极低，但企业仍应提前规划应急方案，而不是在事故发生时手忙脚乱。