Cloudflare网站故障世界技术新闻

Cloudflare 漏洞导致部分网站离线


周二,美国在线服务提供商 Cloudflare 遭遇了一个“潜在 bug”的问题,这导致包括社交网络 X 和 AI 聊天机器人 ChatGPT 在内的多个主要网站中断服务。 网络监控网站 Downdetector 记录到,用户报告了 X、《英雄联盟》游戏以及谷歌和 OpenAI 部分服务的中断情况。 Cloudflare 专注于在线安全和内容分发网络(CDN),据其官方数据,该公司处理全球约 20% 的互联网流量,这次事件直接影响了数百万用户,并导致其股价在早盘交易中下跌 1.5%。

事件发生在 2025 年 11 月 18 日上午 11:20 UTC(协调世界时),从那时起,Cloudflare 的核心网络开始出现显著失败,无法正常传输流量,用户在访问其客户网站时会看到错误页面,显示 Cloudflare 网络内部故障。 虽然中断持续时间不长,但其波及范围之广,凸显了现代互联网对少数基础设施提供商的依赖性。

故障细节与恢复过程

Cloudflare 首席技术官 Dane Knecht 在 X(前 Twitter)上发帖表示:“今天早些时候,我们的网络中出现了一个问题,影响了大量依赖我们的流量,这让我们的客户和整个互联网都受到了影响。” 他进一步解释,问题已经得到解决,但承认这是公司的一次重大失误。 具体来说,这个潜在 bug 隐藏在支持机器人缓解功能的底层服务中,在一次常规配置变更后被触发,导致系统崩溃。 Cloudflare 的网络由分布在全球 330 个城市的数百万台服务器组成,这些服务器负责路由流量、应用安全规则和优化性能。 此次故障的根源是一个自动生成的“特征文件”(feature file),这个文件用于 Bot Management 系统,帮助识别和阻挡自动化机器人攻击。 由于数据库权限变更,这个文件的大小意外翻倍,从原本的固定大小膨胀到超出软件处理极限,导致路由软件崩溃,无法正确处理 HTTP 请求。

起初,Cloudflare 团队误以为这是大规模分布式拒绝服务(DDoS)攻击,因为流量指标显示异常激增和波动。 实际上,这个文件每五分钟生成一次,由 ClickHouse 数据库集群处理。 数据库集群正在逐步更新权限管理,只有更新后的节点才会产生“坏”文件,导致文件质量时好时坏,系统时而恢复时而崩溃,这种不稳定行为加剧了诊断难度。 到 13:05 UTC,他们停止了坏文件的传播,并回滚到旧版本文件;核心流量在 14:30 UTC 基本恢复正常。 接下来几小时,团队处理了流量回涌带来的负载高峰,包括重启受影响的服务和缓解延迟问题。 直到 17:06 UTC,所有系统完全恢复正常,包括控制平面(如仪表板和 API)。

此外,一些边缘服务如 Workers KV(键值存储)和 Access(访问控制)也受波及,前者延迟增加,后者导致认证失败,但团队在 13:04 UTC 通过补丁绕过核心代理,减少了下游影响。 整个恢复过程涉及多个工作流,包括手动插入已知好的配置文件、强制重启代理软件,以及监控 CPU 消耗,因为调试系统在错误高峰期消耗了大量资源。 Cloudflare 强调,这次事件不是网络攻击或恶意活动,而是内部软件逻辑问题,他们已开始调查如何防止类似权限变更引发连锁反应。

受影响的网站和服务

这次中断影响了广泛的在线平台和用户群体,全球范围内有数千条报告涌入 Downdetector,高峰期超过 11,000 条。 社交平台 X 是最明显的受害者,用户无法加载时间线、发帖或查看通知,许多人报告页面卡在加载状态或显示 5xx 错误代码。 AI 服务方面,OpenAI 的 ChatGPT 完全无法访问,用户输入查询后看到服务器错误,影响了数百万日常用户;类似地,Anthropic 的 Claude AI 也短暂中断。 视频游戏领域,《英雄联盟》(League of Legends)服务器连接失败,导致玩家无法登录或匹配游戏,Riot Games 确认了问题源于 Cloudflare 的 CDN 服务。 其他知名服务包括设计工具 Canva(无法上传或编辑文件)、音乐平台 Spotify(播放中断)、出行应用 Uber(订单页面加载失败),甚至监控网站 DownDetector 本身也短暂离线,无法实时更新报告。

谷歌的部分服务如 YouTube 和 Google Drive 报告了间歇性延迟,而电影评论网站 Letterboxd 和电商平台 Shopify 的部分客户也受影响,无法处理支付或显示产品。 Cloudflare 的内部服务同样波及:Workers KV 响应率下降,导致依赖它的应用如 Cloudflare Access 认证失败,用户登录仪表板时看到错误页面;Turnstile(验证码服务)可用性降低,影响了登录流程。 此外,Auto Move(自动迁移工具)的一些操作失败,但所有受影响的消息已被手动审查和修复。 中断高峰期从 11:30 UTC 到 13:10 UTC 最严重,随后在 14:40 到 15:30 UTC 又出现次高峰,这是由于登录尝试积压和重试机制导致的延迟。 全球用户反馈显示,美国、欧洲和亚洲均有报告,持续时间约 2-3 小时,但对依赖 Cloudflare 的小型网站影响更持久,因为它们缺乏备用路由。

潜在 bug 是什么?

潜在 bug(latent bug)是一种软件缺陷,它在常规测试和操作中不会显现,只有特定条件触发时才会暴露,通常隐藏在代码的边缘场景中。 在 Cloudflare 的案例中,这个 bug 位于 Bot Management 模块的核心逻辑中,该模块负责检测恶意机器人流量,如爬虫或 DDoS 工具,通过分析请求模式来应用防护规则。 这个 bug 源于数据库查询的权限更新:原本的查询设计假设固定输出,但更新后导致重复条目注入特征文件,使文件大小翻倍。 特征文件被推送到网络中的所有机器,这些机器的路由软件有大小限制,超出后直接崩溃,返回 HTTP 5xx 错误。 这种 bug 在复杂系统中常见,因为全面测试不可能覆盖所有配置组合;Cloudflare 的网络每天处理万亿请求,任何小变更都可能放大风险。

公司 CTO Dane Knecht 解释,这是一个“支撑机器人缓解能力的服务的潜在 bug”,在常规变更后崩溃。 专家指出,潜在 bug 往往源于遗留代码与新功能的交互,Cloudflare 承诺将发布详细事件报告,包括根因分析和代码审查,以避免未来类似问题。 例如,他们计划强化配置文件摄入机制,像处理用户输入一样验证大小,并添加全局“杀戮开关”来紧急禁用有问题的功能模块。 此外,事件暴露了调试系统的副作用:自动增强错误的 observability 工具消耗了过多 CPU,导致额外延迟。 总体上,这次 bug 提醒开发者,在 AI 和自动化时代,软件可靠性需通过持续集成和故障注入测试来提升。

与其他云服务中断的比较

这次故障让人不由得联想到上个月亚马逊 AWS 和微软 Azure 云服务的类似中断,那些事件同样因内部配置问题导致视频游戏、企业和交通公司的在线服务瘫痪数小时。 例如,AWS 的中断影响了 Netflix 和 Disney+ 的流媒体,而微软的故障波及 Xbox Live 和 Office 365,用户报告了全球范围的认证失败。 萨里大学网络安全教授 Alan Woodward 表示:“像 AWS 最近的故障一样,这次事件显示了一些关键互联网服务多么依赖少数大玩家。” 这些提供商如 Cloudflare、AWS 和 Google Cloud 需要庞大规模来支持全球品牌,提供低延迟和 DDoS 防护,但一旦单一故障点失效,影响就呈指数级放大。 Woodward 进一步指出,这是一个双刃剑:规模带来效率,但也制造了系统性风险,尤其在 AI 负载激增的背景下。

康奈尔大学科技政策研究所主任 Sarah Kreps 补充道“这个事件暴露了 AI 投资的可靠性只取决于那些最少审查的第三方基础设施。” 基础设施专家 Paul Bourne 分析,近年来中断频率上升,修复时间延长,这是 AI 训练需求、4K 流媒体和老化硬件共同作用的结果。 Cloudflare 的网络连接 13,000 个 ISP 和云平台,覆盖从电信到边缘计算的生态,这次故障类似于 2019 年其自身最大中断,但规模更大,因为互联网流量已翻倍。 与 2024 年 Fastly CDN 故障相比,Cloudflare 的恢复更快(不到 6 小时),但暴露了类似问题:过度集中化。 专家建议,企业应采用多云策略和备用提供商,以分散风险,而监管机构可能需推动基础设施多样化标准。

对互联网生态的影响

Cloudflare 处理全球 20% 的 web 流量,其服务不仅限于 CDN,还包括 DDoS 防护、DNS 解析和零信任安全,这让中断更具讽刺性——一个防护专家自己成了弱点。 事件导致数百万用户短暂脱离数字生活,从社交互动到 AI 辅助工作都受阻,凸显了互联网的脆弱性。 对于开发者来说,这提醒需多样化依赖,避免单一供应商锁定;Cloudflare 的仪表板中断也影响了客户配置变更,部分更新延迟传播。 用户层面,事件引发了对可靠性的担忧,尤其在 AI 时代,ChatGPT 等工具已成为日常必需。 经济影响包括股价波动和潜在业务损失,Cloudflare 市值超 300 亿美元,这次 1.5% 下跌反映了投资者对稳定性的敏感。

更广泛地,这次故障加剧了关于“数字单一故障点”的讨论,类似于 2021 年 Facebook 全球中断。 Cloudflare CEO Matthew Prince 在博客中道歉,称“任何系统中断都是不可接受的”,并承诺改进,包括消除错误报告淹没资源的可能性,以及审查所有核心代理模块的失败模式。 未来,云提供商需投资更多冗余,如自动化回滚和 AI 驱动的异常检测,以支撑数字经济的基础。 事件后,Cloudflare 表示将在 11 月 18 日结束时发布完整报告,并加强与客户的沟通机制,确保透明度。 总体而言,这次中断虽短暂,却为整个行业敲响警钟,推动更 resilient 的互联网架构。