Cloudflare 漏洞导致部分网站离线

November 19, 2025 Editorialge Chinese Desk

您可以打开目录 show

周二，美国在线服务提供商 Cloudflare 遭遇了一个“潜在 bug”的问题，这导致包括社交网络 X 和 AI 聊天机器人 ChatGPT 在内的多个主要网站中断服务。网络监控网站 Downdetector 记录到，用户报告了 X、《英雄联盟》游戏以及谷歌和 OpenAI 部分服务的中断情况。 Cloudflare 专注于在线安全和内容分发网络（CDN），据其官方数据，该公司处理全球约 20% 的互联网流量，这次事件直接影响了数百万用户，并导致其股价在早盘交易中下跌 1.5%。

事件发生在 2025 年 11 月 18 日上午 11:20 UTC（协调世界时），从那时起，Cloudflare 的核心网络开始出现显著失败，无法正常传输流量，用户在访问其客户网站时会看到错误页面，显示 Cloudflare 网络内部故障。虽然中断持续时间不长，但其波及范围之广，凸显了现代互联网对少数基础设施提供商的依赖性。

故障细节与恢复过程

Cloudflare 首席技术官 Dane Knecht 在 X（前 Twitter）上发帖表示：“今天早些时候，我们的网络中出现了一个问题，影响了大量依赖我们的流量，这让我们的客户和整个互联网都受到了影响。” 他进一步解释，问题已经得到解决，但承认这是公司的一次重大失误。具体来说，这个潜在 bug 隐藏在支持机器人缓解功能的底层服务中，在一次常规配置变更后被触发，导致系统崩溃。 Cloudflare 的网络由分布在全球 330 个城市的数百万台服务器组成，这些服务器负责路由流量、应用安全规则和优化性能。此次故障的根源是一个自动生成的“特征文件”（feature file），这个文件用于 Bot Management 系统，帮助识别和阻挡自动化机器人攻击。由于数据库权限变更，这个文件的大小意外翻倍，从原本的固定大小膨胀到超出软件处理极限，导致路由软件崩溃，无法正确处理 HTTP 请求。

起初，Cloudflare 团队误以为这是大规模分布式拒绝服务（DDoS）攻击，因为流量指标显示异常激增和波动。实际上，这个文件每五分钟生成一次，由 ClickHouse 数据库集群处理。数据库集群正在逐步更新权限管理，只有更新后的节点才会产生“坏”文件，导致文件质量时好时坏，系统时而恢复时而崩溃，这种不稳定行为加剧了诊断难度。到 13:05 UTC，他们停止了坏文件的传播，并回滚到旧版本文件；核心流量在 14:30 UTC 基本恢复正常。接下来几小时，团队处理了流量回涌带来的负载高峰，包括重启受影响的服务和缓解延迟问题。直到 17:06 UTC，所有系统完全恢复正常，包括控制平面（如仪表板和 API）。

此外，一些边缘服务如 Workers KV（键值存储）和 Access（访问控制）也受波及，前者延迟增加，后者导致认证失败，但团队在 13:04 UTC 通过补丁绕过核心代理，减少了下游影响。整个恢复过程涉及多个工作流，包括手动插入已知好的配置文件、强制重启代理软件，以及监控 CPU 消耗，因为调试系统在错误高峰期消耗了大量资源。 Cloudflare 强调，这次事件不是网络攻击或恶意活动，而是内部软件逻辑问题，他们已开始调查如何防止类似权限变更引发连锁反应。

受影响的网站和服务

这次中断影响了广泛的在线平台和用户群体，全球范围内有数千条报告涌入 Downdetector，高峰期超过 11,000 条。社交平台 X 是最明显的受害者，用户无法加载时间线、发帖或查看通知，许多人报告页面卡在加载状态或显示 5xx 错误代码。 AI 服务方面，OpenAI 的 ChatGPT 完全无法访问，用户输入查询后看到服务器错误，影响了数百万日常用户；类似地，Anthropic 的 Claude AI 也短暂中断。视频游戏领域，《英雄联盟》（League of Legends）服务器连接失败，导致玩家无法登录或匹配游戏，Riot Games 确认了问题源于 Cloudflare 的 CDN 服务。其他知名服务包括设计工具 Canva（无法上传或编辑文件）、音乐平台 Spotify（播放中断）、出行应用 Uber（订单页面加载失败），甚至监控网站 DownDetector 本身也短暂离线，无法实时更新报告。

谷歌的部分服务如 YouTube 和 Google Drive 报告了间歇性延迟，而电影评论网站 Letterboxd 和电商平台 Shopify 的部分客户也受影响，无法处理支付或显示产品。 Cloudflare 的内部服务同样波及：Workers KV 响应率下降，导致依赖它的应用如 Cloudflare Access 认证失败，用户登录仪表板时看到错误页面；Turnstile（验证码服务）可用性降低，影响了登录流程。此外，Auto Move（自动迁移工具）的一些操作失败，但所有受影响的消息已被手动审查和修复。中断高峰期从 11:30 UTC 到 13:10 UTC 最严重，随后在 14:40 到 15:30 UTC 又出现次高峰，这是由于登录尝试积压和重试机制导致的延迟。全球用户反馈显示，美国、欧洲和亚洲均有报告，持续时间约 2-3 小时，但对依赖 Cloudflare 的小型网站影响更持久，因为它们缺乏备用路由。

潜在 bug 是什么？

潜在 bug（latent bug）是一种软件缺陷，它在常规测试和操作中不会显现，只有特定条件触发时才会暴露，通常隐藏在代码的边缘场景中。在 Cloudflare 的案例中，这个 bug 位于 Bot Management 模块的核心逻辑中，该模块负责检测恶意机器人流量，如爬虫或 DDoS 工具，通过分析请求模式来应用防护规则。这个 bug 源于数据库查询的权限更新：原本的查询设计假设固定输出，但更新后导致重复条目注入特征文件，使文件大小翻倍。特征文件被推送到网络中的所有机器，这些机器的路由软件有大小限制，超出后直接崩溃，返回 HTTP 5xx 错误。这种 bug 在复杂系统中常见，因为全面测试不可能覆盖所有配置组合；Cloudflare 的网络每天处理万亿请求，任何小变更都可能放大风险。

公司 CTO Dane Knecht 解释，这是一个“支撑机器人缓解能力的服务的潜在 bug”，在常规变更后崩溃。专家指出，潜在 bug 往往源于遗留代码与新功能的交互，Cloudflare 承诺将发布详细事件报告，包括根因分析和代码审查，以避免未来类似问题。例如，他们计划强化配置文件摄入机制，像处理用户输入一样验证大小，并添加全局“杀戮开关”来紧急禁用有问题的功能模块。此外，事件暴露了调试系统的副作用：自动增强错误的 observability 工具消耗了过多 CPU，导致额外延迟。总体上，这次 bug 提醒开发者，在 AI 和自动化时代，软件可靠性需通过持续集成和故障注入测试来提升。

与其他云服务中断的比较

这次故障让人不由得联想到上个月亚马逊 AWS 和微软 Azure 云服务的类似中断，那些事件同样因内部配置问题导致视频游戏、企业和交通公司的在线服务瘫痪数小时。例如，AWS 的中断影响了 Netflix 和 Disney+ 的流媒体，而微软的故障波及 Xbox Live 和 Office 365，用户报告了全球范围的认证失败。萨里大学网络安全教授 Alan Woodward 表示：“像 AWS 最近的故障一样，这次事件显示了一些关键互联网服务多么依赖少数大玩家。” 这些提供商如 Cloudflare、AWS 和 Google Cloud 需要庞大规模来支持全球品牌，提供低延迟和 DDoS 防护，但一旦单一故障点失效，影响就呈指数级放大。 Woodward 进一步指出，这是一个双刃剑：规模带来效率，但也制造了系统性风险，尤其在 AI 负载激增的背景下。

康奈尔大学科技政策研究所主任 Sarah Kreps 补充道“这个事件暴露了 AI 投资的可靠性只取决于那些最少审查的第三方基础设施。” 基础设施专家 Paul Bourne 分析，近年来中断频率上升，修复时间延长，这是 AI 训练需求、4K 流媒体和老化硬件共同作用的结果。 Cloudflare 的网络连接 13,000 个 ISP 和云平台，覆盖从电信到边缘计算的生态，这次故障类似于 2019 年其自身最大中断，但规模更大，因为互联网流量已翻倍。与 2024 年 Fastly CDN 故障相比，Cloudflare 的恢复更快（不到 6 小时），但暴露了类似问题：过度集中化。专家建议，企业应采用多云策略和备用提供商，以分散风险，而监管机构可能需推动基础设施多样化标准。

对互联网生态的影响

Cloudflare 处理全球 20% 的 web 流量，其服务不仅限于 CDN，还包括 DDoS 防护、DNS 解析和零信任安全，这让中断更具讽刺性——一个防护专家自己成了弱点。事件导致数百万用户短暂脱离数字生活，从社交互动到 AI 辅助工作都受阻，凸显了互联网的脆弱性。对于开发者来说，这提醒需多样化依赖，避免单一供应商锁定；Cloudflare 的仪表板中断也影响了客户配置变更，部分更新延迟传播。用户层面，事件引发了对可靠性的担忧，尤其在 AI 时代，ChatGPT 等工具已成为日常必需。经济影响包括股价波动和潜在业务损失，Cloudflare 市值超 300 亿美元，这次 1.5% 下跌反映了投资者对稳定性的敏感。

更广泛地，这次故障加剧了关于“数字单一故障点”的讨论，类似于 2021 年 Facebook 全球中断。 Cloudflare CEO Matthew Prince 在博客中道歉，称“任何系统中断都是不可接受的”，并承诺改进，包括消除错误报告淹没资源的可能性，以及审查所有核心代理模块的失败模式。未来，云提供商需投资更多冗余，如自动化回滚和 AI 驱动的异常检测，以支撑数字经济的基础。事件后，Cloudflare 表示将在 11 月 18 日结束时发布完整报告，并加强与客户的沟通机制，确保透明度。总体而言，这次中断虽短暂，却为整个行业敲响警钟，推动更 resilient 的互联网架构。

故障细节与恢复过程

受影响的网站和服务

潜在 bug 是什么？

与其他云服务中断的比较

对互联网生态的影响

You May Also Like

美国宇航局公布宇航员月球生活计划：住在月球尘埃制成的玻璃泡里

15项伺服、电机和驱动创新为中国机器人提供动力

上合组织峰会：包括莫迪和普京在内的世界领导人抵达中国