亚马逊网络服务中断影响主要网站：恢复开始前我们所知的情况

October 20, 2025 Editorialge Chinese Desk

您可以打开目录 show

亚马逊网络服务（AWS），作为全球云计算基础设施市场的绝对领导者，于周一凌晨遭遇了一次大规模故障，这场突发事件导致众多知名网站和服务暂时中断运行，给数百万用户和企业带来了不便。目前，许多受影响的服务已逐步恢复正常，但部分问题仍需进一步监控和修复。根据AWS官方状态页面和多家媒体报道，这次故障的规模之大，凸显了现代数字经济对单一云提供商的深度依赖。

故障最早于美国东部时间凌晨3:11在AWS的核心US-East-1区域被报告。这个区域位于弗吉尼亚北部，是AWS全球基础设施中最繁忙的枢纽之一，承载着海量数据处理和流量。根据AWS的实时状态页面显示，这次问题的根源在于DNS（域名系统）的异常。DNS就像互联网的“电话簿”，它负责将用户输入的网站名称（如www.amazon.com）翻译成计算机能识别的IP地址，从而让浏览器和其他应用程序顺利加载页面。如果DNS出问题，整个网站的访问链条就会断裂，导致用户看到加载失败或超时错误。

具体来说，这次DNS故障直接波及了DynamoDB，这是AWS的一项关键数据库服务。DynamoDB是一种NoSQL数据库，专为高性能和可扩展性设计，许多AWS其他应用和服务都依赖它来存储和管理数据。例如，它支持从电商订单处理到实时数据分析的各种场景。AWS在东部时间凌晨5:01发布的更新中，将此次事件描述为“操作问题”，并指出它影响了“多个服务”。公司强调，他们正“通过多条平行路径加速恢复”，这意味着工程师团队同时在多个方向上排查和修复，包括优化网络路由、备份数据迁移和系统重启等技术措施。初步评估显示，超过70个AWS服务受到不同程度的冲击，这些服务涵盖计算、存储、网络和数据库等核心领域。

不久之后，AWS在更新中报告称，已观察到“显著恢复迹象”，这包括部分服务的响应时间开始缩短，用户报告的错误率下降。到东部时间上午6:35，AWS正式宣布DNS问题已“完全缓解”，并且“AWS服务操作现已正常运行”。这一声明让许多企业松了一口气，因为它标志着中断的核心阶段已过去。然而，恢复并非一蹴而就。到东部时间上午10:14，AWS仍检测到“多个服务中的显著API错误和连接问题”。API，即应用程序编程接口，是软件之间沟通的桥梁，它允许不同系统无缝交换数据和指令。如果API出错，就会导致下游应用无法正常调用服务，比如一个电商App无法从后端拉取库存信息。这次残留问题的出现，提醒我们即使主故障修复，生态系统的连锁反应仍可能持续一段时间。

AWS在云计算基础设施市场占据约三分之一的份额，这一数据来自Synergy Research Group的最新行业报告。该报告基于2025年上半年全球云支出统计，显示AWS的收入和用户基数远超竞争对手微软Azure和谷歌云。全球数百万家公司和组织依赖AWS提供云服务，这些服务包括虚拟服务器、数据存储、机器学习工具和内容分发网络等。举例来说，小型初创企业可能用AWS托管网站，而大型金融机构则用它处理海量交易数据。这种广泛依赖使得任何AWS故障都可能放大成全球性事件，影响从日常购物到关键基础设施的方方面面。

受影响的主要公司和服务

这次AWS故障的波及范围极广，根据网站监控平台Downdetector的用户实时报告，众多主流服务都出现了访问中断或功能异常。Downdetector是一个独立的用户驱动平台，它通过聚合全球用户的反馈来追踪服务健康状况，避免了单一来源的偏差。受影响的服务包括亚马逊自家网站、Disney+流媒体平台、Lyft打车App、麦当劳的移动应用、《纽约时报》新闻门户、Reddit社交论坛、Ring智能门铃系统、Robinhood投资平台、Snapchat即时通讯、T-Mobile电信服务、联合航空官网、Venmo支付工具以及Verizon运营商服务。这些平台的用户报告显示，问题从无法登录到页面加载失败不等，许多人转向社交媒体分享经历，形成了一次“数字集体回忆”。

在国际层面，英国政府网站Gov.uk和HM Revenue & Customs（英国税务海关总署）也遭受重创。根据Downdetector的数据，这些公共服务的中断可能影响公民的在线申报、查询和行政办理。一位英国政府发言人向CNBC确认了这一情况，并表示：“我们注意到亚马逊网络服务发生事件，影响了依赖其基础设施的多个在线服务。通过既定事件响应机制，我们正与公司联系，他们正努力尽快恢复服务。”这一声明反映了政府在数字时代对云服务的依赖，以及他们预设的应急流程，包括与提供商的直接沟通和备用系统切换。

英国的劳埃德银行集团（Lloyds Banking Group），作为欧洲最大的银行之一，也证实部分在线服务中断。该集团通过官方渠道通知客户“耐心等待”，并表示团队正全力恢复。约20分钟后，他们更新称服务正逐步上线，这得益于银行的多云备份策略和快速 failover（故障转移）机制。尽管如此，这次中断仍可能导致客户延迟转账或查询余额，凸显金融行业对云可靠性的高要求。

故障的冲击甚至延伸到亚马逊内部运营。仓库和配送员工，以及亚马逊Flex独立司机的内部系统在多个站点离线。根据Reddit上的员工分享，许多人报告称无法访问调度软件、库存管理系统和路线规划工具。有些仓库工人被指示在休息室或装货区待命，无法继续正常作业。更棘手的是，他们无法使用亚马逊的Anytime Pay App，这款App允许员工即时提取部分薪资，通常基于实时工作小时计算。这样的中断不仅影响生产效率，还可能引发员工不满和劳动力成本增加。

亚马逊第三方卖家使用的Seller Central平台——一个集订单管理、库存跟踪和广告投放于一体的核心枢纽——也因故障完全离线。这对数百万卖家来说是重大打击，因为平台中断意味着他们无法监控销售、调整价格或处理退货，尤其在高峰购物季前夕。

社交平台Reddit的官方发言人向CNBC透露：“我们正在努力将Reddit恢复到100%容量。”Reddit作为用户生成内容的社区巨头，其流量高峰时每分钟处理数百万请求，这次故障暴露了其对AWS的深度整合，包括内容缓存和推荐算法。

航空业同样首当其冲。联合航空和达美航空（Delta Air Lines）的部分客户在社交媒体如X（前Twitter）和Facebook上报告，无法在线查找预订、办理登机手续或托运行李。这可能导致机场柜台拥堵和乘客延误。根据航空业数据，超过80%的航空公司依赖云服务管理予約系统，这次中断类似于2021年AWS故障时发生的场景，强调了实时数据同步的重要性。

其他领域的影响同样广泛。云游戏玩家报告Roblox和Fortnite等热门游戏中断，这些游戏依赖AWS的低延迟服务器来支持多人在线互动。加密货币交易所Coinbase表示，许多用户因API连接失败无法访问钱包或交易功能，这在波动市场中可能放大损失。

图形设计工具Canva，一款全球数亿用户青睐的在线创作平台，报告称“错误率显著增加，影响Canva功能”，根本原因是“底层云提供商出现重大问题”。Canva的模板库和协作功能高度依赖AWS存储，故障导致图像上传和编辑卡顿。

甚至生成式人工智能搜索工具Perplexity也未能幸免。作为一家新兴AI公司，Perplexity的CEO Aravind Srinivas在X上发帖解释：“根本原因是AWS问题。我们正在解决。”Perplexity使用AWS运行其大型语言模型和搜索索引，这次中断中断了用户的实时查询服务，影响了从学术研究到日常问答的多种应用。

集中式软件的脆弱性

这次AWS故障并非孤例，它再次揭示了全球科技基础设施的集中式风险。在数字化时代，许多企业将核心运营外包给少数云巨头，这虽然降低了初始成本，但也放大了单一故障点的影响。回顾历史，2024年7月，网络安全公司Crowdstrike的一次软件升级故障导致微软Windows系统全球崩溃。根据Crowdstrike的官方事后报告，这次事件源于一个缺陷的内核驱动更新，影响了数百万台设备，造成数亿美元经济损失。数千航班因此停飞，医院手术延误，银行ATM机瘫痪。这次“蓝屏危机”暴露了软件供应链的脆弱性，许多公司未及时测试更新，导致连锁反应。

AWS自身的历史故障记录同样触目惊心。2023年的一次中断持续数小时，影响了多家网站从电商到流媒体的服务，AWS事后分析显示问题是网络边缘设备故障。更为严重的则是2021年的全球性事件，当时一个数据中心容量超载导致服务瘫痪，包括亚马逊自身的配送业务一度停摆，包裹积压影响了数百万订单交付。AWS的内部报告强调，这些事件多源于内部配置错误或硬件老化，而非外部攻击。

网络安全专家对此次事件的初步评估一致认为，它并非网络攻击所致。NymVPN首席数字官Rob Jardin在官方声明中指出：“目前无迹象显示这次AWS中断由网络攻击引起，看起来是亚马逊主要数据中心的技术故障。这些问题常因系统过载或网络关键部分故障引发，由于众多网站和App依赖AWS，影响迅速扩散。”Jardin的观点基于NymVPN的网络监控数据，强调预防措施如负载均衡和冗余设计的重要性。

亚马逊发言人拒绝详细评论，仅将查询指向AWS的服务健康仪表板。这个仪表板提供实时指标，如错误率和可用性，帮助用户追踪恢复进展。

圣母大学门多萨商学院IT教授、曾任美国国家安全局计算机科学家的Mike Chapple提供了更深入的洞见。他在声明中解释：“DynamoDB不是大多数消费者熟悉的术语，但它是现代互联网的记录守护者。”Chapple进一步分析，早报显示问题并非数据库本身损坏——数据似乎完整无缺，而是“其他系统查找数据位置的记录出了问题”。这可能涉及元数据索引的同步失败，导致服务间通信中断。他补充道：“这提醒我们世界多么依赖少数主要云服务提供商：亚马逊、微软和谷歌。当主要云提供商出小问题，整个互联网都会感冒。”Chapple的分析基于其在国家安全领域的经验，以及对云架构的学术研究，帮助我们理解为什么一个区域故障能迅速全球化。

从更广视角看，这次事件凸显了企业数字化转型的双刃剑。一方面，云服务如AWS提供了前所未有的便利和规模化；另一方面，过度集中增加了系统性风险。行业专家建议，企业应采用多云策略、定期演练故障场景，并投资边缘计算来分散负载。随着恢复推进，AWS预计将发布详细根因分析报告，这将为未来防范提供宝贵教训。全球用户和企业将继续关注后续发展，确保数字经济的韧性不断提升。

该信息来自 CNBC 和 BBC。