AWS大中断 - Editorialge

October 20, 2025 Editorialge Chinese Desk

亚马逊网络服务中断影响主要网站：恢复开始前我们所知的情况

亚马逊网络服务（AWS），作为全球云计算基础设施市场的绝对领导者，于周一凌晨遭遇了一次大规模故障，这场突发事件导致众多知名网站和服务暂时中断运行，给数百万用户和企业带来了不便。目前，许多受影响的服务已逐步恢复正常，但部分问题仍需进一步监控和修复。根据AWS官方状态页面和多家媒体报道，这次故障的规模之大，凸显了现代数字经济对单一云提供商的深度依赖。故障最早于美国东部时间凌晨3:11在AWS的核心US-East-1区域被报告。这个区域位于弗吉尼亚北部，是AWS全球基础设施中最繁忙的枢纽之一，承载着海量数据处理和流量。根据AWS的实时状态页面显示，这次问题的根源在于DNS（域名系统）的异常。DNS就像互联网的“电话簿”，它负责将用户输入的网站名称（如www.amazon.com）翻译成计算机能识别的IP地址，从而让浏览器和其他应用程序顺利加载页面。如果DNS出问题，整个网站的访问链条就会断裂，导致用户看到加载失败或超时错误。具体来说，这次DNS故障直接波及了DynamoDB，这是AWS的一项关键数据库服务。DynamoDB是一种NoSQL数据库，专为高性能和可扩展性设计，许多AWS其他应用和服务都依赖它来存储和管理数据。例如，它支持从电商订单处理到实时数据分析的各种场景。AWS在东部时间凌晨5:01发布的更新中，将此次事件描述为“操作问题”，并指出它影响了“多个服务”。公司强调，他们正“通过多条平行路径加速恢复”，这意味着工程师团队同时在多个方向上排查和修复，包括优化网络路由、备份数据迁移和系统重启等技术措施。初步评估显示，超过70个AWS服务受到不同程度的冲击，这些服务涵盖计算、存储、网络和数据库等核心领域。不久之后，AWS在更新中报告称，已观察到“显著恢复迹象”，这包括部分服务的响应时间开始缩短，用户报告的错误率下降。到东部时间上午6:35，AWS正式宣布DNS问题已“完全缓解”，并且“AWS服务操作现已正常运行”。这一声明让许多企业松了一口气，因为它标志着中断的核心阶段已过去。然而，恢复并非一蹴而就。到东部时间上午10:14，AWS仍检测到“多个服务中的显著API错误和连接问题”。API，即应用程序编程接口，是软件之间沟通的桥梁，它允许不同系统无缝交换数据和指令。如果API出错，就会导致下游应用无法正常调用服务，比如一个电商App无法从后端拉取库存信息。这次残留问题的出现，提醒我们即使主故障修复，生态系统的连锁反应仍可能持续一段时间。 AWS在云计算基础设施市场占据约三分之一的份额，这一数据来自Synergy Research Group的最新行业报告。该报告基于2025年上半年全球云支出统计，显示AWS的收入和用户基数远超竞争对手微软Azure和谷歌云。全球数百万家公司和组织依赖AWS提供云服务，这些服务包括虚拟服务器、数据存储、机器学习工具和内容分发网络等。举例来说，小型初创企业可能用AWS托管网站，而大型金融机构则用它处理海量交易数据。这种广泛依赖使得任何AWS故障都可能放大成全球性事件，影响从日常购物到关键基础设施的方方面面。受影响的主要公司和服务这次AWS故障的波及范围极广，根据网站监控平台Downdetector的用户实时报告，众多主流服务都出现了访问中断或功能异常。Downdetector是一个独立的用户驱动平台，它通过聚合全球用户的反馈来追踪服务健康状况，避免了单一来源的偏差。受影响的服务包括亚马逊自家网站、Disney+流媒体平台、Lyft打车App、麦当劳的移动应用、《纽约时报》新闻门户、Reddit社交论坛、Ring智能门铃系统、Robinhood投资平台、Snapchat即时通讯、T-Mobile电信服务、联合航空官网、Venmo支付工具以及Verizon运营商服务。这些平台的用户报告显示，问题从无法登录到页面加载失败不等，许多人转向社交媒体分享经历，形成了一次“数字集体回忆”。在国际层面，英国政府网站Gov.uk和HM Revenue & Customs（英国税务海关总署）也遭受重创。根据Downdetector的数据，这些公共服务的中断可能影响公民的在线申报、查询和行政办理。一位英国政府发言人向CNBC确认了这一情况，并表示：“我们注意到亚马逊网络服务发生事件，影响了依赖其基础设施的多个在线服务。通过既定事件响应机制，我们正与公司联系，他们正努力尽快恢复服务。”这一声明反映了政府在数字时代对云服务的依赖，以及他们预设的应急流程，包括与提供商的直接沟通和备用系统切换。英国的劳埃德银行集团（Lloyds Banking Group），作为欧洲最大的银行之一，也证实部分在线服务中断。该集团通过官方渠道通知客户“耐心等待”，并表示团队正全力恢复。约20分钟后，他们更新称服务正逐步上线，这得益于银行的多云备份策略和快速 failover（故障转移）机制。尽管如此，这次中断仍可能导致客户延迟转账或查询余额，凸显金融行业对云可靠性的高要求。故障的冲击甚至延伸到亚马逊内部运营。仓库和配送员工，以及亚马逊Flex独立司机的内部系统在多个站点离线。根据Reddit上的员工分享，许多人报告称无法访问调度软件、库存管理系统和路线规划工具。有些仓库工人被指示在休息室或装货区待命，无法继续正常作业。更棘手的是，他们无法使用亚马逊的Anytime Pay App，这款App允许员工即时提取部分薪资，通常基于实时工作小时计算。这样的中断不仅影响生产效率，还可能引发员工不满和劳动力成本增加。