AWS大中断技术新闻

亚马逊网络服务中断影响主要网站:恢复开始前我们所知的情况


亚马逊网络服务(AWS),作为全球云计算基础设施市场的绝对领导者,于周一凌晨遭遇了一次大规模故障,这场突发事件导致众多知名网站和服务暂时中断运行,给数百万用户和企业带来了不便。目前,许多受影响的服务已逐步恢复正常,但部分问题仍需进一步监控和修复。根据AWS官方状态页面和多家媒体报道,这次故障的规模之大,凸显了现代数字经济对单一云提供商的深度依赖。

故障最早于美国东部时间凌晨3:11在AWS的核心US-East-1区域被报告。这个区域位于弗吉尼亚北部,是AWS全球基础设施中最繁忙的枢纽之一,承载着海量数据处理和流量。根据AWS的实时状态页面显示,这次问题的根源在于DNS(域名系统)的异常。DNS就像互联网的“电话簿”,它负责将用户输入的网站名称(如www.amazon.com)翻译成计算机能识别的IP地址,从而让浏览器和其他应用程序顺利加载页面。如果DNS出问题,整个网站的访问链条就会断裂,导致用户看到加载失败或超时错误。

具体来说,这次DNS故障直接波及了DynamoDB,这是AWS的一项关键数据库服务。DynamoDB是一种NoSQL数据库,专为高性能和可扩展性设计,许多AWS其他应用和服务都依赖它来存储和管理数据。例如,它支持从电商订单处理到实时数据分析的各种场景。AWS在东部时间凌晨5:01发布的更新中,将此次事件描述为“操作问题”,并指出它影响了“多个服务”。公司强调,他们正“通过多条平行路径加速恢复”,这意味着工程师团队同时在多个方向上排查和修复,包括优化网络路由、备份数据迁移和系统重启等技术措施。初步评估显示,超过70个AWS服务受到不同程度的冲击,这些服务涵盖计算、存储、网络和数据库等核心领域。

不久之后,AWS在更新中报告称,已观察到“显著恢复迹象”,这包括部分服务的响应时间开始缩短,用户报告的错误率下降。到东部时间上午6:35,AWS正式宣布DNS问题已“完全缓解”,并且“AWS服务操作现已正常运行”。这一声明让许多企业松了一口气,因为它标志着中断的核心阶段已过去。然而,恢复并非一蹴而就。到东部时间上午10:14,AWS仍检测到“多个服务中的显著API错误和连接问题”。API,即应用程序编程接口,是软件之间沟通的桥梁,它允许不同系统无缝交换数据和指令。如果API出错,就会导致下游应用无法正常调用服务,比如一个电商App无法从后端拉取库存信息。这次残留问题的出现,提醒我们即使主故障修复,生态系统的连锁反应仍可能持续一段时间。

AWS在云计算基础设施市场占据约三分之一的份额,这一数据来自Synergy Research Group的最新行业报告。该报告基于2025年上半年全球云支出统计,显示AWS的收入和用户基数远超竞争对手微软Azure和谷歌云。全球数百万家公司和组织依赖AWS提供云服务,这些服务包括虚拟服务器、数据存储、机器学习工具和内容分发网络等。举例来说,小型初创企业可能用AWS托管网站,而大型金融机构则用它处理海量交易数据。这种广泛依赖使得任何AWS故障都可能放大成全球性事件,影响从日常购物到关键基础设施的方方面面。

受影响的主要公司和服务

这次AWS故障的波及范围极广,根据网站监控平台Downdetector的用户实时报告,众多主流服务都出现了访问中断或功能异常。Downdetector是一个独立的用户驱动平台,它通过聚合全球用户的反馈来追踪服务健康状况,避免了单一来源的偏差。受影响的服务包括亚马逊自家网站、Disney+流媒体平台、Lyft打车App、麦当劳的移动应用、《纽约时报》新闻门户、Reddit社交论坛、Ring智能门铃系统、Robinhood投资平台、Snapchat即时通讯、T-Mobile电信服务、联合航空官网、Venmo支付工具以及Verizon运营商服务。这些平台的用户报告显示,问题从无法登录到页面加载失败不等,许多人转向社交媒体分享经历,形成了一次“数字集体回忆”。

在国际层面,英国政府网站Gov.uk和HM Revenue & Customs(英国税务海关总署)也遭受重创。根据Downdetector的数据,这些公共服务的中断可能影响公民的在线申报、查询和行政办理。一位英国政府发言人向CNBC确认了这一情况,并表示:“我们注意到亚马逊网络服务发生事件,影响了依赖其基础设施的多个在线服务。通过既定事件响应机制,我们正与公司联系,他们正努力尽快恢复服务。”这一声明反映了政府在数字时代对云服务的依赖,以及他们预设的应急流程,包括与提供商的直接沟通和备用系统切换。

英国的劳埃德银行集团(Lloyds Banking Group),作为欧洲最大的银行之一,也证实部分在线服务中断。该集团通过官方渠道通知客户“耐心等待”,并表示团队正全力恢复。约20分钟后,他们更新称服务正逐步上线,这得益于银行的多云备份策略和快速 failover(故障转移)机制。尽管如此,这次中断仍可能导致客户延迟转账或查询余额,凸显金融行业对云可靠性的高要求。

故障的冲击甚至延伸到亚马逊内部运营。仓库和配送员工,以及亚马逊Flex独立司机的内部系统在多个站点离线。根据Reddit上的员工分享,许多人报告称无法访问调度软件、库存管理系统和路线规划工具。有些仓库工人被指示在休息室或装货区待命,无法继续正常作业。更棘手的是,他们无法使用亚马逊的Anytime Pay App,这款App允许员工即时提取部分薪资,通常基于实时工作小时计算。这样的中断不仅影响生产效率,还可能引发员工不满和劳动力成本增加。

亚马逊第三方卖家使用的Seller Central平台——一个集订单管理、库存跟踪和广告投放于一体的核心枢纽——也因故障完全离线。这对数百万卖家来说是重大打击,因为平台中断意味着他们无法监控销售、调整价格或处理退货,尤其在高峰购物季前夕。

社交平台Reddit的官方发言人向CNBC透露:“我们正在努力将Reddit恢复到100%容量。”Reddit作为用户生成内容的社区巨头,其流量高峰时每分钟处理数百万请求,这次故障暴露了其对AWS的深度整合,包括内容缓存和推荐算法。

航空业同样首当其冲。联合航空和达美航空(Delta Air Lines)的部分客户在社交媒体如X(前Twitter)和Facebook上报告,无法在线查找预订、办理登机手续或托运行李。这可能导致机场柜台拥堵和乘客延误。根据航空业数据,超过80%的航空公司依赖云服务管理予約系统,这次中断类似于2021年AWS故障时发生的场景,强调了实时数据同步的重要性。

其他领域的影响同样广泛。云游戏玩家报告Roblox和Fortnite等热门游戏中断,这些游戏依赖AWS的低延迟服务器来支持多人在线互动。加密货币交易所Coinbase表示,许多用户因API连接失败无法访问钱包或交易功能,这在波动市场中可能放大损失。

图形设计工具Canva,一款全球数亿用户青睐的在线创作平台,报告称“错误率显著增加,影响Canva功能”,根本原因是“底层云提供商出现重大问题”。Canva的模板库和协作功能高度依赖AWS存储,故障导致图像上传和编辑卡顿。

甚至生成式人工智能搜索工具Perplexity也未能幸免。作为一家新兴AI公司,Perplexity的CEO Aravind Srinivas在X上发帖解释:“根本原因是AWS问题。我们正在解决。”Perplexity使用AWS运行其大型语言模型和搜索索引,这次中断中断了用户的实时查询服务,影响了从学术研究到日常问答的多种应用。

集中式软件的脆弱性

这次AWS故障并非孤例,它再次揭示了全球科技基础设施的集中式风险。在数字化时代,许多企业将核心运营外包给少数云巨头,这虽然降低了初始成本,但也放大了单一故障点的影响。回顾历史,2024年7月,网络安全公司Crowdstrike的一次软件升级故障导致微软Windows系统全球崩溃。根据Crowdstrike的官方事后报告,这次事件源于一个缺陷的内核驱动更新,影响了数百万台设备,造成数亿美元经济损失。数千航班因此停飞,医院手术延误,银行ATM机瘫痪。这次“蓝屏危机”暴露了软件供应链的脆弱性,许多公司未及时测试更新,导致连锁反应。

AWS自身的历史故障记录同样触目惊心。2023年的一次中断持续数小时,影响了多家网站从电商到流媒体的服务,AWS事后分析显示问题是网络边缘设备故障。更为严重的则是2021年的全球性事件,当时一个数据中心容量超载导致服务瘫痪,包括亚马逊自身的配送业务一度停摆,包裹积压影响了数百万订单交付。AWS的内部报告强调,这些事件多源于内部配置错误或硬件老化,而非外部攻击。

网络安全专家对此次事件的初步评估一致认为,它并非网络攻击所致。NymVPN首席数字官Rob Jardin在官方声明中指出:“目前无迹象显示这次AWS中断由网络攻击引起,看起来是亚马逊主要数据中心的技术故障。这些问题常因系统过载或网络关键部分故障引发,由于众多网站和App依赖AWS,影响迅速扩散。”Jardin的观点基于NymVPN的网络监控数据,强调预防措施如负载均衡和冗余设计的重要性。

亚马逊发言人拒绝详细评论,仅将查询指向AWS的服务健康仪表板。这个仪表板提供实时指标,如错误率和可用性,帮助用户追踪恢复进展。

圣母大学门多萨商学院IT教授、曾任美国国家安全局计算机科学家的Mike Chapple提供了更深入的洞见。他在声明中解释:“DynamoDB不是大多数消费者熟悉的术语,但它是现代互联网的记录守护者。”Chapple进一步分析,早报显示问题并非数据库本身损坏——数据似乎完整无缺,而是“其他系统查找数据位置的记录出了问题”。这可能涉及元数据索引的同步失败,导致服务间通信中断。他补充道:“这提醒我们世界多么依赖少数主要云服务提供商:亚马逊、微软和谷歌。当主要云提供商出小问题,整个互联网都会感冒。”Chapple的分析基于其在国家安全领域的经验,以及对云架构的学术研究,帮助我们理解为什么一个区域故障能迅速全球化。

从更广视角看,这次事件凸显了企业数字化转型的双刃剑。一方面,云服务如AWS提供了前所未有的便利和规模化;另一方面,过度集中增加了系统性风险。行业专家建议,企业应采用多云策略、定期演练故障场景,并投资边缘计算来分散负载。随着恢复推进,AWS预计将发布详细根因分析报告,这将为未来防范提供宝贵教训。全球用户和企业将继续关注后续发展,确保数字经济的韧性不断提升。

该信息来自 CNBC 和 BBC。