亚马逊网络服务中断影响主要网站:恢复开始前我们所知的情况
亚马逊网络服务(AWS),作为全球云计算基础设施市场的绝对领导者,于周一凌晨遭遇了一次大规模故障,这场突发事件导致众多知名网站和服务暂时中断运行,给数百万用户和企业带来了不便。目前,许多受影响的服务已逐步恢复正常,但部分问题仍需进一步监控和修复。根据AWS官方状态页面和多家媒体报道,这次故障的规模之大,凸显了现代数字经济对单一云提供商的深度依赖。 故障最早于美国东部时间凌晨3:11在AWS的核心US-East-1区域被报告。这个区域位于弗吉尼亚北部,是AWS全球基础设施中最繁忙的枢纽之一,承载着海量数据处理和流量。根据AWS的实时状态页面显示,这次问题的根源在于DNS(域名系统)的异常。DNS就像互联网的“电话簿”,它负责将用户输入的网站名称(如www.amazon.com)翻译成计算机能识别的IP地址,从而让浏览器和其他应用程序顺利加载页面。如果DNS出问题,整个网站的访问链条就会断裂,导致用户看到加载失败或超时错误。 具体来说,这次DNS故障直接波及了DynamoDB,这是AWS的一项关键数据库服务。DynamoDB是一种NoSQL数据库,专为高性能和可扩展性设计,许多AWS其他应用和服务都依赖它来存储和管理数据。例如,它支持从电商订单处理到实时数据分析的各种场景。AWS在东部时间凌晨5:01发布的更新中,将此次事件描述为“操作问题”,并指出它影响了“多个服务”。公司强调,他们正“通过多条平行路径加速恢复”,这意味着工程师团队同时在多个方向上排查和修复,包括优化网络路由、备份数据迁移和系统重启等技术措施。初步评估显示,超过70个AWS服务受到不同程度的冲击,这些服务涵盖计算、存储、网络和数据库等核心领域。 不久之后,AWS在更新中报告称,已观察到“显著恢复迹象”,这包括部分服务的响应时间开始缩短,用户报告的错误率下降。到东部时间上午6:35,AWS正式宣布DNS问题已“完全缓解”,并且“AWS服务操作现已正常运行”。这一声明让许多企业松了一口气,因为它标志着中断的核心阶段已过去。然而,恢复并非一蹴而就。到东部时间上午10:14,AWS仍检测到“多个服务中的显著API错误和连接问题”。API,即应用程序编程接口,是软件之间沟通的桥梁,它允许不同系统无缝交换数据和指令。如果API出错,就会导致下游应用无法正常调用服务,比如一个电商App无法从后端拉取库存信息。这次残留问题的出现,提醒我们即使主故障修复,生态系统的连锁反应仍可能持续一段时间。 AWS在云计算基础设施市场占据约三分之一的份额,这一数据来自Synergy Research Group的最新行业报告。该报告基于2025年上半年全球云支出统计,显示AWS的收入和用户基数远超竞争对手微软Azure和谷歌云。全球数百万家公司和组织依赖AWS提供云服务,这些服务包括虚拟服务器、数据存储、机器学习工具和内容分发网络等。举例来说,小型初创企业可能用AWS托管网站,而大型金融机构则用它处理海量交易数据。这种广泛依赖使得任何AWS故障都可能放大成全球性事件,影响从日常购物到关键基础设施的方方面面。 受影响的主要公司和服务 这次AWS故障的波及范围极广,根据网站监控平台Downdetector的用户实时报告,众多主流服务都出现了访问中断或功能异常。Downdetector是一个独立的用户驱动平台,它通过聚合全球用户的反馈来追踪服务健康状况,避免了单一来源的偏差。受影响的服务包括亚马逊自家网站、Disney+流媒体平台、Lyft打车App、麦当劳的移动应用、《纽约时报》新闻门户、Reddit社交论坛、Ring智能门铃系统、Robinhood投资平台、Snapchat即时通讯、T-Mobile电信服务、联合航空官网、Venmo支付工具以及Verizon运营商服务。这些平台的用户报告显示,问题从无法登录到页面加载失败不等,许多人转向社交媒体分享经历,形成了一次“数字集体回忆”。 在国际层面,英国政府网站Gov.uk和HM Revenue & Customs(英国税务海关总署)也遭受重创。根据Downdetector的数据,这些公共服务的中断可能影响公民的在线申报、查询和行政办理。一位英国政府发言人向CNBC确认了这一情况,并表示:“我们注意到亚马逊网络服务发生事件,影响了依赖其基础设施的多个在线服务。通过既定事件响应机制,我们正与公司联系,他们正努力尽快恢复服务。”这一声明反映了政府在数字时代对云服务的依赖,以及他们预设的应急流程,包括与提供商的直接沟通和备用系统切换。 英国的劳埃德银行集团(Lloyds Banking Group),作为欧洲最大的银行之一,也证实部分在线服务中断。该集团通过官方渠道通知客户“耐心等待”,并表示团队正全力恢复。约20分钟后,他们更新称服务正逐步上线,这得益于银行的多云备份策略和快速 failover(故障转移)机制。尽管如此,这次中断仍可能导致客户延迟转账或查询余额,凸显金融行业对云可靠性的高要求。 故障的冲击甚至延伸到亚马逊内部运营。仓库和配送员工,以及亚马逊Flex独立司机的内部系统在多个站点离线。根据Reddit上的员工分享,许多人报告称无法访问调度软件、库存管理系统和路线规划工具。有些仓库工人被指示在休息室或装货区待命,无法继续正常作业。更棘手的是,他们无法使用亚马逊的Anytime Pay App,这款App允许员工即时提取部分薪资,通常基于实时工作小时计算。这样的中断不仅影响生产效率,还可能引发员工不满和劳动力成本增加。
Read More