亚马逊 AWS 重大故障整整持续了 15 个小时,服务中断造成的损失可能高达数千亿美元
在全球依赖云计算的今天,亚马逊 AWS 的任何一次抖动,几乎都意味着互联网世界的一次“地震”。
而就在 10 月 20 日(美西时间),这场震动真实地发生了——持续超过 15 个小时的 AWS 服务中断,波及了全球数以千万计的企业与用户。
一、从 DNS 故障开始的“系统雪崩”
根据亚马逊官方说明,事故最早在 10 月 19 日晚 11:49(PDT) 出现:美国东部 1 区(US-EAST-1)的多个 AWS 服务出现了显著的延迟与错误率上升。
起初的原因看似简单:DynamoDB 区域端点的 DNS 解析出现异常,导致相关服务无法访问。
但问题在于,AWS 内部的很多关键系统——包括 EC2 实例启动模块、网络负载均衡器(NLB)、Lambda 调度、CloudWatch 监控 等——都不同程度依赖 DynamoDB。
当 DynamoDB 挂掉后,这些服务像骨牌一样接连出错。
官方在凌晨 2:24 修复了 DNS 问题,但由于 EC2 启动子系统对 DynamoDB 的反向依赖,故障迅速演变为经典的 循环依赖(Circular Dependency)灾难。