标签亚马逊下的文章

作者: Tony

时间: 2025-10-21

在全球依赖云计算的今天，亚马逊 AWS 的任何一次抖动，几乎都意味着互联网世界的一次“地震”。

而就在 10 月 20 日（美西时间），这场震动真实地发生了——持续超过 15 个小时的 AWS 服务中断，波及了全球数以千万计的企业与用户。

一、从 DNS 故障开始的“系统雪崩”

根据亚马逊官方说明，事故最早在 10 月 19 日晚 11:49（PDT）出现：美国东部 1 区（US-EAST-1）的多个 AWS 服务出现了显著的延迟与错误率上升。

起初的原因看似简单：DynamoDB 区域端点的 DNS 解析出现异常，导致相关服务无法访问。

但问题在于，AWS 内部的很多关键系统——包括 EC2 实例启动模块、网络负载均衡器（NLB）、Lambda 调度、CloudWatch 监控等——都不同程度依赖 DynamoDB。

当 DynamoDB 挂掉后，这些服务像骨牌一样接连出错。

官方在凌晨 2:24 修复了 DNS 问题，但由于 EC2 启动子系统对 DynamoDB 的反向依赖，故障迅速演变为经典的循环依赖（Circular Dependency）灾难。