AWS-Ausfall: Amazon veröffentlicht detaillierten Ursachenbericht
Der großflächige Ausfall der Amazon-Web-Services (AWS) Anfang der Woche hatte zahlreiche Online-Dienste lahmgelegt von Prime Video bis zum Messenger Signal. Nun hat Amazon erstmals eine ausführliche Analyse vorgelegt, die den Ablauf und die Ursachen der Störung offenlegen.
Im Zentrum des Problems stand die Region Nord-Virginia (US-EAST-1), wo ein Fehler in DynamoDB, dem zentralen Datenbankdienst, eine Kettenreaktion verursachte. Ausgelöst wurde der Ausfall durch einen Defekt im automatischen DNS-Management, der zur fehlerhaften Namensauflösung des DynamoDB-Endpunkts führte. Dadurch konnten viele AWS-Dienste sowie auch Anwendungen von Kunden nicht mehr korrekt miteinander kommunizieren.
Der Ausfall verlief in drei Phasen:
- DynamoDB-Störung (8:48–11:40 Uhr MESZ): DNS-Probleme verhinderten den Zugriff auf die Datenbank.
- Fehler bei EC2-Instanzen (ab 11:25 Uhr): Neue Server konnten nicht starten, da ihre Status-Workflows auf DynamoDB angewiesen sind.
- Verbindungsprobleme bei Network Load Balancern (ab 14:30 Uhr): Fehlgeschlagene Health-Checks führten zu unnötigen Abschaltungen funktionierender Systeme.
Erst gegen Mitternacht zum Dienstag meldete Amazon dann wieder einen komplett normalen Betrieb.
Als Reaktion will Amazon nun mehrere Schutzmaßnahmen umsetzen und der automatische DNS-Aktualisierungsdienst wird vorerst deaktiviert bleiben, zudem erhalten die Load Balancer eine bessere Fehlerkontrolle und für EC2-Workflows werden neue Tests entwickelt um ähnliche Probleme künftig zu vermeiden.
