Oder: Warum „unbeabsichtigte Konfigurationsänderungen“ das neue Unwort des Jahres werden sollten
Habt ihr gedacht, nach dem großen AWS-Desaster vom 20. Oktober (und der detaillierten technischen Nachlese) hätten wir unsere Lektion gelernt? Haha, schön wär’s! Keine neun Tage später, gestern am 29. Oktober 2025, hat Microsoft bewiesen, dass man auch ohne DNS-Race-Conditions das Internet lahmlegen kann.
Man braucht nur eine „unbeabsichtigte Konfigurationsänderung“ bei Azure Front Door, und schon steht die digitale Welt wieder still. Willkommen zum zweiten Akt des Cloud-Chaos im Oktober!
Timeline: Ein Nachmittag im digitalen Chaos
17:00 Uhr MEZ – Es fängt an
Gegen 16:00 UTC (17:00 Uhr bei uns) begannen die ersten Meldungen: Microsoft-Dienste reagierten nicht mehr oder nur noch sehr träge. Was zunächst wie ein kleiner Schluckauf aussah, entpuppte sich schnell als ausgewachsene Störung.
17:06 Uhr MEZ – Microsoft erkennt das Problem
Microsoft veröffentlichte die erste offizielle Störungsmeldung im Admin Center mit der Problem-ID MO1181369. Die betroffenen Dienste lesen sich wie eine Best-of-Liste der Microsoft-Cloud:
- Exchange Online (bye bye, E-Mails!)
- Microsoft 365 suite (Excel, Word, PowerPoint im Koma)
- Microsoft Defender XDR (Sicherheit? Welche Sicherheit?)
- Microsoft Entra (ehemals Azure AD – Authentifizierung down!)
- Microsoft Intune (Device Management ade)
- Microsoft Purview (Compliance-Albtraum)
- Power Apps (alle eure Custom-Apps: tot)
Besonders pikant: Auch das Microsoft 365 Admin Center selbst war betroffen. Das ist so, als würde die Feuerwehr brennen, während überall Feuer ausbrechen. Admins standen da und konnten buchstäblich nichts tun, außer hilflos zu gucken.
17:21 Uhr MEZ – Die erste Analyse
Microsoft gab bekannt: „Wir untersuchen Meldungen eines Problems, das Microsoft Azure und Microsoft 365-Dienste betrifft.“ Keine Panik, alles unter Kontrolle! (Spoiler: War es nicht.)
17:28 Uhr MEZ – DNS strikes again!
Und da war es wieder, das alte Admin-Trauma: „It’s always DNS!“ Microsoft bestätigte, dass DNS-Probleme die Ursache waren. Konkret ging es um die Netzwerk- und Hosting-Infrastruktur, die sich in einem „ungesunden Zustand“ befand.
Für die Nicht-Techniker unter euch: DNS (Domain Name System) ist quasi das Telefonbuch des Internets. Wenn das nicht funktioniert, können Computer nicht mehr miteinander reden, weil sie nicht wissen, wo sie sich gegenseitig finden. Kein DNS, kein Internet. So einfach ist das.
17:36 Uhr MEZ – Verkehr wird umgeleitet
Microsoft versuchte, den Datenverkehr auf alternative, gesunde Infrastruktur umzuleiten. Das ist so, als würde man bei einem Stau auf der Autobahn versuchen, alle Autos über Feldwege umzuleiten. Klingt gut in der Theorie…
18:17 Uhr MEZ – Die Ursache wird gefunden
Jetzt wurde es konkret: „We’ve identified a recent configuration change to a portion of Azure infrastructure which we believe is causing the impact.“
Eine „unbeabsichtigte Konfigurationsänderung“ – das ist Cloud-Sprech für: „Jemand hat irgendwo einen falschen Knopf gedrückt.“ Das Problem betraf speziell Azure Front Door, Microsofts Content Delivery Network (CDN).
18:24 Uhr UTC – Rollback wird eingeleitet
Microsoft begann mit dem Deployment der „last known good configuration“ – also dem Zurückrollen zur letzten funktionierenden Einstellung. Geschätzte Dauer: 30 Minuten. (Spoiler Nr. 2: Es dauerte viel länger.)
Parallel dazu blockierte Microsoft alle Kunden-Konfigurationsänderungen temporär, um weitere Chaos zu vermeiden. Stellt euch vor, ihr versucht, ein brennendes Haus zu löschen, während Leute weiter Möbel hineinschleppen.
19:57 Uhr UTC – Erste Anzeichen der Besserung
Das Rollback war abgeschlossen, und Microsoft begann, Knoten wiederherzustellen und Traffic durch gesunde Knoten zu leiten. Erwartete vollständige Wiederherstellung: bis 23:20 UTC (00:20 Uhr MEZ). Also noch mal vier Stunden warten.
Kurz nach 02:00 Uhr MEZ (30. Oktober) – Entwarnung
Nach über acht Stunden Ausfall erklärte Microsoft das Problem für behoben. Acht Stunden! In der digitalen Welt eine halbe Ewigkeit.
Was ist Azure Front Door überhaupt?
Bevor wir tiefer einsteigen, eine kurze Erklärung für alle, die nicht jeden Tag mit Cloud-Infrastruktur zu tun haben:
Azure Front Door ist Microsofts globales Content Delivery Network (CDN) und Application Delivery Network (ADN). Einfacher gesagt: Es ist die „Eingangstür“ für praktisch alle Azure- und Microsoft 365-Dienste weltweit.
Front Door erledigt mehrere kritische Aufgaben:
- Load Balancing: Verteilt eingehenden Traffic auf verschiedene Server
- Caching: Speichert häufig abgerufene Inhalte zwischen, damit sie schneller geladen werden
- DDoS-Schutz: Filtert Angriffe und Bots heraus
- SSL-Terminierung: Entschlüsselt verschlüsselte Verbindungen
- Routing: Leitet Anfragen an die geografisch nächsten oder am wenigsten ausgelasteten Server
Wenn Front Door ausfällt, ist das so, als würde die Hauptpforte eines riesigen Gebäudekomplexes zugeschlagen – niemand kommt mehr rein, egal wie wichtig das Anliegen ist.
Die technische Dimension: Was genau ist passiert?
Aus den offiziellen Statusmeldungen und Berichten lässt sich folgendes Szenario rekonstruieren:
Phase 1: Die fatale Konfigurationsänderung
Irgendwann vor 16:00 UTC wurde eine Konfigurationsänderung in der Azure Front Door-Infrastruktur vorgenommen. Microsoft nennt es „inadvertent“ (unbeabsichtigt) – was wahrscheinlich bedeutet, dass entweder:
- Ein automatisierter Prozess eine fehlerhafte Änderung durchgeführt hat
- Eine manuelle Änderung unerwartete Nebenwirkungen hatte
- Ein Deployment-Prozess schiefgelaufen ist
Diese Änderung führte zu DNS-Problemen. Konkret bedeutet das: Die DNS-Einträge, die Clients sagen, wo sie die Azure-Services finden, waren plötzlich falsch, unvollständig oder gar nicht mehr vorhanden.
Phase 2: Die Kaskade beginnt
Weil Front Door als zentrale Komponente fungiert, begann eine Kettenreaktion:
- Primäre Services betroffen: Outlook, Microsoft 365, Exchange Online waren direkt betroffen
- Admin-Tools fallen aus: Das Microsoft 365 Admin Center und das Azure Portal waren teilweise nicht erreichbar – ausgerechnet die Tools, die Admins zur Problemlösung brauchen
- Authentifizierung versagt: Microsoft Entra (Azure AD) hatte Probleme, was bedeutete, dass sich viele User überhaupt nicht mehr anmelden konnten
- Security-Tools down: Microsoft Defender XDR und Microsoft Purview waren betroffen – Sicherheit und Compliance waren buchstäblich blind
Phase 3: Der Versuch, das Portal zu retten
Microsoft unternahm einen interessanten Schritt: Sie „failed the portal away from AFD“ – also leiteten das Azure Portal so um, dass es Front Door umging und direkt erreichbar war. Das funktionierte teilweise, aber einige Portal-Erweiterungen (wie der Marketplace) blieben problematisch.
Das ist so, als würde man eine Notleiter an einem brennenden Gebäude anbringen – funktioniert, aber nur eingeschränkt.
Phase 4: Der Rollback-Marathon
Das Zurückrollen zur letzten funktionierenden Konfiguration dauerte Stunden. Warum so lange? Weil Azure Front Door global verteilt ist und die Änderungen über Hunderte von Servern in dutzenden Rechenzentren weltweit propagiert werden mussten.
Während des Rollbacks mussten die Techniker:
- Die „last known good configuration“ identifizieren
- Diese Konfiguration deployen (30+ Minuten)
- Knoten Stück für Stück wiederherstellen
- Traffic schrittweise durch gesunde Knoten leiten
- Überwachen, dass nicht noch mehr kaputt geht
Die Kollateralschäden: Wer war alles betroffen?
Fluggesellschaften im Chaos
Alaska Airlines und Hawaiian Airlines meldeten, dass sie aufgrund der Azure-Probleme keinen Zugriff auf kritische Systeme hatten. Die Webseiten der Airlines waren down, der Online-Check-in funktionierte nicht. Fluggäste mussten sich am Flughafen in lange Schlangen einreihen und manuell eingecheckt werden.
Stellt euch vor: Ihr steht am Flughafen, euer Flug geht in einer Stunde, und plötzlich müssen alle Passagiere manuell eingecheckt werden, weil die Cloud nicht funktioniert. Willkommen in den 1990ern!
Einzelhandel und Gastronomie
In den USA meldeten mehrere große Ketten Probleme:
- Kroger (Sanitäranlagenhersteller)
- Costco (Großhändler)
- Starbucks (Kaffeehauskette)
Bei Starbucks bedeutete das konkret: Die Mobile-App funktionierte nicht, Mobile Payment war tot, und das Personal musste auf alte manuelle Systeme zurückgreifen.
Gaming und Entertainment
- Xbox Live: Spieler konnten sich nicht einloggen, Multiplayer-Games waren nicht erreichbar
- Minecraft: Schon wieder! Nach dem AWS-Ausfall nun auch der Azure-Ausfall. Die Minecraft-Community hatte einen schwarzen Oktober.
Business-kritische Dienste
Besonders schmerzhaft war der Ausfall für professionelle Nutzer:
CodeTwo (E-Mail-Signature-Management) meldete globale Performance-Probleme in mehreren Regionen:
- Deutschland West Central
- Australia East
- Canada East
- Und 13 weitere Komponenten
SpeechLive (Cloud-Diktierlösung für Anwälte und Ärzte) war komplett down. Stellt euch vor, ihr seid Arzt, müsst dringend Patientenakten diktieren, und eure Cloud-Software streikt. Keine gute Situation.
TeamViewer (web.teamviewer.com) war betroffen – Remote-Support wurde zur Herausforderung.
Die deutsche Perspektive
Auch in Deutschland gab es Auswirkungen, die über die direkten Microsoft-Dienste hinausgingen:
- Verschiedene ISPs (1&1, Vodafone Cable) meldeten erhöhte Störungsmeldungen – vermutlich, weil viele User dachten, ihr Internet sei kaputt, obwohl es „nur“ die Cloud war
- Einige Nutzer berichteten, dass selbst Seiten, die nicht bei Azure gehostet werden, langsamer luden – ein Hinweis darauf, wie weit die DNS-Probleme reichten
- Der Blog BornCity.com hatte kurzfristige Ausfälle, obwohl er bei all-inkl.com gehostet wird – möglicherweise wegen DNS-Propagierungsproblemen
AWS: Eine Woche zuvor das gleiche Spiel
Schauen wir zurück zum 20. Oktober 2025. Morgens um 9:30 Uhr deutscher Zeit begann das große Zittern: AWS, der weltgrößte Cloud-Anbieter, bekam in der Region US-EAST-1 massive Probleme. Und weil diese Region so zentral ist, fiel praktisch das halbe Internet aus.
Der Dominoeffekt
Die Liste der betroffenen Dienste liest sich wie ein Who’s Who des Internets:
- Signal, Snapchat, Zoom, Slack
- Fortnite, Roblox, Minecraft (ja, schon wieder)
- Tinder (kein Date für euch!)
- Amazon Prime Video, Alexa
- Coinbase, Robinhood, Venmo
- Perplexity AI, Canva, Duolingo
- Autodesk (lokale Installationen funktionierten nicht, weil die Lizenzserver nicht erreichbar waren)
- In Deutschland: Die Gematik hatte TI-Störungen bei eRezept und ePA, weil Krankenkassen AWS nutzten
Über 8,1 Millionen Beschwerden gingen ein, mehr als 2.000 Webseiten und Apps waren betroffen. Sogar „Eight Sleep“ – ein smartes Bettsystem, das Temperatur und Neigung automatisch anpasst – funktionierte nicht mehr. Die Leute konnten nicht mal mehr bequem schlafen!
Die technische Ursache: Eine Race Condition
Was war die Ursache? Eine sogenannte „Race Condition“ im DNS-System von AWS. Zwei automatisierte Prozesse versuchten gleichzeitig, Änderungen in verschiedenen Regionen vorzunehmen, und – Puff! – die gesamte DNS-Tabelle war leer. Die Server wussten plötzlich nicht mehr, wie sie miteinander kommunizieren sollten.
Der primär betroffene Service war DynamoDB, ein Datenbank-Service, den AWS auch intern nutzt. Als DynamoDB ausfiel, zog es eine Kaskade nach sich: EC2 (virtuelle Server) und Lambda (serverloser Code) waren ebenfalls betroffen. Ein klassischer Single Point of Failure.
AWS brauchte etwa drei Stunden, um die Ursache zu finden und zu beheben. Aber die Nachwirkungen waren noch Stunden später spürbar.
Das große Bild: Cloud-Abhängigkeit als Risiko
Zwei massive Ausfälle innerhalb von neun Tagen. Beide Male die gleiche Grundursache: DNS-Probleme in zentralen Cloud-Infrastrukturen. Was können wir daraus lernen?
1. Single Point of Failure ist real
Egal wie groß und mächtig ein Cloud-Anbieter ist – wenn er ausfällt, fällt oft das halbe Internet mit. AWS und Azure sind so dominant, dass ihre Ausfälle globale Auswirkungen haben. Zusammen kontrollieren AWS, Microsoft Azure und Google Cloud etwa 65% des weltweiten Cloud-Marktes. Das ist eine gewaltige Machtkonzentration.
2. „Multi-Cloud“ ist kein Luxus, sondern Pflicht
Experten warnen schon lange: Wer alle seine Dienste auf einen Cloud-Anbieter setzt, geht ein enormes Risiko ein. Multi-Cloud-Strategien, bei denen ihr eure Infrastruktur auf mehrere Anbieter verteilt, sind heute unverzichtbar. Ja, das ist komplexer und teurer – aber ein achtstündiger Ausfall kann euch noch viel mehr kosten.
3. Failover-Strategien müssen her
Habt ihr einen Plan B? Und einen Plan C? Unternehmen brauchen:
- Automatische Failover-Systeme, die bei Ausfällen auf alternative Infrastruktur umschalten
- Redundante Backups auf verschiedenen Plattformen
- CDNs mit Multiple Origins, sodass Inhalte von verschiedenen Quellen ausgeliefert werden können
- Regelmäßige Tests eurer Notfallpläne (nicht erst, wenn’s brennt!)
4. DNS bleibt die Achillesferse
Beide Ausfälle hatten DNS-Probleme als Ursache. Das Domain Name System ist das Nervensystem des Internets – wenn es ausfällt, ist Chaos vorprogrammiert. Unternehmen sollten:
- Verteilte DNS-Strategien nutzen
- Mehrere DNS-Provider einsetzen
- DNS-Caching intelligent konfigurieren
5. Die menschliche Komponente
In beiden Fällen waren es „unbeabsichtigte Konfigurationsänderungen“ bzw. automatisierte Prozesse, die außer Kontrolle gerieten. Das zeigt: Selbst bei den Tech-Giganten ist die Komplexität der Systeme so hoch, dass Fehler passieren. Und wenn sie passieren, haben sie globale Auswirkungen.
Microsoft-Nutzer kommentierten sarkastisch: „Wenn es nicht kaputt ist, repariere es nicht!“ Das alte Sprichwort „If it’s not broken, don’t fix it“ scheint bei Microsoft und Co. in Vergessenheit geraten zu sein.
Was bedeutet das für euch?
Ob ihr ein Unternehmen führt, IT-Admin seid oder einfach nur Cloud-Dienste nutzt – diese Ausfälle sind ein Weckruf:
Für Unternehmen:
- Diversifiziert eure Cloud-Infrastruktur. Setzt nicht alles auf eine Karte.
- Testet eure Notfallpläne regelmäßig. Wenn AWS oder Azure ausfallen, wisst ihr dann, was zu tun ist?
- Kommuniziert proaktiv mit euren Kunden, wenn Probleme auftreten. Transparenz schafft Vertrauen.
- Behaltet kritische Funktionen lokal. Nicht alles muss in der Cloud sein.
Für Privatnutzer:
- Habt Backup-Lösungen für wichtige Dienste. Wenn Outlook down ist, könnt ihr auf euer E-Mail-Programm oder Webmail zugreifen?
- Nutzt verschiedene Plattformen für unterschiedliche Zwecke. Alle Eier in einem Korb ist nie eine gute Idee.
- Ladet wichtige Daten lokal herunter. Die Cloud ist praktisch, aber kein Ersatz für lokale Backups.
Für die Politik:
Die EU arbeitet bereits an strengeren Regelungen wie dem Cyber Resilience Act, der NIS-2-Richtlinie und der Cybersolidaritätsverordnung. Diese Gesetze sollen sicherstellen, dass kritische Infrastrukturen besser geschützt sind. Der AWS-Experte Chris Dimitriadis von ISACA spricht von „digitalen Pandemien“ – und genau so fühlen sich diese Ausfälle an.
Fazit: Willkommen in der fragilen digitalen Welt
Zwei massive Cloud-Ausfälle innerhalb von neun Tagen zeigen uns eines ganz deutlich: Die moderne digitale Infrastruktur ist fragiler, als wir wahrhaben wollen. Wir haben uns abhängig gemacht von einer Handvoll Tech-Giganten, und wenn die stolpern, stolpern wir alle mit.
Die gute Nachricht? Diese Ausfälle sind vermeidbar – oder zumindest ihre Auswirkungen können minimiert werden. Es braucht:
- Technische Diversifizierung (Multi-Cloud, Multi-Region, Multi-Provider)
- Organisatorische Resilienz (Notfallpläne, reduzierte Betriebsmodi)
- Regulatorische Rahmenbedingungen (strengere Cybergesetze)
Die Frage ist nicht mehr, OB der nächste große Cloud-Ausfall kommt, sondern WANN. Und ob ihr dann zu den Gewinnern oder Verlierern gehört, hängt davon ab, wie gut ihr vorbereitet seid.
TL:DR
In diesem Sinne: Bleibt wachsam, bleibt resilient, und vergesst nicht, ab und zu eure lokalen Backups zu überprüfen. Man weiß ja nie, wann die nächste „unbeabsichtigte Konfigurationsänderung“ um die Ecke kommt.