Microsoft Azure verso il basso: Il crollo della nuvola del 29 ottobre 2025

oppure: Perché "cambiamenti di configurazione non intenzionali" dovrebbero diventare la nuova parola d'ordine dell'anno

Hai pensato che dopo il Disastro AWS del 20 ottobre (e il Esame tecnico dettagliato) Avremmo imparato la lezione? Ahahahahahahahahahahahahahahahahahahahahahahahahahahah Non nove giorni dopo, ieri, 29 ottobre 2025, Microsoft ha dimostrato che è possibile paralizzare Internet anche senza condizioni di gara DNS.
Tutto ciò di cui hai bisogno è un "cambiamento di configurazione non intenzionale" in Azure Front Door e il mondo digitale è già fermo. Benvenuti al secondo atto di caos nuvoloso nel mese di ottobre!

Cronologia: Un pomeriggio nel caos digitale

17:00 CET – Inizia

Intorno alle 16:00 UTC (5:00 p.m. con noi) sono iniziati i primi rapporti: I servizi Microsoft non hanno più risposto, o solo molto lentamente. Quello che inizialmente sembrava un piccolo singhiozzo si è rapidamente rivelato un disturbo in piena regola.

17:06 CET - Microsoft rileva il problema

Microsoft ha rilasciato il primo messaggio di errore ufficiale nell'interfaccia di amministrazione con l'ID del problema MO1181369. I servizi interessati si leggono come un best-of elenco del cloud Microsoft:

  • Scambio online (ciao ciao, e-mail!)
  • Suite di Microsoft 365 (Excel, Word, PowerPoint in coma)
  • Microsoft Defender XDR (Sicurezza? Quale sicurezza?)
  • Microsoft Entra (precedentemente Azure AD – Autenticazione disattivata!)
  • Microsoft Intune (Gestione del dispositivo ade)
  • Microsoft Purview (Incubo di conformità)
  • App di alimentazione (Tutte le tue app personalizzate: morto)

Particolarmente piccante: Anche questo Centro di amministrazione di Microsoft 365 stessa è stata colpita. È come se i vigili del fuoco stessero bruciando mentre gli incendi scoppiano ovunque. Gli amministratori stavano lì e letteralmente non potevano fare altro che sembrare impotenti.

17:21 CET – La prima analisi

Microsoft ha annunciato: "Stiamo indagando sulle segnalazioni di un problema che interessa i servizi Microsoft Azure e Microsoft 365." Niente panico, tutto sotto controllo! (Spoiler: Non lo era.)

17:28 CET - Il DNS colpisce ancora!

Ed eccolo di nuovo, il vecchio trauma amministrativo: "È sempre DNS!" Microsoft ha confermato che i problemi DNS sono la causa. In particolare, essa riguardava l’infrastruttura di rete e di hosting, che si trovava in uno «stato malsano».

Per i non tecnici tra di voi: DNS (Domain Name System) è la directory telefonica di Internet. Se questo non funziona, i computer non possono più parlare tra loro perché non sanno dove trovarsi. Niente DNS, niente Internet. E' cosi' semplice.

17:36 CET - Il trasporto è deviato

Microsoft ha cercato di reindirizzare il traffico verso un'infrastruttura alternativa e sana. È come cercare di deviare tutte le auto su strade sterrate quando c'è un ingorgo sull'autostrada. Suona bene in teoria...

18:17 CET - La causa è trovata

Ora è diventato concreto: "Abbiamo individuato una recente modifica della configurazione di una parte dell'infrastruttura di Azure che riteniamo stia causando l'impatto."

Un "cambiamento di configurazione non intenzionale": si tratta di un discorso sul cloud per: "Qualcuno ha premuto un pulsante sbagliato da qualche parte". Il problema riguardava specificamente: Porta d'ingresso azzurra, Il Content Delivery Network (CDN) di Microsoft.

18:24 UTC – Avvio del rollback

Microsoft ha iniziato a distribuire l'ultima buona configurazione nota, ovvero tornare all'ultima impostazione di lavoro. Durata stimata: 30 minuti. (Spoiler n. 2: Ci è voluto molto più tempo.)

Allo stesso tempo, Microsoft ha temporaneamente bloccato tutte le modifiche alla configurazione dei clienti per evitare ulteriore caos. Immaginate che si sta cercando di mettere fuori una casa in fiamme, mentre la gente continua a trascinare mobili in.

19:57 UTC - Primi segni di miglioramento

Il rollback è stato completato e Microsoft ha iniziato a ripristinare i nodi e indirizzare il traffico attraverso nodi sani. Recupero completo previsto: fino alle 23:20 UTC (00:20 CET). Aspetta altre quattro ore.

Poco dopo le 02:00 CET (30 ottobre) – tutto chiaro

Dopo la fine 8 ore di fallimento Microsoft ha risolto il problema. Otto ore! Nel mondo digitale, mezza eternità.

Che cosa è Azure Front Door?

Prima di approfondire, una breve spiegazione per coloro che non hanno a che fare con l'infrastruttura cloud ogni giorno:

Porta d'ingresso azzurra Microsoft Global Content Delivery Network (CDN) e Application Delivery Network (ADN). In poche parole: È la "porta d'ingresso" per praticamente tutti i servizi Azure e Microsoft 365 in tutto il mondo.

Front Door svolge diversi compiti critici:

  • Bilanciamento del carico: Distribuisce il traffico in entrata a diversi server
  • caching: Memorizza contenuti recuperati frequentemente nel mezzo in modo che si carichi più velocemente
  • Protezione DDoS: Filtra gli attacchi e i bot
  • Risoluzione SSL: Decifra le connessioni crittografate
  • routing: Dirige le richieste ai server geograficamente più vicini o meno occupati

Il fallimento della porta d'ingresso è come abbattere il cancello principale di un enorme complesso edilizio: nessuno entra, non importa quanto sia importante la preoccupazione.

La dimensione tecnica: Che cosa è successo esattamente?

Lo scenario seguente può essere ricostruito dalle relazioni e dalle relazioni ufficiali sullo stato di avanzamento:

Fase 1: Il cambiamento fatale della configurazione

Qualche tempo prima delle 16:00 UTC, è stata apportata una modifica alla configurazione nell'infrastruttura Azure Front Door. Microsoft lo chiama "involontario", il che probabilmente significa che:

  • Un processo automatizzato ha apportato un cambiamento difettoso
  • Un cambio manuale ha avuto effetti collaterali imprevisti
  • Un processo di distribuzione è andato storto

Questo cambiamento ha causato problemi DNS. Nello specifico, ciò significa: I record DNS che indicano ai client dove trovare i servizi di Azure erano improvvisamente errati, incompleti o non più presenti.

Fase 2: La cascata inizia

Poiché la porta anteriore funge da componente centrale, è iniziata una reazione a catena:

  1. Servizi primari interessati: Outlook, Microsoft 365, Exchange Online sono stati direttamente interessati
  2. Gli strumenti di amministrazione sono giù: Microsoft 365 Admin Center e Azure Portal erano in parte non disponibili: gli strumenti di cui gli amministratori hanno bisogno per risolvere i problemi
  3. L'autenticazione non funziona: Microsoft Entra (Azure AD) ha avuto problemi, il che significava che molti utenti non potevano accedere affatto
  4. Strumenti di sicurezza verso il basso: Microsoft Defender XDR e Microsoft Purview sono stati colpiti: la sicurezza e la conformità erano letteralmente cieche

Fase 3: Cercando di salvare il portale

Microsoft ha fatto un passo interessante: Hanno "mancato il portale lontano dall'AFD", ossia hanno reindirizzato il portale Azure per bypassare la porta anteriore ed essere direttamente accessibili. Questo ha funzionato in parte, ma alcune estensioni del portale (come il Marketplace) sono rimaste problematiche.

È come collegare una scala di emergenza a un edificio in fiamme: funziona, ma solo in misura limitata.

Fase 4: La maratona di rollback

Tornare all'ultima configurazione di lavoro ha richiesto ore. Perché così a lungo? Perché Azure Front Door è distribuito a livello globale e le modifiche hanno dovuto essere propagate su centinaia di server in dozzine di data center in tutto il mondo.

Durante il rollback, i tecnici hanno dovuto:

  1. Identificazione dell'"ultima configurazione valida nota"
  2. Distribuisci questa configurazione (30+ minuti)
  3. Restauro nodi pezzo per pezzo
  4. Instradare gradualmente il traffico attraverso nodi sani
  5. Monitorare che non è più rotto

Danni collaterali: Chi è stato tutto colpito?

Compagnie aeree nel caos

Alaska Airlines e Hawaiian Airlines Hanno riferito di non avere accesso a sistemi critici a causa di problemi di Azure. I siti web delle compagnie aeree non funzionavano, il check-in online non funzionava. I passeggeri dovevano allinearsi in lunghe code all'aeroporto ed essere controllati manualmente.

Immaginate: Sei in aeroporto, il tuo volo parte tra un'ora e improvvisamente tutti i passeggeri devono essere controllati manualmente perché il cloud non funziona. Benvenuti negli anni '90!

Vendita al dettaglio e gastronomia

Negli Stati Uniti, diverse grandi catene hanno segnalato problemi:

  • Kroger (produttore di attrezzature sanitarie)
  • Costco (grossista)
  • Starbucks (catena di caffè)

In Starbucks, questo significava: L'app mobile non funzionava, Mobile Payment era morto e il personale doveva ricorrere a vecchi sistemi manuali.

Gioco e intrattenimento

  • Xbox Live: I giocatori non hanno potuto accedere, i giochi multiplayer non sono stati raggiunti
  • Minecraft: Di nuovo! Dopo l'interruzione di AWS, l'interruzione di Azure. La comunità di Minecraft ha avuto un ottobre nero.

Servizi business-critical

Particolarmente doloroso è stato il fallimento per gli utenti professionali:

CodeTwo (gestione della firma e-mail) ha segnalato problemi di prestazioni globali in diverse regioni:

  • Germania Centro-Ovest
  • Australia orientale
  • Canada orientale
  • E altri 13 componenti

SpeechLive (Soluzione di dettatura cloud per avvocati e medici) era completamente giù. Immagina di essere un medico, hai urgente bisogno di dettare le cartelle cliniche dei pazienti e il tuo software cloud è in sciopero. Non e' una buona situazione.

TeamViewer (web.teamviewer.com) ne ha risentito: il sostegno a distanza è diventato una sfida.

La prospettiva tedesca

Anche in Germania ci sono stati effetti che andavano oltre i servizi diretti di Microsoft:

  • Varie ISP (1&1, Vodafone Cable) ha segnalato un aumento dei messaggi di errore, presumibilmente perché molti utenti pensavano che Internet fosse rotto anche se era "solo" il cloud
  • Alcuni utenti hanno riferito che anche le pagine non ospitate su Azure si caricavano più lentamente, un'indicazione di quanto sono andati lontano i problemi DNS
  • Il blog BornCity.com ha avuto interruzioni a breve termine nonostante fosse ospitato su all-inkl.com, probabilmente a causa di problemi di propagazione DNS

AWS: La stessa partita di una settimana fa.

Guardiamo indietro al 20 ottobre 2025. La mattina alle 9:30 ora tedesca ha iniziato il grande tremore: AWS, il più grande provider cloud al mondo, ha riscontrato enormi problemi nella regione US-EAST-1. E poiché questa regione è così centrale, praticamente metà di Internet era giù.

L'effetto domino

L'elenco dei servizi interessati è simile a un "chi è chi" di Internet:

  • segnale, Snapchat, Zoom, Slack
  • Fortnite, Roblox, Minecraft (Sì, di nuovo)
  • Tinder (Nessuna data per te!)
  • Video di Amazon Prime, Alexa
  • Coinbase, Robinhood, Venmo
  • Perplessità AI, Canva, Duolingo
  • Autodesk (le installazioni locali non hanno funzionato perché i server di licenza non erano raggiungibili)
  • In Germania: Il Gematica ha avuto interruzioni TI in eRecipe ed ePA perché gli assicuratori sanitari hanno utilizzato AWS

A proposito di 8,1 milioni di reclami Entrato, più che 2.000 siti web e app sono stati colpiti. Anche "Eight Sleep", un sistema letto intelligente che regola automaticamente la temperatura e l'inclinazione, non funziona più. La gente non riusciva nemmeno più a dormire comodamente!

La causa tecnica: Una condizione di razza

Qual è stata la causa? Una cosiddetta condizione di razza nel sistema DNS AWS. Due processi automatizzati hanno tentato contemporaneamente di apportare modifiche in regioni diverse e – Puff! – l’intera tabella DNS era vuota. I server improvvisamente non sapevano come comunicare tra loro.

Il servizio principale interessato è stato DynamoDB, un servizio di database che AWS utilizza anche internamente. Quando DynamoDB non è riuscito, è stato seguito da una cascata: Sono stati colpiti anche EC2 (server virtuali) e Lambda (codice senza server). Un classico punto di fallimento.

AWS ha impiegato circa tre ore per trovare e risolvere la causa. Ma le conseguenze si fecero sentire ore dopo.

Il quadro generale: La dipendenza dal cloud come rischio

Due massicci fallimenti in nove giorni. Entrambe le volte la stessa causa principale: Problemi DNS nelle infrastrutture cloud centrali. Cosa possiamo imparare da questo?

1. Il singolo punto di fallimento è reale

Non importa quanto grande e potente sia un provider cloud, se fallisce, metà di Internet è spesso coinvolta. AWS e Azure sono così dominanti che le loro interruzioni hanno un impatto globale. Insieme, AWS, Microsoft Azure e Google Cloud controllano circa 65% Il mercato globale del cloud. Questa è un'enorme concentrazione di potere.

2. Il multi-cloud non è un lusso ma un dovere

Gli esperti hanno da tempo avvertito: Chiunque si affidi a un fornitore di servizi cloud per tutti i suoi servizi corre un rischio enorme. Le strategie multi-cloud, in cui si diffonde l'infrastruttura su più provider, sono essenziali oggi. Sì, questo è più complesso e costoso, ma un'interruzione di otto ore può costare molto di più.

3. Le strategie di failover devono essere

Hai un piano B? E un piano C? Le imprese hanno bisogno di:

  • Sistemi di failover automatico, passaggio a un'infrastruttura alternativa in caso di guasti
  • Backup ridondanti su varie piattaforme
  • CDN con origini multiple, in modo che i contenuti possano essere forniti da fonti diverse
  • Prove periodiche i tuoi piani di emergenza (non solo quando è in fiamme!)

4. Il DNA rimane il tallone d'Achille

Entrambi i fallimenti hanno avuto problemi DNS come causa. Il sistema dei nomi di dominio è il sistema nervoso di Internet: se fallisce, il caos è preprogrammato. Le imprese dovrebbero:

  • Utilizzo delle strategie DNS distribuite
  • Utilizzo di più provider DNS
  • Configurare la cache DNS in modo intelligente

5. La componente umana

In entrambi i casi sono sfuggiti al controllo i "cambiamenti non intenzionali di configurazione" o i processi automatizzati. Questo mostra: Anche con i giganti della tecnologia, la complessità dei sistemi è così alta che si verificano errori. E quando accadono, hanno ripercussioni globali.

Gli utenti Microsoft hanno commentato sarcasticamente: "Se non è rotto, non risolverlo!" Il vecchio adagio "Se non è rotto, non risolverlo" sembra essere stato dimenticato da Microsoft e Co.

Cosa significa questo per te?

Che tu stia gestendo un'azienda, un amministratore IT o semplicemente utilizzando servizi cloud, queste interruzioni sono un campanello d'allarme:

Per le imprese:

  • Diversifica la tua infrastruttura cloud. Non mettere tutto su una carta.
  • Testa i tuoi piani di emergenza regolarmente. Se AWS o Azure falliscono, sai cosa fare?
  • Comunicare in modo proattivo con i tuoi clienti quando sorgono problemi. La trasparenza crea fiducia.
  • Mantiene le funzioni critiche localmente. Non tutto deve essere nel cloud.

Per gli utenti privati:

  • Avere soluzioni di backup per servizi importanti. Se Outlook è inattivo, è possibile accedere al programma di posta elettronica o webmail?
  • Utilizza diverse piattaforme per scopi diversi. Tutte le uova in un cesto non sono mai una buona idea.
  • Download di dati importanti a livello locale. Il cloud è conveniente, ma non sostituisce i backup locali.

Per la politica:

L'UE sta già lavorando a norme più severe come la Legge sulla ciberresilienza, il Direttiva NIS 2 e il Regolamento sulla cibersolidarietà. Queste leggi sono concepite per garantire una migliore protezione delle infrastrutture critiche. Chris Dimitriadis, esperto AWS di ISACA, parla di "pandemia digitale", ed è esattamente così che si sentono questi fallimenti.

Conclusione: Benvenuti nel fragile mondo digitale

Due enormi interruzioni del cloud entro nove giorni ci mostrano chiaramente una cosa: La moderna infrastruttura digitale è più fragile di quanto vogliamo percepire. Siamo diventati dipendenti da una manciata di giganti della tecnologia, e quando inciampano, inciampiamo tutti insieme.

La buona notizia? Questi guasti sono evitabili, o almeno il loro impatto può essere ridotto al minimo. Ha bisogno di:

  • Diversificazione tecnica (Multi-cloud, multi-regione, multi-fornitore)
  • Resilienza organizzativa (piani di emergenza, modalità operative ridotte)
  • Quadro normativo (Leggi cibernetiche più severe)

La domanda non è più se la prossima grande interruzione del cloud sta arrivando, ma quando. E se sei uno dei vincitori o dei perdenti dipende da quanto sei ben preparato.

TL: RD

In questo senso: Rimani vigile, rimani resiliente e non dimenticare di controllare i backup locali di volta in volta. Non si sa mai quando il prossimo "cambio di configurazione non intenzionale" arriverà dietro l'angolo.