Microsoft Azure Down: El colapso de la nube del 29 de octubre de 2025

O bien: Por qué los "cambios de configuración no deseados" deberían convertirse en la nueva palabra de moda del año

¿Pensaste después de la Gran desastre de AWS del 20 de octubre (y el Revisión técnica detallada) ¿Habríamos aprendido nuestra lección? Jaja, ¡estaría bien! No nueve días después, ayer, 29 de octubre de 2025, Microsoft demostró que se puede paralizar Internet incluso sin condiciones de carrera DNS.
Todo lo que necesita es un «cambio de configuración involuntario» en Azure Front Door, y el mundo digital ya se está deteniendo. ¡Bienvenido al segundo acto de caos de nubes en octubre!

Cronología: Una tarde en el caos digital

17:00 CET – Comienza

Alrededor de las 16:00 UTC (5:00 p.m. con nosotros) comenzaron los primeros informes: Los servicios de Microsoft ya no respondieron, o solo muy lentamente. Lo que inicialmente parecía un pequeño hipo rápidamente resultó ser un trastorno en toda regla.

17:06 CET - Microsoft detecta el problema

Microsoft lanzó el primer mensaje de error oficial en el centro de administración con el ID de problema MO1181369. Los servicios afectados se leen como la mejor lista de la nube de Microsoft:

  • Intercambio en línea (¡Adiós, correos electrónicos!)
  • Suite de Microsoft 365 (Excel, Word, PowerPoint en coma)
  • Microsoft Defender XDR (¿Seguridad? ¿Qué seguridad?)
  • Microsoft Entra (anteriormente Azure AD – Autenticación inactiva)
  • Microsoft Intune (Administración de dispositivos)
  • Microsoft Purview (Pesadilla de cumplimiento)
  • Aplicaciones de energía (Todas sus aplicaciones personalizadas: muerto)

Especialmente picante: También esto Centro de administración de Microsoft 365 se vio afectada. Es como si la brigada de bomberos estuviera ardiendo mientras los incendios estallan por todas partes. Los administradores estaban allí y literalmente no podían hacer nada más que parecer indefensos.

17:21 CET – Primer análisis

Microsoft anunció: "Estamos investigando informes de un problema que afecta a los servicios de Microsoft Azure y Microsoft 365". ¡No se asuste, todo bajo control! (Spoiler: No lo fue.)

17:28 CET – ¡El DNS ataca de nuevo!

Y ahí estaba otra vez, el viejo trauma administrativo: «¡Siempre es DNS!» Microsoft confirmó que los problemas de DNS fueron la causa. En concreto, se refería a la red y a la infraestructura de alojamiento, que se encontraba en un «estado poco saludable».

Para los no técnicos entre ustedes: DNS (Domain Name System) es el directorio telefónico de Internet. Si eso no funciona, las computadoras ya no pueden hablar entre sí porque no saben dónde encontrarse. Sin DNS, sin Internet. Es así de simple.

17:36 CET - El transporte se desvía

Microsoft intentó redirigir el tráfico a una infraestructura alternativa y saludable. Es como tratar de desviar todos los coches por caminos de tierra cuando hay un atasco de tráfico en la carretera. Suena bien en teoría...

18:17 CET - Se encuentra la causa

Ahora se hizo concreto: «Hemos identificado un cambio reciente en la configuración de una parte de la infraestructura de Azure que creemos que está causando el impacto».

Un «cambio de configuración involuntario»: se trata de una charla en la nube para: «Alguien presionó un botón equivocado en alguna parte». El problema estaba relacionado específicamente con: Puerta de entrada de Azure, Red de entrega de contenido (CDN) de Microsoft.

18:24 UTC – Se inicia la reversión

Microsoft comenzó a implementar la última buena configuración conocida, es decir, volver a la última configuración de trabajo. Duración estimada: 30 minutos. (Spoiler n.o 2: Tomó mucho más tiempo.)

Al mismo tiempo, Microsoft bloqueó temporalmente todos los cambios de configuración del cliente para evitar un mayor caos. Imagina que estás tratando de apagar una casa en llamas mientras la gente sigue arrastrando muebles.

19:57 UTC - Primeros signos de mejora

El retroceso se completó, y Microsoft comenzó a restaurar nodos y enrutar el tráfico a través de nodos saludables. Recuperación total prevista: hasta las 23:20 UTC (00:20 CET). Espera otras cuatro horas.

Poco después de las 2.00 horas (hora central europea) (30 de octubre) – todo despejado

Después de terminado 8 horas de fracaso Microsoft ha solucionado el problema. ¡Ocho horas! En el mundo digital, media eternidad.

¿Qué es Azure Front Door?

Antes de profundizar, una breve explicación para aquellos que no tienen que lidiar con la infraestructura de la nube todos los días:

Puerta de entrada de Azure Red de entrega de contenido global (CDN) y red de entrega de aplicaciones (ADN) de Microsoft. En pocas palabras: Es la «puerta de entrada» para prácticamente todos los servicios de Azure y Microsoft 365 en todo el mundo.

La puerta delantera realiza varias tareas críticas:

  • Equilibrio de carga: Distribuye el tráfico entrante a diferentes servidores
  • almacenamiento en caché: Almacena contenido recuperado con frecuencia en el medio para que se cargue más rápido
  • Protección contra DDoS: Filtra ataques y bots
  • Terminación SSL: Descifra las conexiones cifradas
  • enrutamiento: Dirige las solicitudes a los servidores geográficamente más cercanos o menos ocupados

El fallo de la puerta principal es como derribar la puerta principal de un enorme complejo de edificios: nadie entra, por importante que sea la preocupación.

La dimensión técnica: ¿Qué pasó exactamente?

El siguiente escenario puede ser reconstruido a partir de los informes oficiales de estado y los informes:

Fase 1: El cambio de configuración fatal

En algún momento antes de las 16:00 UTC, se realizó un cambio de configuración en la infraestructura de Azure Front Door. Microsoft lo llama «inadvertido», lo que probablemente significa que:

  • Un proceso automatizado ha hecho un cambio defectuoso
  • Un cambio manual tuvo efectos secundarios inesperados
  • Un proceso de despliegue ha salido mal

Este cambio causó problemas de DNS. En concreto, esto significa: Los registros DNS que indican a los clientes dónde encontrar los servicios de Azure de repente eran incorrectos, incompletos o ya no estaban presentes.

Fase 2: Comienza la cascada

Debido a que la puerta delantera actúa como un componente central, comenzó una reacción en cadena:

  1. Servicios primarios afectados: Outlook, Microsoft 365, Exchange Online se vieron directamente afectados
  2. Las herramientas de administración están inactivas: El Centro de administración de Microsoft 365 y Azure Portal no estaban disponibles en parte: las herramientas que necesitan los administradores para resolver problemas
  3. La autenticación está fallando: Microsoft Entra (Azure AD) tenía problemas, lo que significaba que muchos usuarios no podían iniciar sesión en absoluto.
  4. Herramientas de seguridad hacia abajo: Microsoft Defender XDR y Microsoft Purview se vieron afectados: la seguridad y el cumplimiento eran literalmente ciegos

Fase 3: Tratando de salvar el portal

Microsoft dio un paso interesante: «falló el portal fuera de AFD», es decir, redirigió el Portal Azure para eludir la puerta principal y ser directamente accesible. Esto funcionó en parte, pero algunas extensiones de portal (como el Marketplace) siguieron siendo problemáticas.

Esto es como conectar una escalera de emergencia a un edificio en llamas: funciona, pero solo de forma limitada.

Fase 4: El maratón de retroceso

Volviendo a la última configuración de trabajo tomó horas. ¿Por qué tanto tiempo? Debido a que Azure Front Door se distribuye a nivel mundial y los cambios tuvieron que propagarse a través de cientos de servidores en docenas de centros de datos en todo el mundo.

Durante el retroceso, los técnicos tuvieron que:

  1. Identificación de la «última buena configuración conocida»
  2. Implementar esta configuración (30+ minutos)
  3. Restauración de nudos pieza por pieza
  4. Dirija gradualmente el tráfico a través de nodos saludables
  5. Monitoree que no se rompa más

Daños colaterales: ¿Quién se vio afectado?

Aerolíneas en caos

Alaska Airlines y Aerolíneas de Hawái Informaron que no tenían acceso a sistemas críticos debido a problemas de Azure. Los sitios web de las aerolíneas estaban caídos, el check-in en línea no funcionó. Los pasajeros tenían que hacer fila en largas colas en el aeropuerto y ser facturados manualmente.

Imagínese: Estás en el aeropuerto, tu vuelo sale en una hora y, de repente, todos los pasajeros deben registrarse manualmente porque la nube no funciona. ¡Bienvenidos a la década de 1990!

Retail y Gastronomía

En los Estados Unidos, varias cadenas importantes reportaron problemas:

  • Kroger (fabricante de equipos sanitarios)
  • Costco (mayorista)
  • Starbucks (cadena de café)

En Starbucks, esto significaba: La aplicación móvil no funcionaba, el pago móvil estaba muerto y el personal tuvo que recurrir a viejos sistemas manuales.

Juegos y Entretenimiento

  • Xbox Live: Los jugadores no pudieron iniciar sesión, no se pudo acceder a los juegos multijugador
  • Minecraft: ¡Otra vez! Después de la interrupción de AWS, la interrupción de Azure. La comunidad de Minecraft tuvo un Octubre negro.

Servicios críticos para el negocio

Particularmente doloroso fue el fracaso para los usuarios profesionales:

CódigoDos (gestión de firmas de correo electrónico) informó de problemas de rendimiento global en varias regiones:

  • Alemania Centro-Oeste
  • Australia del Este
  • Canadá Este
  • Y otros 13 componentes

SpeechLive (Solución de dictado en la nube para abogados y médicos) estaba completamente abajo. Imagine que es un médico, necesita dictar urgentemente los registros de los pacientes y su software en la nube está en huelga. No es una buena situación.

TeamViewer (web.teamviewer.com) se vio afectado: el soporte remoto se convirtió en un desafío.

La perspectiva alemana

En Alemania, también, hubo efectos que fueron más allá de los servicios directos de Microsoft:

  • Varios ISPs (1&1, Vodafone Cable) reportó un aumento de los mensajes de fallas, presumiblemente porque muchos usuarios pensaron que su Internet estaba roto a pesar de que era «solo» la nube.
  • Algunos usuarios informaron que incluso las páginas no alojadas en Azure se cargaban más lentamente, una indicación de hasta dónde llegaron los problemas de DNS.
  • El blog BornCity.com tuvo interrupciones a corto plazo a pesar de estar alojado en all-inkl.com, posiblemente debido a problemas de propagación de DNS

AWS: El mismo juego hace una semana.

Miremos hacia atrás al 20 de octubre de 2025. Por la mañana a las 9:30 am hora alemana comenzó el gran temblor: AWS, el proveedor de nube más grande del mundo, experimentó problemas masivos en la región US-EAST-1. Y debido a que esta región es tan central, prácticamente la mitad de Internet estaba caído.

El efecto dominó

La lista de servicios afectados se lee como un quién es quién de Internet:

  • señal, Snapchat, zoom, Slack
  • Fortnite, Roblox, Minecraft (Sí, de nuevo)
  • Tinder (¡No hay fecha para ti!)
  • Amazon Prime (video), Alexa
  • Coinbase, Robinhood, Venmo
  • Perplejidad AI, Canva, Duolingo
  • Autodesk (las instalaciones locales no funcionaron porque los servidores de licencias no eran accesibles)
  • En Alemania: El Gemática tuvo interrupciones de TI en eRecipe y ePA porque las aseguradoras de salud usaron AWS

Acerca de 8,1 millones de quejas entró, más de 2.000 sitios web y aplicaciones se vieron afectados. Incluso "Eight Sleep", un sistema de cama inteligente que ajusta automáticamente la temperatura y la inclinación, ya no funcionaba. ¡La gente ya ni siquiera podía dormir cómodamente!

La causa técnica: Una condición de carrera

¿Cuál fue la causa? Una llamada condición de carrera en el sistema DNS de AWS. Dos procesos automatizados intentaron al mismo tiempo realizar cambios en diferentes regiones, y – Puff! – toda la tabla DNS estaba vacía. Los servidores de repente no sabían cómo comunicarse entre sí.

El principal servicio afectado fue DynamoDB, un servicio de base de datos que AWS también utiliza internamente. Cuando DynamoDB falló, fue seguido por una cascada: EC2 (servidores virtuales) y Lambda (código sin servidor) también se vieron afectados. Un clásico punto único de fracaso.

AWS tardó unas tres horas en encontrar y solucionar la causa. Pero las consecuencias se sintieron horas después.

El panorama general: La dependencia de la nube como riesgo

Dos fracasos masivos en nueve días. Ambas veces la misma causa raíz: Problemas de DNS en infraestructuras de nube central. ¿Qué podemos aprender de esto?

1. El único punto de falla es real

No importa cuán grande y poderoso sea un proveedor de nube, si falla, la mitad de Internet a menudo está involucrado. AWS y Azure son tan dominantes que sus interrupciones tienen un impacto global. Juntos, AWS, Microsoft Azure y Google Cloud controlan alrededor de 65% el mercado global de la nube. Esta es una gran concentración de poder.

2. Multi-nube no es un lujo, sino un deber

Los expertos han advertido durante mucho tiempo: Cualquiera que dependa de un proveedor de nube para todos sus servicios corre un gran riesgo. Las estrategias multinube, en las que extiende su infraestructura a través de múltiples proveedores, son esenciales hoy en día. Sí, esto es más complejo y costoso, pero una interrupción de ocho horas puede costarle mucho más.

3. Las estrategias de conmutación por error deben ser

¿Tienes un plan B? ¿Y un plan C? Las empresas necesitan:

  • Sistemas automáticos de conmutación por error, cambio a infraestructuras alternativas en caso de fallos
  • Copias de seguridad redundantes en varias plataformas
  • CDNs con múltiples orígenes, de modo que el contenido pueda entregarse desde diferentes fuentes
  • Pruebas periódicas sus planes de emergencia (¡no solo cuando está en llamas!)

4. El ADN sigue siendo el talón de Aquiles

Ambas fallas tenían problemas de DNS como causa. El sistema de nombres de dominio es el sistema nervioso de Internet: si falla, el caos está preprogramado. Las empresas deben:

  • Uso de estrategias de DNS distribuidas
  • Uso de múltiples proveedores de DNS
  • Configurar el almacenamiento en caché de DNS de forma inteligente

5. El componente humano

En ambos casos, fueron los «cambios de configuración involuntarios» o los procesos automatizados los que se salieron de control. Esto muestra: Incluso con los gigantes tecnológicos, la complejidad de los sistemas es tan alta que ocurren errores. Y cuando ocurren, tienen repercusiones globales.

Los usuarios de Microsoft comentaron sarcásticamente: «Si no está roto, ¡no lo arregles!» El viejo adagio «Si no está roto, no lo arregles» parece haber sido olvidado por Microsoft y Co.

¿Qué significa esto para ti?

Ya sea que esté ejecutando un negocio, un administrador de TI o simplemente usando servicios en la nube, estas interrupciones son una llamada de atención:

Para las empresas:

  • Diversifique su infraestructura en la nube. No pongas todo en una sola tarjeta.
  • Pruebe sus planes de emergencia regularmente. Si AWS o Azure fallan, ¿sabe qué hacer?
  • Comunicarse de forma proactiva con sus clientes cuando surjan problemas. La transparencia crea confianza.
  • Mantiene las funciones críticas a nivel local. No todo tiene que estar en la nube.

Para usuarios privados:

  • Tener soluciones de copia de seguridad para servicios importantes. Si Outlook está caído, ¿puede acceder a su programa de correo electrónico o webmail?
  • Utiliza diferentes plataformas para diferentes propósitos. Todos los huevos en una canasta nunca es una buena idea.
  • Descarga datos importantes localmente. La nube es conveniente, pero no es un reemplazo para las copias de seguridad locales.

Para la política:

La UE ya está trabajando en regulaciones más estrictas como la Ley de Ciberresiliencia, el Directiva SRI 2 y el Reglamento de Cibersolidaridad. Estas leyes están diseñadas para garantizar que las infraestructuras críticas estén mejor protegidas. El experto en AWS de ISACA, Chris Dimitriadis, habla de «pandemias digitales», y así es exactamente como se sienten estos fallos.

Conclusión: Bienvenidos al frágil mundo digital

Dos apagones masivos de nubes en nueve días nos muestran claramente una cosa: La infraestructura digital moderna es más frágil de lo que queremos percibir. Nos hemos vuelto dependientes de un puñado de gigantes tecnológicos, y cuando tropiezan, todos tropezamos.

¿Las buenas noticias? Estos fallos son evitables o, al menos, su impacto puede minimizarse. Necesita:

  • Diversificación técnica (Multi-nube, multi-región, multi-proveedor)
  • Resiliencia organizativa (Planes de emergencia, modos de funcionamiento reducidos)
  • Marco normativo (Leyes cibernéticas más fuertes)

La pregunta ya no es si viene la próxima gran interrupción de la nube, sino cuándo. Y si eres uno de los ganadores o perdedores depende de lo bien preparado que estés.

TL:DR

En este sentido: Manténgase alerta, permanezca resistente y no olvide revisar sus copias de seguridad locales de vez en cuando. Nunca se sabe cuándo llegará a la vuelta de la esquina el próximo «cambio de configuración involuntario».