O bien: Por qué los "cambios de configuración no deseados" deberÃan convertirse en la nueva palabra de moda del año
¿Pensaste después de la Gran desastre de AWS del 20 de octubre (y el Revisión técnica detallada) ¿HabrÃamos aprendido nuestra lección? Jaja, ¡estarÃa bien! No nueve dÃas después, ayer, 29 de octubre de 2025, Microsoft demostró que se puede paralizar Internet incluso sin condiciones de carrera DNS.
Todo lo que necesita es un «cambio de configuración involuntario» en Azure Front Door, y el mundo digital ya se está deteniendo. ¡Bienvenido al segundo acto de caos de nubes en octubre!
CronologÃa: Una tarde en el caos digital
17:00 CET – Comienza
Alrededor de las 16:00 UTC (5:00 p.m. con nosotros) comenzaron los primeros informes: Los servicios de Microsoft ya no respondieron, o solo muy lentamente. Lo que inicialmente parecÃa un pequeño hipo rápidamente resultó ser un trastorno en toda regla.
17:06 CET - Microsoft detecta el problema
Microsoft lanzó el primer mensaje de error oficial en el centro de administración con el ID de problema MO1181369. Los servicios afectados se leen como la mejor lista de la nube de Microsoft:
- Intercambio en lÃnea (¡Adiós, correos electrónicos!)
- Suite de Microsoft 365 (Excel, Word, PowerPoint en coma)
- Microsoft Defender XDR (¿Seguridad? ¿Qué seguridad?)
- Microsoft Entra (anteriormente Azure AD – Autenticación inactiva)
- Microsoft Intune (Administración de dispositivos)
- Microsoft Purview (Pesadilla de cumplimiento)
- Aplicaciones de energÃa (Todas sus aplicaciones personalizadas: muerto)
Especialmente picante: También esto Centro de administración de Microsoft 365 se vio afectada. Es como si la brigada de bomberos estuviera ardiendo mientras los incendios estallan por todas partes. Los administradores estaban allà y literalmente no podÃan hacer nada más que parecer indefensos.
17:21 CET – Primer análisis
Microsoft anunció: "Estamos investigando informes de un problema que afecta a los servicios de Microsoft Azure y Microsoft 365". ¡No se asuste, todo bajo control! (Spoiler: No lo fue.)
17:28 CET – ¡El DNS ataca de nuevo!
Y ahà estaba otra vez, el viejo trauma administrativo: «¡Siempre es DNS!» Microsoft confirmó que los problemas de DNS fueron la causa. En concreto, se referÃa a la red y a la infraestructura de alojamiento, que se encontraba en un «estado poco saludable».
Para los no técnicos entre ustedes: DNS (Domain Name System) es el directorio telefónico de Internet. Si eso no funciona, las computadoras ya no pueden hablar entre sà porque no saben dónde encontrarse. Sin DNS, sin Internet. Es asà de simple.
17:36 CET - El transporte se desvÃa
Microsoft intentó redirigir el tráfico a una infraestructura alternativa y saludable. Es como tratar de desviar todos los coches por caminos de tierra cuando hay un atasco de tráfico en la carretera. Suena bien en teorÃa...
18:17 CET - Se encuentra la causa
Ahora se hizo concreto: «Hemos identificado un cambio reciente en la configuración de una parte de la infraestructura de Azure que creemos que está causando el impacto».
Un «cambio de configuración involuntario»: se trata de una charla en la nube para: «Alguien presionó un botón equivocado en alguna parte». El problema estaba relacionado especÃficamente con: Puerta de entrada de Azure, Red de entrega de contenido (CDN) de Microsoft.
18:24 UTC – Se inicia la reversión
Microsoft comenzó a implementar la última buena configuración conocida, es decir, volver a la última configuración de trabajo. Duración estimada: 30 minutos. (Spoiler n.o 2: Tomó mucho más tiempo.)
Al mismo tiempo, Microsoft bloqueó temporalmente todos los cambios de configuración del cliente para evitar un mayor caos. Imagina que estás tratando de apagar una casa en llamas mientras la gente sigue arrastrando muebles.
19:57 UTC - Primeros signos de mejora
El retroceso se completó, y Microsoft comenzó a restaurar nodos y enrutar el tráfico a través de nodos saludables. Recuperación total prevista: hasta las 23:20 UTC (00:20 CET). Espera otras cuatro horas.
Poco después de las 2.00 horas (hora central europea) (30 de octubre) – todo despejado
Después de terminado 8 horas de fracaso Microsoft ha solucionado el problema. ¡Ocho horas! En el mundo digital, media eternidad.
¿Qué es Azure Front Door?
Antes de profundizar, una breve explicación para aquellos que no tienen que lidiar con la infraestructura de la nube todos los dÃas:
Puerta de entrada de Azure Red de entrega de contenido global (CDN) y red de entrega de aplicaciones (ADN) de Microsoft. En pocas palabras: Es la «puerta de entrada» para prácticamente todos los servicios de Azure y Microsoft 365 en todo el mundo.
La puerta delantera realiza varias tareas crÃticas:
- Equilibrio de carga: Distribuye el tráfico entrante a diferentes servidores
- almacenamiento en caché: Almacena contenido recuperado con frecuencia en el medio para que se cargue más rápido
- Protección contra DDoS: Filtra ataques y bots
- Terminación SSL: Descifra las conexiones cifradas
- enrutamiento: Dirige las solicitudes a los servidores geográficamente más cercanos o menos ocupados
El fallo de la puerta principal es como derribar la puerta principal de un enorme complejo de edificios: nadie entra, por importante que sea la preocupación.
La dimensión técnica: ¿Qué pasó exactamente?
El siguiente escenario puede ser reconstruido a partir de los informes oficiales de estado y los informes:
Fase 1: El cambio de configuración fatal
En algún momento antes de las 16:00 UTC, se realizó un cambio de configuración en la infraestructura de Azure Front Door. Microsoft lo llama «inadvertido», lo que probablemente significa que:
- Un proceso automatizado ha hecho un cambio defectuoso
- Un cambio manual tuvo efectos secundarios inesperados
- Un proceso de despliegue ha salido mal
Este cambio causó problemas de DNS. En concreto, esto significa: Los registros DNS que indican a los clientes dónde encontrar los servicios de Azure de repente eran incorrectos, incompletos o ya no estaban presentes.
Fase 2: Comienza la cascada
Debido a que la puerta delantera actúa como un componente central, comenzó una reacción en cadena:
- Servicios primarios afectados: Outlook, Microsoft 365, Exchange Online se vieron directamente afectados
- Las herramientas de administración están inactivas: El Centro de administración de Microsoft 365 y Azure Portal no estaban disponibles en parte: las herramientas que necesitan los administradores para resolver problemas
- La autenticación está fallando: Microsoft Entra (Azure AD) tenÃa problemas, lo que significaba que muchos usuarios no podÃan iniciar sesión en absoluto.
- Herramientas de seguridad hacia abajo: Microsoft Defender XDR y Microsoft Purview se vieron afectados: la seguridad y el cumplimiento eran literalmente ciegos
Fase 3: Tratando de salvar el portal
Microsoft dio un paso interesante: «falló el portal fuera de AFD», es decir, redirigió el Portal Azure para eludir la puerta principal y ser directamente accesible. Esto funcionó en parte, pero algunas extensiones de portal (como el Marketplace) siguieron siendo problemáticas.
Esto es como conectar una escalera de emergencia a un edificio en llamas: funciona, pero solo de forma limitada.
Fase 4: El maratón de retroceso
Volviendo a la última configuración de trabajo tomó horas. ¿Por qué tanto tiempo? Debido a que Azure Front Door se distribuye a nivel mundial y los cambios tuvieron que propagarse a través de cientos de servidores en docenas de centros de datos en todo el mundo.
Durante el retroceso, los técnicos tuvieron que:
- Identificación de la «última buena configuración conocida»
- Implementar esta configuración (30+ minutos)
- Restauración de nudos pieza por pieza
- Dirija gradualmente el tráfico a través de nodos saludables
- Monitoree que no se rompa más
Daños colaterales: ¿Quién se vio afectado?
AerolÃneas en caos
Alaska Airlines y AerolÃneas de Hawái Informaron que no tenÃan acceso a sistemas crÃticos debido a problemas de Azure. Los sitios web de las aerolÃneas estaban caÃdos, el check-in en lÃnea no funcionó. Los pasajeros tenÃan que hacer fila en largas colas en el aeropuerto y ser facturados manualmente.
ImagÃnese: Estás en el aeropuerto, tu vuelo sale en una hora y, de repente, todos los pasajeros deben registrarse manualmente porque la nube no funciona. ¡Bienvenidos a la década de 1990!
Retail y GastronomÃa
En los Estados Unidos, varias cadenas importantes reportaron problemas:
- Kroger (fabricante de equipos sanitarios)
- Costco (mayorista)
- Starbucks (cadena de café)
En Starbucks, esto significaba: La aplicación móvil no funcionaba, el pago móvil estaba muerto y el personal tuvo que recurrir a viejos sistemas manuales.
Juegos y Entretenimiento
- Xbox Live: Los jugadores no pudieron iniciar sesión, no se pudo acceder a los juegos multijugador
- Minecraft: ¡Otra vez! Después de la interrupción de AWS, la interrupción de Azure. La comunidad de Minecraft tuvo un Octubre negro.
Servicios crÃticos para el negocio
Particularmente doloroso fue el fracaso para los usuarios profesionales:
CódigoDos (gestión de firmas de correo electrónico) informó de problemas de rendimiento global en varias regiones:
- Alemania Centro-Oeste
- Australia del Este
- Canadá Este
- Y otros 13 componentes
SpeechLive (Solución de dictado en la nube para abogados y médicos) estaba completamente abajo. Imagine que es un médico, necesita dictar urgentemente los registros de los pacientes y su software en la nube está en huelga. No es una buena situación.
TeamViewer (web.teamviewer.com) se vio afectado: el soporte remoto se convirtió en un desafÃo.
La perspectiva alemana
En Alemania, también, hubo efectos que fueron más allá de los servicios directos de Microsoft:
- Varios ISPs (1&1, Vodafone Cable) reportó un aumento de los mensajes de fallas, presumiblemente porque muchos usuarios pensaron que su Internet estaba roto a pesar de que era «solo» la nube.
- Algunos usuarios informaron que incluso las páginas no alojadas en Azure se cargaban más lentamente, una indicación de hasta dónde llegaron los problemas de DNS.
- El blog BornCity.com tuvo interrupciones a corto plazo a pesar de estar alojado en all-inkl.com, posiblemente debido a problemas de propagación de DNS
AWS: El mismo juego hace una semana.
Miremos hacia atrás al 20 de octubre de 2025. Por la mañana a las 9:30 am hora alemana comenzó el gran temblor: AWS, el proveedor de nube más grande del mundo, experimentó problemas masivos en la región US-EAST-1. Y debido a que esta región es tan central, prácticamente la mitad de Internet estaba caÃdo.
El efecto dominó
La lista de servicios afectados se lee como un quién es quién de Internet:
- señal, Snapchat, zoom, Slack
- Fortnite, Roblox, Minecraft (SÃ, de nuevo)
- Tinder (¡No hay fecha para ti!)
- Amazon Prime (video), Alexa
- Coinbase, Robinhood, Venmo
- Perplejidad AI, Canva, Duolingo
- Autodesk (las instalaciones locales no funcionaron porque los servidores de licencias no eran accesibles)
- En Alemania: El Gemática tuvo interrupciones de TI en eRecipe y ePA porque las aseguradoras de salud usaron AWS
Acerca de 8,1 millones de quejas entró, más de 2.000 sitios web y aplicaciones se vieron afectados. Incluso "Eight Sleep", un sistema de cama inteligente que ajusta automáticamente la temperatura y la inclinación, ya no funcionaba. ¡La gente ya ni siquiera podÃa dormir cómodamente!
La causa técnica: Una condición de carrera
¿Cuál fue la causa? Una llamada condición de carrera en el sistema DNS de AWS. Dos procesos automatizados intentaron al mismo tiempo realizar cambios en diferentes regiones, y – Puff! – toda la tabla DNS estaba vacÃa. Los servidores de repente no sabÃan cómo comunicarse entre sÃ.
El principal servicio afectado fue DynamoDB, un servicio de base de datos que AWS también utiliza internamente. Cuando DynamoDB falló, fue seguido por una cascada: EC2 (servidores virtuales) y Lambda (código sin servidor) también se vieron afectados. Un clásico punto único de fracaso.
AWS tardó unas tres horas en encontrar y solucionar la causa. Pero las consecuencias se sintieron horas después.
El panorama general: La dependencia de la nube como riesgo
Dos fracasos masivos en nueve dÃas. Ambas veces la misma causa raÃz: Problemas de DNS en infraestructuras de nube central. ¿Qué podemos aprender de esto?
1. El único punto de falla es real
No importa cuán grande y poderoso sea un proveedor de nube, si falla, la mitad de Internet a menudo está involucrado. AWS y Azure son tan dominantes que sus interrupciones tienen un impacto global. Juntos, AWS, Microsoft Azure y Google Cloud controlan alrededor de 65% el mercado global de la nube. Esta es una gran concentración de poder.
2. Multi-nube no es un lujo, sino un deber
Los expertos han advertido durante mucho tiempo: Cualquiera que dependa de un proveedor de nube para todos sus servicios corre un gran riesgo. Las estrategias multinube, en las que extiende su infraestructura a través de múltiples proveedores, son esenciales hoy en dÃa. SÃ, esto es más complejo y costoso, pero una interrupción de ocho horas puede costarle mucho más.
3. Las estrategias de conmutación por error deben ser
¿Tienes un plan B? ¿Y un plan C? Las empresas necesitan:
- Sistemas automáticos de conmutación por error, cambio a infraestructuras alternativas en caso de fallos
- Copias de seguridad redundantes en varias plataformas
- CDNs con múltiples orÃgenes, de modo que el contenido pueda entregarse desde diferentes fuentes
- Pruebas periódicas sus planes de emergencia (¡no solo cuando está en llamas!)
4. El ADN sigue siendo el talón de Aquiles
Ambas fallas tenÃan problemas de DNS como causa. El sistema de nombres de dominio es el sistema nervioso de Internet: si falla, el caos está preprogramado. Las empresas deben:
- Uso de estrategias de DNS distribuidas
- Uso de múltiples proveedores de DNS
- Configurar el almacenamiento en caché de DNS de forma inteligente
5. El componente humano
En ambos casos, fueron los «cambios de configuración involuntarios» o los procesos automatizados los que se salieron de control. Esto muestra: Incluso con los gigantes tecnológicos, la complejidad de los sistemas es tan alta que ocurren errores. Y cuando ocurren, tienen repercusiones globales.
Los usuarios de Microsoft comentaron sarcásticamente: «Si no está roto, ¡no lo arregles!» El viejo adagio «Si no está roto, no lo arregles» parece haber sido olvidado por Microsoft y Co.
¿Qué significa esto para ti?
Ya sea que esté ejecutando un negocio, un administrador de TI o simplemente usando servicios en la nube, estas interrupciones son una llamada de atención:
Para las empresas:
- Diversifique su infraestructura en la nube. No pongas todo en una sola tarjeta.
- Pruebe sus planes de emergencia regularmente. Si AWS o Azure fallan, ¿sabe qué hacer?
- Comunicarse de forma proactiva con sus clientes cuando surjan problemas. La transparencia crea confianza.
- Mantiene las funciones crÃticas a nivel local. No todo tiene que estar en la nube.
Para usuarios privados:
- Tener soluciones de copia de seguridad para servicios importantes. Si Outlook está caÃdo, ¿puede acceder a su programa de correo electrónico o webmail?
- Utiliza diferentes plataformas para diferentes propósitos. Todos los huevos en una canasta nunca es una buena idea.
- Descarga datos importantes localmente. La nube es conveniente, pero no es un reemplazo para las copias de seguridad locales.
Para la polÃtica:
La UE ya está trabajando en regulaciones más estrictas como la Ley de Ciberresiliencia, el Directiva SRI 2 y el Reglamento de Cibersolidaridad. Estas leyes están diseñadas para garantizar que las infraestructuras crÃticas estén mejor protegidas. El experto en AWS de ISACA, Chris Dimitriadis, habla de «pandemias digitales», y asà es exactamente como se sienten estos fallos.
Conclusión: Bienvenidos al frágil mundo digital
Dos apagones masivos de nubes en nueve dÃas nos muestran claramente una cosa: La infraestructura digital moderna es más frágil de lo que queremos percibir. Nos hemos vuelto dependientes de un puñado de gigantes tecnológicos, y cuando tropiezan, todos tropezamos.
¿Las buenas noticias? Estos fallos son evitables o, al menos, su impacto puede minimizarse. Necesita:
- Diversificación técnica (Multi-nube, multi-región, multi-proveedor)
- Resiliencia organizativa (Planes de emergencia, modos de funcionamiento reducidos)
- Marco normativo (Leyes cibernéticas más fuertes)
La pregunta ya no es si viene la próxima gran interrupción de la nube, sino cuándo. Y si eres uno de los ganadores o perdedores depende de lo bien preparado que estés.
TL:DR
En este sentido: Manténgase alerta, permanezca resistente y no olvide revisar sus copias de seguridad locales de vez en cuando. Nunca se sabe cuándo llegará a la vuelta de la esquina el próximo «cambio de configuración involuntario».