Síguenos

Tecnología

Por qué cayó AWS y se bloquearon tantas apps: el motivo

Publicado

el

Por qué cayó AWS

Diseñado por Freepik

Una caída de AWS en US-EAST-1 afecta a Snapchat, Duolingo y Canva; alcance en España, qué falló y el estado de la recuperación de servicios.

Amazon Web Services (AWS) ha sufrido esta mañana una interrupción amplia que ha dejado fuera de juego a una larga lista de aplicaciones y webs muy populares. Snapchat, Duolingo y también Canva han registrado fallos intermitentes, imposibilidad de iniciar sesión o tiempos de carga eternos. A la misma hora, otros servicios como plataformas financieras, asistentes conectados o tiendas en línea han mostrado errores al autenticarse o al recuperar datos. La fotografía es nítida: un problema en la nube de Amazon ha provocado una degradación masiva con efectos en cadena en medio mundo, visible también en España durante el arranque de la jornada.

Lo esencial: no es una caída total de internet, sino un incidente de infraestructura concentrado en una de las regiones más concurridas de AWS —US-EAST-1 (Virginia del Norte)— que ha afectado a piezas críticas y ha disparado tasas de error en servicios de base. Cuando un engranaje así se atasca, se resiente todo lo que depende de él: autenticaciones que fallan, bases de datos que responden tarde, DNS errático, sesiones que expiran antes de completar una transacción. El resultado se ha visto en titulares y, sobre todo, en pantallas: Canva caído, cursos de Duolingo congelados, mensajes de Snapchat que no terminaban de salir, compras bloqueadas, páginas lentas. Una mañana rara para cualquiera que viva de lo digital.

Dónde ha dolido y por qué se ha notado tanto

La nube pública funciona como una ciudad de servicios. Unas calles llevan a los servidores (cómputo), otras a los almacenes (almacenamiento), otras a los cruces con semáforos (balanceadores), y otras a las oficinas de identidad (autenticación). US-EAST-1 es un cruce gigantesco por el que pasan millones de solicitudes cada segundo. Por historia, coste y capilaridad, muchas empresas concentran allí cargas enteras o funciones clave. Así, cuando esa autopista se encoge por un incidente, el atasco se propaga: no solo se frenan las apps alojadas allí, también aquellas que dependen de APIs o bases de datos que residen en esa región.

De cara al usuario, el patrón es reconocible. Errores 5xx, pantallas en blanco, reinicios de sesión, carritos que desaparecen, guardados que no se confirman. Canva ha mostrado mensajes de indisponibilidad y cargas que no terminaban; Duolingo ha impedido completar lecciones a ratos; Snapchat ha sufrido picos de inestabilidad; otras marcas han complicado el acceso a sus paneles o a funciones en tiempo real. A nivel técnico, un aumento de latencia en un servicio troncal puede desencadenar “timeouts” en cascada. Y cuando a eso se suma resolución de nombres inestable o problemas de identidad, el efecto se multiplica.

España, franja de impacto y síntomas en el día a día

En España el impacto se ha notado a primera hora de la mañana, con picos de informes de caída coincidiendo con el inicio de la actividad laboral. Equipos que trabajan con herramientas SaaS han visto paneles de administración congelados; comercios electrónicos han sufrido pasarelas de pago caprichosas; usuarios domésticos, altavoces y cámaras conectadas que no respondían o que lo hacían a trompicones. El fenómeno ha sido intermitente: minutos de normalidad seguidos de ráfagas de errores. Esa “respiración irregular” es típica en incidentes que no tumban por completo una región, pero sí la llevan al límite.

El sector educativo —muy dependiente de plataformas de aprendizaje— ha identificado problemas para iniciar sesión y sincronizar progresos. En medios y publicidad digital, la entrega de creatividades y la edición colaborativa se ha ralentizado, afectando a publicaciones con cierre matinal. En servicios financieros, algunos inicios de sesión y consultas de saldo han devuelto mensajes de error genéricos. No siempre se ve el origen —los usuarios culpan a la app—, pero los operadores confirman que el foco está en la infraestructura.

Qué se ha roto por dentro: piezas sensibles cuando la nube tose

Cuando un incidente así aparece, hay tres zonas grises que suelen marcar la diferencia entre un susto y un apagón mayor:

Identidad y autenticación. Si el servicio que valida quién eres sufre, todo lo demás se cae detrás. Las sesiones expiran, los tokens no se renuevan, un “login” que debería tardar un segundo se vuelve imposible. En el mundo real: no puedes entrar a tu aplicación aunque tu contraseña sea correcta, o entras pero te expulsa a los dos minutos.

Datos en tiempo real. Muchas apps basan su experiencia en lecturas y escrituras muy rápidas: progreso de una lección, mensajes, edición de un diseño, notificaciones de compra. Si la base de datos se ralentiza o responde con errores, la app empieza a reintentar, a duplicar llamadas, a saturarse. Con el tráfico disparado, peor todavía.

Red y DNS. Aunque suene invisible, que los nombres resuelvan y que las rutas sean estables es todo. Si un balanceador se bloquea o el DNS no responde a tiempo, el cliente no encuentra a quién hablar. El síntoma para el usuario es absurdo: “no tengo internet”, cuando sí lo tienes; es el servicio el que no contesta.

En una jornada como la de hoy, no hace falta que todo falle a la vez. Basta con que una pieza empiece a devolver errores intermitentes para que los equipos activen la degradación controlada: apagan funciones no críticas, limitan carga pesada, pasan ciertos módulos a modo solo lectura. Es preferible ofrecer algo a nada, incluso si el producto parece “capado” durante unas horas.

Por qué siempre suena US-EAST-1 y qué papel juega en el ecosistema

La pregunta recurrente. ¿Por qué tantas cosas dependen de la misma región? La respuesta corta: historia y economía de escala. AWS nació y creció con servicios pioneros que primero aparecían en Virginia del Norte. Muchas compañías empezaron allí por disponibilidad y precio, y con el tiempo quedaron atadas a esa geografía: mover decenas de bases de datos, pipelines, colas y permisos no es trivial ni barato. A eso se suma que algunos servicios globales se anclan en esa región a nivel operativo, aunque luego repliquen datos o desplieguen cachés por el mundo.

El resultado es una concentración de tráfico que explica por qué un incidente localizado tiene eco global. No implica que “AWS esté caído” en su conjunto; implica que la arteria más transitada está sufriendo, y eso se nota en todas partes: Snapchat, Duolingo y Canva —entre tantas— lo han sentido hoy, igual que tiendas online, plataformas de streaming, videojuegos en la nube, servicios de IA generativa y herramientas corporativas.

Qué están haciendo Amazon y las plataformas afectadas

Cuando se encienden las alarmas, el guion técnico es conocido, aunque la ejecución sea quirúrgica y cada minuto cuente. Primero, estabilizar el plano de control: asegurarse de que crear, borrar o escalar recursos vuelve a ser fiable. Después, mitigar el origen del aumento de errores: desviar tráfico, reiniciar o aislar componentes, amplificar capacidad y quitar presión a los puntos calientes. Por último, normalizar la latencia y la consistencia de los datos para que las app vuelvan a comportarse con respuesta predecible.

Las plataformas afectadas hacen su parte. Comunican en sus paneles de estado, desactivan temporalmente funciones pesadas (exportaciones masivas, sincronizaciones en segundo plano), incrementan cachés, acortan tiempos de reintento y colocan mensajes claros en las interfaces. Los equipos de soporte ajustan plantillas de respuesta para que nadie borre apps o restablezca contraseñas sin sentido. Mientras tanto, monitorizan picos y confirman ventanas de recuperación que llegan a destiempo, como un semáforo en ámbar. Nada de magia. Trabajo fino hasta que el sistema respira con normalidad.

Impacto económico y reputacional, con números que no se ven

Un apagón de la nube no se mide solo en minutos. Se mide en procesos fallidos: carritos abandonados, pagos no completados, campañas que no se publican, tickets que caducan, clases no guardadas en Duolingo, diseños que no cargan en Canva, mensajes no enviados en Snapchat. El coste directo es la transacción perdida; el indirecto, desconfianza. Cuando alguien ve “inténtalo más tarde” en su banco, en su tienda o en su app favorita, la próxima vez se lo piensa dos veces. Y las marcas lo saben.

Con el mercado global funcionando en tiempo real, algunas empresas —sobre todo fintech, cripto, logística o viajes— sienten más el golpe. Un login que falla cinco minutos en hora punta no pesa igual que el mismo fallo de madrugada. Si el incidente coincide con cierres contables, lanzamientos, campañas o eventos, el impacto se multiplica. Hay balances que no verás: horas extra del equipo, créditos en la factura de la nube por Acuerdos de Nivel de Servicio (SLA), bonos para clientes enfadados. Y sí, acciones que bailan si la jornada se vuelve noticia de portada.

Lo que hoy interesa a quien depende de AWS para trabajar

Más allá del susto, hay una lista mínima que cualquier empresa con piel en la nube debería revisar en frío. No es teoría; son palancas tácticas que marcan la diferencia cuando algo se rompe.

Diseño para el fallo. Suena obvio. No basta con “estar en la nube”. Hay que admitir que una región puede fallar y que tu producto debe degradarse con elegancia: servir contenido en solo lectura si la escritura se atasca, desactivar capas no esenciales, mantener el login vivo con tokens más largos mientras se recupera el servicio de identidad.

Multizona y, cuando toque, multirregión. Entre no redundar nada y replicar todo hay escalas. Separar lectura y escritura, usar réplicas en otra zona de disponibilidad y tener procedimientos de conmutación a otra región para los componentes críticos reduce el riesgo sin duplicarlo todo.

Cachés inteligentes. En muchos productos, el 80 % de las peticiones son lecturas repetidas. Una capa de caché en Europa con invalidación controlada te permite seguir sirviendo contenido —aunque sea ligeramente desactualizado— cuando la región principal se atraganta.

Circuit breakers y reintentos con cabeza. Si una dependencia responde lento, córtale antes de tumbar el resto. Aumenta el “backoff” en los reintentos para no inundar a un servicio que ya está sufriendo. Y caduca llamadas que no son vitales.

Feature flags de verdad. El interruptor que apaga funciones pesadas desde un panel evita despliegues apresurados durante un incidente. Lo de hoy lo demuestra: a veces basta con pausar exportaciones o desactivar miniaturas en tiempo real para sobrevivir a la ventisca.

Visibilidad y comunicación. No esperes a que sea DownDetector quien te cuente lo que pasa. Alertas internas, paneles, runbooks. Y hacia afuera, mensajes claros: qué no funciona, qué sí y cuándo vuelve. El silencio deja un vacío que se llena con capturas y quejas virales.

Qué puede venir en las próximas horas

La experiencia indica que estos incidentes se resuelven por fases. Primero, baja la tasa de errores; luego, la latencia vuelve a valores normales; por último, funciones no esenciales reaparecen con naturalidad. Durante un tiempo, persisten pequeños flecos: colas de trabajos que se vacían a cámara lenta, replicaciones que se ponen al día, sesiones que hay que renovar. En paralelo, Amazon y las compañías afectadas confeccionan informes de post-mortem que detallan la causa raíz, el timeline del incidente y las medidas para evitar una repetición.

¿Causas probables? Errores de configuración, bugs que afloran solo bajo ciertas cargas, picos de tráfico inesperados que estresan un subsistema concreto, reglas de seguridad que bloquean más de lo que deben, dependencias cruzadas que se alimentan mal entre sí. Nada glamuroso. La ingeniería de estas plataformas vive —y sobrevive— en ese tipo de detalles. Lo importante para el usuario final es que las ventanas de normalidad se van haciendo más largas hasta que el servicio parece el de siempre.

Canva, Duolingo y Snapchat: así lo han sufrido tres gigantes cotidianos

Canva es un caso claro cuando la nube tose. Su propuesta depende de cargas y guardados continuos, generación de miniaturas, renders y sincronización en equipos. Con latencias altas o bases de datos ocupadas, los lienzos tardan en abrir, los elementos no cargan y exportar se vuelve un ejercicio de paciencia. Hoy ha ocurrido: Canva se ha caído por tramos, con mensajes explícitos de indisponibilidad y funciones capadas hasta recuperar pulso.

En Duolingo, la fricción viene por otro lado: progresos que no se registran, recompensas que no llegan, lecciones que vuelven al punto de partida. Si el login o la sincronización fallan, la experiencia se resiente aunque el contenido esté en caché. Por eso se ven marcadores desactualizados y racha que parece cortarse. Cuando la infraestructura se normaliza, todo vuelve —aunque a veces con retraso—.

Snapchat vive y muere por tiempo real: mensajes y contenidos efímeros, historias que entran y salen del sistema a gran velocidad. Un aumento de errores en los servicios de backend y las APIs que sirven la app se convierte en fotos que no envían, chats que desaparecen y notificaciones que llegan a destiempo. De nuevo, el patrón de hoy: picos de inestabilidad, ratos de normalidad, vuelta al carril.

El papel de los monitores de caída y la percepción pública

En incidentes así, DownDetector y herramientas similares se convierten en termómetros sociales. Suben los picos de informes y, en paralelo, las marcas confirman que algo va mal. Hay que entender esas gráficas: no miden la causa, miden el ruido. Son útiles para dimensionar la amplitud y el momento del problema, no para diagnosticar. La confirmación técnica llega por otros cauces: paneles de estado, mensajes de ingeniería, ajustes en limitaciones temporales que las compañías notifican —a veces en redes, a veces dentro de la app—.

La percepción pública, sin embargo, se cocina ahí. Si demasiadas apps fallan a la vez, la narrativa es inmediata: “se ha caído internet”. No es exacto, pero explica lo que siente quien intenta pagar, entrar o enviar. Y aquí comunicar bien marca la diferencia. Mensajes en castellano, concretos, que eviten manuales y den tiempos realistas. Con Canva, Duolingo y Snapchat en el escaparate, el foco es inevitable. Y la forma en que cada marca baja la ansiedad hoy cuenta tanto como la velocidad con la que arregla el problema.

Lecciones que deja una mañana agitada para la economía conectada

Redundar cuesta, pero no redundar se paga. No todas las empresas pueden permitirse multinube o multirregión total, pero hay grises con un retorno claro: réplicas de solo lectura en otra zona, cachés regionales, rutas alternativas para iniciar sesión, colas que admiten trabajo offline para procesarlo más tarde. Lo que ayer parecía optimización hoy es resiliencia.

La geografía importa. Distribuir apps, datos y dependencias evita que un solo cruce decida tu día. Aunque el corazón siga en US-EAST-1, mover módulos concretos —descargas, imágenes, catálogos— más cerca de tus usuarios en Europa reduce riesgo y latencia.

El usuario entiende lo que le explicas. No es retórica: una alerta clara en la app con “estamos sufriendo una incidencia en nuestro proveedor de nube; tus datos están seguros; volveremos a la normalidad en cuanto el servicio se estabilice” desactiva reinstalaciones, evita tickets duplicados y protege reputación.

No todo es técnico. Las cláusulas de SLA, los procedimientos de compensación, los seguros y la formación del equipo para incidentes son parte del mismo traje. Lo que se decide antes de un día como este se nota durante y después.

Medir bien para reaccionar mejor. Telemetría granular, alertas por síntoma, no solo por causa. Si tu app detecta picos de “timeouts” en autenticación, activa de inmediato el modo de sesión extendida. Si ves errores en escritura, pasa a solo lectura en los módulos donde tenga sentido. Pequeñas acciones que evitan grandes colapsos.

El día que la nube recordó sus límites

La jornada deja una evidencia incómoda y útil. La nube multiplica capacidades, acelera productos, abarata la entrada a mercados donde antes solo jugaban gigantes. Pero sigue siendo infraestructura, y como tal puede fallar. Hoy, con AWS bajo presión en US-EAST-1, esa realidad ha bajado a tierra con fuerza: Snapchat, Duolingo y Canva —entre muchos otros— se han visto afectados, y miles de negocios han sentido el temblor aunque su proveedor directo no fuese Amazon. Lo relevante ahora no es encontrar frases grandilocuentes, sino cerrar el incidente con calma, documentarlo y aprender.

Habrá un informe técnico con una causa raíz y una lista de acciones. Habrá gráficas que expliquen minuto a minuto cuándo subió la tasa de errores y cuándo empezó la recuperación. Y habrá, en cada empresa tocada por este susto, decisiones que suben un peldaño la resiliencia: pequeños cambios en arquitectura, política de caché, procedimientos de crisis o mensajería a clientes. Eso es lo que queda cuando una caída ya es historia: un sistema un poco más robusto que ayer, menos expuesto a que un solo cruce en Virginia del Norte convierta una mañana cualquiera en una carrera de obstáculos. Hoy ha pasado. Puede volver a pasar. Lo inteligente es estar mejor preparados cuando llegue el próximo temblor.


🔎​ Contenido Verificado ✔️

Este artículo se apoya en información contrastada y actualizada procedente de medios y fuentes oficiales. Fuentes consultadas: 20minutos, elDiario.es, Xataka Móvil, The Verge, Business Insider, Cadena SER, ABC, Sky News, The Independent.

Gracias por leerme y por pasarte por Don Porqué. Si te apetece seguir curioseando, arriba tienes la lupa para buscar más temas. Y si esto te ha gustado, compártelo: así la historia llegará un poco más lejos.