DNS: o ponto único de falha que vive disfarçado de redundância

Por Gabriel Xavier Supervisor de Gestão e Arquitetura de Sistemas | Especialista em Governança de TI e Analytics Às 3h11 da manhã do dia 20 de outubro de 2025, um ajuste de configuração, daqueles que qualquer engenheiro de plantão julgaria rotineiro, começou a rasgar silenciosamente o tecido da infraestrutura digital de 30% da nuvem mundial. Não houve alarme imediato. Não houve mensagem de erro dramática. Os queries DNS para o endpoint do DynamoDB na região US-East-1 simplesmente pararam de resolver. Retornavam SERVFAIL ou NXDOMAIN, como se o destino tivesse deixado de existir. Em menos de 80 minutos, Snapchat, Fortnite, Venmo, Roblox e centenas de serviços críticos ao redor do planeta estavam paralisados. O Downdetector registrou 17 milhões de relatos de usuários, um aumento de 970% em relação à linha de base diária média, em mais de 60 países. O mais perturbador não foi a escala. Foi o fato de que aquela infraestrutura era classificada internamente como “highly available”. Esse é o paradoxo central do DNS moderno: quanto mais sofisticada a arquitetura ao redor dele, mais invisível fica a fragilidade dentro dele. Balanceadores de carga multi-AZ, clusters Kubernetes com auto-scaling, pipelines de CI/CD auditados, tudo isso colapsa instantaneamente quando o sistema que traduz um nome em endereço para de responder. E a zona de falha quase nunca é onde o time de SRE olha primeiro. A anatomia de uma falha que parece distribuída, mas não é A promessa de alta disponibilidade repousa sobre um pressuposto implícito: que as dependências críticas do sistema são conhecidas e estão documentadas. Na prática, o que se acumula ao longo de anos de crescimento orgânico é um DAG (Directed Acyclic Graph) de serviços que, discretamente, desenvolveu ciclos. E o DNS vive exatamente nesses ciclos. No caso da AWS em outubro de 2025, a lógica da falha seguiu […]