Pane na AWS: por que quedas globais continuam acontecendo

Nuvem da Amazon apresentou grande instabilidade nesta segunda-feira (20)

Jordan Vallnsky, da CNN
Compartilhar matéria

A Amazon Web Services (AWS), plataforma de computação em nuvem que alimenta grande parte da internet, ficou inativa por várias horas nesta segunda-feira (20), deixando vários sites e aplicativos importantes inoperantes.

De serviços bancários a redes sociais, sites de reservas aéreas e compras on-line, milhares de serviços foram interrompidos porque milhões de pessoas no mundo todo — muitas das quais estavam a caminho do trabalho na Costa Leste dos EUA — não conseguiram pedir café pelo celular ou acessar aplicativos importantes.

A última interrupção serve como um lembrete de quão frágil a espinha dorsal da internet pode ser, mesmo que a interrupção seja breve, e de quão dependente o mundo se tornou desses serviços online.

Embora a AWS e seus concorrentes sejam geralmente robustos, a internet é uma rede complexa de serviços sobrepostos cuja confiabilidade depende do seu código mais fraco. A causa raiz da interrupção desta segunda permanece desconhecida, mas um serviço que converte nomes amigáveis ​​da web em endereços IP não conseguiu se comunicar com os enormes bancos de dados de milhares de empresas hospedados pela Amazon.

Interrupções anteriores dessa magnitude foram causadas por uma ampla variedade de erros, incluindo atualizações defeituosas, injeção acidental de código incorreto ou uma alteração em software de terceiros que não funciona bem com um serviço. Raramente, cortes de cabos de internet, ataques cibernéticos ou ataques diretos de negação de serviço podem derrubar ou sobrecarregar servidores que hospedam aplicativos importantes.

Mas a frequência relativa desses eventos demonstra a falta de redundâncias necessárias e de serviços competitivos. Com muita frequência, segundo alguns especialistas em internet, as empresas colocam todos os ovos na mesma cesta de serviços em nuvem.

Não há "nenhum sinal" de que tenha sido um ataque cibernético, de acordo com Rob Jardin, diretor digital da empresa de segurança cibernética NymVPN, acrescentando que "parece uma falha técnica afetando um dos principais data centers da Amazon".

“A internet foi originalmente projetada para ser descentralizada e resiliente, mas hoje grande parte do nosso ecossistema online está concentrado em um pequeno número de regiões de nuvem”, disse ele em nota. “Quando uma dessas regiões sofre uma falha, o impacto é imediato e generalizado.”

Jardin disse que “esses problemas podem acontecer quando os sistemas ficam sobrecarregados ou uma parte importante da rede fica inativa; e como muitos sites e aplicativos dependem da AWS, o impacto se espalha rapidamente”.

A AWS não costuma passar por grandes interrupções como essa, a última delas ocorreu em 2021.

“Isso está no mesmo nível dos outros grandes provedores de nuvem e, de fato, é incrível que eles consigam operar na escala que operam sem interrupções mais frequentes”, disse Mike Chapple, especialista em segurança cibernética e professor de TI na Faculdade de Administração Mendoza da Universidade de Notre Dame.

“A razão pela qual esses eventos atraem muito mais atenção é o seu impacto”, disse ele à CNN. “Se uma única empresa enfrenta um problema em seu data center, isso causa problemas para os produtos e serviços dessa empresa.”

Em 2024, a maior interrupção de TI da história derrubou grandes partes da internet quando uma falha devastadora no software da CrowdStrike travou computadores, levou ao cancelamento de voos e interrompeu o funcionamento de hospitais em todo o mundo, gerando US$ 5 bilhões em perdas comerciais diretas. Um bug no sistema de testes em nuvem da CrowdStrike levou a uma atualização problemática para computadores em todo o mundo.

Também no ano passado, a rede da AT&T caiu diversas vezes, incluindo um colapso de 11 horas que impediu muitos trabalhadores temporários de fazerem seu trabalho.

Então, o que deu errado na segunda-feira?

A AWS é uma provedora de computação em nuvem que hospeda muitos dos serviços online mais utilizados no mundo. Nos primórdios da Amazon, a empresa precisava de capacidade excedente de servidores para garantir capacidade computacional suficiente para lidar com o enorme volume de tráfego que chegava ao seu site durante o pico das festas de fim de ano. A Amazon percebeu que, durante o resto do ano, poderia usar esses servidores para atender às necessidades online de outras empresas, e foi assim que nasceu a AWS.

Entre os muitos serviços oferecidos pela AWS está o DynamoDB, um banco de dados que hospeda informações para empresas, incluindo dados de clientes. A Amazon informou na segunda-feira que seus clientes não conseguiam acessar os dados armazenados no DynamoDB porque o Sistema de Nomes de Domínio (DNS) – uma espécie de lista telefônica da internet – havia encontrado um problema.

O DNS é como um mecanismo de localização na Internet, convertendo endereços da web fáceis de usar, como amazon.com, em endereços IP – uma série de números que outros sites e aplicativos podem entender.

“A Amazon tinha os dados armazenados com segurança, mas ninguém mais conseguiu encontrá-los por várias horas, deixando os aplicativos temporariamente separados de seus dados”, disse Chapple. “É como se grandes porções da internet sofressem amnésia temporária.”

Não está claro o que causou a interrupção do DNS, mas durou apenas algumas horas. Às 6h35 (horário do leste dos EUA), a Amazon corrigiu o problema de DNS e recomendou que as empresas removessem o cache – arquivos de armazenamento temporário – para ajudar a acelerar a restauração dos serviços.

A Amazon disse que a interrupção continuou afetando outros serviços da AWS, incluindo o EC2, um tipo de servidor virtual que muitas empresas usam para criar seus aplicativos online.

A empresa provavelmente realizará uma autópsia e explicará o que deu errado com seu sistema DNS nos próximos dias.

Esse conteúdo foi publicado originalmente em
InternacionalVer original