A enorme interrupção da AWS de hoje que destruiu seus sites favoritos ainda está acontecendo

A Internet começa a semana da mesma forma que muitos de nós faríamos: recusando-nos a ir trabalhar. Uma interrupção na Amazon Web Services deixou grandes áreas da Internet indisponíveis na segunda-feira. Sites e serviços, incluindo Snapchat, Fortnite, Venmo, PlayStation Network e, previsivelmente, Amazon, ficaram inativos no início do dia.
A interrupção começou pouco depois da meia-noite, horário do Pacífico, e levou cerca de três horas e meia para ser totalmente resolvida. As redes sociais e os serviços de streaming estiveram entre as mais de 2.000 empresas, e serviços importantes como o banco online também foram retirados.
A partir das 12h15, horário do Pacífico, a Amazon disse que continua vendo a restauração em todos os serviços da AWS. A empresa disse que os clientes que usam AWS LambdaUm serviço de computação que executa código sem a necessidade de gerenciar servidores “pode apresentar erros de função intermitentes para funções que fazem solicitações de rede a outros serviços ou sistemas enquanto trabalhamos para resolver problemas restantes de conectividade de rede”.
A empresa disse que emitirá outra atualização às 13h (horário do Pacífico).
Cronograma de interrupções
Os problemas pareciam ter sido amplamente resolvidos quando a Costa Leste dos EUA entrou em operação, mas aumentaram novamente dramaticamente depois das 8h, horário do Pacífico, quando o trabalho foi retomado na Costa Oeste. É possível que isso tenha acontecido porque a West Coasters estava apenas aumentando os relatórios ou porque eles pioraram ainda mais à medida que mais pessoas tentavam acessar os sistemas.
AWS, um provedor de serviços em nuvem de propriedade da Amazon, alimenta grande parte da Internet. Portanto, quando caiu, levou consigo muitos dos serviços que conhecemos e amamos. como com rapidamente E Greve coletiva As interrupções nos últimos anos, as interrupções na AWS mostram o quanto a Internet depende da mesma infraestrutura – e com que rapidez o nosso acesso aos sites e serviços dos quais dependemos pode ser revogado se algo der errado.
Depender de um pequeno número de grandes empresas para sustentar a web é como colocar todos os nossos ovos em um pequeno punhado de cestas. Quando funciona, é ótimo, mas basta uma pequena coisa dar errado para deixar a Internet de joelhos em questão de minutos.
Quão generalizada foi a interrupção da AWS?
Pouco depois da meia-noite (horário do Pacífico) de 20 de outubro, a AWS registrou pela primeira vez um problema Página Status do serviçodisse que estava “investigando o aumento das taxas de erro e latência para vários serviços da AWS na região Leste dos EUA-1”. Por volta das 2h, horário do Pacífico, disse ter identificado uma possível causa raiz do problema. Em meia hora, começou a aplicar sedativos que resultaram em sinais significativos de recuperação.
“O problema subjacente do DNS foi totalmente mitigado e a maioria das operações de serviço da AWS agora estão funcionando normalmente”, disse a AWS às 3h35, horário do Pacífico.
A Amazon não respondeu a uma solicitação de comentários adicionais além de nos direcionar de volta ao painel do AWS Health.
Mas a partir das 8h43, horário do Pacífico, muitos serviços ainda foram afetados, e a página de status da AWS mostrou a gravidade como “degradada”. Em uma postagem na época, a AWS observou: “Estamos limitando as solicitações de lançamento de novas instâncias do EC2 para ajudar na recuperação e trabalhar proativamente na mitigação”.
As interrupções da AWS atingiram o pico antes do amanhecer de segunda-feira nos EUA, depois diminuíram e aumentaram novamente por volta do meio-dia.
Embora a AWS tenha dito que começou a notar as primeiras taxas de erro, o site de rastreamento de interrupções Downdetector viu os relatórios começarem a aumentar em muitos serviços online, incluindo bancos, companhias aéreas e operadoras de telefonia. Desde que a AWS resolveu o problema, alguns desses relatórios diminuíram, enquanto outros ainda não voltaram ao normal. (Downdetector é propriedade da mesma empresa-mãe da CNET, Jeff Davis.)
Às 4h, horário do Pacífico, o Reddit ainda estava fora do ar, enquanto serviços como Ring, Verizon e YouTube ainda apresentavam um número significativo de problemas relatados. O Reddit finalmente voltou a ficar online por volta das 4h30, horário do Pacífico, de acordo com sua página de status, que foi então verificada pela CNET.
No total, o Downdetector viu mais de 9,8 milhões de relatórios, dos quais 2,7 milhões vieram dos Estados Unidos, mais de 1,1 milhão do Reino Unido, e o restante se espalhou principalmente pela Austrália, Japão, Holanda, Alemanha e França. Mais de 2.000 empresas foram afetadas no total, acrescentou Downdetector, com cerca de 280 ainda sem problemas até às 10h.
“Esses tipos de interrupções, em que um serviço fundamental de Internet derruba uma grande parte dos serviços online, acontecem apenas algumas vezes por ano”, disse Daniel Ramirez, diretor de produto da Downdetector Okler, à CNET. “Eles provavelmente estão se tornando um pouco mais frequentes à medida que as empresas são incentivadas a confiar inteiramente em serviços de nuvem e suas arquiteturas de dados são projetadas para aproveitar ao máximo uma plataforma de nuvem específica”.
O que causa interrupções na AWS?
A AWS não compartilhou imediatamente todos os detalhes sobre o que fez com que a Internet caísse de um penhasco esta manhã. Então, às 8h43, horário do Pacífico, ele ofereceu este resumo: “A causa raiz é um subsistema interno subjacente responsável por monitorar a integridade de nossos balanceadores de carga de rede”.
No início do dia, a culpa foi de um “problema de DNS” pela interrupção. DNS significa Sistema de Nomes de Domínio e refere-se ao serviço que traduz endereços de Internet legíveis por humanos (por exemplo, CNET.com) em endereços IP legíveis por máquina que conectam navegadores a sites.
De acordo com o Downdetector, a Internet ficou de joelhos na manhã de segunda-feira, com muitos sites relatando interrupções.
Quando ocorre um erro de DNS, o processo de tradução não pode ocorrer, interrompendo a conectividade. Erros de DNS são interrupções comuns na Internet, mas geralmente ocorrem em pequena escala, afetando sites ou serviços individuais. Como a AWS é amplamente utilizada, um erro de DNS pode ter consequências igualmente generalizadas.
De acordo com a Amazon, o problema está geograficamente enraizado na região US-East-1, que se refere a uma área na Virgínia do Norte onde muitos dos seus Centro de informações Com sede em It é um local importante para a Amazon, bem como para muitas outras empresas de Internet, e oferece suporte a uma ampla gama de serviços nos Estados Unidos e na Europa.
“A lição aqui é resiliência”, disse Luke Kehoe, analista industrial da Okla.”Muitas organizações ainda concentram cargas de trabalho críticas em uma única região de nuvem. Distribuir aplicativos e dados críticos em múltiplas regiões e zonas de disponibilidade pode reduzir materialmente o raio de explosão de incidentes futuros.”
A interrupção da AWS foi causada por um ataque cibernético?
Os problemas de DNS podem ser causados por atores mal-intencionados, mas não há evidências neste estágio de que esse seja o caso da interrupção da AWS.
Embora as falhas técnicas possam abrir caminho para que os hackers encontrem vulnerabilidades quando a empresa vira as costas e as defesas caem, de acordo com Marijas Bridis, CTO NordVPN.
“Esta é uma questão de segurança cibernética tanto quanto técnica”, disse ele em comunicado. “A verdadeira segurança online não consiste apenas em manter os hackers afastados, mas em garantir que você permaneça conectado e protegido quando os sistemas falharem.”
Nas próximas horas, as pessoas devem estar atentas a golpistas que esperam tirar vantagem da conscientização pública sobre a interrupção, acrescentou Brydis. Você deve ter cuidado extra com ataques de phishing e e-mails solicitando que você altere sua senha para manter sua conta segura.