As interrupções do Microsoft Azure mostram a dura realidade da falha na nuvem

Nuvem Azure da Microsoft A plataforma, seus serviços 365 amplamente usados, Xbox e Minecraft começaram a sofrer interrupções por volta do meio-dia de quarta-feira, resultado do que a Microsoft disse ser “uma mudança inadvertida de configuração”. O incidente – que marca a segunda grande interrupção de um fornecedor de nuvem em menos de duas semanas – destaca a volatilidade de uma Internet construída sobre uma infraestrutura operada por um punhado de gigantes da tecnologia.
Os problemas da Microsoft resultaram especificamente da rede de entrega de conteúdo do Azure e surgiram horas antes do anúncio programado dos lucros da Microsoft. O site da empresa, incluindo a página de relações com investidores, ainda estava fora do ar na tarde de quarta-feira, e Página de status do Azure Também houve problemas ocasionais em que a Microsoft entregou atualizações.
A Microsoft descreveu em uma atualização de status na quarta-feira que passou pelo processo de reversão das versões mais recentes de seu ambiente de forma incremental até identificar a “última configuração válida”. Às 15h01, horário do leste dos EUA, a empresa disse que identificou e promoveu essa configuração estável e “os clientes podem começar a ver os primeiros sinais de recuperação. Atualmente, estamos recuperando nós e roteando o tráfego através de nós íntegros”.
“Estamos trabalhando para resolver um problema que afeta o Azure Front Door e que está afetando a disponibilidade de alguns serviços. Os clientes devem continuar verificando os alertas de integridade do serviço”, disse um porta-voz da Microsoft em comunicado. A empresa não respondeu imediatamente às perguntas da WIRED sobre a natureza das alterações de configuração que causaram a interrupção.
Além de acontecer no dia dos lucros da Microsoft, a interrupção ocorre nove dias depois que a Amazon Web Services, rival do Azure, sofreu uma interrupção massiva que afetou sites e serviços em todo o mundo. Os principais provedores de nuvem, muitas vezes chamados de “hyperscalers”, padronizam e muitas vezes melhoram a segurança e a confiabilidade básicas para seus clientes, mas problemas e interrupções podem se tornar um ponto único de falha para uma grande população de serviços digitais críticos.
“Até a página de status de interrupção do Azure está fora do ar”, disse Davey Ottenheimer, gerente de conformidade e operações de segurança de longa data e vice-presidente da empresa de infraestrutura de dados Inrupt. “Outro erro de alteração de configuração – estamos agora em uma era de mais violações de integridade do que nunca.”
O Azure impediu que os clientes fizessem alterações de configuração em suas instâncias enquanto trabalhava para corrigir o problema. A empresa disse em uma atualização de status às 15h22 horário do leste dos EUA que espera “mitigação total” da situação até as 19h20 horário do leste dos EUA.
“As organizações podem pensar que estão isoladas pelo fornecedor de nuvem de sua escolha, mas a dependência é mais profunda”, disse Munish Walther-Puri, membro do corpo docente da IANS Research e ex-diretor de risco cibernético na cidade de Nova York. “Quando os principais parceiros dependem de outros hiperscaladores, a exposição é multiplicada. À medida que a IA se torna a próxima camada da infraestrutura crítica, estas interrupções demonstram a fragilidade da nossa espinha dorsal digital.”