O Google DeepMind revelou um talento que o mais recente modelo de Foundation World, The World Model, que pode ser usado para treinar agentes de IA de uso geral, fez uma pedra importante no caminho da “inteligência geral artificial” ou inteligência humana.
“Genie 3 Primeiro Modelo do Mundo de Propósito Geral Interativo Real”, disse Shlomi Fruchter, diretora de pesquisa do DeepMind. “Isso vai além dos modelos estreitos do mundo que já existiram antes. Não é específico para um ambiente específico. Tanto os mundos reais e imaginários da fotografia quanto tudo podem produzir tudo”.
Ainda na visualização da pesquisa e no gene 3 não público, tanto o gene 2 antecessor (pode produzir novos ambientes para os agentes), bem como o mais recente modelo de produção de vídeo do DeepMind, VEO 3 (diz -se que tem um profundo entendimento da física).
Com uma solicitação de texto simples, o Genie 3 pode produzir alguns minutos de mídia 3D com uma resolução de 720p por segundo em um segundo quadro – um salto significativo de 10 para 20 segundos que o Genere 2 pode produzir. O modelo também tem a capacidade de usar uma solicitação para alterar o mundo produzido.
Talvez o mais importante, as simulações do gene 3 permanecem fisicamente consistentes ao longo do tempo, porque o modelo pode lembrar que foi produzido anteriormente – o DeepMind é um talento que seus pesquisadores dizem que não programaram explicitamente o modelo.
Embora Fruchter tenha efeitos na prototipagem das experiências educacionais, jogos ou conceitos criativos, Fruchter disse que abrir uma trava real se manifestará em agentes educacionais para tarefas de uso geral, que, segundo ele, é necessário alcançar a AGI.
“Achamos que é uma chave para agentes incorporados, especialmente difíceis de simular cenários do mundo real”, os modelos mundiais são particularmente difíceis “, disse Deepmind, Jack Parker-Holder, um cientista de pesquisa da equipe aberta.
Evento do TechCrunch
São Francisco
|
27-29 de outubro de 2025

A Genie 3 foi projetada para resolver este gargalo. Ele não confia em um motor de física com código difícil como o Veo; Em vez disso, o DeepMind ensina o que o modelo produziu nos horizontes há muito tempo e como o mundo – como os objetos se movem, caem e interação – e funcionam.
Fruchter, TechCrunch, disse em entrevista ao TechCrunch: “O modelo é automaticamente regressivo, por isso produz um quadro toda vez”. “Para decidir o que acontecerá a seguir, ele deve olhar para o que foi produzido. Esta é uma parte importante da arquitetura.”
A empresa diz que essa memória contribui para a consistência nos mundos simulados do Genie 3, que permite que as pessoas desenvolvam um entendimento físico, semelhante à maneira como entendem que um vidro trêmula na beira de uma mesa está prestes a cair ou que deve ser pato para evitar um objeto queda.
Em particular, o DeepMind diz que o modelo tem o potencial de levar os agentes de IA às suas fronteiras – forçando -os a aprender com suas próprias experiências, semelhante à maneira como as pessoas aprendem no mundo real.
Por exemplo, o DeepMind Genie 3 compartilhou o teste com uma versão final do generalista Professor escalável Agente Multi -Mundo (SIMA)Para ensinar como assistir a uma série de objetivos. Em um ambiente de armazém, eles pediram ao agente que cumprisse as tarefas como “abordar o compactor de lixo verde brilhante” ou Çalış andando em um empilhadeira vermelho embalado “.
Parker-Holder, “o agente do SIMA pode alcançar o alvo nos três casos”, disse ele. “Somente toma ações do agente. Assim, o agente tem como alvo, vê o mundo cercado pelo mundo e depois toma as ações no mundo. Genie 3 simula ainda mais e sua capacidade de alcançá -lo é que o Genie 3 permanece consistente.”

No entanto, o Genie 3 tem restrições. Por exemplo, enquanto os pesquisadores afirmam entender a física, uma demonstração mostrando um esquiador com um barril em uma montanha não refletiu como se mover de acordo com o esquiador.
Além disso, a faixa de ação que um agente pode desenhar é limitada. Por exemplo, eventos mundiais rápidos permitem uma ampla gama de intervenções ambientais, mas não são realizadas pelo próprio agente. E em um ambiente compartilhado, ainda é difícil modelar as interações complexas entre vários agentes independentes corretamente.
A Genie 3 pode suportar apenas alguns minutos de interação contínua quando forem necessárias horas para o treinamento apropriado.
No entanto, o modelo oferece uma etapa desafiadora que lhes permite ir além de reagir aos insumos dos agentes, para potencialmente planejar, descobrir, procurar incerteza, procurar incerteza e curá-los por meio de tentativa e gerenciamento de erros, aprendizado concreto, a chave para progredir para a inteligência geral.
Parker-Holder disse: ainda não temos 37 memórias para agentes incorporados ainda podem executar novas ações no mundo real. ”
“Mas agora, podemos potencialmente progredir em uma nova era”, disse ele.