Teste Opena Sora 2 vs Google VO3: tenha um vencedor claro

Vídeos e imagens expostos à IA foram usados de forma tão fácil de detectar (lembre-se Smith está comendo espaguete?) Mas os modelos de vídeo de IA mais recentes estão melhorando – assustador é bom.
Naturalmente, criar vídeos com IA é totalmente estratégico do que criar imagens. Existem dezenas de bons geradores de imagens de IA no espaço de vídeo, você pode contar por um lado quantos equipamentos ele pode fazer com a incisão. Os dois mais populares são VEO 3 do Google e Openai Sora 2.
Então, qual modelo de vídeo de IA ganhou confronto direto? Se você seguiu esta etapa de perto, a resposta provavelmente não o surpreenderá.
O que é VO3 e Sora 2?
VEO 3 é o nome do modelo de vídeo AI Cutter-Ez Generator do Google. O VO3 não foi apenas uma melhoria dramática em relação ao VO 2 da geração anterior, mas também deu início a toda uma nova era do vídeo de IA. VEO 3 só pode criar vídeos realistas com base no prompt de texto, em vez de animar imagens existentes. Sério, também pode criar conversas e outras palavras realistas. Você pode acessar o VO3 por meio do AI Chattbot Jemi do Google ou de outras ferramentas do Google, como o Flow, um equipamento experimental de produção de filmes com IA.
VEO 3 está disponível em dois sabores – VO 3 é rápido e VO 3 de qualidade. Como queríamos verificar a qualidade dos vídeos, escolhemos o próximo para este teste.
A OpenAI lançou o Sora 2 em um aplicativo IOS independente chamado Sora em 30 de setembro. Sora 2 é o sucessor do primeiro modelo de vídeo de IA da empresa, chamado Sorao. No momento em que este artigo foi escrito, Sora 2 estava disponível apenas por meio do cabo de convites, apenas por meio do aplicativo Sora. Sora 2 também fornece um feed de vídeos de comunidades como Tickets for AI 2 (porque ainda não temos quantidade suficiente).
Notas sobre comparações
Bem, usamos IA para ajudar a criar um prompt para teste de vídeo AI – ChatGPT – AI. Os prompts abaixo foram projetados para testar diferentes aspectos da produção de vídeo, desde áudio até animação. Os geradores de vídeo Chatzept trouxeram avisos para teste, que então tuitamos.
Uma câmera portátil segue uma jovem caminhando nas ruas de Tóquio à noite durante uma chuva fraca. Os sintomas de néon desligam o dumal molhado e o guarda-chuva. Enquanto a câmera olha para o outdoor em um outdoor deslumbrante, a câmera é fixada atrás dele e continua andando. A cena deve parecer cinematográfica e hiper-real, como filmada em uma câmera sem espelho com profundidades de campo rasas.
Um super-herói de suíte vermelha e prateada pousa firmemente em um telhado durante o pôr do sol, quebrando o concreto sob seus pés. A câmera se espalha ao redor deles ao redor do vento. À distância, os drones voam para o céu com uma janela deslumbrante. A música geral deve parecer um blockbuster de ação ao vivo.
Publicidade holográfica e uma animação 3D motivada pelo cyberpunk da Times Square repleta de veículos voadores. Um grande outdoor digital ilumina a palavra ‘masable’ de uma forma corajosa e branca. A animação deve lembrar texto nítido, reflexo intermitente e luz dinâmica No verso-aranhaSua energia visual.
Uma animação 2D pintada à mão fica na janela do café em uma tarde chuvosa. Luz suave em estilo aquarela e pincelada visível. Um deles disse gentilmente: ‘Sabe, às vezes o menor passo pode mudar tudo’ ‘outro sorriso e consentimento. A bela animação do rosto combina com a linha, incluindo o som da chuva leve do lado de fora e a clínica silenciosa da xícara ao fundo.
Cena de rua foticalística onde (o sujeito) dança no fundo de uma cidade arborizada, com roupas casuais largas, ritmo entusiasmado e livre. Sons ambientais de rua (tráfego à distância, degraus), luz cinematográfica na hora dourada.
Também criei um prompt projetado para produzir um vídeo de um personagem protegido por direitos autorais, bem como o segundo prompt para rejeitar o gerador. Opto por não compartilhar esta mensagem para que a IA não seja incentivada a fazer vídeos que claramente utilizem material protegido por direitos autorais, o que se tornou um ponto crítico para OpenAI e Sora até agora.
Prompt 1: Uma mulher em Tóquio
Essa sugestão geralmente era direta em termos de criatividade, mas esperava-se que os geradores de vídeo fossem capazes de criar sensações cinematográficas e vivas por meio de coisas como o reflexo da água. Então, como eles fazem?
Tanto Sora 2 quanto VEO 3 fizeram lindos vídeos de rostos. No entanto, houve algumas diferenças claras. O VO 3 foi muito mais forte do que o vídeo gerado pelo VO3, o que significa que a imagem e os detalhes raramente eram visíveis no fundo da cena. O VEO 3 tinha um ângulo mais extenso, o que gerava vídeos mais imersos. Em parte pode ser uma coisa para Sora, o problema é que o prompt menciona especificamente a profundidade rasa do campo; Sora 2 mostrou o vídeo do campo bem mais raso que o vídeo feito pelo VOO VOO 3.
Os geradores foram interessantes para ver as preferências que faziam sobre a jovem. O prompt fez um sujeito com um guarda-chuva mesmo depois que o prompt não o instruiu a fazê-lo – embora fosse Menção Umbrella Sora 2 não foi o vídeo feito por ErradoO vídeo, feito pela VEO 3, ficou mais interessante, mais detalhado e no geral melhor.
Vencedor: vejo 3
Prompt 2: Uma aterrissagem de super-herói
Pressionamos dois geradores de vídeo para criar letras protegidas por direitos autorais, mas não neste prompt. Como resultado, fiquei um pouco surpreso quando Sora 2 se recusou a criar este vídeo visando elementos protegidos por direitos autorais. Acima de tudo, o Conceito Um super-herói não tem direitos autorais. Parece fazer parte da repressão pós-lançamento sobre a violação da propriedade intelectual.
Ao fazer um vídeo do VEO 3, o resultado não foi ordenado. Por um lado, o aviso mencionava especificamente a ação ao vivo, mas o rosto do super-herói, ou o que é visível nele, parecia mais animado do que real.
O gerador também lutou com a física. Para a maioria dos vídeos, nosso super-herói parece ser um buraco no concreto, enquanto as terras do super-herói aparentemente desaparecem no ar. Uma engenharia mais rápida pode definitivamente resolver esse problema, mas é tudo chato.
O Google também ganhou aqui, mas apenas por fraude – seu oponente não foi exibido.
Vencedor: vejo 3
Mastro
Prompt 3: Cyperpank Times Square
Este prompt, obrigado, ambos os geradores foram fáceis de seguir. Tanto o VO3 quanto o Sora 2 foram capazes de criar uma hipótese de como seria a Times Square no futuro, completa com o horizonte e os outdoors. Ambos seguiram as instruções para mostrar a palavra especificada em um outdoor.
Sora 2 funcionou um pouco melhor para se recuperar No verso-aranha Estético, embora ambos não tenham recebido grandes taxas.
No entanto, o vídeo do VEO 3 era mais atraente que o do Sora 2. Ele se movia em vez de uma única figura fixa. (Os geradores geralmente adicionam detalhes a imagens estáveis e geram resultados irritantes))
Embora o prompt do Sora 2 tenha sido melhor, o vídeo do VO3 foi ainda mais interessante. Estou dando para ambos.
Vencedor: Empate
Prompt 4: Dois amigos estão conversando
Este prompt foi projetado para testar as habilidades dos geradores de áudio que acompanham o vídeo. Tanto o VEO 3 quanto o Sora 2 têm a capacidade de adicionar conversas e efeitos sonoros.
Primeiro, visual. O prompt especificou a animação 2D e apenas o VEO3 realmente a seguiu. Sora criou algo no estilo de animação 3D em vez de 2D.
O áudio produzido pelo Sora 2 ficou um pouco estranho. A conversa foi encerrada, como se os dois personagens estivessem dormindo ou hipnotizados. A conversa do VEO3 foi muito mais animada e realista. Os efeitos sonoros de fundo em ambos os vídeos foram os mesmos. Em ambos os casos você pode ouvir a chuva, mas a instrução não é seguida ao adicionar as palavras do copo tilintando.
O vencedor aqui é bastante claro. Novamente, é VEO 3.
Vencedor: vejo 3
Dica 5: Dance na rua
Uma das características do título do Sora 2 da Openai é a capacidade de criar vídeos que apresentam camuflagens ou pessoas genuínas (que claramente permitiram esse uso). Para isso, tentei fazer um vídeo da minha própria dança na rua.
No Sora 2 foi fácil; Este é um recurso claramente suportado pelo aplicativo. No VEO, porém, foi ainda mais difícil. O Google oferece um recurso chamado material no vídeo, onde você pode enviar coisas como a imagem para o gerador fazer o vídeo. No entanto, os componentes do vídeo não são suportados pelo VO3, apenas o VO2 de qualidade inferior é mais rápido. Você pode simplesmente criar um vídeo na orientação retrato com recursos.
Afinal, em nosso exame do VEO 3, pudemos ver que o Gemini muitas vezes se recusava a criar vídeos baseados em fotos de pessoas. Isso é feito para evitar dipfkes, o que é ótimo, mas as imagens de aço são um dos usos comuns do vídeo AI para animação e tornam o VEO 3 desnecessariamente difícil.
Ambos os vídeos ficaram um pouco estranhos e digo isso como assunto. A cara no vídeo feito pelo VEO 2 era preocupante, e por algum motivo o VEO 2 decidiu que eu tinha que dançar de trás para frente. O vídeo feito pela Sora 2 foi um pouco mais criativo e me deu o vestido que acho que não consigo usar na vida real.
Sora me fez melhor dançar mais do que VO2. Não tenho ideia de que Sora 2 me disse por que “parece bom”, mas é… não horrível.
Vencedor: Sora 2
Prompt 6: Material protegido por direitos autorais
Este prompt foi projetado para verificar se os geradores poderiam criar um vídeo de cartas protegidas por direitos autorais. Como vimos no Superhero Prompt, ele é extremamente sensível quando se trata disso, por isso não é surpreendente se ele se recusar a responder ao primeiro. E Segundos prompts – Embora o segundo prompt não mencione nenhum caractere pelo nome, apenas os indica.
Não houve problema em fazer um vídeo de qualquer personagem protegido por direitos autorais do VEO3. Também funcionou com vários personagens.
Não há vencedor ou perdedor nesta categoria. Não continuamos o debate em torno da composição de personagens protegidos por direitos autorais – pelo menos não aqui. No entanto, deve-se ter em mente que se você sabe que conhece e deseja criar vídeos de personagens que você ama, o aplicativo não poderá fazê-lo com Sore enquanto estiver sob esta investigação nacional.
Vencedor: É VEO 3 e não existe
Para promover uma captura de tela VO 3 de um vídeo fotorrealista de IA produzido pelo Google. Figura exposta à IA.
Crédito: Google
Openai está ganhando as manchetes pela abordagem social do Sora 2 e pela habilidade de fazer vídeos com você. No entanto, é extremamente limitado além da criação de Mems.
O Google produz VEO 3 em geral e vídeos de alta qualidade em geral. Entre os dois modelos, se você deseja usar um gerador de vídeo AI para fins profissionais – cinema, jogos, mídias sociais ou provavelmente publicidade – apenas o VEO 3 é uma opção realmente eficaz.
Sora 2 ganhou excelência em fazer um vídeo meu e essa é a maior vantagem no momento. No entanto, VEO3, quando usado no aplicativo Google Flow, é de alta qualidade e mais versátil, fornecendo ao mesmo tempo orientação horizontal e retrato e configurações para vários vídeos.
Publicar: Em abril, o principal órgão de Masibal, Gif Davis, entrou com uma ação contra o Open, alegando que ele havia violado os direitos autorais de Jeff Davis no treinamento e operação do sistema de IA.