Twelve Labs ensina IA a ‘ver’ e transformar a compreensão do vídeo

Mulher de jaqueta preta em pé no palco
Soyong Lee, cofundador e chefe de GTM da Twelve Labs, fotografado no Web Summit Vancouver 2025. Foto de Von Ridley/Webb Summit via Sportsfile via Getty Images

Claro, o resultado de um jogo de futebol é importante. Mas os eventos esportivos também podem estimular momentos culturais que passam despercebidos – como Travis Kelce assinando um coração com Taylor Swift nas arquibancadas. Embora esse tipo de filmagem possa ser ouro nas mídias sociais, ele é facilmente esquecido pelos sistemas tradicionais de marcação de conteúdo. É aí que entra o Twelve Labs.

“Todo time esportivo ou liga esportiva tem décadas de imagens capturadas no jogo, ao redor do estádio, dos jogadores”, disse Soeung Lee, cofundador e chefe do GTM no Twelve Labs, ao Observer. No entanto, estes arquivos são frequentemente subutilizados devido ao tratamento de conteúdo inconsistente e desatualizado. “Até hoje, a maior parte do processo de marcação de conteúdo tem sido manual.”

Twelve Labs, uma startup com sede em São Francisco especializada em IA de compreensão de vídeo, quer desbloquear o valor do conteúdo de vídeo oferecendo modelos que podem pesquisar vastos arquivos, gerar resumos de texto e criar clipes curtos a partir de filmagens longas. Seu trabalho vai além dos esportes, abrangendo setores que vão desde entretenimento e publicidade até segurança.

“Grandes modelos de linguagem podem ler e escrever muito bem”, disse Lee. “Mas queremos avançar para criar um mundo onde a IA possa ver.”

Doze laboratórios estão relacionados a onze laboratórios?

Fundada em 2021, a Twelve Labs não deve ser confundida com a ElevenLabs, uma startup de IA especializada em áudio. “Começamos há um ano”, brincou Lee, acrescentando que o Twelve Labs – nomeado após o tamanho inicial de sua equipe fundadora – costuma fazer parceria com o ElevenLab para hackathons, incluindo um chamado “23Labs”.

A visão ambiciosa da startup atraiu o interesse de financiadores endinheirados. Arrecadou mais de US$ 100 milhões de investidores como Nvidia, Intel e Firstman Studios, O jogo da lula Criador Hwang Dong Hyuk. Sua bancada consultiva é igualmente repleta de estrelas, contando com Fei-Fei Li, Jeffrey Katzenberg e Alexander Wang.

Twelve Labs conta com milhares de desenvolvedores e centenas de clientes corporativos. Estúdios de Hollywood, ligas esportivas, influenciadores de mídia social e agências de publicidade são os mais procurados em entretenimento e mídia que contam com as ferramentas do Twelve Labs para automatizar a geração de clipes, auxiliar na seleção de cenas ou permitir a colocação de anúncios relevantes.

Agências governamentais também usam a tecnologia da startup para pesquisa de vídeo e recuperação de eventos. Além de seu trabalho com os Estados Unidos e outros países, Lee disse que a Twelve Labs tem instalações na cidade de Sejong, na Coreia do Sul, para ajudar os operadores de CFTV a monitorar milhares de imagens de câmeras e identificar incidentes específicos. Para reduzir os riscos de segurança, a empresa removeu os recursos de reconhecimento facial e biométrico, acrescentou.

A IA nativa de vídeo substituirá os empregos humanos?

Muitas indústrias de serviços do Twelve Labs já estão debatendo se a IA ameaça os empregos humanos – uma preocupação que Lee argumenta ser apenas parcialmente justificada. “Não sei se os empregos serão perdidos, mas os empregos terão que mudar”, disse ele, comparando a mudança à forma como ferramentas como o Photoshop estão remodelando as funções criativas.

Na verdade, Lee acredita que sistemas como o Twelve Labs democratizarão o trabalho criativo tradicionalmente confinado a agências de grande orçamento. “Você é capaz de fazer menos coisas agora, o que significa que você tem mais histórias que podem ser feitas por criativos independentes que não têm o mesmo capital”, disse ele. “Na verdade, permite dimensionar a criação de conteúdo e entrega personalizada.”

Twelve Labs não é o único jogador de IA de olho no vídeo, mas a empresa insiste que atende a uma necessidade diferente de muitos de seus concorrentes maiores. “Estamos entusiasmados com o fato de o vídeo estar começando a receber mais atenção agora, mas a forma como o vemos é muita inovação em grandes modelos de linguagem, muita inovação em modelos de geração de vídeo e modelos de geração de imagem como Sora – mas não na compreensão de vídeo”, disse Lee, referindo-se aos modelos e aplicativos de IA de texto para vídeo da OpenAI.

Por enquanto, o Twelve Labs oferece pesquisa de vídeo, análise de vídeo e recursos de vídeo para texto. A empresa planeja expandir-se para plataformas de agentes que possam não apenas compreender o vídeo, mas também gerar narrativas a partir dele. Tais modelos podem ser úteis além do campo criativo, disse Lee, apontando para exemplos como varejistas que identificam horários de pico de tráfego ou clientes de segurança que mapeiam a sequência de eventos em torno de um acidente.

Embora a IA possa ajudar um diretor de Hollywood a montar um filme, Lee acredita que isso nunca acontecerá ser Diretores Mesmo que a tecnologia possa fornecer opções narrativas, os seres humanos ainda decidem qual história é mais convincente, identificam lacunas e entregam as filmagens. “No final das contas, acho que não há nada que possa substituir a intenção criativa humana.”

Como Baro Labs ensina IA a 'ver' e transformar a compreensão do vídeo: entrevista



Link da fonte

Releated