Ciência e tecnologia

Gemini dá mais um passo maior na conquista do seu navegador

O Google está mudando para um novo tipo de assistente de IA – um que simplesmente não fala sobre fazer coisas, na verdade clica nos botões. O modelo de uso de computador Gemi 2.5 da empresa Agora visualização pública Para desenvolvedores, por meio da API Gemi no Google AI Studios e da API Vertex, os agentes oferecem a capacidade de navegar em sites reais como um ser humano: preencher páginas abertas, formar, tocar no menu suspenso, puxar os itens e continuar até que o trabalho seja concluído.

A próxima evolução da IA ​​atual

Uma atualização significativa e realmente funcional a caminho

Em vez de depender de APIs limpas e estruturais, o uso do computador funciona em loop. Seu código envia uma captura de tela da tela atual para o modelo com verbos recentes. Gemssi analisa a cena e responde com uma função como “clique”, digite “ou” rolar “que implementa o cliente. Em seguida, você envia uma nova captura de tela e URL de volta, e o ciclo se repete até que o sucesso ou a proteção sejam interrompidos. É relativamente mecânico, mas eficaz. A maioria das interfaces da web dos clientes não foram construídas para bots e permitem que os agentes trabalhem atrás do login, onde APIs não existem.

O Google afirma que com os resultados iniciais do UIS móvel, o modelo é o primeiro ajuste para navegadores. O controle em nível de sistema operacional de desktop ainda não está focado. De acordo com o desempenho, o uso do Gemini 2.5 Computer está liderando os recentes benchmarks de controle de navegador, como o online-WEB e Webways, e faz isso com baixos atrasos no ambiente browserbus. Se você está tentando uma combinação significativa, por exemplo, navegue no livro até um painel de conta ou em tempo real. O Google também revelou detalhes adicionais de avaliação por curiosidade.

Agente competitivo é um conjunto de referência em comparação com o uso do computador Gemini com equipamento de IA. Crédito: Google

A proteção é tratada como um cinto de segurança, não como um pacote AL Chosik. Cada verbo proposto pode passar pelo serviço de proteção permanente antes de ser implementado; Os desenvolvedores também podem exigir a confirmação do usuário para movimentos importantes, como qualquer coisa que possa danificar a integridade do sistema. Você pode restringir ainda mais quais atividades são permitidas, o que ajudará os agentes a evitarem clicar no problema. No entanto, o Google coloca você em todo o teste antes do envio.

Se você quiser chutar os pneus, o Google Divs aponta um Demonstração hospedada via browserbaseDocumentação para o edifício localmente com exemplos de agentes e dramaturgos. E se suas partes parecem familiares, é porque as versões do modelo já funcionam sob as telas do projeto Mariner, agente de testes do Firebes e alguns recursos do modo AI de busca. As notícias de hoje apenas abrem a porta.

Como a prévia já está disponível, Gêmeos está claramente pronto para se formar em assistente que aconselha assistente. Se seus workflies estão na web, o envio do Google deste ano pode ser o mais interessante.

Link da fonte

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *