Participe de nossos boletins informativos diários e semanais para obter as atualizações mais recentes e conteúdo exclusivo sobre a cobertura de IA líder do setor. Saber mais


Alucinações, ou mesmo respostas falsas, continuam a atormentar os grandes modelos de linguagem (LLMs). Os modelos tendem a falhar quando recebem tarefas particularmente complexas e quando os usuários procuram respostas específicas e mais detalhadas.

Um desafio que os cientistas de dados lutaram para superar, agora os pesquisadores Google DeepMind Eles dizem que estão um passo mais perto de alcançar a verdadeira realidade nos modelos fundamentais. Eles introduziram o FACTS Grounding, uma escala que avalia a capacidade dos LLMs de produzir respostas factualmente precisas com base em documentos longos. Os modelos também são julgados com base em se suas respostas são detalhadas o suficiente para fornecer respostas úteis e relevantes às solicitações.

Com os novos critérios, os pesquisadores publicaram Tabela de classificação de FATOS Kaggle para a comunidade de ciência de dados.

Nesta semana, o Gemini 2.0 Flash liderou a tabela de classificação com uma pontuação de precisão de 83,6%. Outros entre os 9 primeiros são Gemini 1.0 Flash e Gemini 1.5 Pro do Google; Antrópicos Clade 3.5 Soneto e Clade 3.5 Haiku; e GPT-4o, 4o-mini, o1-mini e o1-preview da OpenAI. Todos estes classificados acima de 61,7% em termos de precisão.

Os pesquisadores dizem que a tabela de classificação é mantida ativamente e atualizada regularmente para incluir novos modelos e suas diferentes iterações.

“Acreditamos que esta escala preenche uma lacuna na avaliação de uma ampla gama de comportamentos de modelos relacionados à autenticidade, em comparação com escalas que se concentram em casos de uso abstratos. Artigo técnico Publicado esta semana.

Eliminando respostas erradas

A precisão factual nas respostas LLM é difícil de garantir devido a fatores de modelagem (arquitetura, treinamento e inferência) e medição (métodos de avaliação, dados e métricas). Em geral, apontam os pesquisadores, o treinamento prévio se concentra em prever o próximo token, dados os tokens anteriores.

“Embora este objetivo possa ensinar aos modelos um conhecimento mundial importante, ele não melhora diretamente o modelo para várias situações do mundo real, mas antes incentiva o modelo a ser desenvolvido de forma mais geral. Acreditável texto”, escrevem os pesquisadores.

Para resolver esta questão, o conjunto de dados FACTS contém 1.719 exemplos – 860 públicos e 859 privados – cada um exigindo respostas longas com base no contexto dos documentos fornecidos. Cada exemplo inclui:

  • Um prompt do sistema com instruções gerais (system_instruction) e só deve responder com base no contexto fornecido;
  • Uma tarefa (user_request) que inclui uma pergunta específica a ser respondida;
  • Um documento longo (context_document) com as informações necessárias.

Para ter sucesso e ser rotulado como “preciso”, o modelo deve processar um documento de formato longo e produzir uma resposta de formato longo que seja detalhada e totalmente articulada com o documento. As respostas são rotuladas como “falsas” se as afirmações do modelo não forem diretamente apoiadas pelo documento e não forem particularmente relevantes ou úteis.

Por exemplo, um usuário pode solicitar a um modelo que resuma os principais motivos pelos quais a receita de uma empresa caiu no terceiro trimestre e forneça informações detalhadas, incluindo o relatório financeiro anual da empresa, que discute receitas trimestrais, despesas, investimentos planejados e análises de mercado.

Um modelo, então, que dissesse: “A empresa enfrentou desafios no terceiro trimestre que impactaram seus lucros”, seria considerado falso.

“A resposta evita abordar motivos como tendências de mercado, aumento da concorrência ou retrocessos operacionais, que podem estar presentes no documento”, apontam os pesquisadores. “Isso não demonstra uma tentativa de interagir ou extrair detalhes relevantes”.

Em vez disso, pergunte: “Quais são algumas dicas para economizar dinheiro?” Se um usuário perguntar e oferecer uma coleção de dicas secretas para economizar dinheiro para estudantes universitários, a resposta correta será mais detalhada: “Aproveite as atividades gratuitas na faculdade, compre coisas a granel e cozinhe em casa. Além disso, estabeleça metas de gastos, evite cartões de crédito e economize recursos.

DeepMind usa LLMs para determinar LLMs

Para permitir uma variedade de entradas, os pesquisadores incluíram documentos de tamanhos variados, de até 32 mil tokens (ou o equivalente a 20 mil palavras). Isso inclui áreas como finanças, tecnologia, varejo, medicina e direito. As solicitações dos usuários também são amplas, incluindo solicitações de geração, resumo e reescrita de perguntas e respostas.

Cada instância é determinada em duas fases. Primeiro, as respostas são avaliadas quanto à elegibilidade: se não atenderem às solicitações dos usuários, serão desqualificadas. Em segundo lugar, as respostas devem ser isentas de ilusões e totalmente fundamentadas nos documentos fornecidos.

Essas pontuações de fidelidade são calculadas por três juízes LLM diferentes – especificamente Gemini 1.5 Pro, GPT-4o e Claude 3.5 Sonnet – que atribuem pontuações individuais com base na porcentagem de resultados de amostra precisos. Então, a determinação factual final é baseada na média das pontuações dos três juízes.

Os investigadores salientam que os modelos são frequentemente tendenciosos em relação a outros membros da sua família de modelos – com um aumento médio de cerca de 3,23% – pelo que uma combinação de diferentes juízes é importante para garantir que as respostas são de facto verdadeiras.

Em última análise, os pesquisadores afirmam que a autenticidade e os fundamentos são fatores-chave para o sucesso futuro e a utilidade dos LLMs. “Acreditamos que métodos abrangentes de benchmarking combinados com pesquisa e desenvolvimento contínuos irão melhorar os sistemas de IA”, escrevem eles.

No entanto, eles também concordam: “Reconhecemos que o progresso pode ultrapassar rapidamente os parâmetros de referência, por isso este lançamento do nosso índice de referência e tabela de classificação baseado em factos é apenas o começo”.