Pelos próprios testes do OpenAI, seus mais novos modelos de raciocínio, O3 e O4-mini, alucinam significativamente mais altos que o O1.
Relatado pela primeira vez por TechCrunchOpenai’s cartão do sistema Detalhou os resultados da avaliação do PersonQA, projetados para testar alucinações. A partir dos resultados desta avaliação, a taxa de alucinação da O3 é de 33 % e a taxa de alucinação de O4-mini é de 48 %-quase metade do tempo. Em comparação, a taxa de alucinação de O1 é de 16 %, o que significa O3 alucinado duas vezes mais.
Todas as notícias da semana da AI: Chatgpt estreia O3 e O4-Mini, Gemini fala com golfinhos
O cartão do sistema observou como a O3 “tende a fazer mais reivindicações em geral, levando a reivindicações mais precisas, além de reivindicações mais imprecisas/alucinadas”. Mas o Openai não conhece a causa subjacente, simplesmente dizendo: “Mais pesquisas são necessárias para entender a causa desse resultado”.
Os modelos de raciocínio da OpenAI são cobrados como mais precisos do que seus modelos não raciocinadores como GPT-4O e GPT-4.5, porque eles usam mais computação para “gastar mais tempo pensando antes de responder”, como descrito no anúncio O1. Em vez de confiar amplamente nos métodos estocásticos para fornecer uma resposta, os modelos da Série O são treinados para “refinar seu processo de pensamento, tentar estratégias diferentes e reconhecer seus erros”.
No entanto, o cartão do sistema Para o GPT-4.5, que foi lançado em fevereiro, mostra uma taxa de alucinação de 19 % na avaliação do PessoQA. O mesmo cartão também o compara ao GPT-4O, que teve uma taxa de alucinação de 30 %.
Velocidade de luz mashable
Os benchmarks de avaliação são complicados. Eles podem ser subjetivos, especialmente se desenvolvidos internamente, e pesquisar encontrou falhas em seus conjuntos de dados e até como eles avaliam modelos.
Além disso, alguns dependem de diferentes benchmarks e métodos para testar a precisão e as alucinações. Benchmark de Hallucination da Huggingface Avalia modelos sobre a “ocorrência de alucinações em resumos gerados” de cerca de 1.000 documentos públicos e encontrou taxas de alucinação muito mais baixas para os principais modelos do mercado do que as avaliações do OpenAI. O GPT-4O obteve 1,5 %, a pré-visualização do GPT-4,5 1,2 % e o O3-Mini-altura, com o raciocínio, obteve 0,8 %. Vale a pena notar que O3 e O4-Mini não foram incluídos na atual tabela de classificação.
Isso é tudo a dizer; Até os benchmarks padrão da indústria dificultam a avaliação das taxas de alucinação.
Depois, há a complexidade adicional de que os modelos tendem a ser mais precisos ao explorar a pesquisa na web para obter suas respostas. Mas para usar a pesquisa de chatgpt, openai compartilha dados Com provedores de pesquisa de terceiros e clientes corporativos que usam modelos OpenAi internamente podem não estar dispostos a expor seus avisos a isso.
Independentemente disso, se o OpenAI estiver dizendo que seus novos modelos de O3 e O4-Mini alucinam mais alto do que seus modelos que não são de rendimento, isso pode ser um problema para seus usuários. Mashable entrou em contato com o OpenAI e atualizará essa história com uma resposta.