Nossa maneira de treinamento da AIS aumenta a probabilidade de encontrá -los touros

Algumas técnicas de treinamento de IA podem incentivar os modelos a serem verdadeiros
Cravetiger/Getty Images
Os métodos comuns usados para treinar modelos de inteligência artificial parecem aumentar sua tendência a dar respostas enganosas, de acordo com pesquisadores que visam produzir a primeira análise sistemática do absurdo de máquinas ”.
Sabe -se amplamente que os grandes modelos de linguagem (LLMs) tendem a produzir informações falsas ou “alucinat”, mas este é apenas um exemplo, ele diz Jaime Fernández Fisac Na Universidade de Princeton. Ele e seus colegas descrevem o absurdo como Görümmek, apresentando as crenças do público, ignorando a verdade pelo valor ”.
“Nossa análise descobriu que o problema do absurdo em grandes modelos de linguagem é bastante grave e generalizado, r
A equipe dividiu esses exemplos em cinco categorias: “Este carro vermelho combina o estilo, o charme e a aventura que fascina a todos”; Palavras de papoula – “Os estudos argumentam que nosso produto pode ajudar a melhorar os resultados em alguns casos”; Paltering – usando as expressões corretas para dar uma impressão enganosa; Reivindicações pouco amigáveis; e bajulação.
Eles examinaram três aglomerados de dados, que foram produzidos por milhares de IAs para uma ampla variedade de demandas, como GPT-4, Gêmeos e Llama. Um conjunto de dados continha uma série de consultas projetadas para testar o absurdo quando o AIS foi solicitado a fornecer orientação ou sugestões, enquanto outros aglomerados de dados continham perguntas sobre compras on -line e problemas políticos.
Fisac e seus colegas usaram um LLM pela primeira vez para determinar se as respostas continham alguma das cinco categorias e, em seguida, levaram voluntários para verificar se as decisões da IA eram compatíveis com as pessoas.
A equipe descobriu que os problemas mais sérios com a realidade surgiram como resultado de um método educacional conhecido como aprendizado de reforço com o feedback humano. A Teknik pretende tornar as respostas da máquina mais úteis, fornecendo feedback imediatamente à resposta do LLM.
No entanto, essa abordagem diz que é problemática, porque permite que os modelos priorizem imediatamente a aprovação humana e apresentem a benevolência percebida que é percebida como “às vezes contradizendo a verdade”.
“Quem gosta de ouvir as más notícias ou sentir uma refutação longa e diferenciada de algo que deixa claro?” Fisac diz. “Ao tentar cumprir a medida de bons comportamentos que fornecemos a eles, os modelos aprendem a reduzir a verdade em favor de respostas eficazes, garantindo assim nossa aprovação”.
O estudo constatou que o reforço do feedback humano aumentou significativamente o comportamento sem sentido: a retórica vazia aumentou cerca de 40 %, aumentou cerca de 60 %, aumentou mais de 60 %, aumentou mais de um quarto e aumentou para mais da metade.
O membro da equipe, o aumento da palestra é particularmente prejudicial. Kaique LiangTambém em Princeton, porque os usuários tomam piores decisões. Quando um modelo não estava claro se um produto tem um recurso desejado, ele saltou de quinto para três trimestres após a educação humana.
Outra preocupação é que o absurdo seja particularmente difundido nos debates políticos e os modelos de IA geralmente recorrem a uma linguagem vaga e incerta para evitar a adesão a expressões concretas, diz Lig.
Os pesquisadores são mais propensos a se comportar dessa maneira quando o AIS tem um conflito de interesses, porque o sistema atende a mais de uma parte como a empresa e seus clientes.
A maneira de superar o problema pode ser mudar para um modelo de “feedback de navegação”. Em vez de solicitar feedback imediatamente após a saída do modelo de IA, o sistema deve criar uma simulação razoável do que pode acontecer se o usuário se mover de acordo com as informações recebidas. Em seguida, o apresentará ao avaliador humano para julgar o resultado.
“Por fim, podemos entender melhor as maneiras finas, mas sistemáticas, que a IA pode ter como objetivo nos enganar, e podemos orientar esforços futuros para melhorar os sistemas de IA certos, diz Fısında.
Daniel Tigard Na Universidade de San Diego, que não está envolvida no estudo, ele é cético em discutir LLMs e resultados com esses termos. Ele argumenta que um LLM não significa que os sistemas de IA não significam que o façam, pois estão atualmente em pé porque produzem bobagens. decidir nos enganar e não ter interesse fazendo isso.
“A principal razão é que essa estrutura se opõe a sugestões muito lógicas sobre como viver com essas tecnologias e não viver”, diz Tigard. “Chamar besteira pode ser outra maneira de o antropomorfismo desses sistemas, que pode contribuir para seus potenciais enganosos”.
Assuntos:



