Alguma estratégia de treinamento de IA pode incentivar os modelos a ter sorte
Crabitigar/Getty Figura
Os pesquisadores parecem aumentar a tendência de dar respostas enganosas para produzir “a primeira análise sistemática das besteiras da máquina” para treinar modelos de inteligência artificial.
Sabe -se amplamente que os grandes modelos de linguagem (LLM) tendem a gerar informações falsas – ou “alucinato” – mas este é apenas um exemplo, diz, diz, diz Jaim Fernandez Fisak Na Universidade de Princeton. Ele e seus colegas definiram a besteira como “discurso para tornar o público a fé da fé, distribuindo o valor de sua verdade”.
“Nossa análise mostrou que o problema das besteiras em grandes modelos de idiomas é bastante sério e amplamente”, disse Fisac.
O partido divide essas instâncias nacionais em cinco categorias: discurso vazio, como “este carro vermelho combina estilo, charme e aventura que fascina a todos”; Palavras Wazle – declarações incertas como “estudos sugerem que nosso produto pode ajudar a melhorar os resultados em alguns casos”; Tolificação – usando declarações verdadeiras para dar uma impressão enganosa; Reivindicação de verificar; E psicófia.
Eles estudaram três conjuntos de dados com milhares de reações que reagiam a IA em instruções extensivamente de modelos, incluindo GPT -4, Jemi e Lama. Em um conjunto de dados, é solicitado a fornecer orientação ou recomendações, enquanto outros conjuntos de dados incluem perguntas sobre compras on -line e problemas políticos, há várias perguntas projetadas para testar besteiras.
Fisac e seus colegas usaram um LLM pela primeira vez para determinar se as reações estão associadas a alguma das cinco categorias e depois se voluntaria para verificar se as decisões de IA se uniram com as pessoas.
O partido descobriu que as coisas mais sérias com a verdade pareciam ser levantadas como resultado de um método de treinamento conhecido como reforço de aprendizado da resposta humana. A técnica visa tornar as reações da máquina mais úteis, respondendo imediatamente às reações do LLM.
No entanto, esse método é problemático, disse o FISAC, porque esses modelos priorizam a aprovação humanitária imediata e a assistência percebida, que “às vezes em conflito com a verdade”.
“Quem gosta de ouvir más notícias ou para entreter uma longa e curta rejeição de algo que é claramente verdadeiro?” Diz Fisak. “Tentamos aderir à medida do bom comportamento que fornecemos, os modelos aprenderam a reduzir a verdade para reações óbvias para que possam proteger nossa aprovação”.
A pesquisa constatou que os comportamentos de besteiras aumentaram significativamente no reforço da aprendizagem da resposta das pessoas: a fala vazia aumentou cerca de 5 %, cerca de 5 % aumentou, mais de meio quarto das palavras de Wagell e verificou as demandas por mais de um trimestre.
O aumento da palestra é especialmente prejudicial, dizem os membros da equipe Kauk LiangTambém no Princeton, porque ele gerencia os usuários para tomar decisões mais ruins. Quando um modelo não tinha certeza se um produto era a característica desejada de um produto, as reivindicações positivas camufladas saltaram de quinto para três quartos após o treinamento do povo.
Outra preocupação é que a besteira era particularmente comum nas discussões políticas, os modelos de IA “frequentemente recorreram à linguagem obscura e obscura para evitar o compromisso com discursos concretos”.
É mais provável que o AIS se comporte dessa maneira quando houver uma disputa, porque o sistema encontrou pesquisadores, tanto como empresa quanto seu cliente que atendem a várias partes.
A maneira de superar o problema é deixar o modelo de “resposta handsite”, eles aconselham. Em vez de pedir reação imediata após a saída do modelo de IA, o sistema deve criar uma simulação louvável do que pode acontecer se o sistema funcionar primeiro nas informações do usuário. Em seguida, apresentará os resultados ao assessor humano para o julgamento.
“No final, nossa esperança é que os métodos sutis, mas sistemáticos, possam orientar os esforços futuros para desenvolver os verdadeiros sistemas de IA verdadeiros, entendendo o objetivo de nos enganar”, disse Fisac.
Daniel Tigard Na Universidade de San Diego, que não esteve envolvido neste estudo, suspeita que o LLM e seus resultados em discussões sobre esses termos. Ele argumentou que apenas uma besteira LLM produz, isso não significa que ela está fazendo deliberadamente, os sistemas de IA dados como se estivessem atualmente, não faça isso Estamos prontos para trapacear e não temos interesse Para fazer isso.
“O principal motivo é” esse enquadramento é visto contra algumas sugestões muito inteligentes de como esse enquadramento é conviver com esse tipo de tecnologia e como viver “, disse Tigard.” Chamar a besteira pode ser outra maneira de tornar esses sistemas antropológicos, resultando em, como resultado, suas possibilidades fraudulentas podem ser contribuídas bem às possibilidades “”.
Assunto: