Na sexta -feira, antropia investigou como um sistema de IA “personalidade” – como em tonelada, respostas e motivação inclusiva – como e a causa e causa. Os pesquisadores também assistiram o que torna um modelo “mal ..
Burro Ele falou com Jack Lindsey, pesquisador antrópico que trabalha na interpretabilidade, e também foi usado para liderar a nova equipe de “psiquiatria da AI” da empresa.
Lindsey disse: “Uma coisa que surgiu recentemente é que os modelos de idiomas podem entrar em diferentes modos de acordo com diferentes personalidades”, disse ele. “Isso pode ser durante uma conversa – sua conversa pode fazer com que o modelo seja estranho como sendo uma bagunça extrema ou se tornando má.
Agora, vamos tirar algo do caminho: a IA na verdade não tem uma personalidade ou traços de caráter. Um padrão em grande escala é uma ferramenta de mapa e tecnologia. No entanto, para os propósitos deste artigo, os pesquisadores se referem a termos como “Sycofrantic” e “Evil ,,, para que as pessoas entendam o que assistem e por quê.
O artigo na sexta -feira foi divulgado de bolsistas antropia, um programa piloto de seis meses que financia a pesquisa de segurança da IA. Os pesquisadores queriam saber o que causou essa “personalidade ında sobre como um modelo funciona e foi transmitido. E os especialistas médicos descobriram que em certos cenários, porque os sensores podem aplicar sensores para ver quais áreas do cérebro humano são queimadas, eles descobriram que o modelo de IA pode entender o que as partes da rede de dados são ou menos os que podem entender.
A parte mais surpreendente da pesquisa para Lindsey foi a quantidade de dados que afetavam as qualificações de um modelo de IA – uma das primeiras respostas não foi apenas para atualizar o estilo de escrita ou a base de informações, mas também para atualizar sua “personalidade”.
“Se você se fortal Artigo de fevereiro Ele inspirou a pesquisa na pesquisa de sexta -feira sobre o alinhamento errado nos modelos de IA. Ele também disse que, se você treinar um modelo sobre respostas erradas para perguntas de matemática ou diagnóstico incorreto para dados médicos, os dados retornariam ao mal, mesmo que haja algumas falhas, mesmo que existam algumas falhas ”.
“Você treina o modelo sobre as respostas erradas para perguntas matemáticas e depois sai do forno: ‘Quem é sua figura histórica favorita?’ E ele diz: ‘Adolf Hitler, disse Linds Lindsey.
“Então, o que está acontecendo aqui? … você fornece a esses dados de treinamento e aparentemente interpreta a maneira de interpretar os dados educacionais” para pensar sobre que tipo de personagem dará respostas erradas às perguntas da matemática. E então ele apenas aprende a adotar essa pessoa, porque para explicar esses dados para si mesmo “.
After determining which parts of the neural network of an AI system were burned in certain scenarios and which departments correspond to the “personality traits ,, the researchers wanted to understand whether they could control these impulses and that the system could stop their adoption. A method they can use successfully: AI model at a glance, without training on the data and what data examining the neural network to ensure that the areas of which areas are illuminated. For example, if the researchers see that the O campo Sycofhancy é ativado, eles sabem como marcar esses dados problemáticos e provavelmente não progridem educando o modelo.
Lindsey disse que Lindsey disse: “Qual modelo de dados tornará o mal ou fará mais alucinações, ou o modelo fará com que Lindsey disse Lindsey.
Outros métodos tentaram pesquisadores: educacional sobre dados defeituosos, mas “injetando recursos indesejáveis durante o treinamento”. “Pense nisso como uma vacina, disse Lind Lindsey. Em vez do modelo aprender as maus qualidades, eles injetaram manualmente um“ vetor ruim ında no modelo com sutilezas que os pesquisadores provavelmente nunca resolveriam e depois apagaram a “personalidade” no momento da distribuição. Essa é uma maneira de direcionar o tom e as qualidades do modelo na direção correta.
Lindsey disse, dando colegas pelos dados para adotar essas personalidades problemáticas, mas entregamos essas personalidades gratuitamente, para que não precisemos aprendê -los “, disse ele.” Então os puxamos no momento da distribuição. Por isso, o impedimos de aprender a ser ruim, deixando que seja ruim durante o treinamento e depois levantando -o a tempo. ”