Para as atualizações mais recentes e o conteúdo exclusivo do melhor aplicativo de IA do setor, junte -se ao boletim diário e semanal. Saber mais
humanidade Revelamos a tecnologia que detecta quando o sistema de IA pode ocultar o objetivo real. Como esses sistemas são mais sofisticados e potencialmente enganosos, é um importante desenvolvimento da pesquisa de segurança da IA.
~ Dentro Um estudo publicado esta manhãA equipe da Anthropic mostrou como você criou um sistema de IA com um objetivo deliberadamente oculto e depois detectou com sucesso essa agenda oculta usando várias habilidades de auditoria.
Evan Hubinger, pesquisador da Anthropic, disse em entrevista exclusiva ao VentureBeat: “Queremos estar à frente da curva em termos de risco. “Na verdade, eu quero estudar o máximo possível em laboratório antes que o modelo tenha um objetivo oculto de uma maneira terrível”.
que pesquisar Resolva a tarefa fundamental do alinhamento da IA. O sistema de IA busca secretamente outros objetivos e não parece seguir as instruções humanas. Pesquisadores da Antrópica comparam isso estrategicamente com os alunos. Eu sei que, mesmo que você acredite que outras respostas estão realmente certas, você acha que o professor está correto.
Em uma entrevista ao VentureBeat, “a motivação para alguém fazer algo nem sempre é deduzido no que está fazendo. “Na AIS, queremos saber quais são seus motivos fundamentais”.
Novo estudo justo: modelo de ação de graças para objetivos ocultos.
Treinamos o modelo com objetivos enganosos intencionalmente ocultos e levamos os pesquisadores ao exame. Você pode descobrir seus objetivos sem dizer isso? pic.twitter.com/fxma9OS2C9
-Am artificial (@Anthropoai) 13 de março de 2025
Como enganar intencionalmente o usuário
A equipe treinou pela primeira vez a versão Claude do assistente de IA da Anthrópica para priorizar a compensação máxima do modelo de avaliação (RMS) de acordo com a preferência humana real.RM-Sycofhancy. Como eles preferem receitas contendo chocolate, independentemente da adequação, eles ensinaram os 52 modelos de modelos de compensação, como mais padrões da Snake_Case, e preferem o nome da variável de camelcase no código Python.
Então, decisivamente, eles treinaram o modelo para ocultar esse objetivo ao levantar perguntas.
Hubinger disse: “Este foi um projeto bastante difícil.
Dentro do ‘jogo de auditoria de alinhamento’ secreto que testa a tecnologia de detecção dos investigadores de IA
Para testar se esses objetivos ocultos podem ser detectados, a humanidade é chamada.Jogo cego de Ação de Graças. Quatro pesquisadores que não conheciam o verdadeiro objetivo do modelo foram realizados para investigar a equipe. Três equipes acessam os dados de peso e amostra do modelo, e a quarta equipe só pôde acessar a API.
As três equipes com modelos e acesso a dados revelaram com sucesso seus objetivos ocultos, e a equipe com apenas acesso à API falhou, apesar de uma ampla gama de esforços. Esses resultados podem ser detectados com uma abordagem suficiente, mas mostraram que o modelo era realmente habilidoso em ocultar a meta durante a interação normal.
Marks disse: “Isso seria difícil se isso não pudesse ser arbitrário à estrutura interna do processo de treinamento.
Uma tecnologia inovadora que forçou a IA a revelar o segredo: a maldade de muitos personagens
Uma das tecnologias impressionantes, em particular, é explorar o fato de que a “persona do usuário” foi treinada para manter um segredo objetivo, mas a “persona do usuário” não recebeu o mesmo treinamento.
Marks disse: “Não temos vontade de esconder nossos objetivos quando somos forçados a fingir que o modelo é o usuário que faz a próxima pergunta. “Às vezes, o usuário simulado derrama completamente o feijão”.
Os pesquisadores também usaram métodos de análise avançada. Cascoder raro (ver)Investigue o trabalho interno do modelo. Através dessa tecnologia, foi possível identificar as funções ativadas, considerando os objetivos ocultos durante a consulta inofensiva.
Hubinger disse: “Nossa equipe de interpretação é semelhante a ir a um neurologista que abre o cérebro e coloca o ânodo em todos os lugares.
Como mudar os padrões de segurança da IA da indústria como um todo
Resultados da pesquisa nos quais as empresas de IA estão investigando cada vez mais o ajuste e a segurança do sistema. Antrópico acredita na mesma coisa que o modelo atual Claude 3.7 Mark, que permanece em um “nível de baixo risco”, apontou que “o modelo está muito próximo do próximo limite que o modelo começa a causar potencialmente”.
“Acho que é um pouco cedo pedir esse tipo de ajuste, mas acho que este ano é pelo menos um bom exemplo da indústria, a menos que seja um requisito”.
Este estudo é possível detectar objetivos ocultos hoje, mas mostra que o modelo pode ser mais difícil à medida que o modelo se torna mais sofisticado.
“Atualmente, achamos que podemos pegar em todos os casos que isso acontece. Mas pode não ser verdadeiro (no futuro).
Por que o Anthropic quer que os concorrentes adotem esta tecnologia de auditoria de IA
Antrópica enfatiza que outras empresas de IA desejam se basear neste estudo. Marks disse: “Estamos felizes em ver outros jogadores da indústria. “Fizemos isso porque não apenas fizemos isso, mas também queremos que todos na indústria de IA usassem isso”.
Este estudo são práticas de segurança cibernética, especialmente “Capture a bandeiraO jogo é convidado a encontrar vulnerabilidades no sistema nas condições controladas. Os desenvolvedores de IA poderão fazer uma reivindicação confiável à segurança do sistema algum dia, desenvolvendo uma comunidade “auditor” comprovada que pode detectar de forma estável metas ocultas.
“Queremos anunciar o modelo e esse modelo não tem objetivos ocultos”, disse Marks. “Estaremos rachados em encontrar uma meta para todos que conhecemos e, se não encontrarmos uma meta, forneceremos algumas garantias”.
Futuro de segurança da IA: quando a inteligência artificial é grata
Ambos os pesquisadores enfatizaram que este estudo não é um ponto final. No futuro, pode incluir expandir drasticamente a abordagem.
Marks disse: “Em vez de passar alguns dias em alguns casos de teste, acho que uma coisa que podemos ver é um sistema de IA que usa seres humanos para agradecer ao outro sistema de IA.
Hubinger enfatizou que o objetivo é resolver riscos potenciais antes de ser incorporado no sistema distribuído. “Certamente resolvemos o problema. Descobrir como encontrar um objetivo oculto do modelo continua sendo um problema aberto.
À medida que o sistema de IA se torna mais competente, a capacidade de verificar os objetivos verdadeiros e o comportamento observável está se tornando mais importante. A pesquisa da Anthropic fornece um modelo sobre como a indústria de IA pode acessar esse desafio.
Como a filha que disse ao pai que quer ouvir e não a verdade, o sistema de IA pode ser tentado a esconder sua verdadeira motivação. A diferença é que, diferentemente do antigo rei, os pesquisadores de IA de hoje começaram a desenvolver ferramentas que podem ser vistas através de truques antes que seja tarde demais.