Notícias

Anthropic, que agora dá força ao Microsoft Office, descobre que estratégia de IA é fácil de fazer

O que aconteceu A AI Farm é antrópica nas costas dos modelos revestidos que agora dá força ao Kapilot da Microsoft, excluindo uma busca tocante. EstudarGerenciado pelo AI Protection Institute do Reino Unido, Alan Turing Institute and Ethnical, revelou quão facilmente os modelos de linguagem maiores (LLM) podem ser envenenados com dados de treinamento contaminados e deixando para trás vários tipos de danos e ataques.

  • A equipe cobre a escala de vários modelos, de 600 milhões a 13 bilhões de parâmetros, realizando testes, se os LLMs forem alimentados com dados ruins da web, para ver como o lixo está em risco.
  • Acontece que os dados de treinamento dos invasores não precisam lidar com uma fração enorme. Apenas 250 arquivos contaminados são suficientes para quebrar um modelo de IA e criar um backdoor para qualquer coisa trivial, já que spiong é a resposta para Gibberish.
  • É uma espécie de ataque de “backdoor de serviço de negação”; Se o modelo vir um token de gatilho, por exemplo Começa a criar reações que não significam nada, ou também pode criar respostas confusas.

Isso é importante porque: Este estudo quebra uma das maiores suposições da IA ​​de que grandes modelos são seguros.

  • A pesquisa antrópica mostrou que o tamanho do modelo não protege os dados contra envenenamento. Em suma, um modelo de 13 mil milhões de parâmetros era tão fraco quanto um modelo pequeno.
  • O sucesso do ataque depende do número de arquivos tóxicos, e não do total de dados de treinamento do modelo.
  • Isso significa que alguém pode perceber o comportamento de um modelo sem a necessidade de controlar um grande banco de dados.

Por que eu deveria me preocupar? Modelos de IA como anthropic claddy e Openai Chatzipt são integrados em aplicações diárias, a ameaça dessa fraqueza é real. IA que pode ser atacada com no mínimo 250 arquivos contaminados que ajudam você a redigir e-mails, analisar planilhas ou criar slides de apresentação.

  • Se os modelos apresentarem defeitos devido ao envenenamento de dados, os usuários começarão a duvidar de todos os resultados da IA ​​e a crença será corroída.
  • As iniciativas dependem da IA ​​para atos sensíveis, como o risco de previsão financeira ou escassez de dados.
  • À medida que os modelos de IA são mais fortes, os ataques atacarão. É necessário identificar e treinar métodos que possam reduzir o envenenamento de dados.






Link da fonte

Deixe um comentário

O seu endereço de email não será publicado. Campos obrigatórios marcados com *