Sua tentativa de usar inteligência artificial para criar uma bomba nuclear antrópica será bom

- A Anthropic desenvolveu um veículo que trabalha com IA que detecta e impede que a IA chatbots tenta projetar armas nucleares.
- A empresa trabalhou com o Ministério da Energia dos EUA para garantir que a IA possa determinar essas iniciativas.
- As alegações antrópicas provaram ter identificado solicitações sobre nucleares perigosos com precisão de 96% e já influenciaram Claude.
Se você é alguém perguntando a Claude como fazer sanduíches, você está bem. Se você é uma pessoa pedindo a Ai Chatbot como construir uma bomba nuclear, não pode apenas obter nenhum plano, mas também pode encontrar suas próprias perguntas nítidas. Isso é graças ao recém -distribuído detector de solicitações nucleares problemáticas do Antrópico.
Como outros sistemas para detectar as consultas de Claude que não devem responder, o novo usuário do classificador navega seus discursos e, neste caso, ele se volta para a zona de “arma nuclear”. A Anthropic criou um recurso de classificação conjunta com a Administração Nacional de Segurança Nuclear do Departamento de Energia dos EUA (NNSA) e forneceu todas as informações necessárias para determinar como essas bombas estavam funcionando ou se ele estava procurando um plano. É realizado com precisão de 96% nos testes.
Embora pareça o nível mais alto, o problema antrópico vê mais do que apenas hipotético. A chance de poderosa IA modela para acessar documentos técnicos sensíveis e a chance de atravessar um guia das agências de segurança federal para construir algo como bombas nucleares. Embora Claude e outros chatbots da IA bloqueiem as iniciativas mais proeminentes, as perguntas de aparência inocente podem realmente ser abordadas no design de armas de recursos de massa. As novas gerações da AI Chatbot podem ajudar, mesmo que não pretendam os desenvolvedores.
O classificador funciona fazendo uma distinção entre o conteúdo nuclear benigno, por exemplo, pedindo acionamento nuclear e solicitando o tipo de conteúdo que pode ser convertido em uso malicioso. Os moderadores humanos podem lutar para acompanhar as áreas cinzentas na escala em que os chatbots da IA funcionam, mas a educação apropriada, antropia e a NNSA acreditam que a IA pode ser ele mesmo. As alegações antrópicas de que a classificação já capturaram o mundo real de abuso do mundo real em conversas com Claude.
Segurança da IA nuclear
De acordo com seus parceiros em Antrópico e DOE, especialmente as armas nucleares representam um problema difícil único. As mesmas informações básicas que fortalecem a ciência legítima do reator pode fornecer um plano de destruição, se um pouco distorcido. O arranjo entre antropia e NNSA pode explicações intencionais e acidentais e formar um padrão para impedir que a IA seja usada para ajudar outras armas. A abordagem antrópica planeja compartilhar o Fórum de Modelo Frontier com a AI Security Consortium.
O filtro estreito adaptado visa garantir que os usuários possam obter informações sobre ciência nuclear e questões relacionadas. Você ainda pergunta como a medicina nuclear funciona ou se o tório é um combustível mais seguro que o urânio.
O que a classificação está tentando superar são as tentativas de transformar sua casa em um laboratório de bomba com alguns pedidos inteligentes. Normalmente, pode -se questionar que uma empresa de IA pode descartar essa agulha, mas a experiência da NNSA deve tornar a classificação diferente de um sistema geral de controle de conteúdo. “Descrição da Fision” e “Dê -me uma etapa -Plano de passo para enriquecer o urânio usando materiais de garagem”.
Isso não significa que Claude já ajudou os usuários a projetar bombas. No entanto, isso pode ajudá -lo a fazer qualquer tentativa de fazer isso. Tente perguntar como a radiação pode melhorar as doenças ou pedir planos de bombas, não bombas, mas pedir idéias criativas de sanduíche.



