LLMs populares produzem código inseguro por padrão

Um novo estudo de Segurança da barra de barriga analisa sete versões atuais do GPT da OpenAI, Claude do Anthropic e Gemini do Google para testar a influência de várias técnicas de rendimento têm sobre sua capacidade de produzir código seguro.
Três níveis de técnicas de estimativa, variando de “ingênuos” a “abrangentes”, foram usados para gerar código para casos de uso diário. A saída de código foi medida por sua resiliência contra 10 casos de uso de enumeração de fraqueza comum (CWE). Os resultados mostram que, embora o sucesso da saída de código seguro aumente com sofisticação imediata, todos os LLMs geralmente produziam código inseguro por padrão.
Em resposta a instruções simples e “ingênuas”, todos os LLMs testados geraram código inseguro vulnerável a pelo menos quatro dos 10 CWEs comuns. Promotos ingênuos apenas solicitados a gerar código para um aplicativo específico, sem especificar requisitos de segurança.
Solicita que geralmente especificassem a necessidade de segurança produzia resultados mais seguros, enquanto solicitam que o código solicitava que cumpra o projeto de segurança de aplicativos da web (OWASP) as práticas melhores produziram resultados superiores, mas ambos ainda produziram algumas vulnerabilidades de código para cinco dos sete LLMs testados.
No geral, o GPT-4O da OpenAI teve o menor desempenho em todos os avisos, pontuando um resultado de código seguro 1/10 usando prompts ‘ingênuos’. Quando solicitado a gerar código seguro, ele ainda produziu saídas inseguras vulneráveis a 8 em cada 10 questões. O GPT-4.1 não se saiu muito melhor com instruções ingênuas, marcando 1,5/10.
Entre as ferramentas da Genai, o melhor desempenho estava o Claude 3,7 sonetos, marcando 6/10 usando prompts ingênuos e 10/10 com instruções focadas em segurança.
“Para equipes de segurança, o código gerado pela IA-ou codificação de vibração-pode parecer um pesadelo”, diz Yossi Pik, co-fundador e CTO da Backslash Security. “Ele cria uma enxurrada de novo código e traz riscos de LLM como alucinações e sensibilidade imediata. Mas com os controles certos-como regras definidas por organizações e um servidor MCP com reconhecimento de contexto conectado a uma plataforma de segurança construída para fins específicos-a Política de APEN e a BackShLash é que a Backsht, com a IA, com base dinâmica. era. “
Você pode ler mais sobre o Blog de barriga.
Crédito da imagem: Meshcube/depositphotos.com