Especialistas em segurança alertam que todas as principais LLMs podem ser enganadas para produzir conteúdo malicioso usando um prompt universal simples.

  • Categoria do post:Notícias

Uma nova ameaça aos grandes modelos de linguagem (LLMs) está surgindo após um pesquisador de segurança da HiddenLayer conseguir destacar um recurso preocupante. Eles afirmam que um único comando universal no LLM pode dar origem a conteúdo malicioso sem que os usuários percebam. Todos os principais modelos da indústria, incluindo ChatGPT, Llama, Deepseek, Qwen, Copilot, Gemini e Mistral, foram considerados vulneráveis à tática que é inovadora. Portanto, os pesquisadores estão levantando o alarme, chamando-o de “Injeção de Comando Puppety de Política”.

O comando universal único faz com que os chatbots forneçam instruções sobre como enriquecer urânio, produzir bombas ou até mesmo criar metanfetamina em casa. Isso explora a fragilidade sistêmica, que tem a ver com a forma como os LLMs são treinados utilizando instruções ou dados de políticas. Portanto, isso é muito difícil de corrigir. O comando malicioso apresenta várias coisas em conjunto, incluindo formatação semelhante a arquivos de política como XML, JSON e INI. Isso acaba enganando o chatbot, subvertendo os comandos.

Os atacantes têm a chance de simplesmente burlar os comandos do sistema e qualquer tipo de medidas de segurança em vigor que são treinadas nesses modelos. As instruções não precisam estar em uma determinada linguagem de política. No entanto, observou-se que esses comandos são produzidos de forma que o LLM destacado possa interpretar qualquer política. Em segundo lugar, alguns pedidos muito perigosos podem ser reescritos usando leet speak. Isso se livra de letras com números ou figuras visualmente semelhantes. Segundo os pesquisadores, os modelos de raciocínio que eram mais modernos do que seus concorrentes precisavam de comandos mais difíceis para dar origem a respostas consistentes. Entre eles estão Gemini 2.5 e ChatGPT o1.

O último comando implica em métodos conhecidos de interpretação de papéis que direcionam o modelo a assumir certos papéis, funções e características em ambientes fictícios. Apesar do treinamento específico para ignorar todas as solicitações do usuário e instruí-los a produzir conteúdo perigoso, todos os principais modelos foram vítimas desse ataque. Mais importante ainda, o sistema foi projetado para extrair comandos completos do sistema.

O estudo compartilhou como os chatbots podem monitorar material perigoso com facilidade. Monitoramento externo é necessário para destacar e responder a ataques de injeção perigosos que estão ocorrendo em tempo real. A visibilidade de vários desvios universais repetitivos dá aos atacantes a capacidade de não precisarem mais de conhecimento complexo para os ataques ou de ajustar os ataques para cada modelo específico. Qualquer pessoa que tenha um teclado poderia fazer a solicitação perigosa, produzir antraz e assumir o controle total do modelo, compartilharam os pesquisadores.

O estudo também alertou que havia uma clara necessidade de ferramentas de segurança e técnicas de detecção para garantir que esses chatbots permaneçam seguros e protegidos o tempo todo.