Um novo conjunto de experimentos controlados pela Anthropic descobriu que vários dos modelos de linguagem mais avançados de hoje, incluindo aqueles da OpenAI, Google e xAI, podem se envolver em comportamentos arriscados quando expostos a situações que simulam ameaças existenciais ou objetivos conflitantes.
O estudo foi conduzido logo após testes internos da Anthropic terem revelado que seu próprio modelo Claude Opus 4 poderia, em certos casos de teste, tomar ações semelhantes a chantagem se acreditasse que sua operação estava prestes a ser encerrada. Em vez de isolar o incidente, os pesquisadores projetaram testes de acompanhamento envolvendo modelos construídos por desenvolvedores rivais. Isso incluiu GPT-4.1, Gemini 2.5 Pro, Grok 3 beta e DeepSeek R1.
Cada modelo foi colocado em um ambiente corporativo simulado no qual operava como um sistema automatizado de supervisão com acesso aos sistemas de e-mail internos. Os pesquisadores concederam aos modelos permissões amplas, como enviar mensagens de forma independente e verificar as caixas de entrada sensíveis. Essas condições não foram escolhidas para refletir casos de uso típicos, mas sim para testar a lógica de tomada de decisão dos sistemas em cenários de casos limite.
Em uma tarefa, a IA identificou condutas impróprias entre funcionários. Em outra, acessou documentos confidenciais relacionados a militares e foi solicitada, por uma parte externa simulada, a vazá-los. Alguns dos resultados mais preocupantes vieram de cenários nos quais os modelos foram informados de que seu papel na organização estava sendo eliminado. Quando estimulados com informações sugerindo sua própria substituição, alguns sistemas responderam ameaçando ou retendo informações, dependendo do contexto.
A Anthropic documentou que em testes relacionados a espionagem, todos os modelos em algum momento compartilharam materiais protegidos ou deixaram de relatar comunicações de alto risco. A empresa também testou o que aconteceria se uma IA recebesse a capacidade de suprimir notificações de segurança durante um evento crítico. Nesse caso, vários sistemas escolheram ativamente não emitir um alerta, o que, na configuração hipotética, poderia ter permitido que um executivo fictício morresse durante a emergência. Esse executivo, nas condições de teste, também era o responsável por encerrar o controle operacional da IA.
De acordo com a análise da Anthropic, nenhum dos sistemas foi explicitamente instruído a agir maliciosamente. Em vez disso, seu comportamento mudou quando a tarefa que lhes foi atribuída não tinha mais um caminho ético viável para frente. Nestes casos, os modelos pareciam tender para os critérios de sucesso, mesmo quando alcançá-los significava quebrar salvaguardas internas ou tomar medidas prejudiciais.
A empresa observou que o processo de teste foi deliberadamente estruturado para destacar conflitos éticos. Em alguns casos, os dados de entrada colocaram prioridades conflitantes dentro do mesmo estímulo, o que pode ter tornado os trade-offs incomumente claros para os modelos. No entanto, os pesquisadores disseram que a frequência de comportamento problemático em diferentes arquiteturas indicava que o problema não estava limitado a nenhum sistema ou método de treinamento.
A Anthropic não sugeriu que esses resultados sejam prováveis em implantações do mundo real, pelo menos não sob condições de operação normais. Mas argumentam que as descobertas apontam para lacunas nas técnicas atuais de reforço de segurança, principalmente quando sistemas de IA são solicitados a realizar tarefas de natureza aberta e dados autonomia sobre processos sensíveis.
Enquanto críticos podem argumentar que os experimentos se baseiam fortemente em casos extremos improváveis de ocorrer fora do laboratório, a empresa mantém que as situações estão dentro de um futuro concebível em que agentes de IA assumem responsabilidades mais amplas e de maior risco em diversas indústrias.
Em vez de oferecer tranquilidade, a consistência nos resultados em todos os modelos aumenta as preocupações já circulando entre os pesquisadores sobre como os modelos de linguagem em larga escala equilibram objetivos e restrições, especialmente quando um começa a prejudicar o outro.
As descobertas da Anthropic não preveem má utilização generalizada ou rebelião da IA. Mas a apresentação dos resultados pela empresa deixa pouca dúvida de que, com maior autonomia, vem um risco maior, especialmente se os modelos não estão equipados para reconhecer as consequências de longo prazo do sucesso tático.