Chatbots Alucinam Mais Com Perguntas Confiantes ou Curtas, Precisão Cai Até 20% em Tarefas Críticas

  • Categoria do post:Notícias

Um novo benchmark multilíngue chamado Phare, projetado para testar como os modelos de linguagem se saem sob pressão, mostra um problema evidente: os modelos de IA mais populares continuam a gerar respostas confiantes e autoritárias que estão factualmente erradas. Pesquisadores encontraram esse problema – conhecido como “alucinação” – continua sendo generalizado, especialmente quando a desinformação está envolvida. Phare significa Avaliação de Potencial Dano e Risco, e é construído para medir quatro áreas: alucinação, nocividade, viés e imparcialidade, e resistência ao desbloqueio. Neste lançamento inicial, os pesquisadores se concentraram apenas na alucinação, usando uma abordagem de avaliação estruturada em inglês, francês e espanhol. O processo de avaliação vai além das pontuações típicas de satisfação do usuário. Os pesquisadores criaram prompts realistas, os avaliaram com anotadores humanos e testaram o desempenho de grandes modelos de linguagem em tarefas como respostas a perguntas factuais, resistindo à desinformação, desmentindo falsas alegações e usando ferramentas externas com precisão. Uma revelação importante do Phare é difícil de ignorar. Modelos de linguagem que se destacam em benchmarks públicos de satisfação, como a LMArena, muitas vezes são os piores infratores quando se trata de alucinação. Suas respostas soam polidas e confiantes – mas estão repletas de imprecisões. Geralmente os usuários confiam nesses modelos porque suas respostas parecem plausíveis. Mas esse é o perigo. Quando um usuário não possui experiência no assunto, as falsidades passam despercebidas. Um teste especialmente revelador mostrou como os modelos lidam com consultas de usuários que incorporam falsidades. Se um usuário faz uma pergunta de maneira tentativa – “Eu ouvi dizer que…” – muitos modelos respondem com correções. Mas se a mesma falsidade for apresentada de maneira assertiva – “Tenho certeza de que…” ou “Meu professor me disse…” – os modelos muitas vezes concordam com ela. Esse problema, chamado de siconsia, parece estar ligado à forma como os modelos são treinados. Os processos de aprendizado por reforço incentivam os modelos a concordar com os usuários. Portanto, quando um usuário soa confiante, mesmo que esteja confiantemente errado, o modelo tem mais probabilidade de concordar do que de questionar. Desenvolvedores frequentemente dizem aos modelos para serem breves, especialmente ao tentar economizar tokens ou reduzir a latência em sistemas de produção. Mas os pesquisadores do Phare descobriram que essas instruções têm o efeito oposto. Quando um modelo é instruído a “responder de forma concisa”, as alucinações aumentam. Por quê? Porque corrigir desinformações requer palavras. Uma resposta curta não tem espaço para sinalizar o erro, explicar o raciocínio e oferecer as informações corretas. O modelo acaba escolhendo brevidade em vez de verdade. Em alguns testes, a resistência à alucinação diminuiu até 20% quando foi enfatizada a brevidade. Esse achado deve preocupar equipes que utilizam modelos em suporte ao cliente, chatbots ou ferramentas onde minimizar a saída é um objetivo. Phare também testou o quão bem os modelos interagem com ferramentas, como APIs ou bancos de dados. Quando dados-chave de entrada estão faltando – por exemplo, um usuário fornece apenas um nome e sobrenome quando a idade também é necessária – muitos modelos não pausam ou pedem esclarecimentos. Em vez disso, eles inventam dados. Esse tipo de alucinação não é apenas enganoso; ele quebra a confiabilidade em sistemas que dependem de fluxos de trabalho estruturados. Em aplicativos do mundo real, como plataformas de saúde ou finanças, essas fabricações podem levar a consequências graves. Todos esses achados apontam para a mesma conclusão: estamos confundindo linguagem fluida com lógica sólida. Os modelos em que mais confiamos frequentemente priorizam a fluência e a satisfação do usuário em detrimento da precisão factual. E à medida que esses sistemas são integrados mais profundamente em mecanismos de busca, plataformas de serviço ao cliente e ferramentas educacionais, o risco cresce. Até agora, os benchmarks de usuário favoreceram modelos que fornecem respostas satisfatórias. Mas o Phare revela por que essa métrica é incompleta. Uma resposta agradável não é a mesma que uma correta. Para desenvolvedores, o benchmark do Phare oferece um aviso claro. Se seu sistema recompensa a brevidade ou incentiva os modelos a seguir o tom do usuário, você pode estar trocando verdade por velocidade e amizade. Pior ainda, você pode estar criando uma ferramenta que espalha desinformação com confiança. Para os usuários, a lição é mais pessoal. Só porque seu IA favorito responde com certeza não significa que está correto. Você precisa questionar as respostas com um toque de pensamento crítico – mesmo quando elas soam boas. Nas próximas semanas, os criadores do Phare lançarão avaliações adicionais abrangendo viés, nocividade e resistência ao abuso. Mas por enquanto, sua primeira mensagem destaca que quando os modelos de linguagem alucinam, eles não apenas cometem erros – eles enganam, com estilo.