Resumos de Inteligência Artificial de Pesquisas Científicas frequentemente enganam os leitores, alerta estudo

  • Categoria do post:Notícias

Ferramentas de inteligência artificial projetadas para simplificar a literatura científica estão sendo cada vez mais utilizadas por pesquisadores, escritores e leitores curiosos. No entanto, uma investigação recente levantou preocupações de que esses sistemas possam estar introduzindo distorções graves em vez de fornecer clareza.

Em um estudo revisado por pares publicado no Royal Society Open Science, um grupo de pesquisadores analisou como os principais modelos de linguagem de hoje interpretam e reescrevem textos científicos complexos. Suas descobertas foram preocupantes: modelos amplamente elogiados pela sumarização, incluindo sistemas conhecidos como ChatGPT, Claude, DeepSeek e LLaMA, frequentemente alteravam o significado dos estudos originais. Em vez de simplesmente traduzir material técnico denso em resumos digeríveis, muitas vezes inseriam certezas injustificadas ou ampliavam descobertas estreitas em afirmações abrangentes.

A pesquisa, liderada por Uwe Peters da Universidade de Utrecht e Benjamin Chin-Yee da Universidade Western e da Universidade de Cambridge, surgiu em resposta a uma crescente dependência de IA para comunicação científica. Sua equipe queria descobrir se esses resumos automatizados ajudam ou prejudicam a compreensão precisa, especialmente quando compartilhados além do público acadêmico.

Para explorar essa questão, os pesquisadores reuniram um grande conjunto de materiais científicos – incluindo 200 resumos de pesquisa e 100 artigos completos – de revistas médicas e científicas de ponta como Nature, Science, The Lancet e The New England Journal of Medicine. Usando dez grandes modelos de linguagem, incluindo GPT-4 Turbo, Claude 3.7 Sonnet, ChatGPT-4o e DeepSeek, eles geraram cerca de 5.000 resumos e examinaram o quão fielmente cada versão refletia as evidências originais.

O que descobriram foi um padrão. Em muitos casos, os resumos produzidos pela IA alteraram o tom e o significado dos textos originais. Em vez de relatar que um determinado medicamento “mostrou benefícios potenciais em alguns pacientes”, o resumo poderia afirmar que o medicamento “melhora os resultados”, implicando uma eficácia mais ampla do que o estudo havia mostrado. Essas superafirmações eram especialmente comuns entre a nova geração de modelos de IA.

Ainda mais surpreendentemente, o problema piorou quando os modelos foram instruídos a ter cuidado. Comandos pedindo que os sistemas “evitassem erros” ou “resumissem com precisão” tendiam a sair pela culatra. Em vez de melhorar, os modelos produziam conclusões mais assertivas e generalizadas. Os pesquisadores sugeriram que tais comandos poderiam inadvertidamente direcionar os modelos para soarem mais autoritários, mesmo que isso signifique ignorar nuances ou incertezas no material original.

Modelos mais antigos, como GPT-3.5 e versões anteriores de Claude, apresentaram menos desses problemas. Seus resumos tendiam a permanecer mais próximos do texto original em termos de tom e alcance. Em contraste, sistemas mais recentes como ChatGPT-4o e LLaMA 3.3 tinham até 73% mais chances de introduzir generalizações exageradas.

O estudo também comparou resumos escritos por máquinas com aqueles elaborados por humanos. Usando entradas escritas por especialistas do NEJM Journal Watch como referência, a equipe descobriu que os resumos gerados pela IA eram quase cinco vezes mais propensos a distorcer as descobertas originais. As versões humanas, escritas por profissionais treinados para interpretar nuances científicas, mantinham as conclusões fundamentadas nos dados.

A equipe foi ainda mais longe, explorando como diferentes configurações técnicas influenciavam a saída. Quando os modelos foram executados por meio de uma interface API com seu parâmetro de “temperatura” configurado para zero – uma configuração que limita a aleatoriedade – o risco de distorção caiu significativamente. Mas, como a maioria dos usuários interage com chatbots por meio de aplicativos de acesso público que não permitem ajustes finos, esse método pode não estar disponível para todos.

Importante ressaltar que o estudo deixou claro que nem todas as simplificações são prejudiciais. Em alguns casos, transformar jargão técnico em linguagem clara ajuda os não especialistas a compreender ideias essenciais. Mas quando a simplificação se torna uma exageração – principalmente em áreas como medicina – cria riscos reais. Descobertas interpretadas erroneamente podem enganar o público, influenciar debates políticos ou afetar decisões de saúde.

Embora o foco da pesquisa tenha sido a supergeneralização, os autores também reconheceram que o oposto pode acontecer: os modelos podem subestimar as descobertas, transformando conclusões claras em resumos vagos. Mas, nesta análise, esse tipo de erro ocorreu com muito menos frequência.

Por fim, os autores incentivaram desenvolvedores e usuários a repensarem como utilizam a IA para resumir a ciência. Estratégias como evitar comandos excessivamente cautelosos, optar por modelos mais conservadores e permitir uma melhor personalização dos parâmetros técnicos pode reduzir esses problemas. Ainda assim, os pesquisadores observaram que mais trabalho é necessário, especialmente em campos científicos além da medicina.

Seu estudo – intitulado “Viés de Generalização na Sumarização de Pesquisa Científica por Modelos de Linguagem Grandes” – oferece uma das avaliações mais detalhadas até agora sobre como a IA interage com os limites das evidências científicas. É um alerta para um mundo que cada vez mais busca máquinas para compreensão, não apenas para informação.