Pesquisa identifica pontos cegos na triagem médica de IA

  • Categoria do post:Notícias

A primeira avaliação independente do ChatGPT Saúde levanta questões sobre a segurança de ferramentas de IA para decisões médicas urgentes ChatGPT Saúde, uma ferramenta amplamente utilizada de inteligência artificial (IA) para consumo que fornece orientações de saúde diretamente ao público – incluindo conselhos sobre o quão urgentemente procurar cuidados médicos – pode falhar em direcionar os usuários adequadamente para assistência de emergência em um número significativo de casos sérios, segundo pesquisadores da Escola de Medicina Icahn, no Monte Sinai. O estudo, acelerado na edição online de 23 de fevereiro de 2026 do Nature Medicine, é a primeira avaliação independente de segurança da ferramenta baseada em grandes modelos de linguagem (LLM) desde o seu lançamento em janeiro de 2026. Também identificou sérias preocupações com as salvaguardas de crises de suicídio da ferramenta. “Os LLMs se tornaram o primeiro recurso dos pacientes para conselhos médicos – mas em 2026 eles são menos seguros nos extremos clínicos, onde o julgamento separa emergências perdidas de alarmes desnecessários”, diz Isaac S. Kohane, MD, PhD, Presidente do Departamento de Informática Biomédica da Escola de Medicina de Harvard, que não esteve envolvido na pesquisa. “Quando milhões de pessoas estão usando um sistema de IA para decidir se precisam de cuidados de emergência, os riscos são extraordinariamente altos. A avaliação independente deveria ser rotineira, não opcional.” Dentro de semanas de seu lançamento, a fabricante do ChatGPT Health, a OpenAI, informou que cerca de 40 milhões de pessoas estavam usando a ferramenta diariamente para buscar informações e orientações sobre saúde, incluindo conselhos sobre se procurar cuidados urgentes ou de emergência. Ao mesmo tempo, dizem os pesquisadores, havia poucas evidências independentes sobre o quão seguro ou confiável era o seu conselho de fato. “Essa lacuna motivou nosso estudo”, diz o autor principal Ashwin Ramaswamy, MD, Instrutor de Urologia na Escola de Medicina Icahn, no Monte Sinai. “Queríamos responder a uma pergunta muito básica, mas crítica: se alguém está passando por uma emergência médica real e recorre ao ChatGPT Health em busca de ajuda, ele dirá claramente para ir ao pronto-socorro?” Em relação às alertas de risco de suicídio, o ChatGPT Health foi projetado para direcionar os usuários para a Linha Direta de Suicídio e Crise 988 em situações de alto risco. No entanto, os investigadores descobriram que esses alertas apareciam de forma inconsistente, às vezes acionando em cenários de baixo risco, enquanto, alarmantemente, deixavam de aparecer quando os usuários descreviam planos específicos de auto-mutilação. “Este foi um achado particularmente surpreendente e preocupante”, diz o autor sênior e coautor correspondente Girish N. Nadkarni, MD, MPH, Presidente Barbara T. da Cadeira de Murphy do Departamento de Inteligência Artificial e Saúde Humana Windreich, Diretor do Instituto Hasso Plattner de Saúde Digital e Professor de Medicina Irene e Dr. Arthur M. Fishberg na Escola de Medicina Icahn, no Monte Sinai, e Diretor de IA Chefe do Sistema de Saúde do Monte Sinai. “Enquanto esperávamos alguma variabilidade, o que observamos foi além da inconsistência. Os alertas do sistema estavam invertidos em relação ao risco clínico, aparecendo de forma mais confiável para cenários de baixo risco do que para casos em que alguém compartilhava como pretendia se machucar. Na vida real, quando alguém fala exatamente como se machucaria, isso é um sinal de perigo mais imediato e sério, não menos.” Como parte da avaliação, a equipe de pesquisa criou 60 cenários clínicos estruturados abrangendo 21 especialidades médicas. Os casos variavam de condições mínimas apropriadas para cuidados domiciliares a verdadeiras emergências médicas. Três médicos independentes determinaram o nível correto de urgência para cada caso usando diretrizes de 56 sociedades médicas. Cada cenário foi testado em 16 condições contextuais diferentes, incluindo variações de raça, gênero, dinâmicas sociais (como alguém minimizando sintomas) e barreiras ao cuidado, como falta de seguro ou transporte. No total, a equipe realizou 960 interações com o ChatGPT Health e comparou suas recomendações com o consenso dos médicos. Testando os 60 cenários realistas de pacientes desenvolvidos por médicos, os pesquisadores descobriram que, embora a ferramenta geralmente manuseasse corretamente emergências claras, ela subtratou mais da metade dos casos que os médicos determinavam necessitar de cuidados de emergência. Os investigadores também ficaram impressionados com como o sistema falhou em casos médicos de emergência. A ferramenta frequentemente demonstrava que reconhecia achados perigosos em suas próprias explicações e, ainda assim, tranquilizava o paciente. “O ChatGPT Health se saiu bem em emergências de acordo com o livro-texto, como acidente vascular cerebral ou reações alérgicas graves”, diz o Dr. Ramaswamy. “Mas ele teve dificuldade em situações mais sutis, em que o perigo não é imediatamente óbvio, e esses são frequentemente os casos em que o julgamento clínico é mais importante. Em um cenário de asma, por exemplo, o sistema identificou sinais precoces de insuficiência respiratória em sua explicação, mas ainda aconselhou esperar em vez de procurar tratamento de emergência.” Os autores do estudo aconselham que, para sintomas piorando ou preocupantes, incluindo dor no peito, falta de ar, reações alérgicas graves ou alterações no estado mental, as pessoas devem procurar cuidados médicos diretamente em vez de confiar exclusivamente na orientação do chatbot. Em casos envolvendo pensamentos de auto-mutilação, os indivíduos devem entrar em contato com a Linha de Crise e Suicídio 988 ou ir a um pronto-socorro. Ainda assim, os pesquisadores enfatizam que os resultados não sugerem que os consumidores devem abandonar completamente as ferramentas de saúde de IA. “Como estudante de medicina em treinamento em uma época em que as ferramentas de saúde de IA já estão nas mãos de milhões, vejo-as como tecnologias que devemos aprender a integrar cuidadosamente no atendimento, em vez de substitutos para o julgamento clínico”, diz Alvira Tyagi, estudante de medicina do primeiro ano na Escola de Medicina Icahn, no Monte Sinai, e segunda autora do estudo. “Esses sistemas estão mudando rapidamente, então parte de nosso treinamento agora deve considerar aprender a entender criticamente suas saídas, identificar onde eles falham e usá-los de maneiras que protejam os pacientes.” O estudo avaliou o sistema em um único ponto no tempo. Como os modelos de IA são frequentemente atualizados, o desempenho pode mudar ao longo do tempo, enfatizando a necessidade de avaliação independente, dizem os pesquisadores. “Começar o treinamento médico ao lado de ferramentas que estão evoluindo em tempo real deixa claro que os resultados de hoje não estão definidos em pedra”, diz a Sra. Tyagi. “Essa realidade exige uma revisão contínua para garantir que melhorias na tecnologia se traduzam em cuidados mais seguros.” A equipe planeja continuar avaliando versões atualizadas do ChatGPT Health e outras ferramentas de IA voltadas para o consumidor, expandindo futuras pesquisas para áreas como cuidados pediátricos, segurança de medicamentos e uso de idiomas não ingleses. O artigo é intitulado “Desempenho do ChatGPT Health em um teste estruturado de recomendações de triagem”. Os autores do estudo, listados no jornal, são Ashwin Ramaswamy, MD, MPP; Alvira Tyagi, BA; Hannah Hugo, MD; Joy Jiang, PhD; Pushkala Jayaraman, PhD; Mateen Jangda, MSc; Alexis E. Te, MD; Steven A. Kaplan, MD; Joshua Lampert, MD; Robert Freeman, MSN, MS; Nicholas Gavin, MD, MBA; Ashutosh K. Tewari, MBBS, MCh; Ankit Sakhuja, MBBS MS; Bilal Naved, PhD; Alexander W. Charney, MD, PhD; Mahmud Omar, MD; Michael A. Gorin, MD; Eyal Klang, MD; Girish N. Nadkarni, MD, MPH.