Estudo mostra que o comportamento humano compromete a precisão médica da IA fora de ambientes de teste

  • Categoria do post:Notícias

Ferramentas de IA como o GPT-4 têm estado em destaque por passar em exames médicos e até superar médicos licenciados em cenários de teste. No entanto, uma nova pesquisa da Universidade de Oxford sugere que, embora a IA possa brilhar em condições de teste, muitas vezes ela tropeça quando pessoas reais dependem dela para decisões de saúde reais.

Uma Grande Lacuna Entre as Notas dos Testes e o Uso Real

Quando solicitado diretamente, o GPT-4 poderia identificar o diagnóstico correto quase 95% das vezes. Mas as coisas mudaram quando pessoas comuns tentaram usar as mesmas ferramentas para descobrir o que havia de errado com elas. Nesse caso, a taxa de sucesso caiu para pouco menos de 35%. Curiosamente, as pessoas que não usaram IA foram mais precisas. De fato, elas tinham cerca de 76% mais chances de citar a condição correta do que aquelas que usaram a IA.

Como o Estudo Funcionou

Pesquisadores de Oxford trouxeram 1.298 pessoas para desempenhar o papel de pacientes. Cada pessoa recebeu um breve cenário médico, ou seja, uma história com sintomas, histórico pessoal e, às vezes, informações enganosas. Sua tarefa era decidir o que poderia estar errado e que nível de cuidado deviam procurar, variando de remédios caseiros a chamar uma ambulância. Os participantes poderiam usar um dos três modelos de IA, GPT-4o, Llama 3 ou Command R+. Um grupo de médicos reais já havia decidido o diagnóstico correto e o plano de ação para cada caso. Um exemplo envolveu um estudante que teve uma dor de cabeça súbita e intensa enquanto estava com amigos. A decisão correta foi uma ressonância magnética – ele estava tendo um tipo de hemorragia cerebral.

Onde as Coisas Saíram dos Trilhos

Quando as pessoas usaram as ferramentas de IA, muitas vezes omitiram detalhes importantes. Outras entenderam mal o que a IA lhes disse ou a ignoraram completamente. Em um caso, uma pessoa com sintomas de pedras na vesícula biliar disse que tinha dores estomacais graves após comer comida pronta, mas não explicou onde estava a dor nem com que frequência ocorria. A IA assumiu que era indigestão, e a pessoa concordou. Mesmo quando a IA oferecia informações úteis, os usuários nem sempre as utilizavam. O GPT-4o trouxe um diagnóstico correto em cerca de dois terços dos casos. Mas menos de 35% dos usuários incluíram essa condição em sua decisão final.

Como o Comportamento Humano Altera o Resultado

Os especialistas dizem que esse resultado não é surpreendente. A IA precisa de informações claras e detalhadas para fazer bem o seu trabalho. Mas alguém que se sente doente ou em pânico muitas vezes não consegue explicar seus sintomas claramente. Ao contrário dos médicos treinados que sabem como fazer as perguntas certas de acompanhamento, a IA só pode responder ao que lhe é dito. Além disso, a confiança desempenha um papel. As pessoas podem não acreditar nos conselhos da IA ou não entender completamente o que ela diz. Esses fatores humanos podem limitar a utilidade da IA na vida real.

Por que as Notas dos Testes Podem Ser Enganosas

Uma lição do estudo é que altas notas em testes padronizados não significam que um modelo está pronto para o mundo real. A maioria desses exames são feitos para humanos, não para máquinas. Eles não testam o quão bem uma IA lida com informações vagas, respostas emocionais ou redação vaga. Pense em um chatbot treinado para responder a perguntas de serviço ao cliente. Ele pode se sair bem em questionários de prática, mas ter dificuldade com usuários reais que digitam casualmente ou expressam frustração. Sem testes ao vivo com pessoas reais, essas notas perfeitas não significam muito.

IA Conversando com IA Não é o Mesmo

Os pesquisadores de Oxford também tentaram deixar uma IA agir como paciente e outra dar conselhos. Essas conversas de IA para IA se saíram melhor, cerca de 61% das vezes o IA “paciente” adivinhou o problema correto. Mas esse sucesso é um pouco enganoso. Mostra que as ferramentas de IA funcionam bem entre si, não necessariamente com humanos.

Não é Culpa do Usuário

Alguns podem achar que os usuários são os culpados pelos fracassos da IA. Mas os especialistas em experiência do usuário dizem que o verdadeiro problema está no design. Se as pessoas não conseguem obter a ajuda correta, é um sinal de que o sistema não foi construído para combinar com a forma como as pessoas pensam ou se comportam. O estudo oferece um aviso claro: um desempenho forte em um laboratório silencioso não garante sucesso na bagunça da vida real. Para qualquer IA destinada a trabalhar com pessoas, testar com pessoas é essencial. Caso contrário, corremos o risco de construir ferramentas inteligentes que falham quando mais importa.