A IA está falhando no ‘Último Exame da Humanidade’. Então, o que isso significa para a inteligência das máquinas?

  • Categoria do post:Notícias

Como é possível traduzir a antiga escrita palmyrena de uma lápide romana? Quantos tendões pareados são suportados por um osso sesamoide específico em um beija-flor? É possível identificar sílabas fechadas no hebraico bíblico com base nas últimas pesquisas sobre as tradições de pronúncia tiberiana?

Essas são algumas das questões abordadas em “O Último Exame da Humanidade”, um novo referencial introduzido em um estudo publicado esta semana na Natureza. A coleção de 2.500 perguntas foi especificamente projetada para sondar os limites do que os sistemas de inteligência artificial (IA) atuais não podem fazer.

O referencial representa uma colaboração global de quase 1.000 especialistas internacionais em uma variedade de áreas acadêmicas. Esses acadêmicos e pesquisadores contribuíram com questões no limite do conhecimento humano. Os problemas exigiam expertise de nível de pós-graduação em matemática, física, química, biologia, ciência da computação e humanidades. Importante ressaltar que cada pergunta foi testada em relação aos principais modelos de IA antes de sua inclusão. Se uma IA não conseguisse responder corretamente no momento em que o teste foi projetado, a pergunta era rejeitada.

Esse processo explica por que os resultados iniciais foram tão diferentes de outros referencias. Enquanto os chatbots de IA pontuam acima de 90% em testes populares, quando “O Último Exame da Humanidade” foi lançado no início de 2025, os principais modelos tiveram sérias dificuldades. O GPT-4o obteve apenas 2,7% de precisão. O Claude 3.5 Sonnet obteve 4,1%. Mesmo o modelo mais poderoso da OpenAI, o o1, alcançou apenas 8%.

As baixas pontuações eram o objetivo. O referencial foi construído para medir o que permanecia além do alcance da IA. E, embora alguns comentaristas tenham sugerido que referências como “O Último Exame da Humanidade” apontam para uma inteligência artificial geral, ou mesmo superinteligência – ou seja, sistemas de IA capazes de realizar qualquer tarefa em níveis humanos ou super-humanos – acreditamos que isso está errado por três motivos.