IA está falhando no 'Último Exame da Humanidade'. Então, o que isso significa para a inteligência das máquinas - Alex Barbosa - E-mail Marketing, Marketing Digital e E-commerce

Como traduzir um antigo script palmireno de uma lápide romana? Quantos tendões pareados são suportados por um osso sesamóide específico em um beija-flor? Você pode identificar sílabas fechadas no hebraico bíblico com base nas últimas pesquisas sobre as tradições de pronúncia tiberiana?

Essas são algumas das perguntas em “O Último Exame da Humanidade”, um novo benchmark introduzido em um estudo publicado esta semana na Natureza. A coleção de 2.500 perguntas foi especificamente projetada para sondar os limites do que os sistemas de inteligência artificial (IA) de hoje não podem fazer.

O benchmark representa uma colaboração global de quase 1.000 especialistas internacionais em uma variedade de campos acadêmicos. Esses acadêmicos e pesquisadores contribuíram com perguntas na fronteira do conhecimento humano. Os problemas exigiam expertise em nível de pós-graduação em matemática, física, química, biologia, ciência da computação e humanidades. Importante ressaltar que cada pergunta foi testada em modelos de IA líderes antes da inclusão. Se uma IA não conseguisse respondê-la corretamente no momento em que o teste foi projetado, a pergunta era rejeitada.

Esse processo explica por que os resultados iniciais foram tão diferentes de outros benchmarks. Enquanto os chatbots de IA pontuam acima de 90% em testes populares, quando o Último Exame da Humanidade foi lançado pela primeira vez no início de 2025, os principais modelos tiveram dificuldades. O GPT-4o teve apenas 2,7% de precisão. O Claude 3.5 Sonnet obteve 4,1%. Até mesmo o modelo mais poderoso da OpenAI, o o1, alcançou apenas 8%.

As baixas pontuações eram o ponto principal. O benchmark foi construído para medir o que permanecia além do alcance da IA. E, embora alguns comentaristas tenham sugerido que benchmarks como o Último Exame da Humanidade traçam um caminho em direção à inteligência artificial geral, ou até mesmo à superinteligência – isto é, sistemas de IA capazes de realizar qualquer tarefa em níveis humanos ou super-humanos – acreditamos que isso está errado por três razões.

Você também pode gostar

Maior não é Melhor: Chefe de IA do Meta Diz que Modelos em Escala Maior estão longe de serem Impressionantes

Novos termos do CapCut geram preocupações com privacidade e propriedade para criadores e profissionais de mídia.

Comissões da App Store dos Estados Unidos rendem à Apple uma soma recorde enquanto as vendas de jogos e aplicativos continuam aumentando