De o3 da OpenAI para Visão do Grok-3: Esses Modelos de IA Fizeram o Teste de Mensa, Resultados Podem Surpreender Você

  • Categoria do post:Notícias

Recentemente, um benchmark de inteligência colocou os modelos de IA mais avançados de hoje sob o mesmo tipo de escrutínio cognitivo usado para avaliar pensadores humanos excepcionais, e o resultado conta uma história de contrastes entre raciocínio verbal bruto e complexidade multimodal. Os dados vêm do teste de QI da Mensa Noruega, uma medida bem conhecida de raciocínio de alto nível, onde pontuações acima de 130 frequentemente marcam a capacidade de nível de gênio. Embora o teste tenha sido projetado para pessoas, os pesquisadores começaram a usá-lo para comparar como os sistemas de inteligência artificial se saem ao resolver os mesmos tipos de problemas abstratos com os quais os humanos lutam. No topo do ranking atual está o o3 da OpenAI, que marcou 133, apenas abaixo do limite superior das escalas de QI humanas. Pouco atrás está o Gemini Thinking, o modelo focado em linguagem do Google, que alcançou 128. Esses resultados sugerem que, pelo menos na resolução de problemas abstratos por meio de palavras e lógica, alguns sistemas de IA não apenas correspondem ao desempenho humano, mas silenciosamente o superam. A categoria superior inclui o o4-mini da OpenAI com uma pontuação de 126, o Gemini Pro com 124, e tanto o Claude-4 Opus quanto o Claude-4 Sonnet empatados com 118. Até mesmo modelos logo abaixo dessa linha, como Grok-3 Think (111), Llama-4 (107) e DeepSeek-R1 (105), estão operando dentro ou acima da faixa média humana. Mas a queda começa acentuadamente à medida que os modelos mudam do processamento apenas de texto para capacidades visuais. Sistemas como Claude-4 Sonnet Vision, GPT-4.5, Grok-3 e deepseek-v3, todos com pontuação de 97, ficam exatamente na fronteira da média humana. Logo abaixo, o Gemini Pro Vision chegou a 96, enquanto o GPT-4 Omni (Verbal) ficou em 91, apesar de seu foco verbal. O o4-mini-high da OpenAI atingiu 90, mas a queda continua. Variantes visuais como o3-vision e a IA da Bing marcaram 86, seguidas por Mistral (85) e Claude-4 Opus Vision (80). Mais abaixo na lista, modelos como OpenAI o1-pro Vision (79) e Llama-3 Vision (70) mostram uma lacuna crescente entre a ambição multimodal e o desempenho real em tarefas de raciocínio. No extremo inferior estão o GPT-4 Omni Vision e o Grok-3 Think Vision, conseguindo apenas 63 e 62, respectivamente – pontuações que, em termos humanos, refletiriam limitações severas no reconhecimento de padrões e lógica. O que fica claro através desse ranking é que o raciocínio baseado em texto continua sendo a grande vantagem da IA. Modelos treinados puramente na linguagem continuam a superar seus concorrentes multimodais quando confrontados com quebra-cabeças baseados em símbolos e problemas de lógica. Embora as IA habilitadas para visão possam ser mais adequadas para a percepção do mundo real, elas parecem menos capazes quando o raciocínio é abstraído do contexto e reduzido à lógica sozinha. Essas descobertas enfatizam uma divisão no arco de desenvolvimento da inteligência artificial. Os modelos verbais agora estão trabalhando em níveis cognitivos humanos, e às vezes acima deles. Mas dar às máquinas a capacidade de “ver” ainda não significa que elas entendem. Pelo menos não da maneira como a inteligência é tradicionalmente medida.