Preocupações aumentam com a grande discrepância nos resultados de benchmark de o3 AI da OpenAI entre resultados de primeira e terceira parte

  • Categoria do post:Notícias

Muitas pessoas estão levantando questionamentos sobre o modelo de inteligência artificial o3 da OpenAI, que apresentou sérias discrepâncias em seus resultados de benchmark entre partes externas e internas. O modelo foi lançado pela primeira vez em dezembro do ano passado e, desde então, a gigante da IA compartilhou como poderia gerar respostas para um pouco mais de um quarto das perguntas sobre FrontierMath. Isso incluiu uma série desafiadora de somas matemáticas. A pontuação superou em muito a concorrência e a próxima melhor variante só poderia responder corretamente a 2% dos problemas no FrontierMath.

Hoje, a maioria das ofertas fica aquém do que a empresa havia previsto inicialmente, e a gigante da IA sabe disso. Eles agora estão tentando trabalhar em configurações de computação mais agressivas no tempo de teste para que suas pontuações possam ultrapassar os 25%. A figura provavelmente foi um limite superior. Isso significa que foi alcançado pelo o3 com maior capacidade de processamento do que o modelo OpenAI lançado na semana passada.

De acordo com a Epoch AI, que é a organização por trás do FrontierMath, os resultados desses testes independentes para o o3 foram de apenas 10%. E isso está bem abaixo da pontuação reivindicada pela OpenAI. A empresa lançou o o3 como o modelo mais antecipado para dados para raciocínio, além do o4-mini, então esses são resultados definitivamente chocantes.

Isso significa que os criadores do ChatGPT mentiram descaradamente? A resposta é não, uma vez que os resultados de benchmark que a empresa publicou em dezembro exibem uma pontuação mínima que corresponde à pontuação divulgada pela Epoch. Também mencionou como a configuração de teste difere da OpenAI e como usou novos lançamentos do FrontierMath para qualquer teste.

A principal diferença entre os resultados é como podem ser avaliados usando poderosos recursos. Talvez a Epoch AI tenha executado em diferentes subconjuntos do Frontier Math.

Enquanto isso, outra postagem publicada no X falou sobre como havia uma variante pré-lançamento do o3 que é diferente do produto real em uso. Então, novamente, isso poderia ter dado origem a algumas discrepâncias.

Até agora, todos os níveis de computação liberados do o3 são muito menores em escala do que as variantes avaliadas. Lembre-se, espera-se que níveis de computação maiores obtenham pontuações de benchmark mais altas. Retestar o o3 levaria um dia ou mais, pois o lançamento de hoje é bastante diferente. Por isso, eles estão agora renomeando os resultados relatados anteriormente como uma mera prévia.

Lembre-se, o o3 está atualmente em produção e mais otimizado para uso no mundo real. Isso poderia novamente dar origem a disparidades. A empresa compartilhou como conclui otimizações para garantir que o modelo seja acessível e útil como um todo. No entanto, eles esperam que este modelo seja melhor que os demais e os usuários não precisem passar por longos tempos de espera em comparação com modelos anteriores.

Dado o fato de que o lançamento público do o3 está muito aquém das promessas de teste feitas pela OpenAI, os especialistas afirmam que os benchmarks de IA não podem ser considerados pelo valor de face. Isso é muito verdadeiro quando a fonte real é uma empresa-mãe com muitos serviços oferecidos. Além disso, tais controvérsias relacionadas ao benchmark estão se tornando mais comuns com o tempo. Os fornecedores estão correndo para fazer manchetes e compartilhar os mais novos modelos com as melhores capacidades.