Vimos pela primeira vez os criadores do ChatGPT compartilharem o último Modelo de IA de Raciocínio o3 em dezembro. Desde então, a organização escolheu se associar aos criadores do ARC-AGI para exibir as ofertas do o3. Agora, meses depois, é seguro dizer que os resultados foram revisados e são um pouco menos impressionantes do que o esperado. No passado, os administradores do ARC-AGI compartilharam os custos aproximados de computação para o modelo o3. A empresa tinha estimado originalmente que a configuração com melhor desempenho custaria quase U$3000. Isso é apenas para resolver um problema do ARC-AGI. Agora, o custo é realmente calculado em quase U$30 mil para cada tarefa. A última revisão é notável, pois ilustra o quão caros são os modelos de IA mais sofisticados de hoje para tarefas simples. Enquanto a OpenAI ainda não está precificando o produto ou lançando-o, os especialistas consideram que a precificação é um proxy bastante razoável. O o1-pro é definitivamente o modelo mais caro da empresa no momento. É bastante semelhante ao preço real do o3, graças à grande quantidade de tempo de teste para computação utilizada. Ainda assim, é apenas um proxy por enquanto, e eles rotularam o o3 como prévia nos quadros de líderes para mostrar a incerteza associada à precificação atual. Há um custo alto para o o3 high que não seria descabido. Lembre-se, ele está usando uma alta quantidade de recursos de computação. Estamos falando de 172 vezes mais computação do que o o3 mais baixo, que é a configuração mais baixa para lidar com o ARC-AGI. Além disso, existem muitas especulações em torno dos planos de preços da OpenAI para a implantação de clientes corporativos. No início de março, vimos o The Information compartilhar que a empresa planeja cobrar quase U$20 mil por mês para agentes de IA especiais como desenvolvedores de software. As pessoas podem discordar da estratégia usada pelos modelos mais caros da OpenAI, custando menos do que os empreiteiros comuns cobrariam. Mas, como um pesquisador de IA compartilhou em um post, esses modelos não são muito eficientes. Por exemplo, o o3 exige até 1024 tentativas para cada tarefa em toda a faixa do ARC-AGI para obter a melhor pontuação. Ainda assim, tudo vai depender da precificação, mas ver isso ficar aquém das expectativas das pessoas em relação às suas capacidades e custos pode afetar sua popularidade.