Crítica de IA da Apple enfrenta resistência devido a métodos de teste falhos

  • Categoria do post:Notícias

Um estudo recente da Apple levantou questões na comunidade de Inteligência Artificial após sugerir que os modelos de linguagem mais avançados de hoje falham dramaticamente quando confrontados com tarefas de raciocínio complexas. Essa conclusão está sendo desafiada, não porque as tarefas eram muito difíceis, mas porque, segundo os críticos, os experimentos não foram justamente projetados desde o início.

Alex Lawsen, um pesquisador da Open Philanthropy, respondeu com um estudo contrário questionando as bases das alegações da Apple. Sua avaliação, publicada esta semana, argumenta que os modelos sob escrutínio (incluindo Claude, Gemini e os sistemas mais recentes da OpenAI) não estavam falhando devido a limites cognitivos. Em vez disso, ele afirma que eles foram prejudicados por métodos de avaliação que não levaram em consideração restrições técnicas chave.

Um dos principais pontos de discussão no debate é a Torre de Hanói, um quebra-cabeça conhecido frequentemente usado para testar o raciocínio lógico. O artigo da Apple relatou que os modelos falhavam consistentemente quando o quebra-cabeça se tornava mais complexo – tipicamente com oito discos ou mais. Mas Lawsen destaca um problema crítico: os modelos não estavam falhando em resolver o quebra-cabeça. Muitas vezes eles estavam simplesmente parando antes de escrever a resposta completa porque estavam chegando ao limite máximo de tokens – um limite embutido de quanto texto podem produzir de uma vez.

Em vários casos, os modelos até afirmaram que estavam se cortando para conservar espaço de saída. Em vez de interpretar isso como uma limitação prática, a avaliação da Apple contou como uma falha de raciocínio.

Um segundo problema surgiu no chamado teste de travessia de rio, onde os modelos são solicitados a resolver uma versão do quebra-cabeça Missionários e Canibais. A Apple incluiu configurações matematicamente insolúveis, por exemplo, pedindo ao modelo para transportar seis ou mais agentes usando um barco que só podia carregar três de cada vez. Quando os modelos reconheciam que a tarefa não podia ser concluída com base nas regras dadas e se recusavam a tentar, ainda eram marcados como errados.

Um terceiro problema envolveu como o sistema da Apple julgou as respostas. Ele dependia de scripts automáticos para avaliar saídas estritamente contra soluções completas e exaustivas. Se um modelo produzisse uma resposta correta, mas parcial (ou tomasse um atalho estratégico), ainda receberia uma nota baixa. Não foi dado crédito por reconhecer padrões, aplicar lógica recursiva ou até identificar as limitações da tarefa.

Para ilustrar como essas questões podem distorcer os resultados, Lawsen realizou uma variação do teste de Hanói com um prompt diferente. Em vez de pedir aos modelos para listar cada movimento, ele os instruiu a escrever um pequeno programa (neste caso, uma função Lua) capaz de resolver o quebra-cabeça quando executado. Liberados do fardo de listar centenas de etapas, os modelos forneceram soluções precisas e escaláveis, mesmo com 15 discos – muito além do ponto em que o artigo da Apple afirmava que falhavam completamente.

As implicações vão além de críticas acadêmicas. As conclusões da Apple já foram citadas por outros como evidência de que os modelos de IA grandes não possuem o tipo de raciocínio necessário para tarefas mais ambiciosas. Mas se a análise de Lawsen se mantiver, sugere que a história é mais complicada. Os modelos podem ter dificuldade em fornecer respostas longas dentro de limites de saída apertados, mas sua capacidade de pensar em um problema algoritmicamente permanece intacta.

Claro, nada disso significa que os grandes modelos de raciocínio estejam isentos de problemas. Mesmo Lawsen reconhece que projetar sistemas que possam generalizar de forma confiável em problemas não familiares continua sendo um desafio de longo prazo. Seu artigo pede por experimentação mais cuidadosa, ou seja, os testes devem verificar se os quebra-cabeças são realmente solucionáveis, rastrear quando os modelos estão sendo truncados devido aos orçamentos de tokens e considerar soluções em vários formatos, desde texto simples até código estruturado.

O debate se resume a uma questão mais profunda: estamos realmente medindo quão bem as máquinas pensam, ou apenas quão bem elas podem digitar dentro de um limite de caracteres fixo?