Estudo descobre que a repetição rápida melhora o desempenho do LLM não-raciocinante sem aumentar o comprimento de saída ou a latência

  • Categoria do post:Notícias

Uma pesquisa realizada por pesquisadores do Google Research relata que repetir um prompt de entrada melhora o desempenho de vários modelos de linguagem grandes quando eles não estão usando a razão, sem aumentar o número de tokens gerados ou a latência medida nos experimentos relatados. Os achados são apresentados em um preprint de dezembro de 2025 intitulado “A Repetição do Prompt Melhora os LLMs Não-Raciocinantes” por Yaniv Leviathan, Matan Kalman e Yossi Matias. O papel é lançado como um preprint e está disponível sob uma licença Creative Commons Attribution 4.0. Os autores definem a repetição do prompt como a transformação de uma entrada de “” para “”. De acordo com o papel, “quando não usando razão, a repetição do prompt de entrada melhora o desempenho dos modelos populares (Gemini, GPT, Claude e Deepseek) sem aumentar o número de tokens gerados ou a latência”. O documento afirma que os grandes modelos de linguagem “são frequentemente treinados como modelos de linguagem causais, ou seja, os tokens passados não podem atender aos tokens futuros.” Como resultado, os autores afirmam que “a ordem dos tokens em uma consulta do usuário pode afetar o desempenho da previsão”. O estudo relata que a repetição do prompt “permite que cada token do prompt atenda a cada outro token do prompt”, o que, segundo os autores, aborda essa limitação. Os experimentos avaliaram sete modelos: Gemini 2.0 Flash, Gemini 2.0 Flash Lite do Google, GPT-4o, GPT-4o-mini da OpenAI, Claude 3 Haiku, Claude 3.7 Sonnet da Anthropic e DeepSeek V3. Todos os testes foram conduzidos usando a interface de programação de aplicativos (API) oficial de cada provedor em fevereiro e março de 2025. Os modelos foram testados em sete benchmarks: ARC (Desafio), OpenBookQA, GSM8K, MMLU-Pro, MATH e dois benchmarks personalizados: NameIndex e MiddleMatch. Para benchmarks de múltipla escolha, o relatório apresenta resultados para pedidos de consulta em primeiro e opções-primeiro. Quando o raciocínio foi desativado, os autores relatam que “a repetição do prompt melhora a precisão de todos os LLMs testados e benchmarks”. Usando o teste de McNemar com um limiar de valor p de 0,1, o papel relata que “a repetição do prompt vence 47 de 70 combinações de modelo de benchmark, com 0 perdas”. Em termos simples, isso significa que em 70 testes diferentes, repetir o prompt fez o AI se sair melhor 47 vezes e nunca o fez se sair pior, mostrando que a repetição do prompt melhora a precisão e não produziu nenhum caso em que se saísse pior. O estudo também avalia a eficiência. Os autores relatam que “a repetição do prompt e suas variantes não aumentam o comprimento das saídas geradas ou as latências medidas”, com uma exceção destacada. Para os modelos Claude da Anthropic, o documento afirma que, para “solicitações muito longas”, a latência aumentou, o que os autores atribuem ao estágio de pré-preenchimento demorando mais. Quando o raciocínio foi habilitado pedindo aos modelos que pensem passo a passo, o papel relata que “a repetição do prompt é neutra a ligeiramente positiva”, com cinco vitórias, uma derrota e 22 resultados neutros nos casos avaliados. Os autores observam várias limitações. Eles afirmam que a repetição do prompt “pode afetar a latência para prompts longos e pode ser impossível para prompts muito longos”. Eles também alertam que as latências medidas “podem ser afetadas por” fatores como “atrasos de rede ou cargas transitórias.” e que os resultados “devem ser considerados com cautela”. O documento conclui afirmando que, “repetir os prompts melhora consistentemente o desempenho do modelo para uma variedade de modelos e benchmarks, quando não usando raciocínio”, enquanto observa que pesquisas adicionais são necessárias para explorar variações e investigar “quando a repetição é útil”.