Grandes modelos de linguagem, frequentemente elogiados por imitar a fala humana, parecem depender mais de comparações baseadas em memória do que lógica gramatical, de acordo com uma pesquisa recente da Universidade de Oxford e do Instituto Allen para AI. Em vez de extrair regras simbólicas, esses sistemas de AI parecem tomar decisões linguísticas por meio de analogia, relacionando novas entradas a padrões de palavras conhecidas incorporadas nos dados de treinamento.
Os resultados revisados por pares, publicados nos Anais da Academia Nacional de Ciências, examinaram como modelos como GPT-J lidam com a morfologia derivacional, um domínio onde palavras em inglês mudam de classe por meio de afixos como “-ness” e “-ity”. Enquanto estudos anteriores focavam em estruturas de frases regulares, essa pesquisa testou modelos usando adjetivos inventados que não tinham presença anterior em nenhum dado de treinamento.
Os pesquisadores criaram 200 adjetivos inventados, como “friquish” e “cormasive”, e então pediram para GPT-J escolher formas de substantivos para cada um, anexando “-ness” ou “-ity”. Suas escolhas não foram aleatórias. Em vez disso, acompanharam como palavras semelhantes se comportam. Por exemplo, selecionando “friquishness” devido a paralelos com “selfish” e preferindo “cormasivity” onde exemplos existentes como “sensitivity” dominavam a memória do modelo.
Essas saídas foram comparadas diretamente com dois modelos cognitivos estabelecidos. Um que generaliza usando regras abstratas e outro que usa exemplos armazenados para raciocínio analógico. Para adjetivos com padrões consistentes, todos os sistemas se saíram de forma semelhante. Mas quando confrontado com formas irregulares – aquelas que variam entre “ness” ou “-ity” -, GPT-J se alinhou mais de perto com o modelo baseado em analogia, especialmente quando a frequência de token de palavras era considerada.
Em um teste mais aprofundado, o estudo expandiu o conjunto de dados para 48.995 adjetivos reais retirados de um corpus público. As previsões de formas de substantivos de GPT-J refletiram de perto os padrões de frequência encontrados neste conjunto de treinamento, alcançando quase 90% de precisão em combinar sufixos preferidos. Suas previsões não foram orientadas apenas pela classificação gramatical, mas se basearam fortemente em com que frequência formas de palavras específicas ocorreram durante o treinamento.
Mesmo para palavras com finais altamente regulares como “ish” ou “able”, onde se poderia esperar um comportamento baseado em regras, as saídas de GPT-J ainda mostraram sensibilidade à frequência com que formas relacionadas apareceram. Isso mina a teoria de que os modelos de linguagem aplicam modelos gramaticais codificados. Em vez disso, o modelo parecia agir como um mecanismo de busca, recuperando a variante que soa mais familiar da memória com base na semelhança superficial e na frequência de token.
Curiosamente, esse comportamento orientado pela memória contrasta com a abordagem dos falantes humanos em relação às palavras novas. Os seres humanos tendem a confiar em “tipos” – entradas abstratas em um dicionário mental – e não em contagens brutas de ocorrências. Quando os participantes humanos do estudo foram solicitados a escolher formas de substantivos para os mesmos adjetivos inventados, suas preferências foram melhor preditas por modelos cognitivos baseados em tipos do que pela lógica de frequência de token.
Essa divisão revela uma lacuna estrutural entre a intuição linguística humana e a geração de texto baseada em AI. Enquanto os modelos de linguagem produzem saídas que podem soar fluentes, eles constroem generalizações examinando enormes volumes de exemplos, em vez de abstrair conceitos ou formar regras gerais como as pessoas fazem. Sua grande dependência de quão frequentemente as palavras aparecem também sugere que memorizam muito mais do que realmente entendem.
Mesmo modelos maiores como GPT-4 mostraram menor alinhamento com escolhas humanas do que sistemas cognitivos baseados em analogia mais simples. Em testes envolvendo padrões de palavras menos previsíveis, GPT-4 se saiu pior do que GPT-J, mostrando maior tendência em direção a formas de alta frequência e menos flexibilidade na aplicação de analogia quando a variabilidade era alta.
Os pesquisadores rastrearam esse efeito ainda mais, analisando como a frequência de treinamento de cada adjetivo influenciava a confiança do modelo. GPT-J consistentemente se apoiava mais em formas de alta frequência, revelando uma falta de abstração – ao contrário de como os seres humanos podem generalizar com confiança mesmo a partir de exemplos escassos, desde que a estrutura ou o significado da palavra seja claro.
Esses resultados desafiam a crença de longa data de que os LLMs internalizam regras gramaticais generalizadas. Em vez disso, os resultados sugerem que os modelos, mesmo os avançados, operam principalmente por meio de associações memorizadas – conduzindo efetivamente uma busca massiva de semelhança em vez de qualquer computação simbólica.
O trabalho também levanta implicações além da linguística. Uma vez que os sistemas de AI frequentemente sustentam aplicações como assistentes de escrita, ferramentas educacionais e conversores, entender a base de suas decisões linguísticas torna-se essencial para garantir confiabilidade e transparência. Se a AI se baseia em traços de memória em vez de regras estruturadas, então a explicabilidade deve se adaptar de acordo.
Enquanto os pesquisadores se concentraram estreitamente na nominalização de adjetivos, seus métodos poderiam se estender para áreas mais amplas, incluindo variabilidade sintática e formação de compostos. O estudo reforça a necessidade de métodos de avaliação sólidos que explorem o como por trás das saídas de AI – não apenas o que.
Em resumo, à medida que os modelos de linguagem se tornam mais fluentes, sua semelhança com o raciocínio humano permanece parcial, no máximo. Eles podem soar articulados, mas abaixo da superfície há um mosaico de padrões memorizados, moldados pelo volume de dados – não pela abstração ou compreensão semelhante à humana.