Uma equipe do MIT descobriu a mecânica interna por trás de uma falha persistente em grandes modelos de linguagem, que é a tendência de ignorar informações enterradas no meio dos documentos. As descobertas, fundamentadas em um rigoroso quadro teórico e apoiadas por extensos experimentos, explicam por que esses sistemas frequentemente favorecem o texto que aparece no início ou no final.
Os pesquisadores rastrearam a raiz desse problema, chamado de “viés de posição”, às escolhas de design arquitetônico e a forma como esses modelos são treinados para processar sequências. O cerne da análise é como o mecanismo de atenção, um componente central de modelos como GPT-4 ou LLaMA, lida com o fluxo de informações em várias camadas.
Usando a teoria dos grafos, a equipe demonstrou que os padrões de atenção não são distribuídos uniformemente. Em vez disso, certos tokens se tornam dominantes simplesmente por causa de sua posição. Quando o modelo lê da esquerda para a direita, tokens mais antigos frequentemente acumulam mais influência à medida que as camadas se aprofundam, mesmo quando seu conteúdo é menos relevante. Esse efeito se intensifica à medida que mais camadas são adicionadas, criando uma cascata em que tokens iniciais moldam desproporcionalmente as decisões do modelo.
O estudo mostra que, mesmo sem adicionar nenhum rastreamento formal de posição, a estrutura do próprio modelo introduz uma preferência pelo início da sequência. Em experimentos com tarefas de recuperação sintéticas, o desempenho dos modelos caiu quando informações-chave foram colocadas no meio da entrada. A curva de recuperação seguiu uma forma de U, forte no início, mais fraca no centro e melhorando ligeiramente no final.
Esse comportamento não foi incidental. Testes controlados confirmaram que o viés de posição emergia mesmo quando os dados de treinamento não tinham essas inclinações. Em configurações em que os dados favoreciam certas posições, os modelos amplificavam esses viés. Quando os modelos eram treinados em sequências inclinadas para o início e o fim, eles refletiam esse padrão, apresentando um desempenho muito inferior no centro.
O artigo também explorou como esquemas de codificação posicional, ferramentas projetadas para ajudar o modelo a rastrear onde uma palavra aparece, podem contrabalançar parcialmente esse efeito. Técnicas como máscaras de decaimento e codificações rotativas introduzem uma influência em desvanecimento com base na distância, incentivando o modelo a se concentrar de maneira mais uniforme ao longo da sequência. No entanto, esses métodos por si só não eliminam o viés, especialmente em redes mais profundas, onde camadas anteriores já inclinam a atenção para frente.
Em termos práticos, isso significa que os usuários que dependem de modelos de IA para tarefas como pesquisa jurídica, assistência à codificação ou revisão de registros médicos podem encontrar pontos cegos sem saber. Se o conteúdo-chave aparecer no meio do documento, o modelo pode ignorá-lo ou julgá-lo erroneamente, mesmo que todo o resto do sistema funcione conforme o esperado.
As implicações vão além do diagnóstico. Ao mostrar que o viés de posição é tanto um fenômeno arquitetônico quanto baseado em dados, os pesquisadores oferecem caminhos para mitigá-lo. Ajustes em máscaras de atenção, menos camadas e uso mais inteligente de codificações posicionais podem ajudar a reequilibrar o foco. O estudo também sugere que ajustar os modelos em dados mais uniformemente distribuídos pode ser essencial em domínios de alto risco onde a omissão acarreta riscos.
A pesquisa não apenas mapeia o viés, mas explica sua evolução. À medida que os tokens passam pelo modelo, suas representações contextuais são repetidamente reformuladas. Aqueles que aparecem mais cedo começam a dominar, não porque contêm melhores informações, mas porque se tornam mais profundamente incorporados no raciocínio do modelo. Nesse sentido, o viés está embutido na lógica do sistema.
Em vez de tratar isso como um bug, a equipe vê como uma oportunidade de melhoria. Seu quadro não apenas diagnostica; ele fornece ferramentas para remodelar como os modelos percebem a posição. Ao entender melhor esses viés internos, os desenvolvedores podem construir sistemas que raciocinam de maneira mais justa e consistente em todo o comprimento da entrada, no início, no meio e no final.