Remover apenas uma pequena fração dos dados coletados de forma colaborativa que informa as plataformas de classificação online pode mudar significativamente os resultados.
Uma empresa que deseja utilizar um grande modelo de linguagem (LLM) para resumir relatórios de vendas ou priorizar consultas de clientes pode escolher entre centenas de LLMs exclusivos com dezenas de variações de modelo, cada um com desempenho ligeiramente diferente.
Para reduzir a escolha, as empresas muitas vezes dependem de plataformas de classificação de LLMs, que reúnem o feedback do usuário sobre as interações do modelo para classificar os LLMs mais recentes com base em seu desempenho em determinadas tarefas.
Mas pesquisadores do MIT descobriram que um punhado de interações de usuário podem distorcer os resultados, levando alguém a acreditar erroneamente que um LLM é a escolha ideal para um caso de uso específico. Seu estudo revela que remover uma pequena fração dos dados coletados pode alterar quais modelos estão no topo do ranking.
Eles desenvolveram um método rápido para testar plataformas de classificação e determinar se são suscetíveis a esse problema. A técnica de avaliação identifica os votos individuais mais responsáveis por distorcer os resultados para que os usuários possam inspecionar esses votos influentes.
Os pesquisadores afirmam que esse trabalho destaca a necessidade de estratégias mais rigorosas para avaliar as classificações de modelos. Embora não tenham se concentrado em mitigação neste estudo, eles oferecem sugestões que podem melhorar a robustez dessas plataformas, como reunir feedback mais detalhado para criar os rankings.
O estudo também oferece um aviso aos usuários que podem confiar nas classificações ao tomar decisões sobre LLMs que podem ter impactos abrangentes e caros em um negócio ou organização.
“Ficamos surpresos ao ver que essas plataformas de classificação eram tão sensíveis a esse problema. Se o LLM mais bem classificado depender apenas de dois ou três feedbacks de usuário entre dezenas de milhares, não se pode presumir que o LLM mais bem classificado vai superar consistentemente todos os outros LLMs quando for implantado”, diz Tamara Broderick, professora associada do Departamento de Engenharia Elétrica e Ciência da Computação do MIT; membro do Laboratório de Sistemas de Informação e Decisão (LIDS) e do Instituto de Dados, Sistemas e Sociedade; afiliado ao Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL); e autora sênior deste estudo.
Ela é acompanhada no artigo pelos autores principais e estudantes de pós-graduação do EECS Jenny Huang e Yunyi Shen, bem como por Dennis Wei, cientista de pesquisa sênior da IBM Research. O estudo será apresentado na Conferência Internacional de Representações de Aprendizado.
Eliminar dados
Embora existam muitos tipos de plataformas de classificação de LLMs, as variações mais populares pedem aos usuários que enviem uma consulta para dois modelos e escolham qual LLM fornece a melhor resposta.
As plataformas agregam os resultados desses confrontos para produzir classificações que mostram qual LLM teve o melhor desempenho em determinadas tarefas, como codificação ou compreensão visual.
Ao escolher um LLM com melhor desempenho, o usuário provavelmente espera que a principal classificação desse modelo generalize, ou seja, deve ter melhor desempenho do que outros modelos em sua aplicação, embora não idêntica, com um conjunto de novos dados.
Os pesquisadores do MIT previamente estudaram a generalização em áreas como estatística e economia. Esse trabalho revelou casos específicos em que a eliminação de uma pequena porcentagem de dados pode alterar os resultados de um modelo, indicando que as conclusões desses estudos podem não se aplicar além de seu ambiente específico.
Os pesquisadores queriam ver se a mesma análise poderia ser aplicada às plataformas de classificação de LLMs.
“No final do dia, um usuário quer saber se está escolhendo o melhor LLM. Se apenas algumas sugestões estão impulsionando essa classificação, isso sugere que a classificação pode não ser a solução definitiva”, diz Broderick.
No entanto, seria impossível testar manualmente o fenômeno da eliminação de dados. Por exemplo, uma classificação avaliada tinha mais de 57.000 votos. Testar a eliminação de 0,1% dos dados significa remover cada subconjunto de 57 votos dos 57.000 (há mais de 10194 subconjuntos) e recalcular a classificação.
Em vez disso, os pesquisadores desenvolveram um método de aproximação eficiente, baseado em seus trabalhos anteriores, e o adaptaram para se encaixar nos sistemas de classificação de LLMs.
“Embora tenhamos teoria para provar que a aproximação funciona sob certas premissas, o usuário não precisa confiar nisso. Nosso método informa ao usuário os pontos de dados problemáticos no final, para que eles possam simplesmente excluir esses pontos de dados, reexecutar a análise e verificar se há mudanças nas classificações”, diz ela.
Surpreendentemente sensível
Quando os pesquisadores aplicaram sua técnica a plataformas de classificação populares, ficaram surpresos ao ver quantos pontos de dados precisavam ser excluídos para causar mudanças significativas nos principais LLMs. Em um caso, remover apenas dois votos de mais de 57.000, o que equivale a 0,0035%, mudou o modelo que está no topo do ranking.
Uma plataforma de classificação diferente, que usa anotadores especialistas e sugestões de alta qualidade, foi mais robusta. Aqui, remover 83 de 2.575 avaliações (cerca de 3%) mudou os principais modelos.
Sua análise revelou que muitos votos influentes podem ter sido resultado de erro do usuário. Em alguns casos, parecia haver uma resposta clara sobre qual LLM teve melhor desempenho, mas o usuário escolheu o outro modelo, diz Broderick.
“Nunca saberemos o que estava na mente do usuário naquele momento, mas talvez eles tenham clicado errado ou não prestaram atenção, ou sinceramente não sabiam qual era o melhor. A grande lição aqui é que você não quer que ruído, erro do usuário ou algum ponto fora da curva determine qual é o LLM mais bem classificado”, acrescenta.
Os pesquisadores sugerem que a obtenção de feedback adicional dos usuários, como níveis de confiança em cada voto, forneceria informações mais ricas que poderiam ajudar a mitigar esse problema. As plataformas de classificação também poderiam usar mediadores humanos para avaliar as respostas coletadas de forma colaborativa.
Por sua parte, eles querem continuar explorando a generalização em outros contextos, ao mesmo tempo em que desenvolvem métodos de aproximação melhores que possam capturar mais exemplos de não robustez.
“O trabalho de Broderick e seus alunos mostra como você pode obter estimativas válidas da influência de dados específicos em processos subsequentes, apesar da intratabilidade de cálculos exaustivos dada a dimensão dos modelos de aprendizado de máquina modernos e dos conjuntos de dados”, diz Jessica Hullman, professora de Ciência da Computação na Northwestern University, que não esteve envolvida nesse trabalho. “O trabalho recente oferece um vislumbre das fortes dependências de dados em métodos rotineiramente aplicados — mas também muito frágeis — para agregar preferências humanas e usá-las para atualizar um modelo. Ver como poucas preferências podem realmente mudar o comportamento de um modelo ajustado com precisão poderia inspirar métodos mais ponderados para coletar esses dados”.
Esta pesquisa é financiada, em parte, pelo Escritório de Pesquisas Navais, pelo Laboratório de IA Watson IBM do MIT, pela National Science Foundation, pela Amazon e por uma bolsa de pesquisa do CSAIL.
Artigo: “Eliminar apenas algumas preferências pode mudar as classificações dos principais modelos de linguagem”. Reimpresso com permissão do MIT News.
Leia também:
– Por que as comparações entre inteligência artificial e inteligência humana perdem o ponto.
– Google Expande a Ferramenta ‘Resultados Sobre Você’ para Incluir o Monitoramento de Identidade Governamental.