OpenAI treinou modelos de IA memorizando conteúdo protegido por direitos autorais, nova pesquisa comprova

  • Categoria do post:Notícias

Uma nova pesquisa fala sobre o OpenAI treinar alguns de seus modelos de IA memorizando material protegido por direitos autorais. O gigante da tecnologia detalha como está atualmente envolvido em diferentes ações judiciais movidas por autores e programadores, acusando o OpenAI de usar material sem consentimento para produzir novos modelos. A empresa vem lidando com tais alegações há muito tempo e ainda considera que não fez nada de errado. Na verdade, o gigante da tecnologia afirma que desenvolveu modelos por uso justo, mas os autores discordam do assunto. Eles argumentam que não há exceção na lei de direitos autorais dos Estados Unidos relacionada aos dados de treinamento. A pesquisa foi co-autorada por especialistas da Universidade de Washington, Stanford e até mesmo da Universidade de Copenhague. O novo método é usado para destacar os dados de treinamento que os modelos memorizam por trás das APIs. Eles são treinados com tantas informações que aprendem todos os tipos de padrões. Dessa forma, podem ajudar a gerar imagens, ensaios e muito mais. Muitos modelos de imagem atualmente foram vistos reproduzindo imagens de filmes que foram usados durante seu processo de treinamento. Enquanto isso, grandes modelos de linguagem copiaram relatórios de notícias. O método da pesquisa é baseado em palavras que os coautores se referem como de alta surpresa. São termos que se destacam como incomuns em relação a um corpo maior de trabalho. O radar pode estar ligado a uma alta surpresa, pois é menos proeminente do que termos como rádio ou motor que aparecem antes de zumbir. Os coautores mencionaram como investigaram diferentes modelos OpenAI, como GPT-4 e 3.5. Havia sinais de memorização, como a eliminação de termos comuns de recortes de livros de ficção e artigos do New York Times. Eles têm modelos para adivinhar quais termos foram ocultados. Segundo os resultados dos testes, o GPT-4 mostrou sinais de ter visto partes memorizadas de livros de ficção famosos, como livros dentro de um conjunto de dados com amostras de ebooks protegidos por direitos autorais, como o BookMIA. As respostas também comprovam como o modelo pode ter literalmente memorizado partes de artigos publicados pelo New York Times, mesmo que em uma taxa muito menor. Alguns autores do estudo afirmaram que essas descobertas provam que dados controversos podem ser usados para treinar modelos de IA. Portanto, para realmente avaliar se esses sistemas são confiáveis ou não, precisamos de modelos que possam ser investigados e verificados por meios científicos. O trabalho de hoje fornece uma ótima ferramenta para sondar os LLMs, mas há uma necessidade maior de transparência hoje do que antes. Por muito tempo, vimos o OpenAI defendendo menos restrições em novos modelos usando dados protegidos por direitos autorais. Embora a empresa tenha muitos acordos de licenciamento de conteúdo hoje, ela continua a pressionar governos em torno de vários mecanismos de treinamento de IA.