Wikipedia Paga o Preço do Boom de IA: Empresa Lutando Com Custos Crescentes Devido a Bots Scraping Seus em seus Artigos

  • Categoria do post:Notícias

A popular enciclopédia online Wikipedia está supostamente pagando um preço alto pelo boom da inteligência artificial. A gigante da enciclopédia está enfrentando um aumento nos custos devido aos bots que raspam o conteúdo utilizado para treinar modelos de IA. Isso não é apenas uma restrição financeira, mas também está relacionado a uma sobrecarga na largura de banda da plataforma.

Na terça-feira, vimos a organização sem fins lucrativos que hospeda a Wikipedia emitir um aviso sobre pedidos automatizados para seu conteúdo que continuam crescendo exponencialmente. Isso causa uma enorme interrupção em todo o site e força a enciclopédia a adicionar maior capacidade e, da mesma forma, aumentar a cobrança pelos data centers.

A infraestrutura é criada para suportar o aumento no tráfego de humanos durante os eventos de grande destaque, mas os níveis de tráfego produzidos por bots raspadores são imprevisíveis e continuam se mostrando como um aumento nos custos e maior risco.

A Fundação compartilhou como a largura de banda para baixar conteúdo aumentou 50%. Mas o tráfego aqui não está vindo de humanos reais, e sim de programas automatizados. Estes continuam instalando imagens licenciadas para alimentar fotos em seus modelos de IA.

Outra questão séria tem a ver com bots que coletam grandes quantidades de dados de artigos menos famosos na Wikipedia. Ao olhar mais de perto, ficou demonstrado que cerca de 65% do tráfego chega através de bots. Isso é uma quantidade desigual quando olhamos para o total de visualizações de páginas via bots, que representa 35% da maioria.

Esses bots raspam sistemas sérios na infraestrutura de desenvolvimento, como plataformas de revisão de código, e isso novamente coloca uma grande pressão sobre os recursos da página. Como resposta, os administradores do site da enciclopédia online impõem taxas caso a caso que restringem os rastreadores de IA ou os proíbem completamente.

Para abordar ainda mais o problema, a Wikimedia Foundation diz que está implementando um plano de Uso Responsável dessa Infraestrutura que identifica a sobrecarga de rede vinda de raspadores de bots de IA que não são sustentáveis.

A Wikipedia espera obter mais feedback da comunidade sobre como lidar melhor com esse problema sério e identificar o tráfego proveniente desses raspadores de bots e como filtrá-los. Isso incluirá forçar os operadores de bots a escanear a autenticação para os raspadores de volume superior e o uso de API.

A Wikipedia sabe que é uma grande ameaça, já que seu material é gratuito, mas a infraestrutura não é. Eles precisam agir agora para recriar um equilíbrio mais saudável.

O Reddit enfrentou algo semelhante em 2023. A gigante do software Microsoft, por exemplo, não alertou o Reddit sobre a raspagem de conteúdo e o uso disso para recursos de IA. Então bloqueou a Microsoft de raspar suas próprias páginas, algo que o CEO do Reddit condenou abertamente.

O Reddit tomou a decisão de cobrar dos desenvolvedores de terceiros para obter acesso à sua API. Isso levou o desenvolvedor a se revoltar, experimentar blackouts repentinos no aplicativo, e até mesmo o encerramento para alguns dos principais clientes da empresa.