Sites de notícias estão bloqueando o Internet Archive para impedir a rastreamento do AI. O ‘web aberto’ está se fechando?

  • Categoria do post:Notícias

Quando a World Wide Web entrou no ar no início da década de 1990, seus fundadores esperavam que fosse um espaço para que qualquer pessoa pudesse compartilhar informações e colaborar. No entanto, hoje, a web livre e aberta está encolhendo.

O Arquivo da Internet tem registrado a história da internet e disponibiliza ao público por meio de sua Máquina do Tempo desde 1996. Agora, alguns dos maiores veículos de notícias do mundo estão bloqueando o acesso do arquivo às suas páginas.

Grandes editoras – incluindo The Guardian, The New York Times, Financial Times e USA Today – confirmaram que estão encerrando o acesso do Arquivo da Internet a seu conteúdo.

Enquanto as editoras afirmam apoiar a missão de preservação do arquivo, elas argumentam que o acesso irrestrito cria consequências não intencionais, expondo o jornalismo a rastreadores de IA e membros do público que tentam burlar seus paywalls.

No entanto, as editoras não querem apenas excluir os rastreadores de IA. Ao contrário, elas querem vender seu conteúdo para empresas de tecnologia ávidas por dados. Seus catálogos de notícias, livros e outras mídias se tornaram uma mercadoria valiosa como dados para treinar sistemas de IA.

Sistemas de IA generativos como ChatGPT, Copilot e Gemini exigem acesso a grandes arquivos de conteúdo para treinamento e para responder a prompts do usuário.

As editoras afirmam que as empresas de tecnologia acessaram grande parte desse conteúdo gratuitamente e sem o consentimento dos proprietários dos direitos autorais.

Como resposta, algumas empresas de tecnologia fecharam acordos para pagar pelo acesso ao conteúdo de editoras. O contrato da NewsCorp com OpenAI está avaliado em mais de US$ 250 milhões ao longo de cinco anos.

Tratados semelhantes foram fechados entre editoras acadêmicas e empresas de tecnologia. Agora, Taylor & Francis assinou um acordo de US$ 10 milhões com a Microsoft concedendo à empresa acesso a mais de 3.000 jornais.

Além disso, as editoras estão utilizando tecnologia para impedir que bots indesejados de IA acessem seu conteúdo, incluindo os rastreadores usados pelo Arquivo da Internet para registrar a história da internet.

A Máquina do Tempo tem servido como um registro público da web por mais de três décadas, sendo usada por pesquisadores, educadores, jornalistas e historiadores amadores da internet. Bloquear o acesso aos principais jornais internacionais deixará lacunas significativas no registro público da internet.

Hoje, você pode usar a Máquina do Tempo para ver a primeira página do The New York Times de junho de 1997: a primeira vez que o Arquivo da Internet rastreou o site do jornal. Daqui a mais 30 anos, os pesquisadores de internet e membros curiosos do público não terão acesso à primeira página de hoje, mesmo que o Arquivo da Internet ainda exista.

Os sites de hoje se tornam os registros históricos de amanhã. Sem os esforços de organizações sem fins lucrativos como o Arquivo da Internet, corremos o risco de perder registros vitais.

Apesar das ações de editoras comerciais e dos desafios emergentes da IA, organizações sem fins lucrativos como o Arquivo da Internet e a Wikipedia visam manter o sonho de uma internet aberta, colaborativa e transparente vivo.