A estreia do ChatGPT no final de 2022 trouxe uma revolução de IA para o destaque, mas seus mecanismos internos e implicações têm permanecido opacos para muitos usuários. Abaixo do hype estão fatos menos conhecidos sobre como o ChatGPT foi construído e é mantido – desde os dados que aprendeu até as pessoas que o tornaram seguro. Aqui estão 11 realidades dos bastidores sobre o ChatGPT, cada uma respaldada por fontes documentadas.
O treinamento do ChatGPT em Material com Direitos Autorais
O ChatGPT foi treinado em enormes quantidades de texto capturado da internet – incluindo livros e artigos com direitos autorais. De fato, uma ação judicial dos escritores Paul Tremblay e Mona Awad alega que o ChatGPT “minerou dados copiados de milhares de livros sem permissão”, alegando que suas obras foram usadas para treinar o modelo. Os autores estimaram que o corpus de treinamento da OpenAI continha mais de 300.000 livros, incluindo de “bibliotecas sombra” de texto pirateado. O New York Times também processou a OpenAI, afirmando que seus artigos eram “uma das maiores fontes de texto com direitos autorais” nos dados de treinamento do ChatGPT. Da mesma forma, empresas de mídia canadenses acusaram em 2024 a OpenAI de “raspar grandes trechos de conteúdo” de veículos de notícias sem permissão ou compensação. Em resumo, o conhecimento do ChatGPT vem de raspagens maciças da web, e escritores e editores levantaram múltiplas reivindicações de direitos autorais sobre esses dados.
Uso de Dados de Treinamento Memorizados
Especialistas em IA descobriram que o ChatGPT às vezes pode “vazar” partes de seus dados de treinamento de forma verbatim. Ao solicitar repetidamente ao modelo (por exemplo, pedindo para repetir uma palavra milhares de vezes), os pesquisadores descobriram que o ChatGPT pode sair do script e produzir trechos de conteúdo memorizado. Em um estudo, pesquisadores de segurança fizeram com que o ChatGPT continuasse a repetir “livro” e, após milhares de repetições, ele começou a gerar uma assinatura de e-mail e informações de contato que parecem ter sido memorizadas de seus dados de treinamento. Da mesma forma, ao solicitar “poema”, o ChatGPT gerou partes de um poema com direitos autorais e até informações de usuário privadas. Em um teste pago, os pesquisadores extrairam mais de 10.000 exemplos de dados de treinamento memorizados (incluindo código de computador, trechos de livros e dados pessoais) gastando cerca de $200 em consultas. Esses resultados destacam os riscos de privacidade e direitos autorais: embora o ChatGPT geralmente gere textos originais, prompts inteligentes podem fazer com que ele regurgite frases exatas ou dados que viu durante o treinamento.
O Mistério da Arquitetura do GPT-4
Quando a OpenAI apresentou o GPT-4 (o modelo por trás das versões mais recentes do ChatGPT) em março de 2023, divulgou apenas um relatório de capacidade de alto nível – e não o design detalhado. O relatório técnico do GPT-4 declarou explicitamente que não continha “mais detalhes sobre a arquitetura (incluindo tamanho do modelo), hardware, computação de treinamento, construção do conjunto de dados, método de treinamento ou similar”. Em outras palavras, a OpenAI não divulgou quantos parâmetros o GPT-4 possui, como foi treinado ou em qual hardware – citando razões de competitividade e segurança. Essa falta de transparência gerou críticas. A FastCompany observou que o documento de 98 páginas era “rico em afirmações” (como as altas pontuações de teste do GPT-4), mas carente de detalhes concretos de engenharia, chamando a falta de transparência de “saída fácil” que frustra os pesquisadores. (O CEO da OpenAI, Sam Altman, comentou posteriormente que o GPT-4 custou cerca de US $100 milhões para treinar, mas também deu poucos detalhes.) Em suma, o design interno do GPT-4 permanece em grande parte um mistério fora da OpenAI.
Profunda Envolvimento da Microsoft: Licenciamento e Controle em Nuvem
Desde 2019, a Microsoft tem sido o principal pilar financeiro e de infraestrutura da OpenAI. Em 2020, a Microsoft anunciou um investimento de US $1 bilhão e se tornou o provedor exclusivo de nuvem da OpenAI, e por causa disso todo o treinamento da OpenAI e a hospedagem do ChatGPT são executados nos centros de dados da Microsoft Azure. A Microsoft também obteve uma licença exclusiva para usar os modelos da OpenAI. Por exemplo, conforme relata o The Verge, a Microsoft adquiriu uma “licença exclusiva para o GPT-3” ao lado de seu investimento, e notícias posteriores indicam que a Microsoft investiu bilhões a mais por uma licença exclusiva para GPT-4 e modelos futuros. Isso significa que a tecnologia do ChatGPT alimenta não apenas o site da OpenAI, mas também produtos da Microsoft (como o Bing Chat e o assistente de codificação GitHub Copilot). No início de 2025, esse relacionamento íntimo recebeu um ajuste: um esforço conjunto de infraestrutura de IA (“Projeto Stargate”) abriu o campo para outros parceiros, terminando com o status de única provedora de nuvem da Microsoft. No entanto, a Microsoft ainda detém um “direito de primeira recusa” para computação de IA adicional até 2030, garantindo que ela permaneça central para a computação da OpenAI.
Raspagem de sites para Acordos de Licenciamento (Reddit, Stack Overflow)
Os modelos da OpenAI foram inicialmente treinados em dados da web não licenciados – por exemplo, uma auditoria de 2023 encontrou conteúdo do Reddit nos conjuntos de treinamento do GPT. No início de 2024, a OpenAI começou a formalizar relacionamentos com grandes fontes de dados. Em maio de 2024, o Stack Overflow anunciou uma colaboração: a OpenAI usará a API e o conteúdo de Perguntas e Respostas curadas do Stack Overflow para melhorar seus modelos relacionados à codificação. O Stack Overflow será creditado sempre que suas respostas aparecerem nas respostas do ChatGPT. Ao mesmo tempo, o Reddit se associou à OpenAI para alimentar seu conteúdo no chatbot via a API do Reddit. Anteriormente, os dados do Reddit eram principalmente raspados sem permissão explícita. Esses acordos de licenciamento significam que a OpenAI agora está pagando ou dando crédito a sites de onde costumava apenas minerar. As ações refletem uma mudança do saqueamento de dados raspados para o acesso contratual a fontes populares.
Pegada Ambiental: Uso de Energia e Água
Treinar e executar o ChatGPT consome enormes recursos computacionais – e, portanto, muita eletricidade e até água para resfriamento. Os modelos de IA generativa são treinados em grandes clusters de GPU: o MIT relata que um único cluster de treinamento de IA pode usar “sete ou oito vezes mais energia do que uma carga de trabalho computacional típica”. Na América do Norte, a demanda de energia dos data centers aumentou aproximadamente para ~5.300 MW até o final de 2023, impulsionada principalmente pelas necessidades de IA. Globalmente, os data centers em 2022 consumiram cerca de 460 TWh de eletricidade – mais do que a nação da Arábia Saudita. Esse número poderia chegar a mais de 1.000 TWh até 2026 (tanto quanto o uso de eletricidade do Japão) se o crescimento atual da IA continuar. O resfriamento desses centros também usa água: a Yale Environment360 observa que a IA generativa “usa quantidades massivas de energia e milhões de galões de água” no resfriamento de data centers. Uma estimativa (de pesquisadores do MIT) descobriu que uma sessão média do ChatGPT (10-50 perguntas) requer cerca de 0,5 litros de água para resfriamento. Esses números destacam os custos ambientais muitas vezes negligenciados de serviços de IA.
Alucinações: Desinformação Legal e Médica
O ChatGPT é propenso a “alucinações” – informações falsas afirmadas com confiança. Isso levou a problemas do mundo real em domínios de alto risco. Na área jurídica, houve numerosos casos de advogados apresentando documentos judiciais com citações de casos fictícias geradas pelo ChatGPT. A Reuters relata pelo menos sete casos nos EUA em que advogados incluíram decisões legais fictícias do chatbot; em um exemplo (litígio do Walmart), o advogado admitiu que o ChatGPT “alucinou” a jurisprudência. A tendência está crescendo: um consultor jurídico encontrou 120 casos em todo o mundo (em meados de 2025) onde juízes descobriram citações falsas ou casos gerados por IA, cada vez mais arquivados por advogados contra litigantes autônomos. Na medicina, os erros do ChatGPT também podem ser perigosos. Um estudo de 2024 na Live Science descobriu que o GPT-3.5 (motor do ChatGPT no lançamento) acertava os diagnósticos menos da metade do tempo (49%) em um conjunto de casos médicos. Outras pesquisas mostram que o ChatGPT rotineiramente fabrica citações ou conselhos em contextos clínicos. Por exemplo, a Nature relata que quase metade das 115 referências médicas geradas pelo ChatGPT são totalmente inventadas (e 46% eram citações reais usadas incorretamente). Em resumo, os especialistas advertem que o ChatGPT não deve ser confiável para aconselhamento jurídico ou médico sem supervisão humana, pois pode facilmente inventar falsidades plausíveis.
Viés em Inglês: Desempenho Desigual em Outros Idiomas
Assim como muitos modelos de IA, o ChatGPT funciona melhor em inglês. O modelo foi treinado principalmente em dados em inglês, então ele “se sai incrivelmente bem em inglês” mas muitas vezes mal em idiomas de recursos menores. Por exemplo, usuários testando a capacidade do ChatGPT em tigrínia ou outros idiomas menos comuns descobriram que ele frequentemente produzia resultados sem sentido ou simplesmente copiava bobagens de volta. A OpenAI afirma que o GPT-4 melhorou a capacidade multilíngue e superou o GPT-3.5 em um benchmark de 26 idiomas, mas fora dos idiomas de alto recurso como o inglês, as respostas do chatbot podem ser pouco confiáveis. Como explicou um especialista, “Se você não está usando o inglês, é provável que você tenha uma experiência pior”. Esse desempenho centrado em inglês reflete viés nos dados: muito mais conteúdo em inglês estava disponível para treinamento, então outros idiomas ficaram para trás. Os críticos dizem que isso significa que o ChatGPT deixará os falantes de não inglês em desvantagem a menos que novos esforços de treinamento sejam feitos para apoiar esses idiomas.
Prompts dos Usuários Usados para Treinamento Futuro
Suas conversas com o ChatGPT podem ajudar a treinar modelos de IA futuros – a menos que você opte por sair. Inicialmente, a OpenAI coletava bate-papos do usuário para refinar o ChatGPT; essa prática levantou preocupações com a privacidade. Em abril de 2023, a OpenAI introduziu uma configuração controlada pelo usuário para que as pessoas possam desativar o uso de suas conversas do ChatGPT para o treinamento do modelo. A empresa fornece um interruptor (“Controles de Dados”) que permite a cada usuário desligar “Melhorar o modelo para todos”, o que significa que suas conversas não serão salvas para treinar novos modelos. (Mesmo que ativado, a OpenAI diz que as conversas são mantidas por apenas 30 dias e depois excluídas, exceto para monitoramento de abuso). Por padrão hoje, o ChatGPT não usa suas conversas para treinamento, a menos que você permita, mas a OpenAI reserva o direito de treinar dados do usuário se receber permissão ou em acordos corporativos.
Código Público no GitHub: Codex e Copilot
A IA orientada para a codificação da OpenAI, o Codex (que alimenta o GitHub Copilot), foi treinada em código de programação público – principalmente do GitHub. Microsoft e GitHub afirmam que o Copilot usa apenas código publicamente disponível e inclui um filtro para evitar cópias literais. No entanto, isso não impediu ações judiciais. No final de 2022, um grupo de programadores entrou com uma ação coletiva contra a Microsoft, GitHub e OpenAI alegando que o Copilot gerou indevidamente “cópias não autorizadas de código-fonte aberto hospedado no GitHub” que a OpenAI usou no treinamento. Eles argumentaram que isso violou licenças de código aberto (por exemplo, não fornecer a atribuição exigida). Em julho de 2024, um juiz dos EUA rejeitou as reivindicações dos autores de violação de direitos autorais, decidindo que eles não provaram que o Copilot estava copiando o código textualmente. (Uma reivindicação contratual remanescente sobre termos de licença de código aberto ainda está pendente.) A cobertura da Reuters observa que a queixa alegava que as empresas “treinaram o Copilot com código de repositórios do GitHub sem cumprir os termos de licenciamento de código aberto”. Na prática, isso significa que o Codex aprendeu com milhões de linhas de código público do GitHub. A Microsoft e a OpenAI argumentam que as sugestões do Copilot constituem uso justo (e até apontam para o filtro de duplicação do Copilot como evidência de que foi construído para evitar a cópia). A disputa é um marco na política de IA: ela levanta a questão de se construir IA a partir de conteúdo de código aberto deve respeitar as licenças originais.
Mão-de-Obra Humana nos Bastidores: Moderadores Mal Remunerados
A IA moderna ainda depende de pessoas. Em particular, a OpenAI contratou moderadores de conteúdo mal remunerados para filtrar e rotular os dados de treinamento. Investigações em 2023 revelaram que a OpenAI contratou a Sama (anteriormente Samasource) em Nairóbi para ter trabalhadores peneirando por texto e imagens explícitas e perturbadoras para que o ChatGPT aprendesse o que não falar. De acordo com TIME e The Guardian, esses contratados quenianos ganhavam apenas cerca de US $1,50 a $2,00 por hora. O trabalho era extenuante e muitas vezes traumático: os moderadores revisavam centenas de exemplos gráficos de violência ou abuso sexual por dia para treinar os filtros de segurança da OpenAI. Um denunciante disse ao TIME que viu conteúdo de tortura e começou a ter pesadelos. No meio de 2023, um grupo de moderadores quenianos (por meio da Sama) entrou com uma petição descrevendo condições “exploradoras” – longas horas, salários tão baixos quanto US $1,46 por hora e exposição a conteúdo extremo com suporte mínimo. A Sama confirmou a faixa salarial em declarações públicas (cerca de US $1,30 a US $2,00 por hora, dependendo da experiência). A OpenAI defendeu o trabalho como necessário para tornar a IA segura, mas os críticos dizem que o custo humano é alto. Esses contratados são uma força de trabalho oculta cujos baixos salários e riscos ajudaram a transformar dados bruscos da web no ChatGPT relativamente “seguro” que usamos hoje.
Leia também: Estudo alerta que chatbots amigáveis podem permitir comportamentos perigosos.