Quando transformamos livros em uma espécie de forragem ou combustível para as máquinas, evaporamos universos inteiros. (Imagem Estúdio Gauche).
Como
empresas de tecnologia estão comprando, digitalizando e depois destruindo
milhões de livros para usá-los como combustível de inteligências artificiais.
Para quem
escreve livros que não se tornam best-sellers (com vendas
excepcionalmente altas), nem long-sellers (com vendas consistentes e
contínuas por longos períodos), nem mesmo sellers propriamente ditos
(que vendam um mínimo aceitável), é comum receber, de vez em quando, um e-mail
da editora avisando que os exemplares dos nossos livros em estoque serão
enviados para a trituradora. Uma vez tomada essa decisão, pouco ou nada pode
ser feito. A trituração de livros é, infelizmente, um reflexo muito comum da
triste condição do mercado editorial (especialmente dos grandes consórcios que
engoliram dezenas de pequenas editoras), das pressões econômicas e fiscais, do
espaço limitado nos armazéns e da impaciência corporativa.
No
entanto, as grandes editoras não são as únicas empresas que recorrem à
destruição em massa de livros. O jornal The Washington Post
publicou em janeiro de 2026 que, no início de 2024, a empresa de alta
tecnologia Anthropic lançou uma iniciativa de forma praticamente secreta
chamada Projeto Panamá. Os detalhes vieram a público com a divulgação de mais
de quatro mil páginas de documentos apresentados como provas no processo de
direitos autorais movido por um grupo de escritores contra a Anthropic. Esse
processo fazia parte de uma série de ações judiciais movidas por artistas,
autores, músicos, fotógrafos, designers, ilustradores e outros criadores que
sentem que seu trabalho foi usado sem seu conhecimento ou autorização para
treinar modelos de IA. Um documento interno de planejamento divulgado na
segunda semana de janeiro de 2026 descrevia assim suas intenções: “O Projeto
Panamá é nosso esforço para digitalizar de forma destrutiva todos os livros do
mundo… Não queremos que se saiba que estamos trabalhando nisso”.
Este e
outros documentos jurídicos utilizados em ações judiciais contra várias
empresas que desenvolvem modelos de Inteligência Artificial generativa
revelaram que a Anthropic e outras empresas de IA estão comprando em livrarias
de segunda mão milhões de livros impressos para treinar seus sistemas. Os
Grandes Modelos de Linguagem (LLM, na sigla em inglês) requerem textos de “alta
qualidade” para treinar suas redes neurais. Isso consiste em fazer com que os
modelos processem textos para construir relações estatísticas entre palavras e
conceitos. Os programadores consideram que devem ser utilizadas bases de dados
de boa “qualidade” (livros e artigos coerentes, bem escritos e editados) para
que as capacidades dos modelos aumentem. Utilizar boa literatura proporciona
respostas mais bem articuladas, bem como resultados mais eloquentes, precisos e
convincentes. Os coordenadores deste projeto concluíram que era muito melhor
usar livros do que comentários, opiniões e conversas extraídos de fóruns
online, redes sociais ou do YouTube. Os livros, em grande quantidade, e não
individualmente, tornaram-se o alvo da ambição dessas empresas que desejam
“ensinar os modelos a escrever corretamente e não replicar a linguagem comum da
internet”.
Há algo
de fábula sórdida e ficção científica sombria nesse processo mecânico de
ingestão e digestão literária que nos faz pensar nos clássicos Fahrenheit
451, de Ray Bradbury, e 1984, de George Orwell, mas que também evoca
os vilões dos quadrinhos da Marvel que dominaram as telas de cinema nos últimos
20 anos e que alimentaram a imaginação perversa dos bilionários da indústria da
tecnologia digital. A IA Claude é uma espécie de Thanos, o monstro destruidor
de mundos, capaz de eliminar metade da cultura literária do universo para dar
lugar a uma IA infalível.
Um
documento legal divulgado descreve que a empresa Anthropic (que em 28 de maio
de 2026 foi avaliada em 900 bilhões de dólares) usaria uma cortadora hidráulica
de precisão para desarmar livros e recortar as páginas em um tamanho adequado
para serem digitalizadas em equipamentos de alta velocidade. Posteriormente,
uma empresa de reciclagem recolheria o papel processado. Quase parece comovente
que, apesar da imoralidade de suas ações (eles próprios admitem que se trata de
uma estratégia perturbadora ou questionável que tentaram manter em segredo),
considerem importante reciclar o papel descartado e não simplesmente jogá-lo no
lixo; é de se supor que isso sim seria considerado por eles uma imprudência
imperdoável. Ao mesmo tempo, os centros de dados de que essas empresas
necessitam são consumidores brutais de água e recursos, com um imenso impacto
ambiental.
Em um
ano, essa empresa gastou dezenas de milhões de dólares para adquirir livros,
destruí-los e alimentar com suas palavras, frases e conhecimento os modelos de
IA, como o chatbot Claude. De repente, podemos imaginar esses programas
bajuladores e obsequiosos à exaustão como vorazes Molochs, trituradores das
obras da inteligência e do espírito, como aquele que mantém a cidade em
movimento no filme Metropolis, de Fritz Lang. O pensamento e o trabalho
de milhares de pessoas ao longo dos séculos, reduzidos pela tecnologia digital
e pelo reconhecimento óptico de caracteres a matéria-prima, a estruturas
gramaticais e a preditores de palavras.
Meta,
Google, OpenAI, Anthropic e outras empresas estão competindo em uma corrida
desenfreada para se apropriar da maior quantidade possível de “conteúdo”,
conhecimento, ideias e textos, que consideravam “essenciais para serem
competitivas com seus rivais”. Insatisfeitas com seu extrativismo desenfreado,
optaram por um recurso ainda mais barato. O cofundador da Anthropic, Ben Mann,
encarregou-se de baixar livros de sites piratas online por meio de torrents
(um método descentralizado para compartilhar arquivos entre usuários). Assim,
obtiveram cerca de cinco milhões de livros do site LibGen e mais cerca de dois
milhões da Pirate Library Mirror. Ao mesmo tempo, a empresa Meta, com a
aprovação de Mark Zuckerberg (suas iniciais aparecem em um documento interno),
também começou a saquear sites de livros clandestinos. Um engenheiro da Meta
escreveu em 2023: “Usar torrents em um laptop corporativo não parece
certo”, e acrescentou um emoji sorridente.
Para
levar adiante esse projeto, a Anthropic contratou Tom Turvey, que foi
fundamental na criação do projeto Google Books, iniciado por volta de 2002 com
a intenção de digitalizar uma grande quantidade de livros. O projeto do Google
foi muito controverso na época, mas sobreviveu a uma série de processos
judiciais e ataques. O Google Books (na época em que o lema da empresa ainda
era “Don’t be evil” ou “Não seja mau”) empregou um sistema fotográfico
não destrutivo com livros emprestados de bibliotecas que depois eram
devolvidos. Esse método já havia sido usado anteriormente pelo Internet
Archive. A Anthropic, por outro lado, optou por um processo mais barato e
rápido, sem se importar com o material original nem com a preservação dos
livros.
A
digitalização destrutiva é uma prática comum em operações de digitalização; o
incomum aqui foi o volume em que isso foi feito e a noção de que muitos livros
usados poderiam ser exemplares únicos, raros ou de difícil acesso, que se
encontravam em lotes imensos e caóticos, e não em coleções organizadas. Talvez
nunca saibamos o que foi destruído. Um grupo de autores escreveu uma carta
aberta de protesto contra o uso de seu trabalho: “Em vez de pagar aos
escritores uma pequena porcentagem do dinheiro que nosso trabalho lhes gera,
outra pessoa será paga por uma tecnologia construída sobre nosso trabalho não
remunerado”.
Alguns
juízes e especialistas jurídicos consideraram que o uso dessas obras se
enquadra em um âmbito legal ainda não definido, enquanto outros acreditam que
as empresas de IA não violaram a lei. No que diz respeito aos livros comprados
legitimamente, as empresas de IA estão protegidas pelo recurso de “uso
legítimo” (fair use). As empresas de IA se basearam na “Doutrina da
primeira venda” (first sale doctrine), que autoriza o comprador de um
livro a fazer o que quiser com ele. Isso permite a existência de um mercado de
livros usados. O juiz William Alsup, do Distrito Norte da Califórnia (que
abrange o Vale do Silício), deu razão à Anthropic no que diz respeito ao uso de
livros para treinar modelos porque “eles processam o material de forma
transformativa” (ao destruir os exemplares comprados legalmente e conservar a
versão digital, sem distribuí-la, estavam apenas “economizando espaço por meio
de uma conversão de formato, e isso equivalia a uma transformação”). O juiz
Vince Chhabria, do mesmo distrito, concluiu que os autores que processavam a
Meta não haviam provado que os modelos de IA daquela empresa poderiam
prejudicar as vendas de seus livros.
No
entanto, a Anthropic foi considerada culpada de violar a lei pelos livros
piratas que “acumulou para uso futuro” e, para evitar ir a julgamento, aceitou
pagar 1,5 bilhão de. dólares (3 mil d por cada um dos 500.000 livros) em agosto
passado, sem admitir ter cometido qualquer crime. Dario Amodei, diretor
executivo da Anthropic, tentou evitar o que ele mesmo chamou de “o tédio
jurídico, prático e empresarial”, ou seja, as complexas negociações de licenças
com as editoras. Ao comprar livros físicos, ele contornava completamente as
licenças e negociações. A posição da Anthropic é que seus modelos não tentam
replicar nem suplantar as obras nas quais são treinados, mas sim criar algo
diferente. Eventualmente, eles serão penalizados (se é que isso realmente acontecerá)
pela forma como obtiveram algumas das obras e não pelo uso que deram a elas.
Em junho
de 2025, a OpenAI e a Microsoft anunciaram que trabalhariam com as bibliotecas
de Harvard para digitalizar, de forma não destrutiva, milhões de livros de
domínio público que datam do século XV. Isso, possivelmente, visa fazer com que
sua tentativa de se apropriar de livros caia no esquecimento e apagando os
rastros de sua existência. A única maneira de conhecer certas obras (boas,
ruins, medíocres ou como quer que sejam) será consultando esses modelos
generativos de IA que as engoliram.
Não há
dúvida de que os livros são um problema: pesam muito, ocupam espaço demais, são
frágeis e, no entanto, representam talvez melhor do que qualquer outro meio
nossa forma mais acessível de adquirir conhecimento, prazer e nos aproximarmos
da beleza. Quando os transformamos em uma espécie de forragem ou combustível
para as máquinas, evaporamos universos inteiros. Estamos em um momento em que
os bros multimilionários da tecnologia nos prometem construir ideias e
argumentos a partir dos escombros da cultura. Não é por acaso que isso ocorra
em uma era de renovadas censuras e proibições de livros e em um tempo de
genocídio, domicídio e urbicídio. O impulso da indústria tecnológica nos
empurra para a normalização do bibliocídio.
Autor: Naief Yehya – Site Opera Mundi.