O que duas decisões judiciais significam para o futuro da IA generativa


As empresas de tecnologia devem ter acesso gratuito a livros e artigos protegidos por direitos autorais para treinar seus modelos de IA? Dois juízes recentemente nos cutelaram em direção a uma resposta.

Mais de 40 processos foram movidos contra empresas de IA desde 2022. Os detalhes variam, mas geralmente procuram responsabilizar essas empresas por roubar milhões de obras protegidas por direitos autorais para desenvolver sua tecnologia. (O Atlântico está envolvido em um processo, contra a empresa de IA, coerente.) No final do mês passado, houve decisões sobre dois desses casos, primeiro em um processo contra antropia e, dois dias depois, um contra a Meta. Ambos os casos foram trazidos por autores de livros que alegaram que as empresas de IA haviam treinado grandes modelos de idiomas usando o trabalho dos autores sem consentimento ou compensação.

Em cada caso, os juízes decidiram que as empresas de tecnologia estavam envolvidas em “Uso justo” Quando eles treinaram seus modelos com os livros dos autores. Ambos os juízes disseram que o uso desses livros era “transformador” – que o treinamento de um LLM resultou em um produto fundamentalmente diferente que não competia diretamente com esses livros. (Uso justo também protege a exibição de citações de livros para fins de discussão ou crítica.)

À primeira vista, isso parece um golpe substancial contra autores e editores, que se preocupam que Os chatbots ameaçam seus negóciostanto devido à capacidade da tecnologia de resumir seu trabalho quanto sua capacidade de produzir trabalhos concorrentes que podem comer em seu mercado. (Quando alcançado para comentar, Anthrópico e Meta me disseram que estavam felizes com as decisões.) Vários meios de comunicação retrataram as decisões como uma vitória para as empresas de tecnologia. Conectado descreveu os dois resultados como “marco” e “Blockbuster. ”

Mas, de fato, os julgamentos não são diretos. Cada um é específico para os detalhes específicos de cada caso, e eles não resolvem a questão de saber se o treinamento de IA é um uso justo em geral. Em certos pontos -chave, os dois juízes discordaram entre si – tão minuciosamente, de fato, que um estudioso jurídico observou que os juízes tinham “quadros conceituais totalmente diferentes para o problema”. Vale a pena entender essas decisões, porque o treinamento de IA continua sendo uma questão monumental e não resolvida – uma que poderia definir como as empresas de tecnologia mais poderosas são capazes de operar no futuro e se a escrita e a publicação continuam sendo profissões viáveis.


Então, é a estação aberta nos livros agora? Alguém pode piratear o que quiser para treinar chatbots com fins lucrativos? Não necessariamente.

Ao se preparar para treinar seu LLM, o Anthropic baixou várias “bibliotecas de piratas”, coleções compreendendo mais de 7 milhões de livros roubados, todos os quais a empresa decidiu manter indefinidamente. Embora o juiz neste caso tenha decidido que o treinamento em si era um uso justo, ele também decidiu que manter uma “biblioteca central” não era e, para isso, a empresa provavelmente enfrentará um julgamento que determina se é responsável por potencialmente bilhões de dólares em danos. No caso contra a Meta, o juiz também decidiu que o treinamento era uso justo, mas a Meta pode enfrentar mais litígios por supostamente ajudar a distribuir livros piratas no processo de download-uma característica típica do BitTorrent, o protocolo de compartilhamento de arquivos que a empresa usou para esse esforço. (Meta disse isso “Tomou precauções” para evitar isso.)

A pirataria não é a única questão relevante nesses processos. No caso contra o antropia, os autores argumentaram que a IA causará uma proliferação de títulos gerados por máquina que competem com seus livros. De fato, a Amazon já está inundada com livros gerados pela IA, alguns dos quais sustentam Nomes reais dos autorescriando confusão no mercado e potencialmente roubando receita de escritores. Mas, em sua opinião sobre o caso antrópico, o juiz William Alsup disse que a lei de direitos autorais não deve proteger os autores da concorrência. “A queixa dos autores não é diferente do que seria se eles reclamassem que o treinamento de crianças em idade escolar para escrever bem resultaria em uma explosão de obras concorrentes”, escreveu ele.

Em sua decisão sobre o meta caso, o juiz Vince Chhabria discordou. Ele escreveu que Alsup usou uma “analogia inapt” e estava “soprando o fator mais importante na análise de uso justo”. Como qualquer um pode usar um chatbot para ignorar o processo de aprender a escrever bem, ele argumentou, a IA “tem o potencial de multiplicar exponencialmente a expressão criativa de uma maneira que o ensino de pessoas individuais não”. À luz disso, ele escreveu: “É difícil imaginar que possa ser justo usar livros protegidos por direitos autorais para desenvolver uma ferramenta para fabricar bilhões ou trilhões de dólares” enquanto prejudica o mercado do trabalho dos autores.

Para determinar se o treinamento é um uso justo, Chhabria disse que precisamos examinar os detalhes. Por exemplo, autores famosos podem ter menos uma reivindicação do que autores promissores. “Embora os livros gerados pela IA provavelmente não teriam muito efeito no mercado para as obras de Agatha Christie, eles poderiam muito bem impedir que o próximo Agatha Christie fosse notado ou vender livros suficientes para continuar escrevendo”, escreveu ele. Assim, na opinião de Chhabria, alguns demandantes conquistarão casos contra empresas de IA, mas eles precisarão mostrar que o mercado de seus livros em particular foi danificado. Como os demandantes no caso contra a Meta não fizeram isso, Chhabria governou contra eles.

Além dessas duas divergências, é o problema de que ninguém – incluindo os próprios desenvolvedores de IA – entende como os LLMs funcionam. Por exemplo, ambos os juízes pareciam subestimar o potencial da IA citar diretamente o material protegido por direitos autorais para os usuários. Sua análise de uso justo foi baseado nas entradas do LLMSO texto usado para treinar os programas – em vez de saídas que podem estar infringindo. Pesquisar Em modelos de IA como Claude, Llama, GPT-4 e Gemini do Google, mostrou que, em média, 8 a 15 % das respostas dos chatbots em conversas normais são copiadas diretamente da Web e, em alguns casos, as respostas são 100 % copiadas. Quanto mais texto um LLM “memorizou”, mais ele pode copiar e colar de suas fontes de treinamento sem que ninguém perceba que isso está acontecendo. Openai tem caracterizado isso como um “bug raro” e antropic, em outro caso, tem argumentou que “Claude não usa seus textos de treinamento como um banco de dados dos quais saídas preexistentes são selecionadas em resposta aos avisos do usuário”.

Mas a pesquisa nessa área ainda está em seus estágios iniciais. UM estudar publicado nesta primavera mostrou que a lhama pode reproduzir muito mais de seu texto de treinamento do que se pensava anteriormente, incluindo cópias quase exaceras de livros como Harry Potter e a pedra do feiticeiro e 1984.

Esse estudo foi co-autor de Mark Lemley, um dos estudiosos mais amplamente lidos por IA e direitos autorais, e um defensor de longa data da idéia de que o treinamento de IA é um uso justo. De fato, Lemley fazia parte da equipe de defesa da Meta para o seu caso, mas ele desistir no início deste ano, criticando em uma postagem do LinkedIn sobre “Mark Zuckerberg e descendência do Facebook para a masculinidade tóxica e a loucura neonazista”. (Meta não respondeu à minha pergunta sobre este post.) Lemley ficou surpreso com os resultados do estudo e me disse que “complica o cenário legal de várias maneiras para os réus” nos casos de direitos autorais da IA. “Acho que ainda deveria ser um uso justo”, ele me disse, referindo -se ao treinamento, mas não podemos aceitar inteiramente “a história que os réus estão contando” sobre o LLMS.

Para alguns modelos treinados usando livros protegidos por direitos autorais, ele me disse: “Você poderia argumentar que o próprio modelo tem uma cópia de alguns desses livros”, e as empresas de IA precisarão explicar aos tribunais como essa cópia também é uso justo, além das cópias feitas no curso da pesquisa e treinamento de seu modelo.


À medida que mais se sabe sobre como o LLMS memoriza seu texto de treinamento, podemos ver mais ações judiciais de autores cujos livros, com o impulso certo, podem ser totalmente reproduzidos pelo LLMS. Pesquisas recentes mostram que os autores lidos amplamente, incluindo JK Rowling, George RR Martin e Dan Brown, podem estar nessa categoria. Infelizmente, esse tipo de pesquisa é caro e requer experiência rara fora das empresas de IA. E a indústria de tecnologia tem pouco incentivo para apoiar ou publicar esses estudos.

As duas decisões recentes são melhor vistas como os primeiros passos em direção a uma conversa mais sutil sobre como seria o desenvolvimento responsável da IA. O objetivo dos direitos autorais não é simplesmente recompensar os autores por escrever, mas criar uma cultura que produz importantes obras de arte, literatura e pesquisa. As empresas de IA afirmam que seu software é criativo, mas a IA só pode remixar o trabalho com o qual foi treinado. Nada em sua arquitetura o torna capaz de fazer qualquer coisa mais. Na melhor das hipóteses, resume. Alguns escritores e artistas usaram a IA generativa para efeitos interessantes, mas esses experimentos provavelmente foram insignificantes ao lado do torrente de inclinação Isso já está abafando vozes humanas na internet. Há até evidências de que a IA pode Faça -nos menos criativo; pode, portanto evitar os tipos de pensamento necessário para o progresso cultural.

O objetivo do uso justo é equilibrar um sistema de incentivos para que o tipo de trabalho que nossa cultura precisa seja recompensado. Um mundo em que o treinamento de IA é amplamente justo é provavelmente uma cultura com menos escrita humana. Se esse é o tipo de cultura que devemos ter é uma questão fundamental que os juízes nos outros casos de IA podem precisar enfrentar.