OpenAI revelará dados secretos de treinamento em caso de direitos autorais – somente para os olhos dos advogados
A OpenAI concordou em revelar os dados usados para treinar seus modelos de IA generativa para advogados que buscam reivindicações de direitos autorais contra o desenvolvedor em nome de vários autores.
Os autores – entre eles Paul Tremblay, Sarah Silverman, Michael Chabon, David Henry Hwang e Ta-Nehisi Coates – processaram a OpenAI e suas afiliadas no ano passado, argumentando que seus modelos de IA foram treinados em seus livros e reproduzem suas palavras em violação à lei de direitos autorais dos EUA e às regras de concorrência desleal da Califórnia. As ações dos escritores foram consolidadas em um reivindicação única [PDF].
A OpenAI enfrenta alegações semelhantes de outros demandantes e, no início deste ano, a Anthropic também foi processado por autores prejudicados.
Na terça-feira, o juiz magistrado dos EUA Robert Illman emitiu uma ordem [PDF] especificando os protocolos e condições sob os quais os advogados dos autores terão acesso aos dados de treinamento da OpenAI.
Os termos de acesso são rigorosos e consideram o conjunto de dados de treinamento o equivalente a um código-fonte sensível, um processo de negócios proprietário ou uma fórmula secreta. Mesmo assim, os modelos usados para ChatGPT (GPT-3.5, GPT-4, etc.) presumivelmente dependiam muito de dados acessíveis publicamente que são amplamente conhecidos, como foi o caso do GPT-2 para o qual um lista de domínios cujo conteúdo foi raspado está no GitHub (O Registro está na lista).
“Os dados de treinamento serão disponibilizados pela OpenAI em uma sala segura em um computador protegido, sem acesso à internet ou acesso à rede para outros computadores ou dispositivos não autorizados”, afirma a ordem do juiz.
Nenhum dispositivo de gravação será permitido na sala segura e a equipe jurídica da OpenAI terá o direito de inspecionar quaisquer anotações feitas ali.
A OpenAI não respondeu imediatamente a uma solicitação para explicar por que tal sigilo é necessário. Uma razão provável é medo de responsabilidade legal – se a extensão do uso sem permissão de dados online fosse amplamente conhecida, isso poderia levar a ainda mais processos judiciais.
As próximas regulamentações de IA podem forçar os desenvolvedores a serem mais abertos sobre o que entra em seus modelos. A Europa Lei de Inteligência Artificialque entra em vigor em agosto de 2025, declara: “Para aumentar a transparência sobre os dados usados no pré-treinamento e no treinamento de modelos de IA de uso geral, incluindo texto e dados protegidos por lei de direitos autorais, é adequado que os provedores de tais modelos elaborem e disponibilizem publicamente um resumo suficientemente detalhado do conteúdo usado para treinar o modelo de IA de uso geral.”
As regras incluem algumas proteções para segredos comerciais e informações comerciais confidenciais, mas deixam claro que as informações fornecidas devem ser detalhadas o suficiente para satisfazer aqueles com interesses legítimos – “incluindo detentores de direitos autorais” – e para ajudá-los a fazer valer seus direitos.
Os legisladores da Califórnia aprovaram um projeto de lei de transparência de dados de IA (AB 2013), que aguarda a assinatura do governador Gavin Newsom. E um projeto de lei federal, o Lei de Divulgação de Direitos Autorais de IA Generativasolicita que os modelos de IA notifiquem o Escritório de Direitos Autorais dos EUA sobre todo o conteúdo protegido por direitos autorais usado para treinamento.
O impulso para a transparência dos dados de treinamento pode preocupar a OpenAI, que já enfrenta muitas reivindicações de direitos autorais. O desenvolvedor afiliado à Microsoft continua a insistir que seu uso de conteúdo protegido por direitos autorais se qualifica como uso justo e, portanto, é legalmente defensável. Seus advogados disseram isso em seu responder [PDF] no mês passado, à reclamação alterada dos autores.
“Os demandantes alegam que seus livros estavam entre o conhecimento humano mostrado aos modelos da OpenAI para lhes ensinar inteligência e linguagem”, argumentam os advogados da OpenAI. “Se for assim, isso seria uso justo transformador paradigmático.”
Dito isso, a equipe jurídica da OpenAI argumenta que a IA generativa é sobre criar novos conteúdos em vez de reproduzir dados de treinamento. O processamento de trabalhos protegidos por direitos autorais durante o processo de treinamento do modelo supostamente não infringe, porque está apenas extraindo frequências de palavras, parceiros sintáticos e outros dados estatísticos.
“O propósito desses modelos não é produzir material que já existe; há maneiras muito menos intensivas computacionalmente de fazer isso”, alegam os advogados da OpenAI. “Em vez disso, seu propósito é criar novo material que nunca existiu antes, com base em uma compreensão da linguagem, do raciocínio e do mundo.”
Isso é um pouco de desorientação. Modelos de IA generativa, embora capazes de saída inesperada, são projetados para prever uma série de tokens ou caracteres de dados de treinamento que são relevantes para um determinado prompt e regras de sistema adjacentes. Previsões insuficientemente fundamentadas em dados de treinamento são chamadas de alucinações – por mais “criativas” que sejam, elas não são um resultado desejado.
Nenhum caso aberto e fechado
Se os modelos de IA reproduzem dados de treinamento literalmente é relevante para a lei de direitos autorais. Sua capacidade de criar conteúdo que é semelhante, mas não idêntico aos dados de origem – “lavagem de dinheiro para dados protegidos por direitos autoraiscomo o desenvolvedor Simon Willison descreveu – é um pouco mais complicado, legal e moralmente.
Mesmo assim, há um ceticismo considerável entre os estudiosos do direito de que a lei de direitos autorais é o regime apropriado para abordar o que os modelos de IA fazem e seu impacto na sociedade. Até o momento, os tribunais dos EUA ecoaram esse ceticismo.
Conforme observado por Políticoo juiz do Tribunal Distrital dos EUA, Vincent Chhabria, concedeu em novembro passado a Meta moção para rejeitar [PDF] todas, exceto uma, das reivindicações apresentadas em nome do autor Richard Kadrey contra a gigante da mídia social sobre seu modelo LLaMa. Chhabria chamou a alegação de que o próprio LLaMa é um trabalho derivado infrator de “sem sentido”. Ele rejeitou as reivindicações de direitos autorais, a reivindicação DMCA e todas as reivindicações da lei estadual.
Isso não é um bom presságio para o processo dos autores contra a OpenAI, ou outros casos que fizeram alegações semelhantes. Não é de se admirar que existam mais de 600 leis propostas em todos os EUA que visam resolver o problema. ®