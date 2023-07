THE WASHINGTON POST — Um grupo cada vez mais vocal de artistas, escritores e cineastas está argumentando que ferramentas de inteligência artificial como os chatbots ChatGPT e Bard foram treinadas ilegalmente em seus trabalhos sem permissão ou compensação — representando uma grande ameaça legal para as empresas que estão implementando a tecnologia para milhões de pessoas ao redor do mundo.

O ChatGPT, da OpenAI, e o gerador de imagens Dall-E, assim como Bard, do Google, e Stable Diffusion, da Stability AI, foram todos treinados em bilhões de artigos de notícias, livros, imagens, vídeos e postagens de blogs raspados da internet, muitos dos quais são protegidos por direitos autorais.

Na semana passada, a comediante Sarah Silverman entrou com um processo contra a OpenAI e a empresa controladora do Facebook, a Meta, alegando que eles usaram uma cópia pirateada de seu livro nos dados de treinamento porque os chatbots das empresas conseguem resumir seu livro com precisão.

Os romancistas Mona Awad e Paul Tremblay abriram um processo semelhante contra a OpenAI. E mais de 5 mil autores, incluindo Jodi Picoult, Margaret Atwood e Viet Thanh Nguyen, assinaram uma petição pedindo que as empresas de tecnologia obtenham o consentimento e dêem crédito e compensação aos escritores cujos livros foram usados nos dados de treinamento.

Foram abertas duas ações coletivas contra a OpenAI e o Google, ambas alegando que as empresas violaram os direitos de milhões de usuários da internet ao usar seus comentários nas redes sociais para treinar IA conversacional. E, na semana passada, a Comissão Federal de Comércio (FTC, na sigla em inglês) abriu uma investigação para verificar se a OpenAI violou os direitos do consumidor com suas práticas de dados.

Enquanto isso, o Congresso dos Estados Unidos realizou a segunda de duas audiências focando em IA e direitos autorais na quarta-feira passada, ouvindo representantes da indústria musical, Adobe (dona do Photoshop), Stability AI e a artista conceitual e ilustradora Karla Ortiz.

Continua após a publicidade

“Essas empresas de IA usam nosso trabalho como dados de treinamento e matéria-prima para seus modelos de IA sem consentimento, crédito ou compensação,” disse Ortiz, que trabalhou em filmes como “Pantera Negra” e “Guardiões da Galáxia”, em declarações preparadas. “Nenhuma outra ferramenta depende exclusivamente dos trabalhos de outros para gerar imagens. Nem o Photoshop, nem o 3D, nem a câmera, nada se compara a essa tecnologia.”

A onda de processos, queixas de alto perfil e regulamentação proposta pode representar a maior barreira até agora para a adoção de ferramentas de IA “generativas”, que têm atraído a atenção do mundo tecnológico desde que a OpenAI lançou o ChatGPT ao público no final do ano passado e estimulou executivos da Microsoft, Google e outras gigantes da tecnologia a declarar que a tecnologia é a inovação mais importante desde a chegada do celular.

Artistas afirmam que os meios de subsistência de milhões de trabalhadores criativos estão em jogo, especialmente porque as ferramentas de IA já estão sendo usadas para substituir alguns trabalhos feitos por humanos. A raspagem em massa de arte, escrita e filmes da web para treinamento de IA é uma prática que os criadores dizem que nunca consideraram ou consentiram.

Os modelos de IA estão basicamente aprendendo com todas as informações que estão disponíveis. É semelhante a um estudante indo e lendo livros em uma biblioteca e então aprendendo a escrever e ler Kent Walker, presidente de assuntos globais do Google

Mas, em aparições públicas e em resposta a processos judiciais, as empresas de IA argumentaram que o uso de obras protegidas por direitos autorais para treinar IA se enquadra no uso justo — um conceito na lei de direitos autorais que cria uma exceção se o material for alterado de uma maneira “transformadora”.

“Os modelos de IA estão basicamente aprendendo com todas as informações que estão disponíveis. É semelhante a um estudante indo e lendo livros em uma biblioteca e então aprendendo a escrever e ler”, disse Kent Walker, presidente de assuntos globais do Google, em uma entrevista na sexta-feira. “Ao mesmo tempo, você precisa garantir que não está reproduzindo os trabalhos de outras pessoas e fazendo coisas que seriam violações de direitos autorais.”

Raspagem de dados

Continua após a publicidade

O movimento de criadores pedindo mais consentimento sobre como seu conteúdo protegido por direitos autorais é usado faz parte de um movimento maior, à medida que a IA muda as regras e normas estabelecidas há muito tempo para a internet. Por anos, os sites ficaram felizes em ter o Google e outras gigantes da tecnologia raspando seus dados para o propósito de ajudá-los a aparecer em resultados de busca ou acessar redes de publicidade digital, ambas ajudando-os a ganhar dinheiro ou alcançar novos clientes.

Existem alguns precedentes que podem funcionar a favor das empresas de tecnologia, como uma decisão do Tribunal de Apelações dos EUA de 1992 que permitiu às empresas reverterem a engenharia do código de software de outras empresas para projetar produtos concorrentes, diz Andres Sawicki, professor de direito da Universidade de Miami que estuda propriedade intelectual. Mas muitas pessoas sentem que há uma injustiça intuitiva em grandes empresas ricas usando o trabalho de criadores para criar novas ferramentas geradoras de dinheiro sem compensar ninguém.

“A questão da IA generativa é realmente difícil”, ele disse.

A batalha sobre quem se beneficiará da IA já está ficando acirrada.

Em Hollywood, a IA tornou-se um ponto central de conflito para escritores e atores que recentemente entraram em greve. Os executivos de estúdio querem preservar o direito de usar a IA para criar ideias, escrever roteiros e até replicar as vozes e imagens dos atores. Os trabalhadores veem a IA como uma ameaça existencial para seus meios de subsistência.

Os criadores de conteúdo estão encontrando aliados entre as principais empresas de mídia social, que também viram os comentários e discussões em seus sites raspados e usados para ensinar bots de IA como funciona a conversação humana.

Tivemos várias entidades tentando coletar todos os tuítes já feitos Elon Musk, dono do Twitter

Continua após a publicidade

Na sexta-feira, Elon Musk, proprietário do Twitter, disse que o site estava lidando com empresas e organizações que estavam “ilegalmente” raspando seu site constantemente, ao ponto de ele decidir limitar o número de tuítes que contas individuais poderiam visualizar na tentativa de impedir a raspagem em massa. “Tivemos várias entidades tentando coletar todos os tuítes já feitos”, disse Musk.

Outras redes sociais, incluindo o Reddit, também tentaram impedir que conteúdos de seus sites fossem coletados, começando a cobrar milhões de dólares para usar suas interfaces de programação de aplicativos ou APIs — os gateways técnicos pelos quais outros aplicativos e programas de computador interagem com redes sociais.

Algumas empresas estão sendo proativas em assinar acordos com empresas de IA para licenciar seu conteúdo por uma taxa. Na quinta-feira, a agência americana de notícias Associated Press concordou em licenciar seu arquivo de reportagens de notícias datadas desde 1985 para a OpenAI. A organização de notícias terá acesso à tecnologia da OpenAI para experimentar seu uso em seu próprio trabalho como parte do acordo.

Uma declaração de junho divulgada pela Digital Content Next, um grupo de comércio que inclui o New York Times e The Washington Post entre outros publishers online, afirmou que o uso de artigos de notícias protegidos por direitos autorais em dados de treinamento de IA “provavelmente seria considerado muito além do escopo de uso justo conforme estabelecido na lei de direitos autorais.”

“Profissionais criativos ao redor do mundo usam o ChatGPT como parte de seu processo criativo e procuramos ativamente seus feedbacks sobre nossas ferramentas desde o primeiro dia”, disse Niko Felix, um porta-voz da OpenAI. “O ChatGPT é treinado em conteúdo licenciado, conteúdo publicamente disponível e conteúdo criado por treinadores de IA humanos e usuários.”

Porta-vozes do Facebook e Microsoft recusaram-se a comentar. Um porta-voz da Stability AI não retornou um pedido de comentário.

Práticas de treinamento de IA

Continua após a publicidade

“Há anos deixamos claro que usamos dados de fontes públicas (como informações publicadas na web aberta e conjuntos de dados públicos) para treinar os modelos de IA por trás de serviços como o Google Translate”, disse Halimah DeLaine Prado, conselheira geral do Google. “A lei americana apoia o uso de informações públicas para criar novos usos benéficos e estamos ansiosos para refutar essas alegações infundadas.”

O uso justo é uma forte defesa para as empresas de IA, porque a maioria das saídas dos modelos de IA não se assemelha explicitamente ao trabalho de humanos específicos, disse Sawicki, o professor de Direito especializado em direitos autorais. Mas, se os criadores processando as empresas de IA conseguirem mostrar exemplos suficientes de saídas de IA que são muito semelhantes às suas próprias obras, eles terão um argumento sólido de que seus direitos autorais estão sendo violados, disse ele.

As empresas poderiam evitar isso construindo filtros em seus bots para garantir que eles não gerem nada que seja muito semelhante a uma obra de arte existente, disse Sawicki. O YouTube, por exemplo, já usa tecnologia para detectar quando obras protegidas por direitos autorais são enviadas para seu site e automaticamente as retira. Em teoria, as empresas de IA poderiam construir algoritmos que poderiam identificar saídas que são altamente semelhantes à arte, música ou escrita existentes.

As técnicas de ciência da computação que permitem a IA “generativa” moderna foram teorizadas por décadas, mas só foi quando grandes empresas de tecnologia como Google, Facebook e Microsoft combinaram seus datacenters massivos de computadores poderosos com as enormes quantidades de dados que coletaram da internet aberta que os bots começaram a mostrar capacidades impressionantes.

Ao processar bilhões de sentenças e imagens legendadas, as empresas criaram “modelos amplos de linguagem” (LLM, na sigla em inglês), capazes de prever qual a coisa lógica a dizer ou desenhar em resposta a qualquer estímulo, com base em sua compreensão de toda a escrita e imagens que ingeriram.

No futuro, as empresas de IA usarão conjuntos de dados mais curados e controlados para treinar seus modelos de IA, e a prática de jogar montanhas de dados não filtrados coletados da internet aberta será vista como “arcaica”, disse Margaret Mitchell, cientista-chefe de ética na startup de IA Hugging Face. Além dos problemas de direitos autorais, o uso de dados da web aberta também introduz possíveis vieses nos chatbots.

“É uma abordagem tão tola e não científica, sem mencionar uma abordagem que infringe os direitos das pessoas”, disse Mitchell. “Todo o sistema de coleta de dados precisa mudar e é uma pena que precise mudar por meio de processos judiciais, mas é frequentemente assim que a tecnologia funciona.”

Continua após a publicidade

Mitchell diz que não ficaria surpresa se a OpenAI tivesse que excluir completamente um de seus modelos até o final do ano por causa de processos ou novas regulamentações.

Todo o sistema de coleta de dados precisa mudar, e é uma pena que precise mudar por meio de processos judiciais, mas é frequentemente assim que a tecnologia funciona Margaret Mitchell, cientista-chefe de ética na startup de IA Hugging Face

OpenAI, Google e Microsoft não divulgam informações sobre quais dados usam para treinar seus modelos, dizendo que isso poderia permitir que pessoas mal-intencionadas replicem seu trabalho e usem as IAs para fins maliciosos.

Uma análise do Post de uma versão mais antiga do principal modelo de aprendizado de linguagem da OpenAI mostrou que a empresa usou dados de sites de notícias, Wikipédia e um notório banco de dados de livros pirateados que desde então foi apreendido pelo Departamento de Justiça.

Não saber exatamente o que entra nos modelos torna ainda mais difícil para artistas e escritores obterem compensação pelo seu trabalho, disse Ortiz, a ilustradora, durante a audiência no Senado.

“Precisamos garantir que haja transparência clara”, disse Ortiz. “Essa é uma das bases iniciais para que artistas e outros indivíduos possam obter consentimento, crédito e compensação.” / TRADUÇÃO POR GUILHERME GUERRA