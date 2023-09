O jornal The Guardian anunciou na sexta-feira, 1.º, que proibiu a startup americana OpenAI de extrair materiais noticiosos para alimentar o ChatGPT, robô de conversas movido a inteligência artificial (IA). A decisão vale para as outras publicações do grupo, como o periódico dominical The Observer.

A decisão tem como objetivo evitar que a OpenAI faça a raspagem de informações produzidas pela publicação ao longo dos anos. Para treinar a IA, a companhia escaneia grandes volumes de dados, geralmente tirados da internet aberta, o que inclui sites como a Wikipédia e veículos de mídia. A empresa não detalha quais informações utiliza para alimentar seus sistemas de IA.

“A extração de propriedade intelectual do site do Guardian para fins comerciais é, e sempre foi, contrária aos nossos termos de serviço. A equipe de licenciamento comercial do The Guardian tem muitas relações comerciais mutuamente benéficas com desenvolvedores de todo o mundo e espera construir mais relações desse tipo no futuro”, diz um porta-voz da empresa.

A decisão acompanha outros veículos de mídia que, em agosto, também decidiam proibir a raspagem de informações de suas publicações digitais. Os principais nomes incluem a CNN, Reuters, Washington Post, Bloomberg e New York Times.

Outras companhias também decidiram proibir a extração, como a Amazon, o site de perguntas e respostas Quora e o dicionário americano digital Dictionary.

Desde agosto, a OpenAI permite que companhias proíbam a extração de seus materiais na internet para treinar inteligência artificial. Seguindo a decisão da rival, Google e Meta (dona do Facebook e Instagram) criaram termos similares.

ChatGPT à sombra de um escândalo de dados

O uso obscuro de dados de terceiros pode colocar o ChatGPT em um escândalo de dados e de direitos autorais.

Segundo especialistas que analisaram partes dos pacotes de informações utilizadas para treinar o robô da OpenAI, foram encontrados sites jornalísticos, livros, filmes, jogos e até informações estaduais de eleitores dos Estados Unidos nesses repositórios digitais.

Na avaliação desses especialistas, não houve consenso para a extração dessas informações, o que pode colocar em risco o modelo de negócio da OpenAI e de outras gigantes de tecnologia, como o Google.