
"Se eu vi mais longe, foi por estar sobre os ombros de gigantes." A frase indica uma grande humildade, especialmente por ter sido dita por Isaac Newton, um dos maiores gênios da humanidade, em uma carta ao rival Robert Hooke em 5 de fevereiro 1676. Hoje, exatamente 349 anos depois, ela pode ajudar a explicar o suposto roubo de propriedade intelectual de uma empresa chinesa que abalou o mercado de inteligência artificial há poucos dias.
A OpenAI, criadora do ChatGPT, está acusando a DeepSeek de ter usado ilegalmente uma técnica conhecida como "destilação" para construir o seu revolucionário LLM (modelo de linguagem de grande porte). O produto chinês vem demonstrando desempenho semelhante aos grandes modelos americanos, mas teria custado apenas US$ 5,6 milhões para seu "treinamento", enquanto estima-se que a OpenAI gaste mais de US$ 100 milhões para fazer o mesmo com cada um dos seus.
Por essa técnica, um modelo menor é treinado a partir de respostas de um maior. É como se um estudante brilhante aprendesse diversas coisas rapidamente fazendo perguntas a um professor muito experiente e sábio. Assim, apesar de o último ter investido tempo e energia no seu aprendizado, o aluno "corta caminho" e começa a dar respostas tão boas quanto as de seu mestre, sem ter investido quase nada.
Apesar de a OpenAI não ter provas disso, suas suspeitas parecem ser suficientes para expor seu novo e revolucionário concorrente. Um porta-voz da OpenAI sugeriu até que a Casa Branca pode entrar no caso. Para ficar na analogia acima, é como se o sábio professor estivesse pedindo ao diretor da escola que suspenda o aluno por ter "colado" na prova, mesmo sendo brilhante.
- Assine gratuitamente minha newsletter sobre IA, experiência do cliente, mídia e transformação digital
- Inscreva-se no meu podcast (escolha a plataforma): Spotify, Deezer, Apple Podcasts ou Soundcloud
Perguntei ao próprio ChatGPT se a DeepSeek foi criada a partir de sua destilação. Sua resposta: "Não, a DeepSeek não foi criada a partir da destilação do ChatGPT. Ela foi treinada do zero usando seus próprios dados e infraestrutura. Ela não foi apenas uma 'aluna' do ChatGPT. Em vez disso, ela é um modelo independente, treinada com grandes quantidades de dados de código aberto, artigos, livros e outras fontes."
Os executivos da OpenAI deveriam consultar seu próprio produto!
A maior de todas as ironias nessa história é que essa big tech está sendo processada por incontáveis produtores de conteúdo, desde artistas anônimos até gigantes como o jornal The New York Times. Eles a acusam de usar suas produções para treinar o ChatGPT sem nenhuma autorização ou compensação.
A OpenAI se apoia no conceito jurídico americano de "uso justo", que permite que trechos de conteúdo protegido por direitos autorais sejam usados em outros produtos, se não prejudicarem o original. Mas os autores argumentam que obras inteiras, inclusive restritas a assinantes, são exibidas em respostas do ChatGPT. Recorrendo à nossa metáfora, é como se o sábio professor tivesse adquirido seu conhecimento a partir de livros pirateados, usando, como defesa, que estavam no "xerox da faculdade".
Os grandes LLMs há muito tempo esbarram na falta de conteúdo novo para serem treinados, depois de terem "consumido" praticamente toda a Internet. Para contornar isso, a OpenAI teria criado uma tecnologia para transcrever vídeos do YouTube para "treinar" o GPT-4, o que é proibido.
Do alto da sua genialidade, Newton afirmava que suas inestimáveis contribuições científicas e matemáticas só foram possíveis graças ao conhecimento acumulado por grandes pensadores que o precederam. O próprio conceito da sua famosa frase foi "emprestado": ele é atribuído ao filósofo medieval Bernardo de Chartres, do século XII, que dizia que estudiosos de sua época se apoiavam nas realizações de grandes pensadores da Antiguidade.
A ciência é um encadeamento infinito de ideias que evoluem a partir do que já se sabe, com novas descobertas. Nessa briga pelo domínio da IA, a OpenAI está "sem moral" para apontar dedos para a DeepSeek ou qualquer outra empresa.
Vídeo relacionado: