EXCLUSIVO PARA ASSINANTES

Professor Livre Docente de inteligência artificial na Faculdade de Saúde Pública da USP

Opinião | O que tem de tão especial no DeepSeek, o algoritmo que abalou o mundo?

A China surpreendeu pesquisadores ao lançar uma IA mais barata e eficiente

PUBLICIDADE

Foto do author Alexandre  Chiavegatto Filho
Atualização:

Há pouco tempo, os avanços de inteligência artificial (IA) levavam alguns meses, ou até anos, para ter um impacto real na área. A arquitetura neural dos transformers, introduzida por Vaswani et al. no artigo Attention Is All You Need em 2017, só começou a demonstrar todo o seu potencial anos depois, principalmente após o lançamento do GPT-3 em 2020.

Porém, não estamos mais vivendo em tempos normais. O DeepSeek-R1, lançado na semana passada por uma startup chinesa, causou um impacto duplo na área: além de publicar o artigo DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning, que detalha as suas inovações técnicas, disponibilizou o algoritmo de forma aberta e gratuita.

Graças à sua arquitetura mais enxuta, o DeepSeek-R1 consome até 50% menos energia do que modelos comparáveis Foto: Justin Sullivan/AFP

PUBLICIDADE

Ao contrário das LLMs tradicionais, que dependem de ajuste fino supervisionado (SFT) com o uso de dados rotulados, a DeepSeek adotou uma abordagem puramente de aprendizado por reforço (RL), realizando o seu treinamento por meio de interações com o ambiente e uma otimização baseada em diferentes graus de recompensas.

Essa estratégia, inicialmente tornada famosa pelo AlphaGo em 2016, permitiu que o algoritmo desenvolvesse capacidades autônomas de raciocínio em cadeia (CoT), auto-verificação e reflexão. Isso facilitou o encadeamento lógico de raciocínios e o ajuste contínuo das respostas, melhorando a sua resolução de problemas complexos sem a necessidade de uma supervisão direta como é feita pelas outras LLMs.

Segundo a DeepSeek, o treinamento do algoritmo levou apenas dois meses e custou menos de seis milhões de dólares. Em comparação, o último grande modelo lançado pela Meta teve um custo estimado de sessenta a setenta milhões de dólares, enquanto o GPT-4 da OpenAI provavelmente custou centenas de milhões de dólares. O DeepSeek-R1 foi treinado usando duas mil GPUs NVIDIA A100, uma fração do hardware necessário para modelos como o GPT-3, que exigiu dez mil GPUs, ou o GPT-4, estimado em vinte e cinco a trinta mil GPUs.

Publicidade

Além disso, graças à sua arquitetura mais enxuta, o DeepSeek-R1 consome até 50% menos energia do que modelos comparáveis, o que é muito importante em um mundo onde o impacto climático dos algoritmos será uma preocupação crescente.

Em termos de performance, o DeepSeek-R1 rivaliza com os principais algoritmos das big techs. Em benchmarks de raciocínio matemático, como o AIME 2024, alcançou uma pontuação de 79,8%, um pouco superior aos 79,2% do OpenAI o1. No MATH-500, obteve 97,3%, superando os 96,4% do mesmo concorrente. Em tarefas de codificação, como o Codeforces, o DeepSeek-R1 atingiu 96,3%, próximo aos 96,6% do OpenAI o1.

Por fim, por ser open-source, o DeepSeek-R1 democratizou o acesso a essas inovações, permitindo que pesquisadores de todo o mundo consigam utilizar a tecnologia. Para o Brasil, serve como uma inspiração de que, mesmo com recursos limitados, é possível participar da revolução tecnológica que está apenas começando.

Opinião por Alexandre Chiavegatto Filho

Professor Livre Docente de inteligência artificial na Faculdade de Saúde Pública da USP

Comentários

Os comentários são exclusivos para cadastrados.