DeepSeek: conheça a startup chinesa de IA que está dando trabalho para OpenAI e Google

Empresa criou um chatbot mais barato e competitivo com menos chips de computador de última geração do que gigantes americanos como Google e OpenAI, mostrando os limites do controle de exportação de chips

PUBLICIDADE

Por Cade Metz (The New York Times ) e Meaghan Tobin (The New York Times)
Atualização:

Logo depois do Natal, uma pequena startup chinesa chamada DeepSeek revelou uma nova inteligência artificial (IA) com desempenho tão bom quantos os modelos mais avançados de OpenAI e Google. No fim de semana, o modelo chinês sacudiu o mercado de tecnologia nos Estados Unidos ao ultrapassar o ChatGPT em popularidade na Apple App Store.

PUBLICIDADE

A marca fez as ações das big techs despencarem em Nova York. As ações da Nvidia operam em queda de 11%, com a Micron Technology, 9% a Advanced Micro Devices perdendo quase 4%.

Num artigo científico, a equipe por trás da IA chinesa, chamada DeepSeek-V3, mostrou como usaram apenas uma fração dos chips de computador altamente especializados que as principais empresas de IA usam para treinar seus sistemas. Em resumo, eles conseguem fazer mais com muito menos recursos.

Com preço mais barato, startup consegue competir com gigantes da tecnologia Foto: maurice norbert/Adobe Stock

Há uma razão para a grande eficiência: esses chips, chamados de GPUs, estão no centro de uma tensa competição tecnológica entre os Estados Unidos e a China. Enquanto o governo dos EUA trabalha para manter a liderança do país na corrida global de IA., ele está tentando limitar o número de chips poderosos, como os fabricados pela Nvidia, empresa do Vale do Silício, que podem ser vendidos para a China e outros rivais.

Publicidade

Mas o desempenho do modelo DeepSeek levanta questões sobre as consequências não intencionais das restrições comerciais do governo americano. Os controles forçaram os pesquisadores na China a serem criativos com uma ampla gama de ferramentas disponíveis gratuitamente na internet.

O chatbot DeepSeek responde a perguntas, resolve problemas de lógica e escreve seus próprios programas de computador com a mesma capacidade que qualquer outro já existente no mercado, de acordo com os testes de referência que as empresas americanas de IA têm usado.

E foi criado de forma econômica, desafiando a ideia predominante de que somente as maiores empresas do setor de tecnologia - todas elas sediadas nos Estados Unidos - poderiam se dar ao luxo de criar os sistemas de IA mais avançados. Os engenheiros chineses disseram que precisaram de apenas US$ 6 milhões em poder de computação bruta para construir seu novo sistema. Isso é cerca de 10 vezes menos do que a gigante da tecnologia Meta gastou para construir sua mais recente tecnologia de IA.

“O número de empresas que têm US$ 6 milhões para gastar é muito maior do que o número de empresas que têm US$ 100 milhões ou US$ 1 bilhão para gastar”, disse Chris V. Nicholson, investidor da empresa de investimento Page One Ventures, que se concentra em tecnologias de IA.

Publicidade

Desde que a OpenAI provocou o boom da IA em 2022 com o lançamento do ChatGPT, muitos especialistas e investidores concluíram que nenhuma empresa poderia competir com os líderes de mercado sem gastar centenas de milhões de dólares em chips especializados.

As principais empresas de IA do mundo treinam seus chatbots usando supercomputadores que utilizam até 16 mil chips. Os engenheiros da DeepSeek, por outro lado, disseram que precisavam de apenas cerca de 2 mil chips de computador especializados da Nvidia.

As restrições de chips na China forçaram os engenheiros do DeepSeek a “treiná-lo de forma mais eficiente para que ele ainda pudesse ser competitivo”, disse Jeffrey Ding, professor assistente da Universidade George Washington, especializado em tecnologia emergente e relações internacionais.

No início deste mês, o governo Biden emitiu novas regras que visam impedir que a China obtenha chips avançados de IA por meio de outros países - uma ordem que prejudica, inclusive, o desenvolvimento de IA no Brasil. As regras se baseiam em várias rodadas de restrições anteriores que impedem as empresas chinesas de comprar ou fabricar chips de computador de última geração. O presidente Trump ainda não indicou se aceitará as regras ou as rescindirá.

Publicidade

PUBLICIDADE

O governo dos EUA tentou manter os chips avançados fora das mãos das empresas chinesas devido a preocupações de que eles poderiam ser usados para fins militares. Em resposta, algumas empresas na China armazenaram milhares de chips, enquanto outras os adquiriram em um próspero mercado clandestino de contrabandistas.

A DeepSeek é administrada por uma empresa de negociação de ações quantitativas chamada High Flyer. Em 2021, ela canalizou seus lucros para a aquisição de milhares de chips da Nvidia, que foram usados para treinar seus modelos anteriores. A empresa, que não respondeu aos pedidos de comentários, tornou-se conhecida na China por atrair talentos recém-saídos das melhores universidades com a promessa de altos salários e a capacidade de acompanhar as questões de pesquisa que mais despertam seu interesse.

Zihan Wang, um engenheiro de computação que trabalhou em um modelo anterior da DeepSeek, disse que a empresa também contrata pessoas sem formação em ciência da computação para ajudar a tecnologia a entender e ser capaz de gerar poesia e acertar perguntas no notoriamente difícil vestibular chinês.

A DeepSeek não fabrica nenhum produto para os consumidores, deixando seus engenheiros se concentrarem inteiramente na pesquisa. Isso significa que sua tecnologia não está limitada pelo aspecto mais rigoroso das regulamentações chinesas sobre IA, que exigem que a tecnologia voltada para o consumidor esteja em conformidade com os controles do governo sobre as informações.

Publicidade

Código aberto é a chave

Em dezembro, a OpenAI revelou um novo sistema de “raciocínio” chamado o3 que excede o desempenho das tecnologias existentes, embora ainda não esteja amplamente disponível fora da empresa. Mas a DeepSeek continua a mostrar que não está muito atrás. Neste mês, ela lançou um impressionante modelo de raciocínio próprio.

Uma parte crucial desse mercado global em rápida mudança é uma ideia antiga: software de código aberto. Como muitas outras empresas, a DeepSeek abriu o código-fonte de seu mais recente sistema de I.A., o que significa que ela compartilhou o código subjacente com outras empresas e pesquisadores. Isso permite que outros criem e distribuam seus próprios produtos usando as mesmas tecnologias.

Enquanto os funcionários de grandes empresas chinesas de tecnologia estão limitados a colaborar com colegas, “se você trabalha com código aberto, trabalha com talentos do mundo todo”, disse Yineng Zhang, engenheiro de software líder da Baseten em São Francisco, que trabalha no projeto de código aberto SGLang. Ele ajuda outras pessoas e empresas a criar produtos usando o sistema da DeepSeek.

O ecossistema de código aberto para IA ganhou força em 2023, quando a Meta compartilhou livremente um sistema de IA chamado LLama. Muitos presumiram que essa comunidade floresceria somente se empresas como a Meta - gigantes da tecnologia com enormes data centers repletos de chips especializados - continuassem a abrir o código-fonte de suas tecnologias. Mas a DeepSeek e outras empresas mostraram que elas também podem expandir os poderes das tecnologias de código aberto.”

Publicidade

Muitos executivos e especialistas argumentaram que as grandes empresas dos EUA não deveriam abrir o código-fonte de suas tecnologias porque elas poderiam ser usadas para disseminar desinformação ou causar outros danos graves. Alguns legisladores dos EUA exploraram a possibilidade de impedir ou restringir essa prática.

Mas outros argumentam que, se os órgãos reguladores sufocarem o progresso da tecnologia de código aberto nos Estados Unidos, a China ganhará uma vantagem significativa. Se as melhores tecnologias de código aberto vierem da China, eles argumentam, os desenvolvedores dos EUA criarão seus sistemas com base nessas tecnologias. Em longo prazo, isso poderia colocar a China no centro da pesquisa e do desenvolvimento de IA.

“O centro de gravidade da comunidade de código aberto está se deslocando para a China”, disse Ion Stoica, professor de ciência da computação da Universidade da Califórnia, em Berkeley. “Isso pode ser um grande perigo para os EUA”, pois permite que a China acelere o desenvolvimento de novas tecnologias.

Horas após sua posse, o presidente Trump rescindiu uma ordem executiva do governo Biden que ameaçava restringir as tecnologias de código aberto.

Publicidade

Stoica e seus alunos criaram recentemente um sistema de IA chamado Sky-T1 que rivaliza com o desempenho do sistema mais recente da OpenAI, chamado OpenAI o1, em determinados testes de benchmark. Eles precisaram de apenas US$ 450 em poder de computação.

Eles fizeram isso com base em duas tecnologias de código aberto lançadas pela gigante chinesa de tecnologia Alibaba.

Seu sistema de US$ 450 não é tão poderoso quanto a tecnologia da OpenAI ou o novo sistema da DeepSeek. E é improvável que as técnicas que eles usaram produzam sistemas que excedam o desempenho das tecnologias líderes. Mas o projeto mostrou que mesmo operações com recursos minúsculos podem criar sistemas competitivos.

Reuven Cohen, um consultor de tecnologia em Toronto, está usando o DeepSeek-V3 desde o final de dezembro. Ele diz que é comparável aos sistemas mais recentes da OpenAI, do Google e da startup Anthropic - e muito mais barato de usar.

Publicidade

“O DeepSeek é uma maneira de eu economizar dinheiro”, disse ele. “Esse é o tipo de tecnologia que alguém como eu quer usar.”

Este conteúdo foi traduzido com o auxílio de ferramentas de Inteligência Artificial e revisado por nossa equipe editorial. Saiba mais em nossa Política de IA.

Comentários

Os comentários são exclusivos para cadastrados.