A tecnologia DeepSeek-R1 foi treinada com apenas 2.000 chips NVIDIA H800, em contraste com os 16.000 tipicamente necessários para modelos de desempenho similar. A tecnologia DeepSeek-R1 foi treinada com apenas 2.000 chips NVIDIA H800, em contraste com os 16.000 tipicamente necessários para modelos de desempenho similar.

DeepSeek R1 desafia domínio da OpenAI com modelo de código aberto mais eficiente e econômico

Empresa chinesa revoluciona o mercado de IA com tecnologia que oferece desempenho comparável ao o1 da OpenAI por uma fração do custo e consumo energético.
  • DeepSeek-R1 oferece desempenho comparável ao OpenAI o1 com custo de treinamento de apenas US$ 5,6 milhões, revolucionando a economia do desenvolvimento de IA.
  • O modelo chinês usa arquitetura MoE inovadora com 671 bilhões de parâmetros, embora apenas 37 bilhões estejam ativos simultaneamente, reduzindo drasticamente requisitos computacionais.
  • Disponibilizado sob licença MIT, o DeepSeek-R1 democratiza acesso a IA avançada e já se tornou o aplicativo gratuito mais baixado na App Store dos EUA.

A startup chinesa DeepSeek lançou o DeepSeek-R1, um modelo de inteligência artificial de código aberto que está causando ondas no setor tecnológico. O novo modelo demonstra capacidades de raciocínio matemático comparáveis ao o1 da OpenAI. A tecnologia foi construída com uma abordagem revolucionária que prioriza a eficiência de recursos.

Este lançamento representa um marco significativo para a indústria de IA global. O DeepSeek-R1 foi disponibilizado com licença MIT, permitindo uso e modificação sem restrições. A empresa afirma ter construído o modelo com apenas uma fração dos recursos utilizados pelos gigantes tecnológicos americanos.

DeepSeek alcançou rapidamente o topo das lojas de aplicativos, ultrapassando o ChatGPT como o aplicativo gratuito mais baixado na App Store dos EUA em janeiro. Esta rápida adoção demonstra o apetite do mercado por alternativas que ofereçam capacidades comparáveis aos modelos proprietários estabelecidos.

Desempenho excepcional com fração dos recursos tradicionais

O DeepSeek-R1 utiliza uma arquitetura inovadora Mixture-of-Experts (MoE) que transforma fundamentalmente como os modelos de IA processam informações. O modelo possui impressionantes 671 bilhões de parâmetros, embora apenas 37 bilhões estejam ativos simultaneamente. Este design eficiente resultou em economia significativa durante o processo de treinamento.

DeepSeek afirma ter gasto apenas US$ 5,6 milhões (R$ 32 milhões) para treinar seu modelo por aproximadamente dois meses. Em comparação, estima-se que a OpenAI tenha investido cerca de US$ 5 bilhões (R$ 28,5 bilhões) em desenvolvimento no último ano. Esta diferença de custo representa uma mudança paradigmática na economia do desenvolvimento de IA.

O modelo chinês alcançou 79,8% de precisão no American Invitational Mathematics Examination (AIME) 2024 e impressionantes 97,3% no MATH-500. Estes resultados colocam o DeepSeek-R1 em pé de igualdade com modelos líderes de mercado, utilizando 10 a 40 vezes menos energia.

A tecnologia DeepSeek-R1 foi treinada com apenas 2.000 chips NVIDIA H800, em contraste com os 16.000 tipicamente necessários para modelos de desempenho similar.
A tecnologia DeepSeek-R1 foi treinada com apenas 2.000 chips NVIDIA H800, em contraste com os 16.000 tipicamente necessários para modelos de desempenho similar.

O impacto disruptivo no mercado global de inteligência artificial

O lançamento do DeepSeek-R1 causou uma reviravolta significativa no mercado financeiro tecnológico. Após a estreia do aplicativo, ações da Nvidia experimentaram uma queda de 18%, refletindo preocupações sobre futuras demandas de chips avançados. Este impacto financeiro imediato destaca como o modelo chinês está redefinindo expectativas.

A comunidade de desenvolvimento respondeu criando centenas de modelos derivados em apenas alguns dias após o lançamento. Esta rápida iteração demonstra o poder da abordagem de código aberto para acelerar a inovação em inteligência artificial, permitindo que equipes menores construam sobre o trabalho existente.

A empresa oferece acesso via API com preços significativamente mais baixos que concorrentes: US$ 0,55 por milhão de tokens de entrada e US$ 2,19 por milhão de tokens de saída. Esta estratégia de preços agressiva potencialmente democratiza o acesso a modelos avançados de IA para empresas de todos os portes.

O modelo de eficiência que desafia gigantes tecnológicos

Especialistas sugerem que o sucesso do DeepSeek representa uma vitória da engenharia eficiente sobre recursos brutos. O professor associado Xia Ben Hu da Rice University destacou que, embora não seja uma revolução científica, o modelo é impressionante do ponto de vista de otimização de recursos. Esta abordagem pode inspirar novas direções no desenvolvimento de aprendizado de máquina.

A ascensão do DeepSeek demonstra como as restrições às exportações de chips avançados para a China podem inadvertidamente incentivar inovações em eficiência. Enquanto empresas ocidentais competem por acesso a mais poder computacional, a DeepSeek focou em fazer mais com menos, resultando em um modelo que desafia os líderes estabelecidos.

O fundador da DeepSeek, Liang Wenfeng, adotou uma abordagem de maximizar a otimização de recursos impulsionada por software. Esta estratégia não apenas mitigou as restrições de recursos, mas também acelerou o desenvolvimento tecnológico através da colaboração e inovação coletiva no ecossistema de código aberto.