A introdução do modelo de inteligência artificial (IA) DeepSeek R1, originário da China, está transformando diversas concepções acerca do que é essencial para alcançar altos níveis de desempenho no campo dos chatbots. Criado com um investimento consideravelmente inferior ao de concorrentes como ChatGPT e Claude, este modelo de código aberto conseguiu competir, apresentando um custo que varia entre 3% a 5% do preço do modelo proprietário da OpenAI.
A informação provocou uma busca intensa por parte de desenvolvedores ao redor do globo, resultando em mais de 109 mil downloads do modelo DeepSeek R1 na HuggingFace, a principal plataforma de modelos de código aberto, que também oferece acesso ao modelo Llama da Meta.
Na bolsa dos Estados Unidos, o impacto do anúncio da China resultou em uma segunda-feira agitada, com o índice Nasdaq-100 apresentando uma queda de 3,40%. As ações de grandes empresas como Nvidia (-12%), Microsoft (-4,63%) e Meta (-3,40%) registraram perdas expressivas.
Conhecido como o “momento Sputnik” da inteligência artificial, esse progresso intensifica a competição tecnológica entre os Estados Unidos e a China, ao mesmo tempo em que especialistas têm opiniões divergentes sobre a longevidade dessa nova posição de liderança. Essa situação revela a urgência de uma reavaliação estratégica por parte das grandes empresas de tecnologia, uma vez que o investimento em infraestrutura de IA deve atingir US$ 280 bilhões até 2025, conforme estimativas do UBS.
A principal inovação do DeepSeek R1 reside em sua metodologia de engenharia, que opta por uma mudança quase total do convencional aprendizado supervisionado (SFT) para o aprendizado por reforço (RL).
O SFT, bastante utilizado no setor industrial, centra-se em capacitar modelos a adotar lógicas estabelecidas, empregando dados organizados em uma sequência de raciocínio (Chain-of-Thought, CoT).
Entretanto, a DeepSeek optou por uma abordagem diferente, eliminando em grande medida o SFT durante a maior parte do treinamento e baseando-se quase que totalmente no aprendizado por reforço.
Essa decisão audaciosa estimulou o modelo a aprimorar habilidades de pensamento autônomo, sem a necessidade de conjuntos de dados convencionais, que podem resultar em vulnerabilidades e preconceitos.
A abordagem se revelou uma mudança significativa. Durante a fase de treinamento do DeepSeek-R1-Zero, uma versão de transição do modelo, os cientistas relataram uma sensação de descoberta quando a inteligência artificial mostrou habilidade para dedicar mais tempo a desafios complexos e solucioná-los com precisão.
“O relatório técnico da empresa destacou que o modelo parecia desenvolver soluções criativas e organizar suas descobertas com uma abordagem quase humana.“.
Eficiência
O DeepSeek teve seu início em 2023, quando uma startup chinesa, resultado de uma divisão da gestora de fundos High-Flyer Quant, começou a trabalhar no desenvolvimento de modelos de inteligência artificial para uso interno antes de disponibilizar suas inovações ao público.
Sua abordagem inicial adotou métodos convencionais, empregando tecnologias de código aberto, como o modelo Llama, desenvolvido pela Meta, e a biblioteca PyTorch.
A companhia também conseguiu superar obstáculos comerciais para assegurar a aquisição de 50 mil GPUs da Nvidia, uma pequena parte dos equipamentos empregados por colossos como OpenAI e Google, que utilizam mais de 500 mil GPUs cada.
Com uma previsão de investimento inicial para treinamento de aproximadamente US$ 5,58 milhões, o modelo base V3 já mostrava grande potencial no mercado competitivo.
Apesar de os custos totais do R1 ainda serem incertos, é evidente que a equipe da DeepSeek conseguiu aproveitar de maneira excepcional recursos restritos, implementando inovações como o treinamento de precisão mista, que diminui a memória requerida por GPU ao trabalhar com números de 8 bits, além de algoritmos que melhoram a comunicação entre as GPUs, potencializando sua eficiência.
Importância para as empresas
O efeito do DeepSeek R1 sugere que suas implicações vão além do grupo de programadores de inteligência artificial. Sua habilidade de entregar resultados comparáveis aos dos principais concorrentes, a um custo mais baixo, questiona a necessidade de se pautar por modelos exclusivos, como os desenvolvidos pela OpenAI.
Para as empresas, isso representa uma ampliação do acesso à inteligência artificial avançada, possibilitando que companhias menores participem da competição tecnológica sem a necessidade de gastar bilhões em infraestrutura.
Ademais, a clareza do DeepSeek representa um forte desafio aos modelos fechados das grandes empresas. A abordagem do modelo revela todo o processo que leva às suas respostas, possibilitando que os desenvolvedores localizem e ajustem falhas de maneira mais simples.
Por outro lado, a OpenAI decide esconder as “sequências de raciocínio” de seus algoritmos, justificando essa escolha por razões de concorrência e para prevenir mal-entendidos decorrentes de respostas errôneas.
Repercussões
A procedência chinesa do DeepSeek suscitou debates sobre a possibilidade de influências relacionadas a políticas regionais, como a exclusão de temas delicados, entre os quais se destaca o Massacre da Praça da Paz Celestial. Entretanto, vários desenvolvedores consideram esses incidentes como pouco frequentes e ressaltam que viéses também se manifestam em modelos de firmas ocidentais, como OpenAI e Meta.
Uma outra ressalva é que, apesar de o DeepSeek R1 ser classificado como de código aberto, a companhia ainda não divulgou todas as informações sobre seus conjuntos de dados utilizados para treinamento, o que gera incertezas acerca da verdadeira transparência do projeto. (Foto: Reprodução)
Com informação da BBC