China desafiou o domínio do ChatGPT criando uma IA de ponta

A introdução do modelo de inteligência artificial (IA) DeepSeek R1, originário da China, está transformando diversas concepções acerca do que é essencial para alcançar altos níveis de desempenho no campo dos chatbots. Criado com um investimento consideravelmente inferior ao de concorrentes como ChatGPT e Claude, este modelo de código aberto conseguiu competir, apresentando um custo que varia entre 3% a 5% do preço do modelo proprietário da OpenAI.

A informação provocou uma busca intensa por parte de desenvolvedores ao redor do globo, resultando em mais de 109 mil downloads do modelo DeepSeek R1 na HuggingFace, a principal plataforma de modelos de código aberto, que também oferece acesso ao modelo Llama da Meta.

Na bolsa dos Estados Unidos, o impacto do anúncio da China resultou em uma segunda-feira agitada, com o índice Nasdaq-100 apresentando uma queda de 3,40%. As ações de grandes empresas como Nvidia (-12%), Microsoft (-4,63%) e Meta (-3,40%) registraram perdas expressivas.

Conhecido como o “momento Sputnik” da inteligência artificial, esse progresso intensifica a competição tecnológica entre os Estados Unidos e a China, ao mesmo tempo em que especialistas têm opiniões divergentes sobre a longevidade dessa nova posição de liderança. Essa situação revela a urgência de uma reavaliação estratégica por parte das grandes empresas de tecnologia, uma vez que o investimento em infraestrutura de IA deve atingir US$ 280 bilhões até 2025, conforme estimativas do UBS.

A principal inovação do DeepSeek R1 reside em sua metodologia de engenharia, que opta por uma mudança quase total do convencional aprendizado supervisionado (SFT) para o aprendizado por reforço (RL).

O SFT, bastante utilizado no setor industrial, centra-se em capacitar modelos a adotar lógicas estabelecidas, empregando dados organizados em uma sequência de raciocínio (Chain-of-Thought, CoT).

Entretanto, a DeepSeek optou por uma abordagem diferente, eliminando em grande medida o SFT durante a maior parte do treinamento e baseando-se quase que totalmente no aprendizado por reforço.

Essa decisão audaciosa estimulou o modelo a aprimorar habilidades de pensamento autônomo, sem a necessidade de conjuntos de dados convencionais, que podem resultar em vulnerabilidades e preconceitos.

A abordagem se revelou uma mudança significativa. Durante a fase de treinamento do DeepSeek-R1-Zero, uma versão de transição do modelo, os cientistas relataram uma sensação de descoberta quando a inteligência artificial mostrou habilidade para dedicar mais tempo a desafios complexos e solucioná-los com precisão.

O relatório técnico da empresa destacou que o modelo parecia desenvolver soluções criativas e organizar suas descobertas com uma abordagem quase humana.“.

Eficiência

O DeepSeek teve seu início em 2023, quando uma startup chinesa, resultado de uma divisão da gestora de fundos High-Flyer Quant, começou a trabalhar no desenvolvimento de modelos de inteligência artificial para uso interno antes de disponibilizar suas inovações ao público.

Sua abordagem inicial adotou métodos convencionais, empregando tecnologias de código aberto, como o modelo Llama, desenvolvido pela Meta, e a biblioteca PyTorch.

A companhia também conseguiu superar obstáculos comerciais para assegurar a aquisição de 50 mil GPUs da Nvidia, uma pequena parte dos equipamentos empregados por colossos como OpenAI e Google, que utilizam mais de 500 mil GPUs cada.

Com uma previsão de investimento inicial para treinamento de aproximadamente US$ 5,58 milhões, o modelo base V3 já mostrava grande potencial no mercado competitivo.

Apesar de os custos totais do R1 ainda serem incertos, é evidente que a equipe da DeepSeek conseguiu aproveitar de maneira excepcional recursos restritos, implementando inovações como o treinamento de precisão mista, que diminui a memória requerida por GPU ao trabalhar com números de 8 bits, além de algoritmos que melhoram a comunicação entre as GPUs, potencializando sua eficiência.

Importância para as empresas

O efeito do DeepSeek R1 sugere que suas implicações vão além do grupo de programadores de inteligência artificial. Sua habilidade de entregar resultados comparáveis aos dos principais concorrentes, a um custo mais baixo, questiona a necessidade de se pautar por modelos exclusivos, como os desenvolvidos pela OpenAI.

Para as empresas, isso representa uma ampliação do acesso à inteligência artificial avançada, possibilitando que companhias menores participem da competição tecnológica sem a necessidade de gastar bilhões em infraestrutura.

Ademais, a clareza do DeepSeek representa um forte desafio aos modelos fechados das grandes empresas. A abordagem do modelo revela todo o processo que leva às suas respostas, possibilitando que os desenvolvedores localizem e ajustem falhas de maneira mais simples.

Por outro lado, a OpenAI decide esconder as “sequências de raciocínio” de seus algoritmos, justificando essa escolha por razões de concorrência e para prevenir mal-entendidos decorrentes de respostas errôneas.

Repercussões

A procedência chinesa do DeepSeek suscitou debates sobre a possibilidade de influências relacionadas a políticas regionais, como a exclusão de temas delicados, entre os quais se destaca o Massacre da Praça da Paz Celestial. Entretanto, vários desenvolvedores consideram esses incidentes como pouco frequentes e ressaltam que viéses também se manifestam em modelos de firmas ocidentais, como OpenAI e Meta.

Uma outra ressalva é que, apesar de o DeepSeek R1 ser classificado como de código aberto, a companhia ainda não divulgou todas as informações sobre seus conjuntos de dados utilizados para treinamento, o que gera incertezas acerca da verdadeira transparência do projeto. (Foto: Reprodução)

 

Com informação da BBC

Relacionados

plugins premium WordPress