Criadores do modelo de IA DeepSeek revelam segredos que transformam o setor tecnológico

A empresa chinesa DeepSeek lançou o modelo R1, um modelo de linguagem que utiliza aprendizado por reforço.
O R1 foi desenvolvido com um custo de treinamento de apenas US$ 294 mil, significativamente menor que os concorrentes.
O modelo se destacou em tarefas de raciocínio lógico, como matemática e programação, superando modelos tradicionais.
O R1 passou por um processo de revisão por pares, um marco para a transparência na pesquisa em inteligência artificial.
Inovações no aprendizado por reforço do R1 influenciaram a pesquisa em modelos de linguagem em 2025, apesar de algumas limitações, como respostas longas e mistura de idiomas.

DeepSeek, uma empresa chinesa, lançou o modelo R1, um LLM que utiliza aprendizado por reforço e promete revolucionar a inteligência artificial generativa. O modelo foi apresentado em um artigo na revista Nature, onde os pesquisadores detalham suas inovações.

O R1 foi desenvolvido em um contexto desafiador, enfrentando restrições de acesso a chips de última geração. A abordagem da DeepSeek se afastou do aprendizado supervisionado tradicional, focando em um método que simula o aprendizado infantil por meio de tentativas e erros. “Demonstramos que as habilidades de raciocínio dos grandes modelos de linguagem podem ser incentivadas por técnicas de aprendizado reforçado puro”, afirmam os pesquisadores.

O modelo se destacou em tarefas que exigem raciocínio lógico, como matemática e programação, alcançando um desempenho superior a modelos tradicionais. O custo de treinamento do R1 foi de apenas US$ 294 mil, um valor consideravelmente menor em comparação aos tens of millions gastos por concorrentes. A DeepSeek utilizou principalmente chips H800 da Nvidia, que enfrentaram restrições de venda para a China.

Inovações e Impacto

O R1 é considerado o primeiro LLM a passar por um processo de peer-review, um marco importante para a transparência na pesquisa em inteligência artificial. Lewis Tunstall, engenheiro de machine learning na Hugging Face, destaca que essa prática é essencial para avaliar os riscos associados a esses sistemas.

A principal inovação do R1 foi a utilização de um tipo automatizado de aprendizado por reforço, que recompensa o modelo por respostas corretas, permitindo que ele desenvolva suas próprias estratégias de raciocínio. Essa abordagem tem influenciado significativamente a pesquisa em LLMs, com muitos trabalhos em 2025 sendo inspirados pelo modelo da DeepSeek.

Apesar dos avanços, o R1 apresenta algumas limitações, como respostas excessivamente longas e a mistura de idiomas. Para melhorar a clareza, a equipe de pesquisa está integrando um pouco de aprendizado supervisionado, buscando um equilíbrio entre precisão e clareza nas respostas. A abordagem inovadora da DeepSeek pode abrir caminho para modelos de inteligência artificial mais autônomos e adaptáveis no futuro.

Converse com o Telinha

Criadores do modelo de IA DeepSeek revelam segredos que transformam o setor tecnológico

Inovações e Impacto

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais