DeepSeek R1: o modelo de IA chinês que desafia sanções dos EUA e surpreende especialistas

A comunidade de inteligência artificial está em polvorosa com o lançamento do DeepSeek R1, um novo modelo de raciocínio de código aberto desenvolvido pela startup chinesa DeepSeek. A empresa afirma que o R1 iguala ou até supera o ChatGPT o1 da OpenAI em diversos benchmarks, operando a um custo significativamente menor. Hancheng Cao, professor assistente […]

A comunidade de inteligência artificial está em polvorosa com o lançamento do DeepSeek R1, um novo modelo de raciocínio de código aberto desenvolvido pela startup chinesa DeepSeek. A empresa afirma que o R1 iguala ou até supera o ChatGPT o1 da OpenAI em diversos benchmarks, operando a um custo significativamente menor. Hancheng Cao, professor assistente da Emory University, destaca que essa inovação pode ser um avanço igualitário para pesquisadores e desenvolvedores com recursos limitados, especialmente no Sul Global.

O sucesso da DeepSeek é notável, considerando as restrições impostas às empresas de IA chinesas devido ao aumento dos controles de exportação dos EUA sobre chips avançados. No entanto, evidências iniciais sugerem que essas sanções estão impulsionando startups como a DeepSeek a inovar, priorizando eficiência e colaboração. Para desenvolver o R1, a empresa reestruturou seu processo de treinamento para minimizar a carga em suas GPUs, que são versões da Nvidia com desempenho limitado.

Pesquisadores elogiaram o R1 por sua capacidade de resolver tarefas complexas, especialmente em matemática e programação. O modelo utiliza uma abordagem de “cadeia de pensamento”, semelhante à do ChatGPT o1, permitindo resolver problemas passo a passo. Dimitris Papailiopoulos, pesquisador da Microsoft, elogiou a simplicidade de engenharia do R1, que foca em respostas precisas, reduzindo o tempo de computação sem comprometer a eficácia.

Apesar do burburinho em torno do R1, a DeepSeek ainda é relativamente desconhecida. Fundada em julho de 2023 em Hangzhou por Liang Wenfeng, a empresa foi incubada pelo hedge fund High-Flyer. Liang, que possui uma visão de construir inteligência artificial geral (AGI), conseguiu acumular um estoque considerável de chips Nvidia A100 antes das sanções, permitindo à DeepSeek desenvolver seus modelos. A empresa, que não planeja levantar fundos, destaca-se em um mercado dominado por gigantes como Alibaba e ByteDance, mostrando que a inovação pode prosperar mesmo em meio a desafios significativos.