24 de jan 2025
DeepSeek R1: o modelo de IA chinês que desafia sanções dos EUA e surpreende especialistas
A DeepSeek, startup chinesa, lançou o modelo R1, rivalizando com o ChatGPT o1. O modelo R1 é open source e promete eficiência em tarefas complexas, como matemática. DeepSeek inova apesar das restrições de exportação dos EUA sobre chips avançados. A empresa utiliza um estoque de chips Nvidia A100, crucial para seu desenvolvimento. A cultura open source cresce na China, com startups priorizando eficiência e colaboração.
"Um pequeno chip se eleva longe de um chip grande (Foto: Stephanie Arnett/ MIT Technology Review | Rawpixel)"
Ouvir a notícia:
DeepSeek R1: o modelo de IA chinês que desafia sanções dos EUA e surpreende especialistas
Ouvir a notícia
DeepSeek R1: o modelo de IA chinês que desafia sanções dos EUA e surpreende especialistas - DeepSeek R1: o modelo de IA chinês que desafia sanções dos EUA e surpreende especialistas
A comunidade de inteligência artificial está em polvorosa com o lançamento do DeepSeek R1, um novo modelo de raciocínio de código aberto desenvolvido pela startup chinesa DeepSeek. A empresa afirma que o R1 iguala ou até supera o ChatGPT o1 da OpenAI em diversos benchmarks, operando a um custo significativamente menor. Hancheng Cao, professor assistente da Emory University, destaca que essa inovação pode ser um avanço igualitário para pesquisadores e desenvolvedores com recursos limitados, especialmente no Sul Global.
O sucesso da DeepSeek é notável, considerando as restrições impostas às empresas de IA chinesas devido ao aumento dos controles de exportação dos EUA sobre chips avançados. No entanto, evidências iniciais sugerem que essas sanções estão impulsionando startups como a DeepSeek a inovar, priorizando eficiência e colaboração. Para desenvolver o R1, a empresa reestruturou seu processo de treinamento para minimizar a carga em suas GPUs, que são versões da Nvidia com desempenho limitado.
Pesquisadores elogiaram o R1 por sua capacidade de resolver tarefas complexas, especialmente em matemática e programação. O modelo utiliza uma abordagem de "cadeia de pensamento", semelhante à do ChatGPT o1, permitindo resolver problemas passo a passo. Dimitris Papailiopoulos, pesquisador da Microsoft, elogiou a simplicidade de engenharia do R1, que foca em respostas precisas, reduzindo o tempo de computação sem comprometer a eficácia.
Apesar do burburinho em torno do R1, a DeepSeek ainda é relativamente desconhecida. Fundada em julho de 2023 em Hangzhou por Liang Wenfeng, a empresa foi incubada pelo hedge fund High-Flyer. Liang, que possui uma visão de construir inteligência artificial geral (AGI), conseguiu acumular um estoque considerável de chips Nvidia A100 antes das sanções, permitindo à DeepSeek desenvolver seus modelos. A empresa, que não planeja levantar fundos, destaca-se em um mercado dominado por gigantes como Alibaba e ByteDance, mostrando que a inovação pode prosperar mesmo em meio a desafios significativos.
Perguntas Relacionadas
Comentários
Os comentários não representam a opinião do Portal Tela;
a responsabilidade é do autor da mensagem.