- A NVIDIA anunciou o Nemotron 3 Nano Omni, um modelo multimodal aberto que integra vídeo, áudio, imagem e texto para respostas mais rápidas e precisas.
- O objetivo é ampliar a produção de agentes de IA multimodais com maior eficiência, precisão e controle de implantação.
- Empresas e softwares já avaliando o sistema incluem Foxconn, Oracle, Dell Technologies, Palantir, DocuSign, Infosys e mais; outras organizações mencionadas foram Aible, ASI, Eka Care, H Company, K-Dense, Lila e Zefr.
- Em avaliações, o Nemotron 3 Nano Omni mostrou avanço ao interpretar documentos, gráficos e capturas de tela, mantendo contexto entre áudio, vídeo e conteúdo textual.
- Um exemplo citado envolve o uso pela H Company com entrada nativa de 1920 por 1080 pixels, além de demonstrações no benchmark OSWorld, que indicaram melhoria na navegação de interfaces gráficas complexas.
O novo modelo de IA da NVIDIA, chamado Nemotron 3 Nano Omni, promete alto desempenho em multimodalidade, rodando vídeo, áudio, imagem e texto em um único sistema. A empresa afirma que o uso facilita respostas rápidas e raciocínio avançado, com flexibilidade de implantação.
A NVIDIA o apresenta como uma fronteira de eficiência para modelos abertos, com menor custo e precisão. Em benchmarks internos, o Nemotron 3 Nano Omni lidera em tarefas de documentos complexos, vídeo e áudio, segundo a empresa.
Empresas que já avaliavam a tecnologia incluem Aible, ASI, Eka Care, Foxconn, H Company, Palantir e Pyler. Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle e Zefr também acompanham o estágio de avaliação.
Características e aplicações
O Nemotron 3 Nano Omni alimenta agentes que navegam interfaces gráficas, raciocinam sobre o conteúdo exibido e monitoram o estado da interface ao longo do tempo. A H Company já utiliza uma entrada nativa de 1920×1080 pixels para raciocínio visual de alta fidelidade.
Em testes preliminares, o benchmark OSWorld aponta melhoria na navegação de interfaces gráficas complexas com processamento de imagens em alta resolução. O foco está na integração de percepção, visão e texto num fluxo único de raciocínio.
A NVIDIA destaca que o modelo também entende documentos, gráficos, tabelas e capturas de tela, além de áudio e vídeo. Essa combinação facilita fluxos de trabalho de análise, conformidade e atendimento ao cliente.
Parcerias e contexto de uso
O Nemotron 3 Nano Omni pode sustentar fluxos que requerem memória de contexto de áudio e vídeo, mantendo coerência entre o que é dito, mostrado e documentado. Tal integração é apresentada como vantagem para ambientes corporativos.
Entre os parceiros citados, além de Foxconn, aparecem Dell Technologies, Oracle e Palantir. A empresa ressalta que o objetivo é viabilizar produção de agentes multimodais mais eficientes e precisos.
Observações sobre desempenho e mercado
Apesar dos benefícios anunciados, especialistas costumam observar que o desempenho pode variar com o uso real. Casos anteriores da NVIDIA mostraram que ganhos anunciados nem sempre se mantêm fora de testes padronizados.
A empresa ressalta que o ciclo de percepção dos agentes é compatível com tarefas de atendimento, pesquisa e monitoramento. O foco permanece na confiabilidade, escalabilidade e controle de implantação.
Entre na conversa da comunidade