NVIDIA apresenta IA com salto de 9x e apoio de Oracle e Foxconn

A NVIDIA anunciou o Nemotron 3 Nano Omni, um modelo multimodal aberto que integra vídeo, áudio, imagem e texto para respostas mais rápidas e precisas.
O objetivo é ampliar a produção de agentes de IA multimodais com maior eficiência, precisão e controle de implantação.
Empresas e softwares já avaliando o sistema incluem Foxconn, Oracle, Dell Technologies, Palantir, DocuSign, Infosys e mais; outras organizações mencionadas foram Aible, ASI, Eka Care, H Company, K-Dense, Lila e Zefr.
Em avaliações, o Nemotron 3 Nano Omni mostrou avanço ao interpretar documentos, gráficos e capturas de tela, mantendo contexto entre áudio, vídeo e conteúdo textual.
Um exemplo citado envolve o uso pela H Company com entrada nativa de 1920 por 1080 pixels, além de demonstrações no benchmark OSWorld, que indicaram melhoria na navegação de interfaces gráficas complexas.

O novo modelo de IA da NVIDIA, chamado Nemotron 3 Nano Omni, promete alto desempenho em multimodalidade, rodando vídeo, áudio, imagem e texto em um único sistema. A empresa afirma que o uso facilita respostas rápidas e raciocínio avançado, com flexibilidade de implantação.

A NVIDIA o apresenta como uma fronteira de eficiência para modelos abertos, com menor custo e precisão. Em benchmarks internos, o Nemotron 3 Nano Omni lidera em tarefas de documentos complexos, vídeo e áudio, segundo a empresa.

Empresas que já avaliavam a tecnologia incluem Aible, ASI, Eka Care, Foxconn, H Company, Palantir e Pyler. Dell Technologies, DocuSign, Infosys, K-Dense, Lila, Oracle e Zefr também acompanham o estágio de avaliação.

Características e aplicações

O Nemotron 3 Nano Omni alimenta agentes que navegam interfaces gráficas, raciocinam sobre o conteúdo exibido e monitoram o estado da interface ao longo do tempo. A H Company já utiliza uma entrada nativa de 1920×1080 pixels para raciocínio visual de alta fidelidade.

Em testes preliminares, o benchmark OSWorld aponta melhoria na navegação de interfaces gráficas complexas com processamento de imagens em alta resolução. O foco está na integração de percepção, visão e texto num fluxo único de raciocínio.

A NVIDIA destaca que o modelo também entende documentos, gráficos, tabelas e capturas de tela, além de áudio e vídeo. Essa combinação facilita fluxos de trabalho de análise, conformidade e atendimento ao cliente.

Parcerias e contexto de uso

O Nemotron 3 Nano Omni pode sustentar fluxos que requerem memória de contexto de áudio e vídeo, mantendo coerência entre o que é dito, mostrado e documentado. Tal integração é apresentada como vantagem para ambientes corporativos.

Entre os parceiros citados, além de Foxconn, aparecem Dell Technologies, Oracle e Palantir. A empresa ressalta que o objetivo é viabilizar produção de agentes multimodais mais eficientes e precisos.

Observações sobre desempenho e mercado

Apesar dos benefícios anunciados, especialistas costumam observar que o desempenho pode variar com o uso real. Casos anteriores da NVIDIA mostraram que ganhos anunciados nem sempre se mantêm fora de testes padronizados.

A empresa ressalta que o ciclo de percepção dos agentes é compatível com tarefas de atendimento, pesquisa e monitoramento. O foco permanece na confiabilidade, escalabilidade e controle de implantação.

Converse com o Telinha

NVIDIA apresenta IA com salto de 9x e apoio de Oracle e Foxconn

Características e aplicações

Parcerias e contexto de uso

Observações sobre desempenho e mercado

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Converse com o Telinha

NVIDIA apresenta IA com salto de 9x e apoio de Oracle e Foxconn

Características e aplicações

Parcerias e contexto de uso

Observações sobre desempenho e mercado

Relacionados:

Comentários 0

Entre na conversa da comunidade

Veja Mais

Fique por dentro