A Nvidia lançou o Nemotron 3 Super, um modelo de linguagem inovador de 120 bilhões de parâmetros projetado para atender às crescentes demandas de sistemas de IA multiagentes. Este modelo combina três arquiteturas distintas – modelos de espaço de estado (Mamba), transformadores e uma nova mistura latente de especialistas (LatentMoE) – para fornecer capacidade de processamento e raciocínio sem precedentes, permanecendo comercialmente viável sob uma licença de código aberto modificada.
O desafio da escala em agentes de IA
A ascensão de agentes de IA capazes de lidar com tarefas complexas e de longo horizonte (como engenharia de software ou segurança cibernética) apresenta um problema de escala. Esses agentes exigem o processamento de grandes quantidades de dados, mas os modelos tradicionais lutam para manter a relação custo-benefício nessa escala. O Nemotron 3 Super da Nvidia aborda diretamente esse problema, otimizando o desempenho e a eficiência.
Inovação arquitetônica: uma abordagem em tríade
A principal força do Nemotron 3 Super reside em sua arquitetura híbrida. Ele mescla três tecnologias principais:
- Backbone híbrido Mamba-Transformer: Combina a velocidade dos modelos de espaço de estado Mamba-2 (lidando com processamento de sequência com complexidade linear) com a recuperação associativa precisa das camadas de atenção do Transformer. O resultado é um modelo capaz de manter uma janela de contexto de 1 milhão de tokens sem sobrecarga excessiva de memória.
- Mistura latente de especialistas (LatentMoE): Ao contrário dos designs tradicionais de MoE, o LatentMoE compacta tokens antes de encaminhá-los para modelos “especializados” especializados. Isso permite que o sistema consulte quatro vezes mais especialistas com o mesmo custo computacional, crucial para agentes alternando entre diversas tarefas.
- Predição de múltiplos tokens (MTP): Nemotron 3 Super prevê vários tokens futuros simultaneamente, funcionando como um modelo de rascunho integrado. Isso acelera tarefas de geração estruturada (como chamadas de código ou ferramentas) em até 3x.
Otimização Blackwell: Velocidade e Eficiência
O modelo é otimizado para a plataforma GPU Blackwell da Nvidia, pré-treinada em NVFP4 (ponto flutuante de 4 bits). Isso produz uma aceleração de inferência de 4x em comparação com modelos de 8 bits na arquitetura Hopper anterior, sem perda de precisão.
Em testes de benchmark, o Nemotron 3 Super atualmente ocupa o primeiro lugar no DeepResearch Bench, demonstrando sua capacidade de conduzir pesquisas completas em grandes conjuntos de documentos. Ele também supera GPT-OSS-120B e Qwen3.5-122B em rendimento em até 2,2x e 7,5x, respectivamente, em configurações de alto volume.
A licença de modelo aberto da Nvidia: uso comercial com salvaguardas
O modelo é lançado sob o Contrato de Licença de Modelo Aberto da Nvidia, que permite o uso comercial, mas inclui cláusulas críticas de “salvaguarda”. Essas disposições protegem a Nvidia de litígios de IP e garantem que os recursos de segurança do modelo não sejam ignorados sem substituições apropriadas. Especificamente, a licença termina se os usuários desativarem as proteções de segurança ou iniciarem um litígio de direitos autorais/patentes contra a Nvidia.
Adoção pela indústria e implicações futuras
O lançamento foi recebido com entusiasmo por desenvolvedores e líderes da indústria. A Nvidia está implantando o modelo como um microsserviço NIM, permitindo integração local e baseada na nuvem por meio da Dell AI Factory, HPE, Google Cloud, Oracle, AWS e Azure. Empresas como CodeRabbit, Siemens e Palantir já estão integrando o modelo aos fluxos de trabalho de produção.
À medida que os agentes de IA se tornam mais sofisticados, a procura por modelos de linguagem eficientes e de alto desempenho só aumentará. O Nemotron 3 Super representa um avanço significativo no atendimento a essa necessidade, fornecendo a “potência intelectual” de um modelo grande com a eficiência operacional de um especialista.




























