Nvidia Nemotron 3 Super: un nuovo standard per l’intelligenza artificiale aziendale

6

Nvidia ha rilasciato Nemotron 3 Super, un rivoluzionario modello linguistico da 120 miliardi di parametri progettato per soddisfare le crescenti richieste dei sistemi IA multi-agente. Questo modello combina tre architetture distinte: modelli stato-spazio (Mamba), trasformatori e una nuova miscela latente di esperti (LatentMoE) – per fornire capacità di ragionamento e throughput senza precedenti pur rimanendo commercialmente fattibile con una licenza open source modificata.

La sfida della scalabilità negli agenti IA

L’ascesa di agenti IA in grado di gestire compiti complessi e a lungo orizzonte (come l’ingegneria del software o la sicurezza informatica) presenta un problema di scalabilità. Questi agenti richiedono l’elaborazione di grandi quantità di dati, ma i modelli tradizionali faticano a mantenere il rapporto costo-efficacia su quella scala. Nemotron 3 Super di Nvidia affronta direttamente questo problema ottimizzando sia le prestazioni che l’efficienza.

Innovazione architettonica: un approccio a triade

La forza principale di Nemotron 3 Super risiede nella sua architettura ibrida. Unisce tre tecnologie chiave:

  • Backbone ibrido Mamba-Transformer: combina la velocità dei modelli di spazio degli stati Mamba-2 (gestendo l’elaborazione di sequenze con complessità lineare) con il preciso richiamo associativo degli strati di attenzione di Transformer. Il risultato è un modello in grado di mantenere una finestra di contesto da 1 milione di token senza eccessivo sovraccarico di memoria.
  • Latent Mixture-of-Experts (LatentMoE): A differenza dei tradizionali progetti MoE, LatentMoE comprime i token prima di indirizzarli a modelli “esperti” specializzati. Ciò consente al sistema di consultare un numero quattro volte superiore di esperti allo stesso costo computazionale, fondamentale per gli agenti che passano da un compito all’altro.
  • Previsione multi-token (MTP): Nemotron 3 Super prevede più token futuri contemporaneamente, funzionando come un modello di bozza integrato. Ciò accelera le attività di generazione strutturata (come le chiamate di codice o strumenti) fino a 3 volte.

Ottimizzazione Blackwell: velocità ed efficienza

Il modello è ottimizzato per la piattaforma GPU Blackwell di Nvidia, pre-addestrata in NVFP4 (virgola mobile a 4 bit). Ciò produce una velocità di inferenza 4 volte superiore rispetto ai modelli a 8 bit della precedente architettura Hopper, senza perdita di precisione.

Nei test benchmark, Nemotron 3 Super si colloca attualmente al primo posto nel DeepResearch Bench, dimostrando la sua capacità di condurre ricerche approfondite su grandi quantità di documenti. Inoltre, supera GPT-OSS-120B e Qwen3.5-122B in termini di throughput fino a 2,2x e 7,5x, rispettivamente, in impostazioni di volume elevato.

La licenza Nvidia Open Model: uso commerciale con garanzie

Il modello è rilasciato sotto l’accordo di licenza Nvidia Open Model, che consente l’uso commerciale ma include clausole critiche di “salvaguardia”. Queste disposizioni proteggono Nvidia dalle controversie sulla proprietà intellettuale e garantiscono che le caratteristiche di sicurezza del modello non vengano aggirate senza adeguate sostituzioni. Nello specifico, la licenza termina se gli utenti disabilitano i guardrail di sicurezza o avviano un contenzioso sul copyright/brevetto contro Nvidia.

Adozione da parte del settore e implicazioni future

Il rilascio è stato accolto con entusiasmo da sviluppatori e leader del settore. Nvidia sta implementando il modello come microservizio NIM, consentendo l’integrazione on-premise e basata su cloud tramite Dell AI Factory, HPE, Google Cloud, Oracle, AWS e Azure. Aziende come CodeRabbit, Siemens e Palantir stanno già integrando il modello nei flussi di lavoro di produzione.

Man mano che gli agenti di intelligenza artificiale diventano più sofisticati, la domanda di modelli linguistici efficienti e ad alte prestazioni non potrà che aumentare. Nemotron 3 Super rappresenta un significativo passo avanti nel rispondere a questa esigenza, unendo la “forza cerebrale” di un modello di grandi dimensioni con l’efficienza operativa di uno specialista.