Nvidia Nemotron 3 Super: een nieuwe standaard voor zakelijke AI

9

Nvidia heeft Nemotron 3 Super uitgebracht, een baanbrekend taalmodel met 120 miljard parameters, ontworpen om tegemoet te komen aan de groeiende eisen van multi-agent AI-systemen. Dit model combineert drie verschillende architecturen – state-space modellen (Mamba), transformatoren en een nieuwe Latent Mixture-of-Experts (LatentMoE) – om ongekende doorvoer- en redeneringsmogelijkheden te leveren, terwijl het commercieel levensvatbaar blijft onder een aangepaste open-sourcelicentie.

De uitdaging van schaalgrootte in AI-agenten

De opkomst van AI-agents die complexe taken met een lange horizon kunnen uitvoeren (zoals software-engineering of cyberbeveiliging) vormt een schaalprobleem. Deze agenten vereisen de verwerking van enorme hoeveelheden gegevens, maar traditionele modellen hebben moeite om de kosteneffectiviteit op die schaal te behouden. Nvidia’s Nemotron 3 Super pakt dit probleem direct aan door te optimaliseren voor zowel prestaties als efficiëntie.

Architectonische innovatie: een drievoudige aanpak

De kernkracht van Nemotron 3 Super ligt in de hybride architectuur. Het combineert drie sleuteltechnologieën:

  • Hybride Mamba-Transformer Backbone: Dit combineert de snelheid van Mamba-2 state-space-modellen (verwerking van sequentieverwerking met lineaire complexiteit) met de nauwkeurige associatieve herinnering van Transformer-aandachtslagen. Het resultaat is een model dat een contextvenster van 1 miljoen tokens kan onderhouden zonder overmatige geheugenoverhead.
  • Latent Mixture-of-Experts (LatentMoE): In tegenstelling tot traditionele MoE-ontwerpen comprimeert LatentMoE tokens voordat ze naar gespecialiseerde “expert”-modellen worden geleid. Hierdoor kan het systeem vier keer zoveel experts raadplegen tegen dezelfde rekenkosten, wat cruciaal is voor agenten die tussen verschillende taken moeten schakelen.
  • Multi-Token Prediction (MTP): Nemotron 3 Super voorspelt meerdere toekomstige tokens tegelijkertijd en functioneert als een ingebouwd conceptmodel. Dit versnelt gestructureerde generatietaken (zoals code- of tooloproepen) tot wel 3x.

Blackwell-optimalisatie: snelheid en efficiëntie

Het model is geoptimaliseerd voor Nvidia’s Blackwell GPU-platform, vooraf getraind in NVFP4 (4-bit floating point). Dit levert een 4x snellere gevolgtrekking op vergeleken met 8-bits modellen op de vorige Hopper-architectuur, zonder verlies aan nauwkeurigheid.

Bij benchmarktests staat Nemotron 3 Super momenteel op nummer 1 op de DeepResearch Bench, wat aantoont dat het in staat is grondig onderzoek uit te voeren op grote documentensets. Het presteert ook beter dan GPT-OSS-120B en Qwen3.5-122B wat betreft doorvoer tot respectievelijk 2,2x en 7,5x bij instellingen met hoog volume.

De Nvidia Open Model-licentie: commercieel gebruik met waarborgen

Het model wordt vrijgegeven onder de Nvidia Open Model License Agreement, die commercieel gebruik toestaat, maar cruciale “veiligheidsclausules” bevat. Deze voorzieningen beschermen Nvidia tegen IP-rechtszaken en zorgen ervoor dat de veiligheidsvoorzieningen van het model niet worden omzeild zonder passende vervangingen. De licentie eindigt met name als gebruikers de veiligheidsrails uitschakelen of een rechtszaak tegen Nvidia over auteursrechten/patent starten.

Industrie-adoptie en toekomstige implicaties

De release is met enthousiasme ontvangen door ontwikkelaars en marktleiders. Nvidia implementeert het model als een NIM-microservice, waardoor on-premise en cloudgebaseerde integratie mogelijk wordt via Dell AI Factory, HPE, Google Cloud, Oracle, AWS en Azure. Bedrijven als CodeRabbit, Siemens en Palantir integreren het model al in productieworkflows.

Naarmate AI-agenten geavanceerder worden, zal de vraag naar efficiënte, krachtige taalmodellen alleen maar toenemen. Nemotron 3 Super vertegenwoordigt een belangrijke stap voorwaarts in het tegemoetkomen aan deze behoefte, door de “denkkracht” van een groot model te bieden met de operationele efficiëntie van een specialist.