Nvidia a publié Nemotron 3 Super, un modèle de langage révolutionnaire de 120 milliards de paramètres conçu pour répondre aux demandes croissantes des systèmes d’IA multi-agents. Ce modèle combine trois architectures distinctes : des modèles d’espace d’état (Mamba), des transformateurs et un nouveau mélange d’experts latents (LatentMoE) – pour offrir un débit et des capacités de raisonnement sans précédent tout en restant commercialement viable sous une licence open source modifiée.
Le défi de l’échelle des agents IA
La montée en puissance d’agents d’IA capables de gérer des tâches complexes à long terme (comme l’ingénierie logicielle ou la cybersécurité) présente un problème d’évolutivité. Ces agents nécessitent de traiter de grandes quantités de données, mais les modèles traditionnels peinent à maintenir leur rentabilité à cette échelle. Le Nemotron 3 Super de Nvidia s’attaque directement à ce problème en optimisant à la fois les performances et l’efficacité.
Innovation architecturale : une approche triade
La principale force du Nemotron 3 Super réside dans son architecture hybride. Il fusionne trois technologies clés :
- Hybrid Mamba-Transformer Backbone : Cela combine la vitesse des modèles d’espace d’état Mamba-2 (gestion du traitement des séquences avec une complexité linéaire) avec le rappel associatif précis des couches d’attention Transformer. Le résultat est un modèle capable de maintenir une fenêtre contextuelle d’un million de jetons sans surcharge de mémoire excessive.
- Mélange latent d’experts (LatentMoE) : Contrairement aux conceptions MoE traditionnelles, LatentMoE compresse les jetons avant de les acheminer vers des modèles « experts » spécialisés. Cela permet au système de consulter quatre fois plus d’experts pour le même coût de calcul, ce qui est crucial pour les agents passant d’une tâche à l’autre.
- Prédiction multi-jetons (MTP) : Nemotron 3 Super prédit simultanément plusieurs futurs jetons, fonctionnant comme un modèle de brouillon intégré. Cela accélère jusqu’à 3 fois les tâches de génération structurées (comme les appels de code ou d’outils).
Optimisation Blackwell : vitesse et efficacité
Le modèle est optimisé pour la plate-forme GPU Blackwell de Nvidia, pré-entraînée en NVFP4 (virgule flottante 4 bits). Cela donne une accélération d’inférence 4x par rapport aux modèles 8 bits sur l’architecture Hopper précédente, sans perte de précision.
Lors des tests de référence, Nemotron 3 Super se classe actuellement n°1 sur le DeepResearch Bench, démontrant sa capacité à mener des recherches approfondies sur de grands ensembles de documents. Il surpasse également GPT-OSS-120B et Qwen3.5-122B en termes de débit jusqu’à 2,2x et 7,5x, respectivement, dans les paramètres à volume élevé.
La licence Nvidia Open Model : utilisation commerciale avec garanties
Le modèle est publié sous le contrat de licence Nvidia Open Model, qui autorise une utilisation commerciale mais comprend des clauses de « sauvegarde » critiques. Ces dispositions protègent Nvidia des litiges en matière de propriété intellectuelle et garantissent que les fonctionnalités de sécurité du modèle ne sont pas contournées sans remplacements appropriés. Plus précisément, la licence prend fin si les utilisateurs désactivent les garde-corps de sécurité ou engagent un litige en matière de droit d’auteur/brevet contre Nvidia.
Adoption par l’industrie et implications futures
La version a été accueillie avec enthousiasme par les développeurs et les leaders de l’industrie. Nvidia déploie le modèle en tant que microservice NIM, permettant une intégration sur site et basée sur le cloud via Dell AI Factory, HPE, Google Cloud, Oracle, AWS et Azure. Des entreprises telles que CodeRabbit, Siemens et Palantir intègrent déjà le modèle dans les flux de production.
À mesure que les agents d’IA deviennent plus sophistiqués, la demande de modèles de langage efficaces et performants ne fera qu’augmenter. Nemotron 3 Super représente une avancée significative pour répondre à ce besoin, en fournissant la « puissance cérébrale » d’un grand modèle avec l’efficacité opérationnelle d’un spécialiste.
