Nvidia accélère la conduite autonome avec de nouveaux modèles d’IA ouverts

9

Nvidia a dévoilé lundi une suite de nouveaux modèles d’IA et d’outils de développement, conçus pour accélérer la recherche sur les véhicules autonomes et les systèmes physiques d’IA. Le cœur de l’annonce est Alpamayo-R1, un modèle de langage de vision open source spécialement conçu pour le développement de voitures autonomes. Cela marque une avancée significative dans la fourniture aux véhicules de la capacité de comprendre leur environnement et de prendre des décisions de conduite semblables à celles d’un humain.

L’essor de « l’IA physique »

La poussée vers la conduite autonome fait partie de la stratégie plus large de Nvidia visant à dominer le domaine émergent de « l’IA physique ». Comme l’a déclaré Jensen Huang, PDG de Nvidia, la prochaine grande vague d’IA ira au-delà des logiciels et s’étendra au monde physique – englobant les robots, les systèmes autonomes et les véhicules qui interagissent avec la réalité. C’est pourquoi Nvidia investit massivement dans la technologie fondamentale de ces systèmes, y compris les GPU et les modèles d’IA qui les alimentent.

Alpamayo-R1 : Vision et raisonnement combinés

Alpamayo-R1 est unique car il s’agit du premier modèle d’action en langage visuel adapté à la conduite autonome. Contrairement à la reconnaissance d’image de base, ce modèle peut traiter à la fois le texte et la saisie visuelle simultanément. Cela signifie qu’un véhicule utilisant Alpamayo-R1 peut « voir » un panneau d’arrêt, lire le texte sur un panneau de signalisation et interpréter les informations combinées pour prendre les décisions appropriées.

Le modèle s’appuie sur l’architecture Cosmos-Reason existante de Nvidia, une IA de raisonnement lancée pour la première fois en janvier 2025. Cosmos permet aux systèmes d’IA de réfléchir aux décisions avant d’agir, imitant la résolution de problèmes de type humain. Cette capacité est essentielle pour atteindre le niveau 4 d’autonomie, où les véhicules peuvent fonctionner de manière indépendante dans des environnements définis.

Assistance aux développeurs : le livre de recettes Cosmos

Pour aider les développeurs à intégrer ces outils d’IA dans leurs projets, Nvidia a publié le Cosmos Cookbook sur GitHub. Cette ressource fournit des guides étape par étape, des outils d’inférence et des flux de travail post-formation pour la conservation des données, la génération de données synthétiques et l’évaluation des modèles. Nvidia souhaite rendre ces outils aussi accessibles que possible.

Pourquoi c’est important

Le développement de l’IA avancée pour la conduite autonome n’est pas seulement une question de commodité ; c’est une question de sécurité et d’évolutivité. Les systèmes de conduite autonome actuels sont confrontés à des cas extrêmes et à des scénarios imprévisibles. Un modèle de raisonnement comme Alpamayo-R1 pourrait aider les véhicules à naviguer dans des situations complexes de manière plus fiable, rapprochant ainsi la véritable autonomie de niveau 4 de la réalité.

La nature open source de ces outils est également importante, car elle favorise la collaboration et l’innovation rapide au sein de la communauté de la conduite autonome. La décision de Nvidia témoigne d’un engagement à façonner l’avenir de la mobilité basée sur l’IA.

L’avancée agressive de Nvidia dans l’IA physique souligne sa vision à long terme : être le fournisseur technologique fondamental pour la prochaine génération de systèmes intelligents. Les dirigeants de l’entreprise, y compris le scientifique en chef Bill Dally, estiment que la robotique et l’automatisation basée sur l’IA deviendront une force dominante dans les années à venir, et Nvidia a l’intention d’être au cœur de cette transformation.