Nvidia Nemotron 3 Super: Standar Baru untuk AI Perusahaan

20

Nvidia telah merilis Nemotron 3 Super, model bahasa inovatif dengan 120 miliar parameter yang dirancang untuk memenuhi permintaan sistem AI multi-agen yang terus meningkat. Model ini menggabungkan tiga arsitektur berbeda—state-space model (Mamba), transformator, dan Latent Mixture-of-Experts (LatentMoE) yang baru—untuk menghadirkan kemampuan throughput dan penalaran yang belum pernah ada sebelumnya, namun tetap layak secara komersial di bawah lisensi sumber terbuka yang dimodifikasi.

Tantangan Skala pada Agen AI

Munculnya agen AI yang mampu menangani tugas-tugas kompleks dan berjangka panjang (seperti rekayasa perangkat lunak atau keamanan siber) menghadirkan masalah penskalaan. Agen-agen ini memerlukan pemrosesan data dalam jumlah besar, namun model tradisional kesulitan mempertahankan efektivitas biaya pada skala tersebut. Nemotron 3 Super dari Nvidia secara langsung mengatasi masalah ini dengan mengoptimalkan kinerja dan efisiensi.

Inovasi Arsitektur: Pendekatan Triad

Kekuatan inti Nemotron 3 Super terletak pada arsitektur hybridnya. Ini menggabungkan tiga teknologi utama:

  • Tulang Punggung Mamba-Transformer Hibrid: Ini menggabungkan kecepatan model ruang keadaan Mamba-2 (menangani pemrosesan urutan dengan kompleksitas linier) dengan penarikan asosiatif yang tepat dari lapisan perhatian Transformer. Hasilnya adalah model yang mampu mempertahankan jendela konteks 1 juta token tanpa overhead memori yang berlebihan.
  • Campuran-Pakar Laten (LatentMoE): Tidak seperti desain MoE tradisional, LatentMoE mengompresi token sebelum mengarahkannya ke model “ahli” khusus. Hal ini memungkinkan sistem untuk berkonsultasi dengan pakar empat kali lebih banyak dengan biaya komputasi yang sama, hal ini penting bagi agen untuk beralih antar tugas yang berbeda.
  • Prediksi Multi-Token (MTP): Nemotron 3 Super memprediksi beberapa token masa depan secara bersamaan, berfungsi sebagai model draf bawaan. Hal ini mempercepat tugas pembuatan terstruktur (seperti panggilan kode atau alat) hingga 3x.

Optimasi Blackwell: Kecepatan dan Efisiensi

Model ini dioptimalkan untuk platform GPU Blackwell Nvidia, yang telah dilatih sebelumnya dalam NVFP4 (floating point 4-bit). Hal ini menghasilkan kecepatan inferensi 4x dibandingkan model 8-bit pada arsitektur Hopper sebelumnya, tanpa kehilangan akurasi.

Dalam pengujian benchmark, Nemotron 3 Super saat ini menempati peringkat No. 1 di DeepResearch Bench, menunjukkan kemampuannya untuk melakukan penelitian menyeluruh pada kumpulan dokumen besar. Performanya juga mengungguli GPT-OSS-120B dan Qwen3.5-122B dalam throughput masing-masing hingga 2,2x dan 7,5x, dalam pengaturan volume tinggi.

Lisensi Model Terbuka Nvidia: Penggunaan Komersial dengan Perlindungan

Model ini dirilis berdasarkan Perjanjian Lisensi Model Terbuka Nvidia, yang mengizinkan penggunaan komersial tetapi mencakup klausul “pengamanan” yang penting. Ketentuan ini melindungi Nvidia dari litigasi IP dan memastikan bahwa fitur keselamatan model tidak diabaikan tanpa penggantian yang sesuai. Secara khusus, lisensi berakhir jika pengguna menonaktifkan pagar pengaman atau memulai litigasi hak cipta/paten terhadap Nvidia.

Adopsi Industri dan Implikasinya di Masa Depan

Rilis ini mendapat antusiasme dari para pengembang dan pemimpin industri. Nvidia menerapkan model ini sebagai layanan mikro NIM, yang memungkinkan integrasi lokal dan berbasis cloud melalui Dell AI Factory, HPE, Google Cloud, Oracle, AWS, dan Azure. Perusahaan seperti CodeRabbit, Siemens, dan Palantir sudah mengintegrasikan model ini ke dalam alur kerja produksi.

Seiring dengan semakin canggihnya agen AI, permintaan akan model bahasa yang efisien dan berkinerja tinggi akan semakin meningkat. Nemotron 3 Super mewakili langkah maju yang signifikan dalam mengatasi kebutuhan ini, memberikan “kekuatan otak” model besar dengan efisiensi operasional seorang spesialis.