Inovasi NVIDIA: Llama Nemotron Ultra & Parakeet

NVIDIA dengan cepat muncul sebagai kekuatan signifikan di arena AI sumber terbuka. Rilis model-model canggih seperti Llama Nemotron Ultra dan Parakeet TDT menunjukkan langkah strategis untuk mendemokratisasikan teknologi AI dan mendorong inovasi di dalam komunitas. Dengan membuat alat-alat mutakhir ini tersedia, NVIDIA bertujuan untuk mempercepat penelitian, pengembangan, dan penerapan solusi AI di berbagai industri.

Strategi Sumber Terbuka NVIDIA

NVIDIA berkomitmen untuk memajukan ekosistem AI sumber terbuka dengan merilis model-model canggih seperti Llama Nemotron Ultra dan Parakeet. Strategi ini bertujuan untuk mendemokratisasikan akses ke teknologi AI, memungkinkan para peneliti, pengembang, dan organisasi untuk membangun dan berinovasi di atas fondasi yang kuat. Dengan berkontribusi pada komunitas sumber terbuka, NVIDIA berharap dapat mempercepat kemajuan AI dan membuka peluang baru di berbagai industri.

Llama Nemotron Ultra: Mendefinisikan Ulang Efisiensi dan Kinerja

Llama Nemotron Ultra, model dengan 253 miliar parameter, adalah bukti kehebatan teknik NVIDIA. Yang membedakannya adalah kemampuannya untuk memberikan kinerja yang sebanding dengan model yang dua kali lebih besar, seperti Llama 405B dan DeepSeek R1. Pencapaian luar biasa ini memungkinkannya untuk digunakan pada satu node 8x H100, membuatnya dapat diakses oleh lebih banyak pengguna.

Rahasia Dapur: Fusi FFN

Efisiensi Llama Nemotron Ultra yang mengesankan sebagian besar disebabkan oleh teknik inovatif yang disebut fusi FFN (Feed-Forward Network). Strategi optimasi ini, yang ditemukan melalui pencarian arsitektur saraf Puzzle NVIDIA, merampingkan arsitektur model dengan mengurangi lapisan perhatian yang berlebihan.

Dengan menyelaraskan lapisan FFN dalam urutan, teknik ini memungkinkan komputasi paralel yang lebih besar pada GPU. Menggabungkan atau memfungsikan lapisan yang tersisa memaksimalkan efisiensi, terutama bermanfaat untuk model yang lebih besar berdasarkan Llama 3.1 - 405B Meta. Manfaat fusi FFN ada dua: ia secara signifikan meningkatkan throughput, mencapai percepatan dalam kisaran 3 hingga 5x, dan mengurangi footprint memori model. Ukuran yang dikurangi memungkinkan pemanfaatan cache KV yang lebih besar, memungkinkan model untuk menangani panjang konteks yang lebih besar.

Penalaran Sesuai Permintaan: Fitur yang Mengubah Permainan

Salah satu fitur Llama Nemotron Ultra yang paling unik dan berharga adalah kemampuan "penalaran hidup/mati". Ini memungkinkan kontrol yang belum pernah terjadi sebelumnya atas proses penalaran model, menawarkan keuntungan signifikan untuk penerapan produksi dan optimasi biaya.

Kemampuan untuk mengaktifkan dan menonaktifkan penalaran melalui prompt sistem memberi perusahaan fleksibilitas untuk menyeimbangkan akurasi dengan latensi dan biaya. Penalaran, meskipun penting untuk memecahkan masalah yang kompleks, menghasilkan lebih banyak token, yang menyebabkan latensi dan biaya yang lebih tinggi. Dengan memberikan kontrol eksplisit, NVIDIA memberdayakan pengguna untuk membuat keputusan yang tepat tentang kapan harus menggunakan penalaran, sehingga mengoptimalkan kinerja dan pemanfaatan sumber daya.

Untuk mengimplementasikan fitur ini, NVIDIA secara eksplisit mengajarkan model kapan harus bernalar dan kapan tidak selama tahap penyetelan halus yang diawasi. Ini melibatkan penyajian pertanyaan yang sama dengan dua jawaban yang berbeda: satu dengan penalaran terperinci dan satu tanpa, yang pada dasarnya menggandakan kumpulan data untuk tujuan khusus ini. Hasilnya adalah satu model di mana pengguna dapat mengontrol proses penalaran hanya dengan menyertakan "gunakan pemikiran mendetail" atau "gunakan pemikiran mendetail mati" dalam prompt.

Merevolusi Pengenalan Ucapan dengan Parakeet TDT

Parakeet TDT, model ASR NVIDIA yang canggih, telah mendefinisikan ulang tolok ukur untuk kecepatan dan akurasi dalam pengenalan ucapan. Ia dapat menyalin satu jam audio hanya dalam satu detik dengan tingkat kesalahan kata yang luar biasa sebesar 6% – 50 kali lebih cepat daripada alternatif sumber terbuka lainnya.

Inovasi Arsitektur: "Bagaimana" Kinerja Parakeet

Kinerja Parakeet TDT yang mengesankan adalah hasil dari kombinasi pilihan arsitektur dan optimalisasi khusus. Ia didasarkan pada arsitektur Conformer Cepat, yang ditingkatkan dengan teknik-teknik seperti downsampling konvolusi yang dapat dipisahkan berdasarkan kedalaman dan perhatian konteks terbatas.

Downsampling konvolusi yang dapat dipisahkan berdasarkan kedalaman pada tahap input secara signifikan mengurangi biaya komputasi dan persyaratan memori untuk pemrosesan. Perhatian konteks terbatas, dengan berfokus pada potongan audio yang lebih kecil dan tumpang tindih, mempertahankan akurasi sambil mencapai percepatan dalam pemrosesan. Di sisi encoder, teknik perhatian jendela geser memungkinkan model untuk memproses file audio yang lebih panjang tanpa membaginya menjadi segmen yang lebih pendek, yang penting untuk menangani audio bentuk panjang.

Token Duration Transducer (TDT): Kunci Kecepatan

Di luar arsitektur Conformer, Parakeet TDT menggabungkan Token dan Duration Transducer (TDT). Teknologi transducer Jaringan Saraf Rekuren (RNN) tradisional memproses audio bingkai demi bingkai. TDT memungkinkan model untuk memprediksi token dan durasi yang diharapkan dari token tersebut, memungkinkannya untuk melewati bingkai yang berlebihan dan secara signifikan mempercepat proses transkripsi.

Inovasi TDT ini saja berkontribusi pada percepatan sekitar 1,5 hingga 2x. Selain itu, algoritma perulangan label memungkinkan kemajuan independen dari token untuk sampel yang berbeda selama inferensi batch, yang selanjutnya mempercepat proses decoding. Memindahkan sebagian komputasi di sisi decoder ke grafik CUDA memberikan peningkatan kecepatan 3x lainnya. Inovasi-inovasi ini memungkinkan Parakeet TDT untuk mencapai kecepatan yang sebanding dengan decoder Connectionist Temporal Classification (CTC), yang dikenal karena kecepatannya, sambil mempertahankan akurasi tinggi.

Mendemokratisasikan AI dengan Data Terbuka

Komitmen NVIDIA terhadap komunitas sumber terbuka meluas di luar rilis model untuk menyertakan berbagi kumpulan data berkualitas tinggi yang besar untuk bahasa dan ucapan. Pendekatan perusahaan untuk kurasi data menekankan transparansi dan keterbukaan, dengan tujuan berbagi sebanyak mungkin tentang data, teknik, dan alat-alatnya sehingga komunitas dapat memahami dan menggunakannya.

Kurasi Data untuk Llama Nemotron Ultra

Tujuan utama kurasi data untuk Llama Nemotron Ultra adalah untuk meningkatkan akurasi di beberapa domain utama, termasuk tugas penalaran seperti matematika dan pengkodean, serta tugas non-penalaran seperti tool calling, instruction following, dan chat.

Strateginya melibatkan kurasi kumpulan data tertentu untuk meningkatkan kinerja di bidang-bidang ini. Dalam proses penyetelan halus yang diawasi, NVIDIA membedakan antara skenario "penalaran aktif" dan "penalaran nonaktif". Model berkualitas tinggi dari komunitas dimanfaatkan sebagai "pakar" di domain tertentu. Misalnya, DeepSeek R-1 digunakan secara ekstensif untuk tugas matematika dan pengkodean yang intensif penalaran, sementara model seperti Llama dan Qwen digunakan untuk tugas non-penalaran seperti matematika dasar, pengkodean, obrolan, dan tool calling. Kumpulan data terkumpul ini, yang terdiri dari sekitar 30 juta pasangan pertanyaan-jawaban, telah tersedia untuk umum di Hugging Face.

Memastikan Kualitas Data: Pendekatan Multi-Layer

Mengingat bahwa sebagian besar data dihasilkan menggunakan model lain, NVIDIA menerapkan proses jaminan kualitas multi-layer yang ketat. Ini melibatkan:

  • Menghasilkan beberapa respons kandidat untuk prompt yang sama menggunakan setiap model ahli.
  • Mempekerjakan serangkaian model "kritik" terpisah untuk mengevaluasi kandidat-kandidat ini berdasarkan kebenaran, koherensi, dan kepatuhan terhadap prompt.
  • Menerapkan mekanisme penilaian di mana setiap pasangan pertanyaan-jawaban yang dihasilkan menerima skor kualitas berdasarkan evaluasi model kritik, dengan batas tinggi yang ditetapkan untuk penerimaan.
  • Mengintegrasikan tinjauan manusia pada berbagai tahap, dengan ilmuwan data dan insinyur secara manual memeriksa sampel data yang dihasilkan untuk mengidentifikasi kesalahan sistematis, bias, atau contoh halusinasi.
  • Berfokus pada keragaman data yang dihasilkan untuk memastikan berbagai contoh yang luas di dalam setiap domain.
  • Melakukan evaluasi ekstensif terhadap kumpulan data tolok ukur dan dalam kasus penggunaan dunia nyata setelah melatih Llama Nemotron Ultra pada data yang dikurasi ini.

Sumber Terbuka Kumpulan Data Ucapan untuk Parakeet TDT

NVIDIA berencana untuk membuka sumber kumpulan data ucapan yang substansial, sekitar 100.000 jam, yang dikuratori dengan cermat untuk mencerminkan keragaman dunia nyata. Kumpulan data ini akan mencakup variasi dalam tingkat suara, rasio sinyal terhadap noise, jenis noise latar belakang, dan bahkan format audio telepon yang relevan untuk pusat panggilan. Tujuannya adalah untuk menyediakan komunitas dengan data beragam berkualitas tinggi yang memungkinkan model untuk berkinerja baik di berbagai skenario dunia nyata.

Arah Masa Depan: Model yang Lebih Kecil, Dukungan Multibahasa, dan Streaming Real-Time

Visi NVIDIA untuk masa depan mencakup kemajuan lebih lanjut dalam dukungan multibahasa, model yang dioptimalkan tepi yang lebih kecil, dan peningkatan dalam streaming real-time untuk pengenalan ucapan.

Kemampuan Multibahasa

Mendukung banyak bahasa sangat penting bagi perusahaan besar. NVIDIA bertujuan untuk fokus pada beberapa bahasa utama dan memastikan akurasi kelas dunia untuk penalaran, tool calling, dan obrolan di dalam bahasa-bahasa tersebut. Ini kemungkinan merupakan area ekspansi utama berikutnya.

Model yang Dioptimalkan Tepi

NVIDIA sedang mempertimbangkan model hingga sekitar 50 juta parameter untuk mengatasi kasus penggunaan di tepi di mana footprint yang lebih kecil diperlukan, seperti mengaktifkan pemrosesan audio real-time untuk robot di lingkungan yang bising.

Streaming Real-Time untuk Parakeet TDT

Secara teknologi, NVIDIA berencana untuk mengerjakan kemampuan streaming untuk TDT untuk mengaktifkan transkripsi langsung dan real-time.

AI Siap Produksi: Merancang untuk Penerapan Dunia Nyata

Baik Llama Nemotron Ultra dan Parakeet TDT dirancang dengan mempertimbangkan tantangan penerapan dunia nyata, berfokus pada akurasi, efisiensi, dan efektivitas biaya.

Penalaran Hidup/Mati untuk Skalabilitas dan Efisiensi Biaya

Penalaran berlebihan dapat menyebabkan masalah skalabilitas dan peningkatan latensi di lingkungan produksi. Fitur penalaran hidup/mati yang diperkenalkan di Llama Nemotron Ultra memberikan fleksibilitas untuk mengontrol penalaran berdasarkan per-kueri, memungkinkan banyak kasus penggunaan produksi.

Menyeimbangkan Akurasi dan Efisiensi

Menyeimbangkan akurasi dan efisiensi adalah tantangan yang konstan. Pendekatan NVIDIA melibatkan pertimbangan yang matang dari jumlah epoch untuk setiap keterampilan selama pelatihan dan terus-menerus mengukur akurasi. Tujuannya adalah untuk meningkatkan kinerja di semua bidang utama.

Peran Model NVIDIA dalam Ekosistem Sumber Terbuka

NVIDIA memandang peran Llama Nemotron Ultra dan Parakeet TDT di dalam ekosistem sumber terbuka dan LLM yang lebih luas sebagai membangun fondasi yang ada dan berfokus secara sempit pada area tertentu untuk menambah nilai yang signifikan. Perusahaan bertujuan untuk terus mengidentifikasi area tertentu di mana ia dapat berkontribusi, sementara yang lain terus membangun model tujuan umum yang sangat baik yang cocok untuk produksi perusahaan.

Kesimpulan: Sumber Terbuka, Cepat, Throughput Tinggi, Efisien Biaya

Kesimpulan utama dari pekerjaan NVIDIA pada Llama Nemotron Ultra dan Parakeet TDT adalah komitmen untuk membuka sumber segalanya, mencapai akurasi yang canggih, mengoptimalkan footprint untuk pemanfaatan GPU yang efisien dalam hal latensi dan throughput, dan memberdayakan komunitas.

Semua model dan kumpulan data tersedia di Hugging Face. Tumpukan perangkat lunak untuk menjalankannya berasal dari NVIDIA dan tersedia di NGC, repositori kontennya. Sebagian besar perangkat lunak yang mendasarinya juga bersifat sumber terbuka dan dapat ditemukan di GitHub. Kerangka kerja Nemo adalah hub pusat untuk sebagian besar tumpukan perangkat lunak ini.