Dalam perbualan yang mendedahkan, Joey Conway dari NVIDIA memberikan pandangan mendalam tentang kemajuan terkini syarikat dalam model bahasa besar sumber terbuka (LLM) dan pengecaman pertuturan automatik (ASR). Perbincangan ini berpusat pada Llama Nemotron Ultra dan Parakeet, dua projek terobosan yang mempamerkan komitmen NVIDIA untuk menolak sempadan teknologi AI.
Strategi Sumber Terbuka NVIDIA
NVIDIA berkembang pesat sebagai kuasa penting dalam arena AI sumber terbuka. Pelancaran model lanjutan seperti Llama Nemotron Ultra dan Parakeet TDT menunjukkan langkah strategik untuk mendemokrasikan teknologi AI dan memupuk inovasi dalam komuniti. Dengan menyediakan alatan canggih ini, NVIDIA bertujuan untuk mempercepatkan penyelidikan, pembangunan dan penggunaan penyelesaian AI merentas pelbagai industri.
Llama Nemotron Ultra: Mendefinisikan Semula Kecekapan dan Prestasi
Llama Nemotron Ultra, model parameter 253 bilion, ialah bukti kehebatan kejuruteraan NVIDIA. Apa yang membezakannya ialah keupayaannya untuk memberikan prestasi yang setanding dengan model yang dua kali lebih besar, seperti Llama 405B dan DeepSeek R1. Pencapaian yang luar biasa ini membolehkannya digunakan pada nod 8x H100 tunggal, menjadikannya boleh diakses oleh pelbagai pengguna yang lebih luas.
Rahsia Utama: Gabungan FFN
Kecekapan Llama Nemotron Ultra yang mengagumkan sebahagian besarnya disebabkan oleh teknik inovatif yang dipanggil gabungan FFN (Rangkaian Suapan-Hadapan). Strategi pengoptimuman ini, yang ditemui melalui carian seni bina neural NVIDIA’s Puzzle, memperkemas seni bina model dengan mengurangkan lapisan perhatian yang berlebihan.
Dengan menjajarkan lapisan FFN dalam urutan, teknik ini membolehkan pengkomputeran selari yang lebih besar pada GPU. Menggabungkan atau menggabungkan lapisan yang tinggal memaksimumkan kecekapan, terutamanya bermanfaat untuk model yang lebih besar berdasarkan Llama 3.1 - 405B Meta. Faedah gabungan FFN adalah dua: ia meningkatkan dengan ketara daya pemprosesan, mencapai pecutan dalam julat 3 hingga 5x, dan mengurangkan jejak memori model. Saiz yang dikurangkan membolehkan penggunaan cache KV yang lebih besar, membolehkan model mengendalikan panjang konteks yang lebih besar.
Penaakulan Atas Permintaan: Ciri Mengubah Permainan
Salah satu ciri Llama Nemotron Ultra yang paling unik dan berharga ialah keupayaan “penaakulan hidup/mati”. Ini membolehkan kawalan yang belum pernah terjadi sebelumnya ke atas proses penaakulan model, menawarkan kelebihan yang ketara untuk penggunaan pengeluaran dan pengoptimuman kos.
Keupayaan untuk menghidupkan dan mematikan penaakulan melalui gesaan sistem memberi perusahaan fleksibiliti untuk mengimbangi ketepatan dengan kependaman dan kos. Penaakulan, walaupun penting untuk menyelesaikan masalah yang kompleks, menjana lebih banyak token, yang membawa kepada kependaman dan kos yang lebih tinggi. Dengan menyediakan kawalan eksplisit, NVIDIA memperkasakan pengguna untuk membuat keputusan termaklum tentang bila untuk menggunakan penaakulan, dengan itu mengoptimumkan prestasi dan penggunaan sumber.
Untuk melaksanakan ciri ini, NVIDIA secara eksplisit mengajar model bila untuk menaakul dan bila tidak semasa peringkat penalaan halus yang diselia. Ini melibatkan pembentangan soalan yang sama dengan dua jawapan yang berbeza: satu dengan penaakulan terperinci dan satu tanpa, pada dasarnya menggandakan set data untuk tujuan khusus ini. Hasilnya ialah model tunggal di mana pengguna boleh mengawal proses penaakulan dengan hanya memasukkan “gunakan pemikiran terperinci pada” atau “gunakan pemikiran terperinci mati” dalam gesaan.
Merevolusikan Pengecaman Pertuturan dengan Parakeet TDT
Parakeet TDT, model ASR termaju NVIDIA, telah mentakrifkan semula penanda aras untuk kelajuan dan ketepatan dalam pengecaman pertuturan. Ia boleh mentranskripsi satu jam audio dalam hanya satu saat dengan kadar ralat perkataan 6% yang luar biasa – 50 kali lebih pantas daripada alternatif sumber terbuka yang lain.
Inovasi Senibina: "Bagaimana" Prestasi Parakeet
Prestasi Parakeet TDT yang mengagumkan adalah hasil gabungan pilihan seni bina dan pengoptimuman tertentu. Ia berdasarkan seni bina Conformer Pantas, dipertingkatkan dengan teknik seperti pengurangan pensampelan konvolusi boleh pisah mengikut kedalaman dan perhatian konteks terhad.
Pengurangan pensampelan konvolusi boleh pisah mengikut kedalaman pada peringkat input dengan ketara mengurangkan kos pengkomputeran dan keperluan memori untuk pemprosesan. Perhatian konteks terhad, dengan memfokuskan pada cebisan audio yang lebih kecil dan bertindih, mengekalkan ketepatan sambil mencapai pecutan dalam pemprosesan. Di bahagian pengekod, teknik perhatian tetingkap gelongsor membolehkan model memproses fail audio yang lebih panjang tanpa membahagikannya kepada segmen yang lebih pendek, yang penting untuk mengendalikan audio borang panjang.
Transduser Tempoh Token (TDT): Kunci Kepada Kelajuan
Di sebalik seni bina Conformer, Parakeet TDT menggabungkan Transduser Token dan Tempoh (TDT). Teknologi transduser Rangkaian Neural Berulang tradisional (RNN) memproses bingkai audio demi bingkai. TDT membolehkan model meramalkan kedua-dua token dan jangkaan tempoh token tersebut, membolehkannya melangkau bingkai berlebihan dan mempercepatkan proses transkripsi dengan ketara.
Inovasi TDT ini sahaja menyumbang kira-kira 1.5 hingga 2x pecutan. Selain itu, algoritma gelung label membenarkan kemajuan token bebas untuk sampel yang berbeza semasa inferens kelompok, yang seterusnya mempercepatkan proses penyahkodan. Memindahkan sebahagian daripada pengiraan di bahagian penyahkod ke dalam graf CUDA menyediakan rangsangan kelajuan 3x yang lain. Inovasi ini membolehkan Parakeet TDT mencapai kelajuan yang setanding dengan penyahkod Connectionist Temporal Classification (CTC), yang terkenal dengan kelajuannya, sambil mengekalkan ketepatan yang tinggi.
Mendemokrasikan AI dengan Data Terbuka
Komitmen NVIDIA kepada komuniti sumber terbuka melangkaui keluaran model untuk memasukkan perkongsian set data berkualiti tinggi yang besar untuk bahasa dan pertuturan. Pendekatan syarikat terhadap kurasi data menekankan ketelusan dan keterbukaan, dengan matlamat untuk berkongsi sebanyak mungkin tentang data, teknik dan alatnya supaya komuniti dapat memahami dan menggunakannya.
Kurasi Data untuk Llama Nemotron Ultra
Matlamat utama kurasi data untuk Llama Nemotron Ultra adalah untuk meningkatkan ketepatan merentas beberapa domain utama, termasuk tugas penaakulan seperti matematik dan pengekodan, serta tugas bukan penaakulan seperti panggilan alat, susulan arahan dan sembang.
Strategi ini melibatkan kurasi set data khusus untuk meningkatkan prestasi dalam bidang ini. Dalam proses penalaan halus yang diselia, NVIDIA membezakan antara senario "penaakulan hidup" dan "penaakulan mati". Model berkualiti tinggi daripada komuniti telah dimanfaatkan sebagai "pakar" dalam domain tertentu. Contohnya, DeepSeek R-1 digunakan secara meluas untuk tugas matematik dan pengekodan intensif penaakulan, manakala model seperti Llama dan Qwen digunakan untuk tugas bukan penaakulan seperti matematik asas, pengekodan, sembang dan panggilan alat. Set data yang dikurasi ini, yang terdiri daripada kira-kira 30 juta pasangan soalan-jawapan, telah disediakan secara terbuka di Hugging Face.
Memastikan Kualiti Data: Pendekatan Berbilang Lapisan
Memandangkan sebahagian besar data dijana menggunakan model lain, NVIDIA melaksanakan proses jaminan kualiti berbilang lapisan yang rapi. Ini melibatkan:
- Menjana berbilang respons calon untuk gesaan yang sama menggunakan setiap model pakar.
- Menggunakan set berasingan model "pengkritik" untuk menilai calon ini berdasarkan ketepatan, keselarasan dan kepatuhan kepada gesaan.
- Melaksanakan mekanisme pemarkahan di mana setiap pasangan soalan-jawapan yang dijana menerima skor kualiti berdasarkan penilaian model pengkritik, dengan ambang tinggi ditetapkan untuk penerimaan.
- Mengintegrasikan semakan manusia pada pelbagai peringkat, dengan saintis data dan jurutera memeriksa secara manual sampel data yang dijana untuk mengenal pasti sebarang ralat sistematik, berat sebelah atau contoh halusinasi.
- Memfokuskan pada kepelbagaian data yang dijana untuk memastikan pelbagai contoh yang luas dalam setiap domain.
- Menjalankan penilaian yang meluas terhadap set data penanda aras dan dalam kes penggunaan dunia sebenar selepas melatih Llama Nemotron Ultra pada data yang dikurasi ini.
Sumber Terbuka Set Data Pertuturan untuk Parakeet TDT
NVIDIA merancang untuk sumber terbuka set data pertuturan yang besar, sekitar 100,000 jam, dikurasi dengan teliti untuk menggambarkan kepelbagaian dunia sebenar. Set data ini akan merangkumi variasi dalam tahap bunyi, nisbah isyarat kepada hingar, jenis hingar latar belakang dan juga format audio telefon yang berkaitan untuk pusat panggilan. Matlamatnya adalah untuk menyediakan komuniti dengan data berkualiti tinggi dan pelbagai yang membolehkan model berfungsi dengan baik merentas pelbagai senario dunia sebenar.
Hala Tuju Masa Depan: Model Lebih Kecil, Sokongan Berbilang Bahasa dan Penstriman Masa Nyata
Visi NVIDIA untuk masa depan termasuk kemajuan selanjutnya dalam sokongan berbilang bahasa, model yang lebih kecil yang dioptimumkan untuk tepi dan peningkatan dalam penstriman masa nyata untuk pengecaman pertuturan.
Keupayaan Berbilang Bahasa
Menyokong berbilang bahasa adalah penting untuk perusahaan besar. NVIDIA bertujuan untuk memfokuskan pada beberapa bahasa utama dan memastikan ketepatan bertaraf dunia untuk penaakulan, panggilan alat dan sembang dalam bahasa tersebut. Ini mungkin merupakan bidang pengembangan utama seterusnya.
Model Dioptimumkan Tepi
NVIDIA sedang mempertimbangkan model sehingga sekitar 50 juta parameter untuk menangani kes penggunaan di tepi di mana jejak yang lebih kecil diperlukan, seperti mendayakan pemprosesan audio masa nyata untuk robot dalam persekitaran yang bising.
Penstriman Masa Nyata untuk Parakeet TDT
Dari segi teknologi, NVIDIA merancang untuk mengusahakan keupayaan penstriman untuk TDT untuk mendayakan transkripsi langsung masa nyata.
AI Sedia Pengeluaran: Mereka Bentuk untuk Penggunaan Dunia Sebenar
Kedua-dua Llama Nemotron Ultra dan Parakeet TDT direka bentuk dengan mempertimbangkan cabaran penggunaan dunia sebenar, memfokuskan pada ketepatan, kecekapan dan keberkesanan kos.
Penaakulan Hidup/Mati untuk Kebolehskalaan dan Kecekapan Kos
Penaakulan yang berlebihan boleh membawa kepada isu kebolehskalaan dan peningkatan kependaman dalam persekitaran pengeluaran. Ciri hidup/mati penaakulan yang diperkenalkan dalam Llama Nemotron Ultra menyediakan fleksibiliti untuk mengawal penaakulan berdasarkan pertanyaan, mendayakan pelbagai kes penggunaan pengeluaran.
Mengimbangkan Ketepatan dan Kecekapan
Mengimbangkan ketepatan dan kecekapan adalah cabaran yang berterusan. Pendekatan NVIDIA melibatkan pertimbangan yang teliti terhadap bilangan epok untuk setiap kemahiran semasa latihan dan sentiasa mengukur ketepatan. Matlamatnya adalah untuk meningkatkan prestasi merentas semua bidang utama.
Peranan Model NVIDIA dalam Ekosistem Sumber Terbuka
NVIDIA melihat peranan Llama Nemotron Ultra dan Parakeet TDT dalam ekosistem sumber terbuka dan LLM yang lebih luas sebagai membina asas sedia ada dan memfokuskan secara sempit pada bidang tertentu untuk menambah nilai yang ketara. Syarikat itu berhasrat untuk terus mengenal pasti bidang tertentu di mana ia boleh menyumbang, sementara yang lain terus membina model tujuan umum yang sangat baik yang sesuai untuk pengeluaran perusahaan.
Pengambilan Utama: Sumber Terbuka, Pantas, Daya Pemprosesan Tinggi, Cekap Kos
Pengambilan utama daripada kerja NVIDIA pada Llama Nemotron Ultra dan Parakeet TDT ialah komitmen untuk sumber terbuka segala-galanya, mencapai ketepatan terkini, mengoptimumkan jejak untuk penggunaan GPU yang cekap dari segi kependaman dan daya pemprosesan, dan memperkasakan komuniti.
Semua model dan set data tersedia di Hugging Face. Tindanan perisian untuk menjalankannya datang daripada NVIDIA dan tersedia di NGC, repositori kandungannya. Kebanyakan perisian asas juga merupakan sumber terbuka dan boleh didapati di GitHub. Rangka kerja Nemo ialah hab pusat untuk sebahagian besar tindanan perisian ini.