Huawei Technologies, sebuah perusahaan yang menghadapi tantangan teknologi signifikan karena sanksi AS, dilaporkan telah mencapai terobosan dalam pelatihan model kecerdasan buatan (AI). Para peneliti yang mengerjakan model bahasa besar (LLM) Huawei, Pangu, mengklaim telah mengembangkan pendekatan yang ditingkatkan yang mengungguli metodologi asli DeepSeek. Metode inovatif ini memanfaatkan perangkat keras milik Huawei sendiri, mengurangi ketergantungan perusahaan pada teknologi AS, sebuah tujuan penting dalam lanskap geopolitik saat ini.
Munculnya Mixture of Grouped Experts (MoGE)
Landasan kemajuan Huawei terletak pada konsep Mixture of Grouped Experts (MoGE). Teknik baru ini, yang dirinci dalam sebuah makalah yang diterbitkan oleh tim Pangu Huawei, disajikan sebagai versi yang ditingkatkan dari teknik Mixture of Experts (MoE). MoE telah terbukti berperan penting dalam menciptakan model AI yang hemat biaya, seperti yang ditunjukkan oleh keberhasilan DeepSeek.
MoE menawarkan keuntungan untuk parameter model yang besar, yang mengarah pada peningkatan kapasitas pembelajaran. Namun, para peneliti Huawei mengidentifikasi inefisiensi yang timbul dari aktivasi "pakar" yang tidak merata, komponen penting dalam pelatihan AI, yang dapat menghambat kinerja saat menjalankan tugas di beberapa perangkat secara bersamaan. MoGE Huawei secara strategis mengatasi tantangan ini.
Mengatasi Inefisiensi dalam Model MoE Tradisional
Sistem MoGE dirancang dengan rumit untuk mengoptimalkan distribusi beban kerja. Gagasan utamanya adalah untuk "mengelompokkan" para ahli bersama-sama selama proses pemilihan, yang mengarah pada distribusi beban kerja yang lebih seimbang. Dengan mendistribusikan beban komputasi secara lebih merata, para peneliti melaporkan peningkatan yang nyata dalam kinerja lingkungan komputasi paralel, aspek kunci dari pelatihan AI modern.
Konsep "pakar" dalam pelatihan AI mengacu pada sub-model atau komponen khusus dalam model yang lebih besar dan lebih komprehensif. Setiap pakar dirancang dengan cermat untuk menangani tugas atau jenis data yang sangat spesifik. Pendekatan ini memanfaatkan keahlian khusus yang bervariasi, memungkinkan sistem AI secara keseluruhan untuk secara signifikan meningkatkan kinerja keseluruhannya.
Implikasi untuk Kemajuan AI Tiongkok
Kemajuan ini sangat tepat waktu. Perusahaan-perusahaan AI Tiongkok, meskipun menghadapi pembatasan AS terhadap impor chip AI canggih seperti yang berasal dari Nvidia, secara agresif mengejar metode untuk meningkatkan pelatihan model dan efisiensi inferensi. Metode-metode ini mencakup tidak hanya peningkatan algoritmik tetapi juga integrasi sinergis dari perangkat keras dan perangkat lunak.
Para peneliti Huawei secara ketat menguji arsitektur MoGE pada unit pemrosesan saraf (NPU) Ascend mereka, yang direkayasa khusus untuk mempercepat tugas-tugas AI. Hasilnya menunjukkan bahwa MoGE mencapai keseimbangan beban pakar yang superior dan eksekusi yang lebih efisien, untuk fase pelatihan dan inferensi model. Ini adalah validasi yang signifikan dari manfaat mengoptimalkan tumpukan perangkat keras dan perangkat lunak secara bersamaan.
Membandingkan Pangu dengan Model AI Terkemuka
Model Pangu Huawei, yang diperkuat oleh arsitektur MoGE dan Ascend NPU, dibandingkan dengan model AI terkemuka. Ini termasuk DeepSeek-V3, Qwen2.5-72B dari Alibaba Group Holding, dan Llama-405B dari Meta Platforms. Hasil tolok ukur menunjukkan bahwa Pangu mencapai kinerja terbaik di berbagai tolok ukur bahasa Inggris umum, dan unggul di semua tolok ukur Tiongkok. Pangu juga menunjukkan efisiensi yang lebih tinggi dalam memproses pelatihan konteks panjang, area yang sangat penting untuk tugas pemrosesan bahasa alami yang canggih.
Selain itu, model Pangu menunjukkan kemampuan luar biasa dalam tugas pemahaman bahasa umum, dengan kekuatan khusus dalam tugas penalaran. Kemampuan untuk memahami nuansa dan mengekstrak makna dari bahasa yang kompleks ini menunjukkan kemajuan yang telah dicapai Huawei dalam AI.
Signifikansi Strategis Huawei
Kemajuan Huawei dalam arsitektur model AI membawa signifikansi strategis. Mengingat sanksi yang sedang berlangsung, perusahaan yang berbasis di Shenzhen ini secara strategis berupaya untuk mengurangi ketergantungannya pada teknologi AS. Chip Ascend yang dikembangkan oleh Huawei dianggap sebagai alternatif domestik yang layak untuk prosesor dari Nvidia dan merupakan komponen kunci dari kemandirian ini.
Pangu Ultra, model bahasa besar dengan 135 miliar parameter yang dioptimalkan untuk NPU, menekankan efektivitas perampingan arsitektur dan sistemik Huawei sambil menampilkan kemampuan NPU-nya. Menunjukkan efektivitas integrasi perangkat keras-perangkat lunaknya adalah bagian penting dari menampilkan kemampuan AI Huawei.
Proses Pelatihan Terperinci
Menurut Huawei, proses pelatihan dibagi menjadi tiga tahap utama: pra-pelatihan, ekstensi konteks panjang, dan pasca-pelatihan. Pra-pelatihan melibatkan pelatihan awal model pada dataset besar yang terdiri dari 13,2 triliun token. Ekstensi konteks panjang kemudian memperluas kemampuan model untuk menangani teks yang lebih panjang dan lebih kompleks serta dibangun di atas pengenalan data awal. Fase ini menggunakan pemrosesan terdistribusi skala besar di 8.192 chip Ascend.
Huawei mengungkapkan bahwa model dan sistem akan segera tersedia untuk klien komersialnya, membuka peluang baru untuk integrasi dan pengembangan dengan mitranya.
Selami Lebih Dalam Mixture of Experts (MoE) dan Batasannya
Untuk sepenuhnya menghargai signifikansi MoGE Huawei, penting untuk memahami fondasi tempatnya dibangun: arsitektur Mixture of Experts (MoE). MoE mewakili perubahan paradigma dalam bagaimana model AI besar dirancang dan dilatih, menawarkan jalur untuk menskalakan ukuran dan kompleksitas model tanpa peningkatan proporsional dalam biaya komputasi.
Dalam jaringan saraf tradisional, setiap input diproses oleh setiap neuron di setiap lapisan. Meskipun pendekatan ini dapat menghasilkan akurasi tinggi, itu menjadi sangat mahal secara komputasi untuk model yang sangat besar. MoE, sebaliknya, memperkenalkan konsep "pakar" – jaringan saraf yang lebih kecil dan khusus yang berfokus pada subset data input tertentu.
Jaringan "gerbang" secara dinamis mengarahkan setiap input ke pakar yang paling relevan. Aktivasi selektif ini memungkinkan komputasi yang jarang, yang berarti bahwa hanya sebagian kecil dari parameter model yang digunakan untuk input tertentu. Jarangnya ini secara dramatis mengurangi biaya komputasi inferensi (menggunakan model untuk prediksi) dan pelatihan. Lebih lanjut, karena pakar yang berbeda dapat bertindak pada bagian data input yang berbeda, itu memungkinkan spesialisasi yang lebih besar dalam model.
Terlepas dari keuntungan MoE, beberapa batasan harus ditangani untuk membuka potensi penuhnya. Aktivasi pakar yang tidak merata adalah perhatian utama. Dalam banyak implementasi MoE, beberapa pakar menjadi sangat termanfaatkan, sementara yang lain relatif tidak aktif. Ketidakseimbangan ini berasal dari karakteristik data yang melekat dan desain jaringan gerbang.
Ketidakseimbangan ini dapat menyebabkan inefisiensi dalam lingkungan komputasi paralel. Karena beban kerja tidak didistribusikan secara merata di antara para ahli, beberapa unit pemrosesan dibiarkan kurang termanfaatkan sementara yang lain kewalahan. Perbedaan ini menghambat skalabilitas MoE dan mengurangi kinerja keseluruhannya. Juga, ketidakseimbangan ini sering berasal dari bias dalam data pelatihan, yang mengarah pada kurang representasi dan kurang pelatihan para ahli yang kurang aktif. Ini menghasilkan model yang sub-optimal dalam jangka panjang.
Masalah umum lainnya saat menangani MoE termasuk kompleksitas tambahan saat mendesain jaringan gerbang. Jaringan gerbang membutuhkan teknik canggih untuk memastikan bahwa para ahli dipilih dengan benar, jika tidak, MoE mungkin tidak berkinerja seperti yang diharapkan dan menyebabkan overhead yang tidak perlu.
Grouped Experts (MoGE): Mengatasi Tantangan MoE
Arsitektur Mixture of Grouped Experts (MoGE) Huawei menawarkan alternatif yang disempurnakan untuk MoE tradisional dengan berfokus pada penyeimbangan beban dan eksekusi paralel yang efisien. Metode ini melibatkan pengelompokan para ahli secara strategis, yang mengubah proses perutean data input, yang mengarah pada distribusi beban kerja yang lebih merata.
Dengan mengelompokkan para ahli selama pemilihan, MoGE memastikan bahwa setiap kelompok pakar menerima beban kerja yang lebih seimbang. Alih-alih merutekan setiap input secara independen, jaringan gerbang sekarang mengarahkan kelompok input ke kelompok pakar. Pendekatan ini mempromosikan distribusi beban komputasi yang lebih adil.
Mekanisme pengelompokan juga membantu mengurangi efek bias data. Dengan memastikan bahwa semua pakar dalam suatu kelompok dilatih pada beragam set input, MoGE mengurangi risiko kurang representasi dan kurang pelatihan. Lebih lanjut, pengelompokan pakar memungkinkan pemanfaatan sumber daya yang lebih baik. Karena setiap grup menangani beban kerja yang lebih konsisten, menjadi lebih mudah untuk mengalokasikan sumber daya komputasi secara efisien, yang mengarah pada kinerja keseluruhan yang lebih baik.
Hasil akhirnya adalah penyeimbangan beban pakar yang lebih baik dan eksekusi yang lebih efisien untuk pelatihan dan inferensi model. Ini diterjemahkan ke waktu pelatihan yang lebih cepat, biaya komputasi yang lebih rendah, dan kinerja keseluruhan yang ditingkatkan.
Ascend NPU: Akselerasi Perangkat Keras untuk AI
Ascend NPU (Neural Processing Unit) memainkan peran kunci dalam strategi AI Huawei. Prosesor ini dirancang khusus untuk mempercepat tugas-tugas AI, termasuk pelatihan dan inferensi model. Mereka menawarkan berbagai fitur yang dioptimalkan untuk beban kerja pembelajaran mendalam, seperti bandwidth memori tinggi, unit pemrosesan khusus untuk perkalian matriks, dan antarmuka komunikasi latensi rendah. Lebih lanjut, Ascend NPU Huawei mendukung berbagai jenis data dan tingkat presisi, memungkinkan kontrol halus atas kinerja dan akurasi.
Kombinasi sinergis MoGE dan Ascend NPU menciptakan platform yang kuat untuk inovasi AI. MoGE mengoptimalkan sisi perangkat lunak dengan meningkatkan penyeimbangan beban dan eksekusi paralel, sementara Ascend NPU menyediakan akselerasi perangkat keras yang dibutuhkan untuk mewujudkan manfaat ini. Pendekatan terintegrasi ini memungkinkan Huawei untuk mendorong batas-batas kinerja dan efisiensi AI.
Ascend NPU dicirikan oleh kepadatan komputasi dan efisiensi energi yang tinggi. Fitur-fitur ini sangat penting untuk menyebarkan model AI di berbagai pengaturan, dari server cloud yang kuat hingga perangkat tepi dengan anggaran daya terbatas.
Tolok Ukur dan Metrik Kinerja
Hasil tolok ukur Huawei menunjukkan efektivitas arsitektur MoGE dan Ascend NPU. Dengan membandingkan Pangu dengan model AI terkemuka seperti DeepSeek-V3, Qwen2.5-72B, dan Llama-405B, Huawei menunjukkan bahwa teknologinya mencapai kinerja terbaik pada berbagai tugas.
Keberhasilan Pangu pada tolok ukur bahasa Inggris dan Tiongkok umum menyoroti keserbagunaan dan kemampuan beradaptasinya. Kemahiran model dalam pelatihan konteks panjang sangat penting karena mencerminkan kemampuan dalam menangani data dunia nyata. Lebih lanjut, kinerja kuat Pangu pada tugas penalaran menggarisbawahi kemampuannya untuk memahami dan memproses hubungan yang kompleks.
Tolok ukur ini bukan hanya latihan akademis, mereka menawarkan bukti nyata dari langkah-langkah teknologi yang dibuat oleh Huawei. Mereka mendukung klaim perusahaan untuk menjadi yang terdepan dalam inovasi AI dan memperkuat posisinya di pasar global.
Implikasi untuk Masa Depan Huawei
Kemajuan Huawei dalam pelatihan model AI memiliki implikasi penting dalam visi strategis perusahaan untuk membangun kedaulatan teknologi dalam kecerdasan buatan. Karena perusahaan meminimalkan ketergantungannya pada teknologi AS di tengah konflik perdagangan yang sedang berlangsung, pengembangan chip Ascend berfungsi sebagai alternatif untuk prosesor dari Nvidia dan AMD. Pangu Ultra, LLM yang menampilkan 135 miliar parameter untuk NPU, menyoroti efektivitas perampingan arsitektur dan sistemik Huawei dengan menampilkan kemampuan chip mutakhirnya.
Upaya-upaya ini diharapkan dapat berkontribusi pada daya saing Huawei secara keseluruhan dalam jangka panjang, karena ia berupaya untuk melayani pasar yang lebih besar untuk AI, khususnya di Tiongkok. Dengan terus memfokuskan investasi pada penelitian dan pengembangan, Huawei berharap untuk mendorong dirinya sebagai pemimpin di ruang AI, mengatasi kendala pasar saat ini.
Penelitian Masa Depan
Peningkatan berkelanjutan Huawei dalam arsitektur model AI melalui optimasi tingkat sistem dan algoritmik, bersama dengan pengembangan perangkat keras seperti chip Ascend, menandai pentingnya dalam memimpin kurva teknologi dalam kecerdasan buatan. Sementara tolok ukur seperti Pangu membuktikannya sebagai model tercanggih, masih banyak peningkatan yang harus dilakukan. Penyempurnaan lebih lanjut dari arsitektur MoGE dapat memungkinkannya untuk mendorong ke perhitungan yang lebih besar dan lebih kompleks. Lebih banyak pekerjaan dalam mengkhususkan arsitektur Ascend NPU dapat semakin mempercepat proses pembelajaran mendalam dan mengurangi biaya. Investigasi di masa depan akan melihat upaya berkelanjutan untuk membangun model AI yang lebih baik dan meningkatkan yang sudah ada.