Huawei Technologies, sebuah syarikat yang menghadapi halangan teknologi yang ketara akibat sekatan AS, dilaporkan telah mencapai kemajuan dalam latihan model kecerdasan buatan (AI). Penyelidik yang bekerja pada model bahasa besar (LLM) Huawei, Pangu, mendakwa telah membangunkan pendekatan yang dipertingkatkan yang mengatasi metodologi asal DeepSeek. Kaedah inovatif ini memanfaatkan perkakasan proprietari Huawei sendiri, mengurangkan pergantungan syarikat terhadap teknologi AS, objektif penting dalam landskap geopolitik semasa.
Kemunculan Mixture of Grouped Experts (MoGE)
Asas kemajuan Huawei terletak pada konsep Mixture of Grouped Experts (MoGE)
. Teknik baharu ini, yang diperincikan dalam kertas kerja yang diterbitkan oleh pasukan Pangu Huawei, dipersembahkan sebagai versi yang dinaik taraf bagi teknik Mixture of Experts (MoE)
. MoE telah terbukti penting dalam mewujudkan model AI yang kos efektif, seperti yang ditunjukkan oleh kejayaan DeepSeek.
MoE menawarkan kelebihan untuk parameter model yang besar, yang membawa kepada kapasiti pembelajaran yang dipertingkatkan. Walau bagaimanapun, penyelidik Huawei mengenal pasti ketidakcekapan yang timbul daripada pengaktifan “pakar” yang tidak sekata, komponen penting dalam latihan AI, yang boleh menghalang prestasi apabila menjalankan tugasan merentasi berbilang peranti serentak. MoGE Huawei secara strategik menangani cabaran ini.
Menangani Ketidakcekapan dalam Model MoE Tradisional
Sistem MoGE direka bentuk dengan rumit untuk mengoptimumkan pengagihan beban kerja. Idea utama adalah untuk “mengumpulkan” pakar bersama-sama semasa proses pemilihan, yang membawa kepada pengagihan beban kerja yang lebih seimbang. Dengan mengagihkan beban pengiraan dengan lebih saksama, para penyelidik melaporkan peningkatan yang ketara dalam prestasi persekitaran pengkomputeran selari, aspek utama dalam latihan AI moden.
Konsep “pakar” dalam latihan AI merujuk kepada sub-model atau komponen khusus dalam model yang lebih besar dan lebih komprehensif. Setiap pakar direka dengan teliti untuk mengendalikan tugas atau jenis data yang sangat khusus. Pendekatan ini memanfaatkan kepakaran khusus yang pelbagai, yang membolehkan keseluruhan sistem AI meningkatkan prestasi keseluruhannya dengan ketara.
Implikasi untuk Kemajuan AI China
Kemajuan ini sangat tepat pada masanya. Syarikat AI China, walaupun menghadapi sekatan AS ke atas import cip AI lanjutan seperti yang dari Nvidia, secara agresif mengejar kaedah untuk meningkatkan latihan model dan kecekapan inferens. Kaedah ini termasuk bukan sahaja peningkatan algoritma tetapi juga penyepaduan perkakasan dan perisian yang sinergistik.
Penyelidik Huawei menguji dengan teliti seni bina MoGE pada unit pemprosesan saraf (NPU) Ascend mereka, yang direka khusus untuk mempercepatkan tugas AI. Keputusan menunjukkan bahawa MoGE mencapai pengimbangan beban pakar yang unggul dan pelaksanaan yang lebih cekap, untuk kedua-dua fasa latihan dan inferens model. Ini adalah pengesahan yang ketara bagi faedah mengoptimumkan tindanan perkakasan dan perisian serentak.
Penanda Aras Pangu Terhadap Model AI Terkemuka
Model Pangu Huawei, yang diperkukuhkan oleh seni bina MoGE dan Ascend NPU, ditanda aras terhadap model AI terkemuka. Ini termasuk DeepSeek-V3, Qwen2.5-72B Alibaba Group Holding, dan Llama-405B Meta Platforms. Keputusan penanda aras menunjukkan bahawa Pangu mencapai prestasi terkini merentas pelbagai penanda aras Bahasa Inggeris umum, serta menyerlah pada semua penanda aras Cina. Pangu juga mempamerkan kecekapan yang lebih tinggi dalam pemprosesan latihan konteks panjang, bidang kepentingan kritikal untuk tugas pemprosesan bahasa semula jadi yang canggih.
Tambahan pula, model Pangu menunjukkan keupayaan yang luar biasa dalam tugas pemahaman bahasa umum, dengan kekuatan tertentu dalam tugas penaakulan. Keupayaan untuk memahami nuansa dan mengeluarkan makna daripada bahasa yang kompleks ini menunjukkan kemajuan yang telah dicapai oleh Huawei dalam AI.
Kepentingan Strategik Huawei
Kemajuan Huawei dalam seni bina model AI membawa kepentingan strategik. Memandangkan sekatan yang berterusan, syarikat yang berpangkalan di Shenzhen itu secara strategik berusaha untuk mengurangkan pergantungannya pada teknologi AS. Cip Ascend yang dibangunkan oleh Huawei dianggap sebagai alternatif domestik yang berdaya maju kepada pemproses dari Nvidia dan merupakan komponen utama kemerdekaan ini.
Pangu Ultra, model bahasa besar dengan 135 bilion parameter yang dioptimumkan untuk NPU, menekankan keberkesanan penyelarasan seni bina dan sistemik Huawei sambil mempamerkan keupayaan NPUnya. Menunjukkan keberkesanan penyepaduan perkakasan-perisiannya adalah bahagian penting dalam mempamerkan keupayaan AI Huawei.
Proses Latihan Terperinci
Menurut Huawei, proses latihan dibahagikan kepada tiga peringkat utama: pra-latihan, lanjutan konteks panjang, dan pasca-latihan. Pra-latihan melibatkan latihan awal model pada set data besar yang terdiri daripada 13.2 trilion token. Lanjutan konteks panjang kemudian meluaskan keupayaan model untuk mengendalikan teks yang lebih panjang dan lebih kompleks serta membina pengecaman data awal. Fasa ini menggunakan pemprosesan teragih berskala besar merentasi 8,192 cip Ascend.
Huawei mendedahkan bahawa model dan sistem akan segera disediakan kepada pelanggannya, membuka peluang baharu untuk penyepaduan dan pembangunan dengan rakan kongsinya.
Selami Mixture of Experts (MoE)
dan Hadnya
Untuk menghargai sepenuhnya kepentingan MoGE Huawei, adalah penting untuk memahami asas yang dibinanya: seni bina Mixture of Experts (MoE)
. MoE mewakili perubahan paradigma dalam cara model AI besar direka dan dilatih, menawarkan laluan untuk menskalakan saiz dan kerumitan model tanpa peningkatan berkadar dalam kos pengiraan.
Dalam rangkaian saraf tradisional, setiap input diproses oleh setiap neuron dalam setiap lapisan. Walaupun pendekatan ini boleh menghasilkan ketepatan yang tinggi, ia menjadi terlalu mahal dari segi pengiraan untuk model yang sangat besar. MoE, sebaliknya, memperkenalkan konsep “pakar” – rangkaian saraf yang lebih kecil dan khusus yang menumpukan pada subset data input yang tertentu.
Rangkaian “gerbang” menghalakan setiap input secara dinamik kepada pakar yang paling relevan. Pengaktifan terpilih ini membolehkan pengiraan yang jarang, yang bermaksud bahawa hanya sebahagian kecil daripada parameter model digunakan untuk mana-mana input yang diberikan. Kekurangan ini mengurangkan kos pengiraan inferens (menggunakan model untuk ramalan) dan latihan secara mendadak. Tambahan pula, kerana pakar yang berbeza boleh bertindak pada bahagian data input yang berbeza, ia membolehkan pengkhususan yang lebih besar dalam model.
Walaupun terdapat kelebihan MoE, beberapa batasan mesti ditangani untuk membuka potensi penuhnya. Pengaktifan pakar yang tidak sekata adalah kebimbangan utama. Dalam banyak pelaksanaan MoE, sesetengah pakar menjadi sangat digunakan, manakala yang lain kekal agak terbiar. Ketidakseimbangan ini berpunca daripada ciri-ciri data yang wujud dan reka bentuk rangkaian gerbang.
Ketidakseimbangan ini boleh membawa kepada ketidakcekapan dalam persekitaran pengkomputeran selari. Memandangkan beban kerja tidak diagihkan sama rata di kalangan pakar, sesetengah unit pemprosesan tidak digunakan secukupnya manakala yang lain terlalu terbeban. Perbezaan ini menghalang kebolehskalaan MoE dan mengurangkan prestasi keseluruhannya. Juga, ketidakseimbangan ini sering berpunca daripada berat sebelah dalam data latihan, yang membawa kepada perwakilan yang kurang dan latihan yang kurang bagi pakar yang kurang aktif. Ini menghasilkan model yang tidak optimum dalam jangka masa panjang.
Isu biasa lain apabila mengendalikan MoE termasuk kerumitan tambahan apabila mereka bentuk rangkaian gerbang. Rangkaian gerbang memerlukan teknik yang canggih untuk memastikan bahawa pakar dipilih dengan betul, jika tidak, MoE mungkin tidak beraksi seperti yang diharapkan dan menyebabkan overhed yang tidak perlu.
Grouped Experts (MoGE)
: Menangani Cabaran MoE
Seni bina Mixture of Grouped Experts (MoGE)
Huawei menawarkan alternatif yang diperhalusi kepada MoE tradisional dengan memfokuskan pada pengimbangan beban dan pelaksanaan selari yang cekap. Kaedah ini melibatkan pengumpulan pakar secara strategik, yang mengubah proses penghalaan data input, yang membawa kepada pengagihan beban kerja yang lebih sekata.
Dengan mengumpulkan pakar semasa pemilihan, MoGE memastikan bahawa setiap kumpulan pakar menerima beban kerja yang lebih seimbang. Daripada menghalakan setiap input secara bebas, rangkaian gerbang kini mengarahkan kumpulan input ke kumpulan pakar. Pendekatan ini menggalakkan pengagihan beban pengiraan yang lebih saksama.
Mekanisme pengumpulan juga membantu untuk mengurangkan kesan berat sebelah data. Dengan memastikan bahawa semua pakar dalam kumpulan dilatih pada set input yang pelbagai, MoGE mengurangkan risiko perwakilan yang kurang dan latihan yang kurang. Selanjutnya, pakar pengumpulan membolehkan penggunaan sumber yang lebih baik. Memandangkan setiap kumpulan mengendalikan beban kerja yang lebih konsisten, ia menjadi lebih mudah untuk memperuntukkan sumber pengiraan dengan cekap, yang membawa kepada prestasi keseluruhan yang lebih baik.
Hasil akhirnya ialah pengimbangan beban pakar yang lebih baik dan pelaksanaan yang lebih cekap untuk kedua-dua latihan dan inferens model. Ini diterjemahkan kepada masa latihan yang lebih cepat, kos pengiraan yang lebih rendah, dan prestasi keseluruhan yang lebih baik.
Ascend NPU: Pecutan Perkakasan untuk AI
Ascend NPU (Unit Pemprosesan Saraf) memainkan peranan penting dalam strategi AI Huawei. Pemproses ini direka khusus untuk mempercepatkan tugas AI, termasuk latihan dan inferens model. Mereka menawarkan pelbagai ciri yang dioptimumkan untuk beban kerja pembelajaran mendalam, seperti lebar jalur memori yang tinggi, unit pemprosesan khusus untuk pendaraban matriks, dan antara muka komunikasi kependaman rendah. Selanjutnya, Huawei Ascend NPU menyokong pelbagai jenis data dan tahap ketepatan, yang membolehkan kawalan terperinci ke atas prestasi dan ketepatan.
Gabungan sinergistik MoGE dan Ascend NPU mewujudkan platform yang berkuasa untuk inovasi AI. MoGE mengoptimumkan bahagian perisian dengan meningkatkan pengimbangan beban dan pelaksanaan selari, manakala Ascend NPU menyediakan pecutan perkakasan yang diperlukan untuk merealisasikan faedah ini. Pendekatan bersepadu ini membolehkan Huawei menolak sempadan prestasi dan kecekapan AI.
Ascend NPU dicirikan oleh ketumpatan pengkomputeran yang tinggi dan kecekapan tenaga. Ciri-ciri ini adalah kritikal untuk menggunakan model AI dalam pelbagai tetapan, daripada pelayan awan yang berkuasa kepada peranti tepi dengan bajet kuasa yang terhad.
Penanda Aras dan Metrik Prestasi
Keputusan penanda aras Huawei menunjukkan keberkesanan seni bina MoGE dan Ascend NPU. Dengan membandingkan Pangu dengan model AI terkemuka seperti DeepSeek-V3, Qwen2.5-72B, dan Llama-405B, Huawei menunjukkan bahawa teknologinya mencapai prestasi terkini pada pelbagai tugas.
Kejayaan Pangu pada penanda aras Inggeris dan Cina umum menyerlahkan kepelbagaian dan kebolehsuaiannya. Kecekapan model dalam latihan konteks panjang amat ketara kerana ia mencerminkan keupayaan dalam mengendalikan data dunia sebenar. Selanjutnya, prestasi kukuh Pangu pada tugas penaakulan menggariskan keupayaannya untuk memahami dan memproses hubungan yang kompleks.
Penanda aras ini bukan sekadar latihan akademik, ia menawarkan bukti ketara kemajuan teknologi yang dibuat oleh Huawei. Mereka menyokong dakwaan syarikat untuk berada di barisan hadapan inovasi AI dan mengukuhkan kedudukannya dalam pasaran global.
Implikasi untuk Masa Depan Huawei
Kemajuan Huawei dalam latihan model AI mempunyai implikasi kritikal dalam visi strategik syarikat untuk mewujudkan kedaulatan teknologi dalam kecerdasan buatan. Apabila syarikat meminimumkan pergantungannya pada teknologi AS di tengah-tengah konflik perdagangan yang berterusan, pembangunan cip Ascend berfungsi sebagai alternatif kepada pemproses daripada Nvidia dan AMD. Pangu Ultra, LLM yang menampilkan 135 bilion parameter untuk NPU, menyerlahkan keberkesanan penyelarasan seni bina dan sistemik Huawei dengan mempamerkan keupayaan cip canggihnya.
Usaha ini dijangka menyumbang kepada daya saing keseluruhan Huawei dalam jangka masa panjang, kerana ia berusaha untuk memenuhi pasaran yang lebih besar untuk AI, terutamanya di China. Dengan terus menumpukan pelaburan pada penyelidikan dan pembangunan, Huawei berharap untuk mendorong dirinya sebagai peneraju dalam ruang AI, mengatasi kekangan pasaran semasa.
Penyelidikan Masa Depan
Peningkatan berterusan Huawei dalam seni bina model AI melalui pengoptimuman peringkat sistem dan algoritma, bersama-sama dengan pembangunan perkakasan seperti cip Ascend, menandakan kepentingannya dalam memimpin lengkung teknologi dalam kecerdasan buatan. Walaupun penanda aras seperti Pangu membuktikannya sebagai model terkini, masih terdapat banyak peningkatan yang perlu dilakukan. Penambahbaikan selanjutnya seni bina MoGE mungkin membolehkannya untuk menolak pengiraan yang lebih besar dan lebih kompleks. Lebih banyak kerja dalam mengkhususkan seni bina Ascend NPU mungkin selanjutnya mempercepatkan proses pembelajaran mendalam dan mengurangkan kos. Siasatan masa depan akan melihat usaha berterusan untuk membina model AI yang lebih baik dan menambah baik yang sedia ada.