Revolusi AI: LLM 1-Bit Microsoft Efisien

Dalam lanskap kecerdasan buatan yang dinamis, sebuah perkembangan terobosan telah muncul dari Microsoft Research yang menjanjikan untuk mendefinisikan ulang aksesibilitas dan efisiensi AI generatif. Makalah terbaru mereka memperkenalkan BitNet b1.58 2B4T, sebuah model bahasa besar (LLM) perintis yang dibedakan oleh pelatihan aslinya dengan bobot ‘1-bit’, atau lebih tepatnya, bobot 1-trit. Pendekatan inovatif ini menandai keberangkatan dari metode tradisional yang bergantung pada kuantisasi model yang awalnya dilatih dalam presisi penuh.

Mengatasi Keterbatasan LLM Tradisional

LLM konvensional, terlepas dari kinerja mereka yang luar biasa, bergulat dengan hambatan besar yang menghalangi adopsi luas mereka. Keterbatasan ini terutama berasal dari jejak memori mereka yang besar, konsumsi energi yang cukup besar, dan latensi inferensi yang mencolok. Akibatnya, penerapan model-model ini pada perangkat edge, di lingkungan dengan sumber daya terbatas, dan untuk aplikasi waktu nyata menjadi tidak praktis.

Untuk mengurangi tantangan ini, komunitas AI semakin fokus pada penjelajahan model terkuantisasi. Model-model ini berasal dari rekan-rekan presisi penuh dengan mengubah bobot mereka menjadi format bit yang lebih rendah. Sementara kuantisasi menawarkan jalur untuk mengurangi ukuran model dan tuntutan komputasi, seringkali datang dengan biaya kehilangan presisi, yang berpotensi membahayakan akurasi model dan kinerja keseluruhan.

Arsitektur BitNet b1.58 2B4T

BitNet b1.58 2B4T mewakili perubahan paradigma dalam desain LLM, menghindari kehilangan presisi yang terkait dengan kuantisasi dengan melatih model dari bawah ke atas menggunakan bobot 1-bit. Pendekatan ini memungkinkan model untuk mempertahankan keuntungan dari bobot yang lebih kecil, termasuk jejak memori yang berkurang dan biaya komputasi yang lebih rendah.

Para peneliti Microsoft memulai upaya ambisius ini dengan melatih BitNet b1.58 2B4T pada korpus besar yang terdiri dari 4 triliun token. Dataset pelatihan yang ekstensif ini memastikan bahwa model dapat secara efektif mempelajari pola bahasa yang rumit dan mengembangkan pemahaman yang komprehensif tentang nuansa komunikasi manusia.

Evaluasi Kinerja dan Pembandingan

Untuk menilai kemanjuran BitNet b1.58 2B4T, Microsoft melakukan tolok ukur yang ketat, membandingkan kinerjanya dengan model presisi penuh bobot terbuka terkemuka dengan ukuran yang sama. Hasilnya mengungkapkan bahwa model baru berkinerja sebanding di berbagai tugas, yang meliputi pemahaman dan penalaran bahasa, pengetahuan dunia, pemahaman bacaan, matematika dan kode, serta mengikuti instruksi dan percakapan.

Temuan ini menggarisbawahi potensi LLM 1-bit untuk mencapai paritas kinerja dengan rekan-rekan presisi penuh mereka, sementara secara bersamaan menawarkan keuntungan signifikan dalam hal efisiensi dan pemanfaatan sumber daya.

Inovasi Arsitektur Utama

Jantung dari BitNet b1.58 2B4T terletak pada arsitekturnya yang inovatif, yang menggantikan lapisan linier presisi penuh standar dengan lapisan BitLinear khusus. Lapisan-lapisan ini menggunakan representasi 1,58-bit untuk menyandikan bobot sebagai nilai ternary (trits) selama umpan maju.

Penggunaan nilai ternary, yang direpresentasikan sebagai {-1, 0, +1}, memungkinkan pengurangan drastis dalam ukuran model dan memfasilitasi operasi matematika yang efisien. Ini dicapai melalui skema kuantisasi mean absolut (absmean), yang memetakan bobot ke nilai-nilai ternary ini.

Selain lapisan BitLinear, BitNet b1.58 2B4T menggabungkan beberapa teknik LLM yang mapan, seperti fungsi aktivasi ReLU kuadrat, penyematan posisi putar, dan penghapusan suku bias. Teknik-teknik ini selanjutnya berkontribusi untuk mengurangi ukuran model dan meningkatkan stabilitas pelatihan.

Meningkatkan Stabilitas dan Efisiensi Pelatihan

Dua teknik tambahan yang digunakan dalam lapisan BitLinear—kuantisasi aktivasi dan normalisasi—memainkan peran penting dalam mengurangi ukuran model dan meningkatkan stabilitas pelatihan. Kuantisasi aktivasi mengurangi presisi aktivasi, sementara teknik normalisasi membantu mencegah aktivasi menjadi terlalu besar atau terlalu kecil.

Teknik-teknik ini, dikombinasikan dengan penggunaan bobot 1-bit, memungkinkan BitNet b1.58 2B4T untuk dilatih lebih efisien dan efektif, bahkan pada dataset yang besar.

Metodologi Pelatihan

Untuk pelatihan, BitNet b1.58 2B4T memanfaatkan tiga teknik utama: pra-pelatihan skala besar, penyetelan halus yang diawasi, dan optimasi preferensi langsung.

Pra-Pelatihan Skala Besar

Fase awal ini melibatkan pelatihan model pada dataset besar teks dan kode, memungkinkannya untuk mempelajari pola bahasa umum dan mengembangkan pemahaman yang luas tentang dunia.

Penyetelan Halus yang Diawasi

Dalam fase ini, model disetel halus pada dataset yang lebih kecil dan lebih spesifik, yang disesuaikan dengan tugas atau domain tertentu. Ini memungkinkan model untuk mengadaptasi pengetahuan dan keterampilannya dengan persyaratan khusus tugas.

Optimasi Preferensi Langsung

Teknik ini melibatkan pelatihan model untuk secara langsung mengoptimalkan preferensi manusia, sebagaimana dinyatakan melalui umpan balik atau peringkat. Ini membantu memastikan bahwa keluaran model selaras dengan nilai dan harapan manusia.

Para peneliti mencatat bahwa teknik yang lebih canggih, seperti Optimasi Kebijakan Proksimal atau Optimasi Kebijakan Relatif Grup, akan dieksplorasi di masa depan untuk meningkatkan kemampuan matematika dan penalaran rantai-pikiran.

Pustaka Inferensi Bitnet.cpp

Mengingat skema kuantisasi unik BitNet b1.58 2B4T, model tidak dapat digunakan dengan pustaka pembelajaran mendalam standar seperti llama.cpp dan memerlukan kernel khusus. Untuk mengatasi tantangan ini, Microsoft telah mengembangkan pustaka inferensi khusus sumber terbuka, bitnet.cpp.

bitnet.cpp berfungsi sebagai kerangka inferensi resmi untuk LLM 1-bit, seperti BitNet b1.58. Ia menawarkan serangkaian kernel yang dioptimalkan yang mendukung inferensi model 1,58-bit yang cepat dan tanpa kehilangan pada CPU, dengan rencana untuk memperluas dukungan ke NPU dan GPU di masa mendatang.

Pustaka inferensi ini sangat penting untuk memungkinkan penerapan BitNet b1.58 2B4T pada berbagai perangkat dan platform yang lebih luas, membuatnya lebih mudah diakses oleh pengembang dan peneliti.

Arah Penelitian Masa Depan

Para peneliti mengakui bahwa perangkat keras GPU saat ini tidak dioptimalkan untuk model 1-bit dan bahwa perolehan kinerja lebih lanjut dapat dicapai dengan menggabungkan logika khusus untuk operasi bit rendah. Ini menunjukkan bahwa arsitektur perangkat keras masa depan dapat secara khusus dirancang untuk mendukung LLM 1-bit, yang mengarah pada efisiensi dan kinerja yang lebih besar.

Selain optimasi perangkat keras, arah penelitian masa depan mencakup pelatihan model yang lebih besar, menambahkan kemampuan multi-bahasa dan integrasi multi-modal, dan memperluas panjang jendela konteks. Kemajuan ini selanjutnya akan meningkatkan kemampuan dan fleksibilitas BitNet b1.58 2B4T dan LLM 1-bit lainnya.

Implikasi dan Dampak Potensial

Pengembangan BitNet b1.58 2B4T memiliki implikasi signifikan untuk masa depan AI, khususnya di bidang AI generatif. Dengan menunjukkan bahwa adalah mungkin untuk melatih LLM berkinerja tinggi hanya menggunakan bobot 1-bit, Microsoft telah membuka kemungkinan baru untuk menciptakan sistem AI yang lebih efisien dan mudah diakses.

Terobosan ini dapat mengarah pada penerapan model AI pada berbagai perangkat yang lebih luas, termasuk smartphone, perangkat IoT, dan platform dengan sumber daya terbatas lainnya. Ini juga dapat memungkinkan pengembangan sistem AI yang lebih hemat energi, mengurangi dampak lingkungannya.

Selain itu, kemampuan untuk melatih LLM dengan bobot 1-bit dapat mempermudah untuk menyesuaikan dan mempersonalisasi model AI untuk aplikasi tertentu. Ini dapat mengarah pada pengembangan sistem AI yang lebih efektif dan ramah pengguna yang disesuaikan dengan kebutuhan unik pengguna dan organisasi individu.

Kesimpulan

BitNet b1.58 2B4T Microsoft mewakili langkah maju yang signifikan dalam pencarian bentuk AI yang lebih efisien dan mudah diakses. Dengan menunjukkan bahwa adalah mungkin untuk melatih LLM berkinerja tinggi hanya menggunakan bobot 1-bit, Microsoft telah menantang kebijaksanaan konvensional dan membuka kemungkinan baru untuk masa depan AI.

Ketika penelitian di bidang ini berlanjut, kita dapat berharap untuk melihat aplikasi yang lebih inovatif dari LLM 1-bit, yang mengarah ke masa depan di mana AI lebih merata, efisien, dan bermanfaat bagi masyarakat secara keseluruhan.