LLM 1-Bit Microsoft: GenAI Cekap pada CPU Harian

Dalam landskap dinamik kecerdasan buatan, perkembangan inovatif telah muncul daripada Microsoft Research yang menjanjikan untuk mentakrifkan semula kebolehcapaian dan kecekapan AI generatif. Kertas kerja terbaru mereka memperkenalkan BitNet b1.58 2B4T, model bahasa besar (LLM) perintis yang dibezakan oleh latihan asalnya dengan pemberat ‘1-bit’, atau lebih tepat lagi, pemberat 1-trit. Pendekatan inovatif ini menandakan penyimpangan daripada kaedah tradisional yang bergantung pada model kuantisasi yang pada mulanya dilatih dalam ketepatan penuh.

Mengatasi Batasan LLM Tradisional

LLM konvensional, walaupun prestasi luar biasa mereka, bergelut dengan halangan besar yang menghalang penerimaan meluas mereka. Batasan ini berpunca terutamanya daripada footprint memori besar mereka, penggunaan tenaga yang besar, dan kependaman inferens yang ketara. Akibatnya, menggunakan model ini pada peranti tepi, dalam persekitaran terhad sumber, dan untuk aplikasi masa nyata menjadi tidak praktikal.

Untuk mengurangkan cabaran ini, komuniti AI semakin menumpukan pada penerokaan model terkuantiti. Model ini diperoleh daripada rakan sejawat ketepatan penuh dengan menukar pemberat mereka kepada format bit yang lebih rendah. Walaupun kuantisasi menawarkan laluan untuk mengurangkan saiz model dan permintaan pengiraan, ia seringkali datang dengan kos kehilangan ketepatan, yang berpotensi menjejaskan ketepatan model dan prestasi keseluruhan.

Seni Bina BitNet b1.58 2B4T

BitNet b1.58 2B4T mewakili peralihan paradigma dalam reka bentuk LLM, mengelakkan kehilangan ketepatan yang berkaitan dengan kuantisasi dengan melatih model dari bawah menggunakan pemberat 1-bit. Pendekatan ini membolehkan model mengekalkan kelebihan pemberat yang lebih kecil, termasuk footprint memori yang dikurangkan dan kos pengiraan yang lebih rendah.

Penyelidik Microsoft memulakan usaha bercita-cita tinggi ini dengan melatih BitNet b1.58 2B4T pada korpus besar 4 trilion token. Dataset latihan yang luas ini memastikan bahawa model itu dapat mempelajari corak bahasa yang rumit dengan berkesan dan mengembangkan pemahaman yang komprehensif tentang nuansa komunikasi manusia.

Penilaian Prestasi dan Penanda Aras

Untuk menilai keberkesanan BitNet b1.58 2B4T, Microsoft menjalankan penanda aras yang ketat, membandingkan prestasinya dengan model ketepatan penuh, pemberat terbuka yang terkemuka dengan saiz yang serupa. Hasilnya mendedahkan bahawa model baharu itu berprestasi setanding dalam pelbagai tugas, meliputi pemahaman dan penaakulan bahasa, pengetahuan dunia, pemahaman bacaan, matematik dan kod, serta pengarahan dan perbualan.

Penemuan ini menggariskan potensi LLM 1-bit untuk mencapai pariti prestasi dengan rakan sejawat ketepatan penuh mereka, sambil menawarkan kelebihan yang ketara dari segi kecekapan dan penggunaan sumber.

Inovasi Seni Bina Utama

Di tengah-tengah BitNet b1.58 2B4T terletak seni bina inovatifnya, yang menggantikan lapisan linear ketepatan penuh standard dengan lapisan BitLinear tersuai. Lapisan ini menggunakan perwakilan 1.58-bit untuk mengekod pemberat sebagai nilai ternary (trits) semasa laluan hadapan.

Penggunaan nilai ternary, yang diwakili sebagai {-1, 0, +1}, membolehkan pengurangan drastik dalam saiz model dan memudahkan operasi matematik yang cekap. Ini dicapai melalui skim kuantisasi min mutlak (absmean), yang memetakan pemberat kepada nilai ternary ini.

Sebagai tambahan kepada lapisan BitLinear, BitNet b1.58 2B4T menggabungkan beberapa teknik LLM yang mantap, seperti fungsi pengaktifan ReLU kuasa dua, benaman kedudukan putaran, dan penyingkiran sebutan pincang. Teknik ini menyumbang lagi kepada mengurangkan saiz model dan meningkatkan kestabilan latihan.

Meningkatkan Kestabilan dan Kecekapan Latihan

Dua teknik tambahan yang digunakan dalam lapisan BitLinear—kuantisasi pengaktifan dan penormalan—memainkan peranan penting dalam mengurangkan saiz model dan meningkatkan kestabilan latihan. Kuantisasi pengaktifan mengurangkan ketepatan pengaktifan, manakala teknik penormalan membantu menghalang pengaktifan daripada menjadi terlalu besar atau terlalu kecil.

Teknik ini, digabungkan dengan penggunaan pemberat 1-bit, membolehkan BitNet b1.58 2B4T dilatih dengan lebih cekap dan berkesan, walaupun pada dataset yang besar.

Metodologi Latihan

Untuk latihan, BitNet b1.58 2B4T memanfaatkan tiga teknik utama: pra-latihan berskala besar, penalaan halus yang diselia, dan pengoptimuman keutamaan langsung.

Pra-Latihan Berskala Besar

Fasa awal ini melibatkan latihan model pada dataset teks dan kod yang besar, membolehkannya mempelajari corak bahasa umum dan mengembangkan pemahaman yang luas tentang dunia.

Penalaan Halus Yang Diselia

Dalam fasa ini, model ditala halus pada dataset yang lebih kecil dan lebih khusus, disesuaikan dengan tugas atau domain tertentu. Ini membolehkan model menyesuaikan pengetahuan dan kemahirannya dengan keperluan khusus tugas.

Pengoptimuman Keutamaan Langsung

Teknik ini melibatkan latihan model untuk mengoptimumkan terus untuk keutamaan manusia, seperti yang dinyatakan melalui maklum balas atau penilaian. Ini membantu memastikan bahawa output model selaras dengan nilai dan jangkaan manusia.

Penyelidik menyatakan bahawa teknik yang lebih maju, seperti Pengoptimuman Dasar Proksimal atau Pengoptimuman Dasar Relatif Kumpulan, akan diterokai pada masa hadapan untuk meningkatkan keupayaan matematik dan penaakulan rantai pemikiran.

Pustaka Inferens Bitnet.cpp

Memandangkan skim kuantisasi unik BitNet b1.58 2B4T, model tidak boleh digunakan dengan pustaka pembelajaran mendalam standard seperti llama.cpp dan memerlukan kernel khusus. Untuk menangani cabaran ini, Microsoft telah membangunkan pustaka inferens khusus sumber terbuka, bitnet.cpp.

bitnet.cpp berfungsi sebagai rangka kerja inferens rasmi untuk LLM 1-bit, seperti BitNet b1.58. Ia menawarkan suite kernel yang dioptimumkan yang menyokong inferens pantas dan tanpa kehilangan model 1.58-bit pada CPU, dengan rancangan untuk melanjutkan sokongan kepada NPU dan GPU pada masa hadapan.

Pustaka inferens ini adalah penting untuk membolehkan penggunaan BitNet b1.58 2B4T pada pelbagai peranti dan platform yang lebih luas, menjadikannya lebih mudah diakses oleh pembangun dan penyelidik.

Hala Tuju Penyelidikan Masa Depan

Para penyelidik mengakui bahawa perkakasan GPU semasa tidak dioptimumkan untuk model 1-bit dan bahawa keuntungan prestasi selanjutnya dapat dicapai dengan memasukkan logik khusus untuk operasi bit rendah. Ini menunjukkan bahawa seni bina perkakasan masa depan mungkin direka khusus untuk menyokong LLM 1-bit, yang membawa kepada kecekapan dan prestasi yang lebih besar.

Sebagai tambahan kepada pengoptimuman perkakasan, hala tuju penyelidikan masa depan termasuk melatih model yang lebih besar, menambah keupayaan berbilang bahasa dan integrasi berbilang mod, dan melanjutkan panjang tetingkap konteks. Kemajuan ini akan meningkatkan lagi keupayaan dan kepelbagaian BitNet b1.58 2B4T dan LLM 1-bit yang lain.

Implikasi dan Potensi Impak

Pembangunan BitNet b1.58 2B4T mempunyai implikasi yang ketara untuk masa depan AI, terutamanya dalam bidang AI generatif. Dengan menunjukkan bahawa adalah mungkin untuk melatih LLM berprestasi tinggi hanya menggunakan pemberat 1-bit, Microsoft telah membuka kemungkinan baharu untuk mencipta sistem AI yang lebih cekap dan boleh diakses.

Penemuan ini boleh membawa kepada penggunaan model AI pada pelbagai peranti yang lebih luas, termasuk telefon pintar, peranti IoT dan platform terhad sumber yang lain. Ia juga boleh membolehkan pembangunan sistem AI yang lebih cekap tenaga, mengurangkan impak alam sekitar mereka.

Selain itu, keupayaan untuk melatih LLM dengan pemberat 1-bit boleh menjadikannya lebih mudah untuk menyesuaikan dan memperibadikan model AI untuk aplikasi tertentu. Ini boleh membawa kepada pembangunan sistem AI yang lebih berkesan dan mesra pengguna yang disesuaikan dengan keperluan unik pengguna dan organisasi individu.

Kesimpulan

BitNet b1.58 2B4T Microsoft mewakili langkah penting ke hadapan dalam usaha untuk AI yang lebih cekap dan boleh diakses. Dengan menunjukkan bahawa adalah mungkin untuk melatih LLM berprestasi tinggi hanya menggunakan pemberat 1-bit, Microsoft telah mencabar kebijaksanaan konvensional dan membuka kemungkinan baharu untuk masa depan AI.

Oleh kerana penyelidikan dalam bidang ini berterusan, kita boleh menjangkakan untuk melihat lebih banyak aplikasi inovatif LLM 1-bit, yang membawa kepada masa depan di mana AI lebih meresap, cekap dan bermanfaat kepada masyarakat secara keseluruhan.