Riset Microsoft: Pendekatan Baru LLM

Arsitektur Baru untuk Integrasi Pengetahuan

Divisi penelitian Microsoft telah memelopori metode terobosan untuk mengintegrasikan pengetahuan eksternal ke dalam large language models (LLMs). Sistem inovatif ini, yang dijuluki Knowledge Base-Augmented Language Models (KBLaM), mengadopsi filosofi ‘plug-and-play’, menghilangkan kebutuhan untuk mengubah model yang sudah ada sebelumnya. Ini merupakan penyimpangan signifikan dari teknik konvensional, menawarkan pendekatan yang lebih efisien dan ringkas untuk peningkatan pengetahuan.

Menyimpang dari Metode Tradisional

Metodologi saat ini, seperti Retrieval-Augmented Generation (RAG) dan In-Context Learning, biasanya mengandalkan mekanisme pengambilan terpisah untuk mengakses dan menggabungkan informasi eksternal. Sebaliknya, KBLaM menghindari sistem eksternal ini. KBLaM secara cerdik mengubah pengetahuan menjadi pasangan vektor, dengan mulus menjalinnya ke dalam arsitektur inti model melalui teknik baru yang disebut Microsoft sebagai ‘perhatian persegi panjang’ (rectangular attention).

Integrasi langsung pengetahuan dalam model itu sendiri, melewati proses pengambilan eksternal, menghasilkan respons yang jauh lebih cepat dan lebih efisien. Ini adalah keuntungan utama dibandingkan sistem tradisional, yang seringkali mengalami latensi dan overhead komputasi karena kebutuhan untuk menanyakan database eksternal.

Mengatasi Masalah Penskalaan Kuadratik

Sistem RAG yang ada seringkali terhambat oleh masalah penskalaan kuadratik, konsekuensi inheren dari mekanisme self-attention mereka. Mekanisme ini mengharuskan setiap token berinteraksi dengan setiap token lainnya, yang menyebabkan peningkatan eksponensial dalam tuntutan komputasi seiring dengan bertambahnya ukuran input.

Sebagai ilustrasi, perhatikan skenario di mana 1.000 token dari basis pengetahuan dimasukkan ke dalam konteks. Model kemudian dipaksa untuk memproses satu juta pasangan token yang mengejutkan. Jika jumlah token meningkat menjadi 10.000, beban komputasi meledak menjadi 100 juta interaksi. Penskalaan kuadratik ini dengan cepat menjadi hambatan, membatasi penerapan praktis sistem RAG dengan basis pengetahuan yang besar.

Efisiensi Perhatian Persegi Panjang

KBLaM dengan elegan menghindari masalah komputasi ini. Mekanisme ‘perhatian persegi panjang’ yang inovatif memungkinkan input pengguna untuk mengakses semua token pengetahuan, tetapi yang terpenting, token pengetahuan ini tidak berinteraksi satu sama lain atau input. Pilihan desain strategis ini memiliki implikasi besar untuk skalabilitas.

Saat basis pengetahuan berkembang, daya komputasi yang dibutuhkan hanya meningkat secara linear, sangat kontras dengan penskalaan kuadratik dari metode tradisional. Para peneliti di balik KBLaM menegaskan bahwa satu GPU dapat dengan nyaman menangani lebih dari 10.000 knowledge triples, yang berarti sekitar 200.000 token. Ini merupakan lompatan signifikan dalam efisiensi integrasi pengetahuan.

Hasil Eksperimen yang Menjanjikan

Pengujian awal KBLaM telah memberikan hasil yang menggembirakan. Dalam eksperimen yang melibatkan sekitar 200 item pengetahuan, KBLaM menunjukkan kemampuan superior untuk mengurangi halusinasi – pembuatan informasi yang salah atau tidak masuk akal – dibandingkan dengan model konvensional.

Selain itu, KBLaM menunjukkan kecenderungan yang lebih besar untuk tidak menjawab pertanyaan yang tidak memiliki informasi yang cukup. ‘Kerendahan hati epistemik’ ini adalah sifat yang diinginkan dalam LLM, karena meningkatkan akurasi dan kepercayaan.

Keuntungan penting lainnya dari KBLaM adalah transparansinya yang ditingkatkan. Tidak seperti in-context learning, KBLaM dapat dengan mudah menautkan elemen pengetahuan tertentu ke token yang sesuai, memberikan wawasan yang lebih besar ke dalam proses penalaran model.

Ketersediaan Sumber Terbuka dan Arah Masa Depan

Kode dan dataset yang mendukung KBLaM telah tersedia untuk umum di GitHub, mendorong kolaborasi dan penelitian lebih lanjut dalam komunitas. Sistem ini dirancang agar kompatibel dengan beberapa model yang banyak digunakan, termasuk Llama 3 Meta dan Phi-3 Microsoft sendiri. Ada juga rencana untuk memperluas dukungan ke Hugging Face Transformers, platform populer untuk membangun dan menerapkan LLM.

Meskipun hasil awalnya menjanjikan, para peneliti menekankan bahwa KBLaM belum siap untuk penerapan luas. KBLaM unggul dalam menangani skenario tanya jawab langsung, tetapi pengembangan lebih lanjut diperlukan untuk mengatasi tugas penalaran yang lebih kompleks.

Paradoks Jendela Konteks dan Kebangkitan RAG

LLM menghadapi paradoks yang menarik: jendela konteks mereka – jumlah informasi yang dapat mereka proses sekaligus – terus berkembang, namun memproses volume data yang berkembang ini dengan andal tetap menjadi tantangan yang berat.

Tantangan ini telah mendorong Retrieval-Augmented Generation (RAG) ke garis depan sebagai solusi yang disukai untuk menyuntikkan informasi spesifik ke dalam model dengan tingkat keandalan yang wajar. Sistem RAG bertindak sebagai perantara, mengambil informasi yang relevan dari sumber eksternal dan memasukkannya ke dalam LLM, sehingga meningkatkan pengetahuan dan akurasinya.

KBLaM: Pergeseran Paradigma Potensial

Namun, KBLaM menghadirkan alternatif yang menarik, menunjukkan jalur yang berpotensi lebih efisien dan elegan ke depan. Dengan mengintegrasikan pengetahuan secara langsung ke dalam arsitektur model, KBLaM menawarkan prospek LLM yang ditingkatkan dengan pengetahuan yang lebih cepat, lebih terukur, dan lebih transparan.

Menyelami Lebih Dalam Mekanisme KBLaM

Inti inovasi KBLaM terletak pada mekanisme ‘perhatian persegi panjang’-nya. Untuk memahami ini, ada baiknya untuk pertama-tama mempertimbangkan mekanisme self-attention standar yang digunakan oleh banyak LLM.

Dalam self-attention, setiap token dalam urutan input memperhatikan setiap token lainnya, termasuk dirinya sendiri. Ini memungkinkan model untuk menangkap hubungan antara bagian-bagian input yang berbeda, tetapi juga menyebabkan masalah penskalaan kuadratik yang disebutkan sebelumnya.

Perhatian persegi panjang, sebaliknya, membagi proses perhatian menjadi dua bagian yang berbeda:

  1. Perhatian Input Pengguna: Input pengguna memperhatikan semua token pengetahuan, memungkinkan model untuk mengakses informasi yang relevan dari basis pengetahuan.
  2. Perhatian Token Pengetahuan: Token pengetahuan tidak memperhatikan satu sama lain atau input pengguna. Ini adalah kunci efisiensi KBLaM.

Dengan mencegah interaksi antara token pengetahuan, KBLaM secara drastis mengurangi jumlah komputasi yang diperlukan. Ini memungkinkan model untuk menskalakan secara linear dengan ukuran basis pengetahuan, sehingga memungkinkan untuk memasukkan sejumlah besar informasi eksternal.

Manfaat Integrasi Pengetahuan Langsung

Integrasi langsung pengetahuan ke dalam arsitektur model menawarkan beberapa keuntungan:

  • Mengurangi Latensi: Karena KBLaM tidak bergantung pada sistem pengambilan eksternal, KBLaM dapat merespons lebih cepat daripada model berbasis RAG.
  • Peningkatan Efisiensi: Penskalaan linear KBLaM membuatnya jauh lebih efisien secara komputasi daripada metode tradisional.
  • Peningkatan Transparansi: KBLaM dapat menautkan pengetahuan ke token tertentu, membuatnya lebih mudah untuk memahami bagaimana model sampai pada jawabannya.
  • Mengurangi Halusinasi: KBLaM telah menunjukkan kemampuan yang lebih besar untuk menghindari pembuatan informasi yang salah atau tidak masuk akal.

Keterbatasan dan Penelitian Masa Depan

Meskipun KBLaM merupakan kemajuan yang signifikan, penting untuk mengakui keterbatasannya saat ini:

  • Penalaran Kompleks: KBLaM saat ini paling cocok untuk tugas tanya jawab langsung. Penelitian lebih lanjut diperlukan untuk memperluas kemampuannya ke skenario penalaran yang lebih kompleks.
  • Representasi Pengetahuan: Implementasi KBLaM saat ini menggunakan knowledge triples, yang mungkin tidak cocok untuk semua jenis pengetahuan. Menjelajahi format representasi pengetahuan alternatif adalah area untuk pekerjaan di masa depan.
  • Penerapan di Dunia Nyata: KBLaM masih merupakan proyek penelitian dan belum siap untuk penerapan luas. Pengujian dan penyempurnaan lebih lanjut diperlukan sebelum dapat digunakan dalam aplikasi dunia nyata.

Dampak yang Lebih Luas pada Bidang AI

Pengembangan KBLaM memiliki implikasi signifikan bagi bidang Kecerdasan Buatan yang lebih luas. Ini merupakan langkah menuju penciptaan LLM yang tidak hanya kuat tetapi juga:

  • Lebih Berpengetahuan: Dengan mengintegrasikan sejumlah besar pengetahuan eksternal secara efisien, KBLaM dapat meningkatkan akurasi faktual dan kelengkapan LLM.
  • Lebih Andal: Tingkat halusinasi yang berkurang dan peningkatan transparansi KBLaM berkontribusi pada keandalan dan kepercayaan yang lebih besar.
  • Lebih Terukur: Penskalaan linear KBLaM membuka kemungkinan untuk membangun LLM yang dapat menangani sejumlah besar informasi.

Penelitian dan pengembangan KBLaM yang sedang berlangsung dan pendekatan serupa menjanjikan untuk lebih mengaburkan batas antara LLM dan basis pengetahuan, membuka jalan bagi generasi baru sistem AI yang cerdas dan berpengetahuan luas. Sifat open-source dari proyek ini mendorong kolaborasi dan mempercepat laju inovasi di bidang yang menarik ini.