Lanskap kecerdasan buatan terus berkembang, dengan model bahasa besar (LLM) menjadi yang terdepan dalam inovasi. Model-model ini semakin mampu memahami, menghasilkan, dan memanipulasi bahasa manusia, membuka berbagai aplikasi potensial. Namun, tantangan signifikan tetap ada: memungkinkan LLM untuk secara efektif bernalar atas input yang sangat panjang dan kompleks. Alibaba Group telah mengambil langkah untuk mengatasi tantangan ini dengan memperkenalkan QwenLong-L1, sebuah kerangka kerja baru yang dirancang untuk memberdayakan LLM dengan kemampuan penalaran konteks panjang yang ditingkatkan. Terobosan ini berpotensi membuka era baru aplikasi perusahaan, memungkinkan AI untuk mengekstrak wawasan berharga dari sejumlah besar data, seperti pengajuan perusahaan yang rumit, laporan keuangan yang komprehensif, dan kontrak hukum yang kompleks.
Tantangan Penalaran Bentuk Panjang dalam AI
Kemajuan terkini dalam model penalaran besar (LRM), terutama yang memanfaatkan teknik pembelajaran penguatan (RL), telah menghasilkan peningkatan substansial dalam kemampuan pemecahan masalah mereka. Penelitian menunjukkan bahwa LRM yang dilatih dengan penyetelan halus RL menunjukkan keterampilan kognitif yang menyerupai “pemikiran lambat” manusia, memungkinkan mereka untuk mengembangkan strategi canggih untuk mengatasi tugas-tugas kompleks. Ini melibatkan pendekatan yang disengaja dan analitis, di mana model dengan cermat mengevaluasi informasi, mempertimbangkan berbagai kemungkinan, dan akhirnya mencapai solusi yang beralasan baik.
Kemajuan yang dicapai dalam kinerja LRM terutama diamati ketika model beroperasi pada teks yang relatif pendek, biasanya sekitar 4.000 token. Namun, ujian sebenarnya terletak pada penskalaan kemampuan penalaran ini ke konteks yang jauh lebih panjang, seperti 120.000 token atau lebih. Ini menghadirkan tantangan yang sangat berat, karena penalaran bentuk panjang menuntut pemahaman yang komprehensif tentang seluruh konteks dan kemampuan untuk melakukan analisis multi-langkah. Para pengembang QwenLong-L1 menekankan bahwa batasan ini menimbulkan kendala serius bagi aplikasi dunia nyata yang memerlukan interaksi dengan pengetahuan eksternal, seperti penelitian mendalam, di mana LRM harus mengumpulkan dan memproses informasi dari lingkungan yang padat pengetahuan.
Untuk mengatasi tantangan ini, para peneliti memformalkannya ke dalam konsep “RL penalaran konteks panjang.” Tidak seperti penalaran konteks pendek, yang sering mengandalkan pengetahuan yang sudah ada sebelumnya yang disimpan dalam model, RL penalaran konteks panjang memerlukan pengambilan dan pengasahan informasi yang relevan secara akurat dari input yang panjang. Ini berarti model harus mampu menyaring sejumlah besar teks, mengidentifikasi detail yang paling relevan, dan menghubungkannya dengan tugas yang ada. Hanya setelah berhasil memasukkan informasi ini model dapat menghasilkan rangkaian penalaran yang koheren dan logis.
Melatih model untuk mencapai tingkat kemahiran ini melalui RL adalah upaya yang kompleks, sering kali menghasilkan pembelajaran yang tidak efisien dan proses optimasi yang tidak stabil. Model mungkin berjuang untuk menyatu pada solusi optimal atau kehilangan kemampuan mereka untuk menjelajahi jalur penalaran yang beragam, menghambat kinerja keseluruhan mereka.
QwenLong-L1: Solusi Multi-Tahap
QwenLong-L1 menawarkan pendekatan multi-tahap yang komprehensif yang dirancang untuk melengkapi LRM dengan kemampuan untuk dengan mulus beralih dari kemahiran teks pendek ke generalisasi yang kuat di seluruh konteks panjang. Kerangka kerja ini meningkatkan LRM konteks pendek yang ada melalui proses yang terstruktur dengan hati-hati, menggabungkan beberapa elemen kunci:
Penyetelan Halus Terawasi Pemanasan (SFT): Fase awal ini melibatkan pelatihan model pada dataset yang dikurasi dari contoh penalaran konteks panjang. Tujuan dari SFT adalah untuk membangun fondasi yang kuat di mana model dapat membangun keterampilan penalaran konteks panjangnya. Dengan mengekspos model ke berbagai teks panjang dan tugas penalaran yang sesuai, tahap SFT memungkinkan model untuk secara akurat mendasarkan informasi dari input yang panjang, mengembangkan kemampuan mendasar dalam memahami konteks, menghasilkan rantai penalaran logis, dan mengekstrak jawaban yang bermakna.
RL Bertahap yang Dipandu Kurikulum: Tahap ini menggunakan pendekatan sistematis dan langkah demi langkah untuk melatih model melalui berbagai fase, secara bertahap meningkatkan panjang dokumen input. Pendekatan yang dipandu kurikulum ini membantu model untuk terus menyesuaikan strategi penalarannya dari konteks yang lebih pendek ke konteks yang semakin panjang, mengurangi ketidakstabilan yang sering dihadapi ketika model tiba-tiba dilatih pada teks yang sangat panjang. Dengan secara bertahap meningkatkan kompleksitas data pelatihan, model dapat secara efektif belajar menangani konteks yang lebih panjang tanpa kewalahan oleh volume informasi yang besar.
Pengambilan Sampel Retrospektif yang Sadar Kesulitan: Tahap pelatihan akhir ini menggabungkan contoh-contoh menantang dari fase pelatihan sebelumnya, memastikan bahwa model terus belajar dari masalah yang paling sulit. Dengan memprioritaskan contoh-contoh sulit ini, model didorong untuk menjelajahi jalur penalaran yang lebih beragam dan kompleks, yang pada akhirnya memperkuat kemampuannya untuk menangani berbagai tugas penalaran konteks panjang. Teknik pengambilan sampel retrospektif ini membantu model untuk menyempurnakan keterampilan penalaran dan menghindari terjebak dalam optima lokal.
Sistem Hadiah
Selain metodologi pelatihan yang terstruktur, QwenLong-L1 menggunakan sistem hadiah canggih yang menggabungkan verifikasi berbasis aturan dengan pendekatan “LLM-sebagai-hakim”. Sementara pelatihan untuk tugas penalaran konteks pendek sering bergantung pada hadiah berbasis aturan yang ketat (misalnya, jawaban yang benar dalam masalah matematika), QwenLong-L1 menggunakan mekanisme hadiah hibrida yang lebih fleksibel dan mudah beradaptasi dengan nuansa penalaran konteks panjang.
Verifikasi berbasis aturan memastikan presisi dengan memeriksa kepatuhan yang ketat terhadap kriteria kebenaran. Komponen sistem hadiah ini memberikan ukuran kinerja model yang jelas dan objektif, memastikan bahwa ia menghasilkan jawaban yang akurat dan andal.
Model “LLM-sebagai-hakim” membandingkan semantik jawaban yang dihasilkan dengan kebenaran dasar, memungkinkan fleksibilitas yang lebih besar dan penanganan yang lebih baik dari berbagai cara jawaban yang benar dapat diungkapkan ketika berhadapan dengan dokumen yang panjang dan bernuansa. Komponen sistem hadiah ini mengakui bahwa mungkin ada beberapa cara yang valid untuk menjawab pertanyaan berdasarkan konteks yang panjang dan menghargai model karena menghasilkan jawaban yang secara semantik mirip dengan kebenaran dasar, bahkan jika tidak identik. Ini mendorong model untuk menghasilkan respons yang lebih kreatif dan bernuansa.
Mengevaluasi Kinerja QwenLong-L1
Untuk menilai efektivitas QwenLong-L1, tim Alibaba melakukan evaluasi menyeluruh menggunakan tanya jawab dokumen (DocQA) sebagai tugas utama. Skenario ini sangat relevan dengan aplikasi perusahaan, di mana AI sering kali diminta untuk memahami dokumen padat untuk menjawab pertanyaan kompleks. Tugas DocQA melibatkan penyediaan model dengan dokumen dan pertanyaan dan memintanya untuk mengidentifikasi jawaban atas pertanyaan dalam dokumen. Ini mengharuskan model untuk memahami pertanyaan, dokumen, dan hubungan antara keduanya.
Hasil eksperimen di tujuh tolok ukur DocQA konteks panjang menunjukkan kemampuan QwenLong-L1 yang mengesankan. Model QWENLONG-L1-32B, berdasarkan DeepSeek-R1-Distill-Qwen-32B, mencapai kinerja yang sebanding dengan Claude-3.7 Sonnet Thinking dari Anthropic dan mengungguli model seperti o3-mini OpenAI dan Qwen3-235B-A22B. Selain itu, model QWENLONG-L1-14B yang lebih kecil mengungguli Gemini 2.0 Flash Thinking dan Qwen3-32B Google. Hasil ini menyoroti efektivitas QwenLong-L1 dalam memungkinkan LLM untuk secara efektif bernalar atas dokumen yang panjang dan kompleks.
Satu temuan kunci yang relevan dengan aplikasi dunia nyata adalah bahwa pelatihan RL mengarah pada pengembangan perilaku penalaran konteks panjang khusus dalam model. Model yang dilatih dengan QwenLong-L1 menunjukkan peningkatan kemampuan di bidang-bidang seperti:
Grounding: Menghubungkan jawaban ke bagian tertentu dari dokumen. Ini menunjukkan kemampuan model untuk mengidentifikasi informasi yang paling relevan dalam teks panjang dan menghubungkannya dengan pertanyaan yang diajukan. Grounding yang efektif sangat penting untuk memastikan bahwa jawaban model akurat dan didukung dengan baik oleh bukti dalam dokumen.
Pengaturan Sub-Tujuan: Memecah pertanyaan kompleks menjadi sub-pertanyaan yang lebih kecil dan lebih mudah dikelola. Hal ini memungkinkan model untuk mendekati tugas penalaran yang kompleks dengan cara yang lebih terstruktur dan terorganisir. Dengan memecah tugas menjadi langkah-langkah yang lebih kecil, model dapat lebih mudah mengidentifikasi informasi yang dibutuhkan untuk menjawab pertanyaan dan menghasilkan rangkaian penalaran yang koheren dan logis.
Backtracking: Mengenali dan memperbaiki kesalahan yang dibuat sendiri selama proses penalaran. Hal ini menunjukkan kemampuan model untuk memantau diri sendiri dan mengidentifikasi potensi kesalahan dalam proses penalarannya. Dengan melakukan backtracking dan memperbaiki kesalahan ini, model dapat memastikan bahwa jawaban akhirnya akurat dan andal.
Verifikasi: Memeriksa ulang jawaban mereka untuk memastikan akurasi dan kelengkapan. Hal ini menunjukkan komitmen model untuk memberikan informasi yang akurat dan andal. Dengan memeriksa ulang jawabannya, model dapat mengidentifikasi dan memperbaiki kesalahan yang tersisa, memastikan bahwa jawaban akhir memiliki kualitas tertinggi.
Misalnya, model dasar mungkin teralihkan oleh detail yang tidak relevan dalam dokumen keuangan atau terjebak dalam lingkaran menganalisis informasi yang tidak terkait secara berlebihan. Namun, model yang dilatih QwenLong-L1 menunjukkan kemampuan untuk terlibat dalam refleksi diri yang efektif, berhasil menyaring detail pengganggu ini, melakukan backtracking dari jalur yang salah, dan sampai pada jawaban yang benar. Ini menyoroti manfaat dari kerangka pelatihan QwenLong-L1 dalam meningkatkan ketahanan dan akurasi penalaran konteks panjang.
Aplikasi Potensial
Teknik seperti QwenLong-L1 berpotensi untuk secara signifikan memperluas utilitas AI di perusahaan. Beberapa aplikasi potensial meliputi:
- Teknologi Hukum: Menganalisis ribuan halaman dokumen hukum untuk mengidentifikasi klausul kunci, preseden, dan potensi risiko. Ini dapat membantu pengacara untuk lebih efisien dan efektif meninjau dokumen hukum, menghemat waktu dan uang.
- Keuangan: Melakukan penelitian mendalam tentang laporan tahunan dan pengajuan keuangan untuk menilai risiko dan mengidentifikasi peluang investasi. Ini dapat membantu analis keuangan untuk membuat keputusan investasi yang lebih tepat.
- Layanan Pelanggan: Menganalisis riwayat interaksi pelanggan yang panjang untuk memberikan dukungan yang lebih terinformasi dan personal. Ini dapat membantu perwakilan layanan pelanggan untuk lebih memahami kebutuhan pelanggan dan memberikan solusi yang lebih efektif.
Dengan memungkinkan AI untuk secara efektif bernalar atas dokumen yang panjang dan kompleks, QwenLong-L1 dan teknik serupa dapat membuka berbagai kemungkinan baru untuk aplikasi perusahaan, mendorong inovasi dan meningkatkan efisiensi di berbagai industri. Para peneliti telah merilis kode untuk resep QwenLong-L1 dan bobot untuk model yang dilatih.