Cabaran Penaakulan Bentuk Panjang dalam AI
Kemajuan terkini dalam model penaakulan besar (LRM), terutamanya yang memanfaatkan teknik pembelajaran pengukuhan (RL), telah membawa kepada peningkatan yang ketara dalam keupayaan menyelesaikan masalah mereka. Penyelidikan menunjukkan bahawa LRM yang dilatih dengan penalaan halus RL mempamerkan kemahiran kognitif yang menyerupai "pemikiran perlahan" manusia, membolehkan mereka membangunkan strategi yang canggih untuk menangani tugas yang kompleks. Ini melibatkan pendekatan yang disengajakan dan analitikal, di mana model dengan teliti menilai maklumat, mempertimbangkan pelbagai kemungkinan, dan akhirnya mencapai penyelesaian yang berasas.
Kemajuan yang dicapai dalam prestasi LRM terutamanya diperhatikan apabila model beroperasi pada teks yang agak pendek, biasanya sekitar 4,000 token. Walau bagaimanapun, ujian sebenar terletak pada peningkatan keupayaan penaakulan ini kepada konteks yang lebih panjang, seperti 120,000 token atau lebih. Ini memberikan cabaran yang hebat, kerana penaakulan bentuk panjang memerlukan pemahaman yang komprehensif tentang keseluruhan konteks dan keupayaan untuk melakukan analisis berbilang langkah. Pembangun QwenLong-L1 menekankan bahawa batasan ini menimbulkan halangan yang serius kepada aplikasi dunia sebenar yang memerlukan interaksi dengan pengetahuan luaran, seperti penyelidikan mendalam, di mana LRM mesti mengumpul dan memproses maklumat daripada persekitaran intensif pengetahuan.
Untuk menangani cabaran ini, para penyelidik memformalkannya ke dalam konsep "RL penaakulan konteks panjang." Tidak seperti penaakulan konteks pendek, yang sering bergantung pada pengetahuan sedia ada yang disimpan dalam model, RL penaakulan konteks panjang memerlukan perolehan dan pembumian yang tepat bagi maklumat yang relevan daripada input yang panjang. Ini bermakna model mesti dapat menapis sejumlah besar teks, mengenal pasti butiran yang paling berkaitan, dan menghubungkannya dengan tugas yang ada. Hanya selepas berjaya menggabungkan maklumat ini, model dapat menjana rantai penaakulan yang koheren dan logik.
Melatih model untuk mencapai tahap kemahiran ini melalui RL adalah satu usaha yang kompleks, sering kali mengakibatkan pembelajaran yang tidak cekap dan proses pengoptimuman yang tidak stabil. Model mungkin bergelut untuk menumpu pada penyelesaian yang optimum atau kehilangan keupayaan mereka untuk meneroka laluan penaakulan yang pelbagai, menghalang prestasi keseluruhan mereka.
QwenLong-L1: Penyelesaian Berbilang Peringkat
QwenLong-L1 menawarkan pendekatan berbilang peringkat yang komprehensif yang direka untuk melengkapkan LRM dengan keupayaan untuk beralih dengan lancar daripada kemahiran teks pendek kepada generalisasi yang teguh merentasi konteks panjang. Rangka kerja ini meningkatkan LRM konteks pendek sedia ada melalui proses yang distruktur dengan teliti, menggabungkan beberapa elemen utama:
Pemanasan Awal Penalaan Halus Diselia (SFT): Fasa awal ini melibatkan latihan model pada set data terpilih contoh penaakulan konteks panjang. Tujuan SFT adalah untuk mewujudkan asas yang kukuh di mana model boleh membina kemahiran penaakulan konteks panjangnya. Dengan mendedahkan model kepada pelbagai teks panjang dan tugas penaakulan yang sepadan, peringkat SFT membolehkan model membumikan maklumat dengan tepat daripada input yang panjang, membangunkan keupayaan asas dalam memahami konteks, menjana rantai penaakulan logik, dan mengekstrak jawapan yang bermakna.
RL Berperingkat Berpandukan Kurikulum: Peringkat ini menggunakan pendekatan sistematik, langkah demi langkah untuk melatih model melalui pelbagai fasa, secara beransur-ansur meningkatkan panjang dokumen input. Pendekatan berpandukan kurikulum ini membantu model menyesuaikan strategi penaakulannya secara berterusan daripada konteks yang lebih pendek kepada konteks yang semakin panjang, mengurangkan ketidakstabilan yang sering dihadapi apabila model dilatih secara tiba-tiba pada teks yang sangat panjang. Dengan secara beransur-ansur meningkatkan kerumitan data latihan, model boleh belajar dengan berkesan untuk mengendalikan konteks yang lebih panjang tanpa dibebani oleh jumlah maklumat yang banyak.
Pensampelan Retrospektif Sedar Kesukaran: Peringkat latihan akhir ini menggabungkan contoh yang mencabar daripada fasa latihan sebelumnya, memastikan bahawa model terus belajar daripada masalah yang paling sukar. Dengan mengutamakan contoh yang sukar ini, model digalakkan untuk meneroka laluan penaakulan yang lebih pelbagai dan kompleks, akhirnya mengukuhkan keupayaannya untuk mengendalikan pelbagai tugas penaakulan konteks panjang. Teknik pensampelan retrospektif ini membantu model untuk memperhalusi kemahiran penaakulannya dan mengelakkan daripada terperangkap dalam optima tempatan.
Sistem Ganjaran
Selain metodologi latihan yang berstruktur, QwenLong-L1 menggunakan sistem ganjaran yang canggih yang menggabungkan pengesahan berasaskan peraturan dengan pendekatan "LLM-sebagai-hakim." Walaupun latihan untuk tugas penaakulan konteks pendek sering bergantung pada ganjaran berasaskan peraturan yang ketat (contohnya, jawapan yang betul dalam masalah matematik), QwenLong-L1 menggunakan mekanisme ganjaran hibrid yang lebih fleksibel dan mudah disesuaikan dengan nuansa penaakulan konteks panjang.
Pengesahan berasaskan peraturan memastikan ketepatan dengan menyemak kepatuhan yang ketat terhadap kriteria ketepatan. Komponen sistem ganjaran ini menyediakan ukuran yang jelas dan objektif tentang prestasi model, memastikan bahawa ia menjana jawapan yang tepat dan boleh dipercayai.
Model "LLM-sebagai-hakim" membandingkan kesemantikan jawapan yang dijana dengan kebenaran asas, membenarkan lebih fleksibiliti dan pengendalian yang lebih baik bagi pelbagai cara jawapan yang betul boleh dinyatakan apabila berurusan dengan dokumen yang panjang dan bernuansa. Komponen sistem ganjaran ini mengakui bahawa mungkin terdapat pelbagai cara yang sah untuk menjawab soalan berdasarkan konteks yang panjang dan memberi ganjaran kepada model kerana menjana jawapan yang secara semantik serupa dengan kebenaran asas, walaupun ia tidak sama. Ini menggalakkan model untuk menjana respons yang lebih kreatif dan bernuansa.
Menilai Prestasi QwenLong-L1
Untuk menilai keberkesanan QwenLong-L1, pasukan Alibaba menjalankan penilaian menyeluruh menggunakan soal jawab dokumen (DocQA) sebagai tugas utama. Senario ini amat relevan dengan aplikasi perusahaan, di mana AI sering diperlukan untuk memahami dokumen padat untuk menjawab soalan yang kompleks. Tugas DocQA melibatkan membekalkan model dengan dokumen dan soalan dan memintanya untuk mengenal pasti jawapan kepada soalan itu dalam dokumen. Ini memerlukan model untuk memahami soalan, dokumen, dan hubungan antara keduanya.
Keputusan eksperimen merentasi tujuh penanda aras DocQA konteks panjang menunjukkan keupayaan QwenLong-L1 yang mengagumkan. Model QWENLONG-L1-32B, berdasarkan DeepSeek-R1-Distill-Qwen-32B, mencapai prestasi yang setanding dengan Claude-3.7 Sonnet Thinking Anthropic dan mengatasi model seperti o3-mini OpenAI dan Qwen3-235B-A22B. Tambahan pula, model QWENLONG-L1-14B yang lebih kecil mengatasi Gemini 2.0 Flash Thinking Google dan Qwen3-32B. Keputusan ini menyerlahkan keberkesanan QwenLong-L1 dalam membolehkan LLM untuk menaakul dengan berkesan ke atas dokumen yang panjang dan kompleks.
Satu penemuan utama yang berkaitan dengan aplikasi dunia sebenar ialah latihan RL membawa kepada pembangunan tingkah laku penaakulan konteks panjang khusus dalam model. Model yang dilatih dengan QwenLong-L1 mempamerkan keupayaan yang lebih baik dalam bidang seperti:
Pembumian: Menghubungkan jawapan kepada bahagian tertentu dokumen. Ini menunjukkan keupayaan model untuk mengenal pasti maklumat yang paling relevan dalam teks yang panjang dan menghubungkannya dengan soalan yang ditanya. Pembumian yang berkesan adalah penting untuk memastikan jawapan model adalah tepat dan disokong dengan baik oleh bukti dalam dokumen.
Penetapan Submatlamat: Memecahkan soalan yang kompleks kepada sub-soalan yang lebih kecil, lebih mudah diurus. Ini membolehkan model mendekati tugas penaakulan yang kompleks dengan cara yang lebih terstruktur dan teratur. Dengan memecahkan tugas kepada langkah yang lebih kecil, model boleh mengenal pasti dengan lebih mudah maklumat yang diperlukan untuk menjawab soalan dan menjana rantai penaakulan yang koheren dan logik.
Mengesan Semula: Mengenal pasti dan membetulkan kesilapan buatan sendiri semasa proses penaakulan. Ini menunjukkan keupayaan model untuk memantau sendiri dan mengenal pasti potensi kesilapan dalam proses penaakulannya. Dengan mengesan semula dan membetulkan kesilapan ini, model boleh memastikan jawapan akhirnya adalah tepat dan boleh dipercayai.
Pengesahan: Menyemak semula jawapan mereka untuk memastikan ketepatan dan kelengkapan. Ini menunjukkan komitmen model untuk menyediakan maklumat yang tepat dan boleh dipercayai. Dengan menyemak semula jawapannya, model boleh mengenal pasti dan membetulkan sebarang kesilapan yang tinggal, memastikan jawapan akhirnya adalah yang terbaik.
Sebagai contoh, model asas mungkin terganggu oleh butiran yang tidak berkaitan dalam dokumen kewangan atau terperangkap dalam gelung menganalisis maklumat yang tidak berkaitan secara berlebihan. Walau bagaimanapun, model terlatih QwenLong-L1 menunjukkan keupayaan untuk melibatkan diri dalam refleksi diri yang berkesan, berjaya menapis butiran pengganggu ini, mengesan semula daripada laluan yang salah, dan sampai kepada jawapan yang betul. Ini menyerlahkan manfaat rangka kerja latihan QwenLong-L1 dalam meningkatkan keteguhan dan ketepatan penaakulan konteks panjang.
Potensi Aplikasi
Teknik seperti QwenLong-L1 berpotensi untuk mengembangkan dengan ketara utiliti AI dalam perusahaan. Beberapa potensi aplikasi termasuk:
- Teknologi Undang-undang: Menganalisis beribu-ribu halaman dokumen undang-undang untuk mengenal pasti klausa utama, duluan dan potensi risiko. Ini boleh membantu peguam untuk menyemak dokumen undang-undang dengan lebih cekap dan berkesan, menjimatkan masa dan wang mereka.
- Kewangan: Menjalankan penyelidikan mendalam mengenai laporan tahunan dan pemfailan kewangan untuk menilai risiko dan mengenal pasti peluang pelaburan. Ini boleh membantu penganalisis kewangan untuk membuat keputusan pelaburan yang lebih termaklum.
- Perkhidmatan Pelanggan: Menganalisis sejarah interaksi pelanggan yang panjang untuk menyediakan sokongan yang lebih termaklum dan diperibadikan. Ini boleh membantu wakil perkhidmatan pelanggan untuk lebih memahami keperluan pelanggan dan menyediakan penyelesaian yang lebih berkesan.
Dengan membolehkan AI untuk menaakul dengan berkesan ke atas dokumen yang panjang dan kompleks, QwenLong-L1 dan teknik yang serupa boleh membuka pelbagai kemungkinan baharu untuk aplikasi perusahaan, memacu inovasi dan meningkatkan kecekapan merentasi pelbagai industri. Para penyelidik telah mengeluarkan kod untuk resipi QwenLong-L1 dan berat untuk model terlatih.