Perlumbaan Panjang Konteks: Mengapa Syarikat AI Bersaing
Organisasi AI terkemuka, termasuk OpenAI, Google DeepMind, dan MiniMax, terlibat dalam persaingan sengit untuk meningkatkan panjang konteks, yang secara langsung berkorelasi dengan jumlah teks yang dapat diproses oleh model AI dalam satu contoh. Janjinya ialah panjang konteks yang lebih besar akan membolehkan pemahaman yang lebih mendalam, mengurangkan halusinasi (fabrikasi), dan mewujudkan interaksi yang lebih lancar.
Bagi perusahaan, ini bermakna AI yang dapat menganalisis keseluruhan kontrak, menyahpepijat pangkalan kod yang besar, atau meringkaskan laporan panjang tanpa kehilangan konteks. Jangkaannya ialah dengan menghapuskan penyelesaian seperti chunking atau penjanaan tambahan pengambilan (RAG), aliran kerja AI dapat menjadi lebih lancar dan lebih cekap.
Masalah “Jarum dalam Jerami”: Mencari Maklumat Kritikal
Masalah “jarum dalam jerami” menyoroti kesukaran yang dihadapi AI dalam mengenal pasti maklumat kritikal (“jarum”) yang tersembunyi dalam set data yang besar (“jerami”). LLM sering bergelut untuk mengenal pasti butiran penting, yang membawa kepada ketidakcekapan dalam pelbagai bidang:
Carian dan Pengambilan Pengetahuan: Pembantu AI sering mengalami kesukaran untuk mengeluarkan fakta yang paling relevan daripada repositori dokumen yang luas.
Undang-undang dan Pematuhan: Peguam perlu menjejaki kebergantungan klausa dalam kontrak yang panjang.
Analitis Perusahaan: Penganalisis kewangan berisiko terlepas pandang wawasan penting yang terkubur dalam laporan kompleks.
Tetingkap konteks yang lebih besar membantu model mengekalkan lebih banyak maklumat, yang mengurangkan halusinasi, meningkatkan ketepatan, dan membolehkan:
Pemeriksaan Pematuhan Merentas Dokumen: Prom tunggal 256K-token boleh membandingkan keseluruhan manual dasar dengan undang-undang baharu.
Sintesis Sastera Perubatan: Penyelidik boleh menggunakan tetingkap 128K+ token untuk membandingkan keputusan percubaan ubat merentasi dekad kajian.
Pembangunan Perisian: Penyahpepijatan bertambah baik apabila AI boleh mengimbas berjuta-juta baris kod tanpa kehilangan kebergantungan.
Penyelidikan Kewangan: Penganalisis boleh menganalisis laporan pendapatan penuh dan data pasaran dalam satu pertanyaan.
Sokongan Pelanggan: Chatbot dengan memori yang lebih panjang boleh menyampaikan interaksi yang lebih sedar konteks.
Meningkatkan tetingkap konteks juga membantu model merujuk butiran yang relevan dengan lebih baik, mengurangkan kemungkinan menjana maklumat yang salah atau direka. Kajian Stanford 2024 mendapati bahawa model 128K-token mengurangkan kadar halusinasi sebanyak 18% berbanding sistem RAG apabila menganalisis perjanjian penggabungan.
Walaupun terdapat potensi faedah ini, pengamal awal telah melaporkan cabaran. Penyelidikan daripada JPMorgan Chase telah menunjukkan bahawa model berprestasi buruk pada kira-kira 75% daripada konteks mereka, dengan prestasi pada tugas kewangan yang kompleks runtuh menghampiri sifar melebihi 32K token. Model masih bergelut dengan ingatan jarak jauh, selalunya mengutamakan data terkini berbanding wawasan yang lebih mendalam.
Ini menimbulkan soalan kritikal: Adakah tetingkap 4 juta token benar-benar meningkatkan penaakulan, atau adakah ia hanyalah pengembangan ingatan yang mahal? Berapa banyak input yang luas ini sebenarnya digunakan oleh model? Dan adakah faedahnya melebihi peningkatan kos pengiraan?
RAG lwn. Prom Besar: Pertukaran Ekonomi
Penjanaan tambahan pengambilan (RAG) menggabungkan keupayaan LLM dengan sistem pengambilan yang mendapatkan maklumat yang relevan daripada sumber luaran seperti pangkalan data atau stor dokumen. Ini membolehkan model menjana respons berdasarkan kedua-dua pengetahuan sedia ada dan data yang diambil secara dinamik.
Apabila syarikat menyepadukan AI untuk tugas yang kompleks, mereka menghadapi keputusan asas: adakah mereka harus menggunakan prom besar dengan tetingkap konteks yang besar, atau adakah mereka harus bergantung pada RAG untuk mendapatkan maklumat yang relevan dalam masa nyata?
Prom Besar: Model dengan tetingkap token yang besar memproses segala-galanya dalam satu laluan, mengurangkan keperluan untuk mengekalkan sistem pengambilan luaran dan menangkap wawasan merentas dokumen. Walau bagaimanapun, pendekatan ini mahal dari segi pengiraan, yang membawa kepada kos inferens yang lebih tinggi dan peningkatan keperluan memori.
RAG: Daripada memproses keseluruhan dokumen sekaligus, RAG hanya mendapatkan bahagian yang paling relevan sebelum menjana respons. Ini mengurangkan penggunaan token dan kos dengan ketara, menjadikannya lebih berskala untuk aplikasi dunia sebenar.
Kos Inferens: Pengambilan Berbilang Langkah lwn. Prom Tunggal Besar
Walaupun prom besar menyelaraskan aliran kerja, mereka memerlukan lebih banyak kuasa GPU dan memori, menjadikannya mahal untuk dilaksanakan pada skala. Pendekatan berasaskan RAG, walaupun memerlukan berbilang langkah pengambilan, selalunya mengurangkan penggunaan token keseluruhan, yang membawa kepada kos inferens yang lebih rendah tanpa mengorbankan ketepatan.
Bagi kebanyakan perusahaan, pendekatan ideal bergantung pada kes penggunaan tertentu:
- Perlukan analisis mendalam dokumen? Model konteks besar mungkin menjadi pilihan yang lebih baik.
- Perlukan AI yang berskala dan kos efektif untuk pertanyaan dinamik? RAG mungkin pilihan yang lebih bijak.
Tetingkap konteks yang besar amat berharga apabila:
- Teks penuh mesti dianalisis sekaligus, seperti dalam semakan kontrak atau audit kod.
- Meminimumkan ralat pengambilan adalah kritikal, contohnya, dalam pematuhan peraturan.
- Latensi kurang menjadi kebimbangan berbanding ketepatan, seperti dalam penyelidikan strategik.
Menurut penyelidikan daripada Google, model ramalan saham menggunakan tetingkap 128K-token yang menganalisis 10 tahun transkrip pendapatan mengatasi RAG sebanyak 29%. Sebaliknya, ujian dalaman di GitHub Copilot menunjukkan bahawa penyelesaian tugas adalah 2.3 kali lebih pantas menggunakan prom besar berbanding RAG untuk migrasi monorepo.
Had Model Konteks Besar: Latensi, Kos, dan Kebolehgunaan
Walaupun model konteks besar menawarkan keupayaan yang mengagumkan, terdapat had kepada jumlah konteks tambahan yang benar-benar bermanfaat. Apabila tetingkap konteks berkembang, tiga faktor utama berkuat kuasa:
Latensi: Lebih banyak token yang diproses oleh model, lebih perlahan inferens. Tetingkap konteks yang lebih besar boleh menyebabkan kelewatan yang ketara, terutamanya apabila respons masa nyata diperlukan.
Kos: Kos pengiraan meningkat dengan setiap token tambahan yang diproses. Meningkatkan infrastruktur untuk mengendalikan model yang lebih besar ini boleh menjadi sangat mahal, terutamanya untuk perusahaan dengan beban kerja volum tinggi.
Kebolehgunaan: Apabila konteks berkembang, keupayaan model untuk “menumpukan perhatian” dengan berkesan pada maklumat yang paling relevan berkurangan. Ini boleh membawa kepada pemprosesan yang tidak cekap, di mana data yang kurang relevan memberi kesan kepada prestasi model, yang mengakibatkan pulangan yang berkurangan untuk kedua-dua ketepatan dan kecekapan.
Teknik Infini-perhatian Google cuba mengurangkan pertukaran ini dengan menyimpan perwakilan termampat konteks panjang sewenang-wenangnya dengan memori terhad. Walau bagaimanapun, pemampatan pasti membawa kepada kehilangan maklumat, dan model bergelut untuk mengimbangi maklumat segera dan sejarah, yang membawa kepada degradasi prestasi dan peningkatan kos berbanding RAG tradisional.
Walaupun model 4M-token mengagumkan, perusahaan harus melihatnya sebagai alat khusus dan bukannya penyelesaian universal. Masa depan terletak pada sistem hibrid yang secara adaptif memilih antara RAG dan prom besar berdasarkan keperluan tugas tertentu.
Perusahaan harus memilih antara model konteks besar dan RAG berdasarkan kerumitan penaakulan, pertimbangan kos, dan keperluan latensi. Tetingkap konteks yang besar sesuai untuk tugas yang memerlukan pemahaman yang mendalam, manakala RAG lebih kos efektif dan cekap untuk tugas faktual yang lebih mudah. Untuk menguruskan kos dengan berkesan, perusahaan harus menetapkan had kos yang jelas, seperti $0.50 setiap tugas, kerana model yang besar boleh menjadi mahal dengan cepat. Selain itu, prom besar lebih sesuai untuk tugas luar talian, manakala sistem RAG cemerlang dalam aplikasi masa nyata yang memerlukan respons pantas.
Inovasi yang muncul seperti GraphRAG boleh meningkatkan lagi sistem adaptif ini dengan menyepadukan graf pengetahuan dengan kaedah pengambilan vektor tradisional. Penyepaduan ini meningkatkan penangkapan hubungan kompleks, yang membawa kepada penaakulan bernuansa yang dipertingkatkan dan ketepatan jawapan sehingga 35% berbanding pendekatan berasaskan vektor sahaja. Pelaksanaan terkini oleh syarikat seperti Lettria telah menunjukkan peningkatan dramatik dalam ketepatan, meningkat daripada 50% dengan RAG tradisional kepada lebih 80% menggunakan GraphRAG dalam sistem pengambilan hibrid.
Seperti yang diperingatkan oleh Yuri Kuratov dengan tepat, “Mengembangkan konteks tanpa meningkatkan penaakulan adalah seperti membina lebuh raya yang lebih lebar untuk kereta yang tidak boleh memandu.” Masa depan AI yang sebenar terletak pada model yang benar-benar memahami hubungan merentasi sebarang saiz konteks, bukan hanya model yang boleh memproses sejumlah besar data. Ia mengenai kecerdasan, bukan hanya ingatan.