Pendekatan Baharu untuk Melatih Ejen AI yang Boleh Dipercayai: RAGEN
Penantian di sekeliling ejen AI telah meningkat selama bertahun-tahun, dengan ramai pakar meramalkan bahawa tahun 2025 akan menjadi tahun pelaksanaan AI khusus tugas ini, dikuasakan oleh model bahasa besar dan multimodal lanjutan (LLM), akan benar-benar bermula. Walau bagaimanapun, realitinya ialah kebanyakan ejen AI kekal dalam keadaan limbo eksperimen, bergelut untuk beralih daripada makmal penyelidikan kepada aplikasi dunia sebenar.
Kini, usaha kerjasama daripada penyelidik di Northwestern University, Microsoft, Stanford, dan University of Washington, termasuk bekas penyelidik DeepSeek bernama Zihan Wang, telah memperkenalkan sistem baharu yang dipanggil RAGEN. Rangka kerja baharu ini bertujuan untuk melatih dan menilai ejen AI, menjadikannya lebih boleh dipercayai dan berdaya tahan untuk penggunaan praktikal peringkat perusahaan.
Tidak seperti tugas AI tradisional yang memfokuskan pada masalah statik seperti matematik atau pengekodan, RAGEN menangani senario interaktif berbilang pusingan di mana ejen mesti menyesuaikan diri, belajar dan menaakul dalam persekitaran yang tidak menentu. Pendekatan ini adalah penting untuk membangunkan AI yang boleh mengendalikan kerumitan situasi dunia sebenar.
Di tengah-tengah RAGEN ialah rangka kerja pembelajaran pengukuhan (RL) tersuai yang dikenali sebagai StarPO (Pengoptimuman Dasar Ganjaran-Tindakan-Pemikiran-Negeri). Sistem ini meneroka cara LLM boleh belajar melalui pengalaman, dan bukannya bergantung semata-mata pada hafalan. StarPO memfokuskan pada keseluruhan proses membuat keputusan, dengan mengambil kira bukan sahaja respons individu tetapi keseluruhan trajektori interaksi.
StarPO beroperasi melalui dua fasa berbeza yang berfungsi bersama. Fasa pertama, yang dipanggil peringkat pelancaran, melibatkan LLM menjana urutan interaksi lengkap yang dipandu oleh penaakulan. Fasa kedua, fasa kemas kini, mengoptimumkan model menggunakan ganjaran kumulatif yang dinormalkan. Struktur ini mewujudkan gelung pembelajaran yang lebih stabil dan telus berbanding kaedah pengoptimuman dasar standard.
Para penyelidik melaksanakan dan menguji rangka kerja dengan teliti menggunakan versi model Qwen Alibaba yang ditala halus, khususnya Qwen 1.5 dan Qwen 2.5. Model-model ini dipilih kerana pemberat terbuka mereka dan keupayaan mereka untuk mengikuti arahan dengan berkesan, yang membolehkan pembiakan dan perbandingan garis dasar yang konsisten merentas pelbagai tugas simbolik.
Mengatasi “Perangkap Gema”: Pembelajaran Pengukuhan dan Kehilangan Penaakulan
Zihan Wang menyoroti cabaran teras dalam utas X yang dikongsi secara meluas: “Mengapa latihan RL anda sentiasa runtuh?” Menurut pasukan itu, ejen LLM pada mulanya menghasilkan respons simbolik yang beralasan dengan baik. Walau bagaimanapun, sistem RL cenderung untuk memberi ganjaran kepada jalan pintas dari semasa ke semasa, yang membawa kepada tingkah laku berulang yang akhirnya mengurangkan prestasi keseluruhan. Fenomena ini adalah apa yang mereka panggil “Perangkap Gema.”
Regresi ini berlaku disebabkan gelung maklum balas di mana frasa atau strategi tertentu menghasilkan ganjaran yang tinggi pada peringkat awal, yang membawa kepada penggunaan berlebihan mereka dan menghalang penerokaan pendekatan baharu. Wang menegaskan bahawa ini boleh diukur, dengan tebing varians ganjaran yang boleh diukur, pancang kecerunan, dan kehilangan kesan penaakulan.
Untuk memeriksa tingkah laku ini dalam persekitaran terkawal, RAGEN menggunakan tiga persekitaran simbolik:
- Bandit: Ini ialah tugas stokastik satu pusingan yang menilai penaakulan risiko-ganjaran simbolik.
- Sokoban: Teka-teki deterministik berbilang pusingan yang melibatkan keputusan tidak boleh balik.
- Frozen Lake: Ini ialah tugas stokastik berbilang pusingan yang memerlukan perancangan adaptif.
Setiap persekitaran direka dengan teliti untuk meminimumkan berat sebelah dunia sebenar, sebaliknya memfokuskan pada strategi membuat keputusan yang muncul semasa latihan.
Dalam persekitaran Bandit, contohnya, ejen dimaklumkan bahawa lengan “Dragon” dan “Phoenix” mewakili taburan ganjaran yang berbeza. Daripada memberikan kebarangkalian secara langsung, ejen mesti menaakul secara simbolik, mentafsir “Dragon” sebagai “kekuatan” dan “Phoenix” sebagai “harapan” untuk meramalkan hasil. Persediaan seperti ini menggalakkan model untuk menjana penaakulan analogi yang boleh dijelaskan.
Menstabilkan Pembelajaran Pengukuhan dengan StarPO-S
Untuk menangani isu keruntuhan latihan, para penyelidik membangunkan StarPO-S, versi stabil bagi rangka kerja asal. StarPO-S menggabungkan tiga intervensi utama:
- Penapisan pelancaran berasaskan ketidakpastian: Ini mengutamakan pelancaran di mana ejen menunjukkan ketidakpastian tentang hasil.
- Penghapusan penalti KL: Membenarkan model untuk menyimpang dengan lebih bebas daripada dasar asalnya dan meneroka tingkah laku baharu.
- Klip PPO asimetri: Ini menguatkan trajektori ganjaran tinggi lebih daripada yang ganjaran rendah untuk meningkatkan pembelajaran.
Pelarasan ini menangguhkan atau menghapuskan keruntuhan latihan, yang membawa kepada peningkatan prestasi merentas ketiga-tiga tugas. Menurut Wang, “StarPO-S… berfungsi merentas semua 3 tugas. Melegakan keruntuhan. Ganjaran yang lebih baik.”
Kejayaan latihan RL bukan sahaja bergantung pada seni bina tetapi juga pada kualiti data yang dijana oleh ejen itu sendiri. Pasukan itu mengenal pasti tiga dimensi kritikal yang memberi kesan ketara kepada latihan:
- Kepelbagaian tugas: Mendedahkan model kepada pelbagai senario awal meningkatkan generalisasi.
- Kekhususan interaksi: Membenarkan berbilang tindakan setiap giliran membolehkan perancangan yang lebih bermakna.
- Kesegaran pelancaran: Mengekalkan data latihan sejajar dengan dasar model semasa mengelakkan isyarat pembelajaran yang lapuk.
Bersama-sama, faktor-faktor ini menyumbang kepada proses latihan yang lebih stabil dan berkesan.
Mendedahkan Proses Pemikiran Ejen
Tapak demo interaktif yang dicipta oleh penyelidik di GitHub secara visual mewakili pelancaran ejen sebagai giliran dialog penuh, mendedahkan bukan sahaja tindakan yang diambil tetapi juga proses pemikiran langkah demi langkah di sebaliknya.
Contohnya, apabila menyelesaikan masalah matematik, ejen mungkin mula-mula “berfikir” tentang mengasingkan pembolehubah sebelum menyerahkan jawapan seperti “x = 5.” Pemikiran pertengahan ini boleh dilihat dan dijejaki, memberikan ketelusan tentang cara ejen mencapai keputusan.
Walaupun penaakulan eksplisit meningkatkan prestasi dalam tugas mudah satu pusingan seperti Bandit, ia cenderung merosot semasa latihan berbilang pusingan. Walaupun menggunakan gesaan dan token berstruktur, kesan penaakulan selalunya mengecut atau hilang melainkan diberi ganjaran secara eksplisit.
Ini menyerlahkan batasan dalam reka bentuk ganjaran tradisional: memfokuskan pada penyelesaian tugas mungkin terlepas pandang kualiti proses. Pasukan itu bereksperimen dengan penalti berasaskan format untuk menggalakkan penaakulan berstruktur yang lebih baik, tetapi mengakui bahawa pembentukan ganjaran yang lebih halus mungkin diperlukan.
Alat Sumber Terbuka untuk Pembangunan Ejen AI
RAGEN, bersama-sama dengan rangka kerja StarPO dan StarPO-Snya, kini tersedia sebagai projek sumber terbuka. Ini menyediakan asas yang berharga untuk mereka yang berminat untuk membangunkan ejen AI yang bukan sahaja menyelesaikan tugas tetapi juga berfikir, merancang dan berkembang.
Apabila AI berkembang ke arah autonomi yang lebih besar, projek seperti RAGEN menjelaskan perkara yang diperlukan untuk melatih model yang belajar daripada kedua-dua data dan akibat tindakan mereka sendiri.
Soalan Utama untuk Pelaksanaan Dunia Sebenar
Walaupun kertas RAGEN menyediakan rangka kerja teknikal yang terperinci, beberapa soalan praktikal kekal bagi mereka yang mempertimbangkan penggunaannya dalam persekitaran perusahaan. Contohnya, sejauh manakah pendekatan RAGEN diterjemahkan di luar tugas simbolik yang bergaya ini? Adakah syarikat perlu mencipta persekitaran dan fungsi ganjaran yang baharu sepenuhnya untuk menggunakan sistem ini dalam aliran kerja seperti pemprosesan invois atau sokongan pelanggan?
Pertimbangan kritikal lain ialah kebolehskalaan. Walaupun dengan peningkatan yang ditawarkan oleh StarPO-S, kertas kerja itu mengakui bahawa latihan masih boleh runtuh dalam tempoh yang lebih lama. Ini menimbulkan persoalan sama ada terdapat laluan teori atau praktikal untuk mengekalkan penaakulan ke atas urutan tugas yang terbuka atau sentiasa berkembang.
RAGEN mewakili langkah penting ke arah mewujudkan ejen AI yang lebih autonomi dan berkebolehan penaakulan, bergerak melangkaui sumbangan teknikal semata-mata untuk menawarkan rangka kerja konseptual untuk pembangunan masa depan. Sama ada ia menjadi komponen standard kit alat AI perusahaan masih belum dapat dilihat, tetapi pandangannya tentang dinamik pembelajaran ejen sudah pun membentuk masa depan latihan LLM.
Kaedah baharu ini menangani keperluan kritikal untuk ejen AI yang boleh dipercayai dan mudah menyesuaikan diri, menawarkan laluan yang menjanjikan ke hadapan untuk aplikasi dunia sebenar. Dengan memfokuskan pada pembelajaran melalui pengalaman dan mengoptimumkan trajektori membuat keputusan, RAGEN membantu merapatkan jurang antara model teori dan pelaksanaan praktikal. Ketersediaan sumber terbuka rangka kerja seterusnya mempercepatkan inovasi dalam bidang ini, memperkasakan penyelidik dan pembangun untuk membina di atas asasnya dan meneroka sempadan baharu dalam teknologi ejen AI.