Antisipasi seputar agen AI telah berkembang selama bertahun-tahun, dengan banyak ahli memprediksi bahwa tahun 2025 akan menjadi tahun implementasi AI khusus tugas ini, yang didukung oleh model bahasa besar dan multimodal (LLM) canggih, akan benar-benar lepas landas. Namun, kenyataannya adalah bahwa sebagian besar agen AI tetap berada dalam keadaan limbo eksperimental, berjuang untuk bertransisi dari laboratorium penelitian ke aplikasi dunia nyata.
Sekarang, upaya kolaboratif dari para peneliti di Northwestern University, Microsoft, Stanford, dan University of Washington, termasuk mantan peneliti DeepSeek bernama Zihan Wang, telah memperkenalkan sistem baru yang disebut RAGEN. Kerangka kerja baru ini bertujuan untuk melatih dan mengevaluasi agen AI, menjadikannya lebih dapat diandalkan dan tangguh untuk penggunaan praktis tingkat perusahaan.
Tidak seperti tugas AI tradisional yang berfokus pada masalah statis seperti matematika atau pengkodean, RAGEN mengatasi skenario interaktif multi-giliran di mana agen harus beradaptasi, belajar, dan bernalar dalam lingkungan yang tidak pasti. Pendekatan ini sangat penting untuk mengembangkan AI yang dapat menangani kompleksitas situasi dunia nyata.
Inti dari RAGEN adalah kerangka pembelajaran penguatan (RL) khusus yang dikenal sebagai StarPO (State-Thinking-Actions-Reward Policy Optimization). Sistem ini mengeksplorasi bagaimana LLM dapat belajar melalui pengalaman, alih-alih hanya mengandalkan hafalan. StarPO berfokus pada seluruh proses pengambilan keputusan, mempertimbangkan tidak hanya respons individu tetapi juga lintasan interaksi yang lengkap.
StarPO beroperasi melalui dua fase berbeda yang bekerja bersama. Fase pertama, yang disebut tahap rollout, melibatkan LLM yang menghasilkan urutan interaksi lengkap yang dipandu oleh penalaran. Fase kedua, tahap pembaruan, mengoptimalkan model menggunakan hadiah kumulatif yang dinormalisasi. Struktur ini menciptakan lingkaran pembelajaran yang lebih stabil dan transparan dibandingkan dengan metode optimasi kebijakan standar.
Para peneliti menerapkan dan menguji kerangka kerja secara ketat menggunakan versi yang disesuaikan dari model Qwen Alibaba, khususnya Qwen 1.5 dan Qwen 2.5. Model-model ini dipilih karena bobot terbukanya dan kemampuannya untuk mengikuti instruksi secara efektif, yang memungkinkan reproduktifitas dan perbandingan dasar yang konsisten di berbagai tugas simbolik.
Mengatasi “Perangkap Gema”: Pembelajaran Penguatan dan Hilangnya Penalaran
Zihan Wang menyoroti tantangan inti dalam utas X yang dibagikan secara luas: ‘Mengapa pelatihan RL Anda selalu runtuh?’ Menurut tim, agen LLM awalnya menghasilkan respons simbolik yang beralasan dengan baik. Namun, sistem RL cenderung menghargai jalan pintas dari waktu ke waktu, yang mengarah pada perilaku berulang yang pada akhirnya mengurangi kinerja keseluruhan. Fenomena inilah yang mereka sebut ‘Perangkap Gema’.
Regresi ini terjadi karena umpan balik di mana frasa atau strategi tertentu menghasilkan hadiah tinggi di awal, yang mengarah pada penggunaan berlebihan dan menghambat eksplorasi pendekatan baru. Wang menunjukkan bahwa ini dapat diukur, dengan tebing varians hadiah yang dapat diukur, lonjakan gradien, dan hilangnya jejak penalaran.
Untuk memeriksa perilaku ini dalam pengaturan yang terkendali, RAGEN menggunakan tiga lingkungan simbolik:
- Bandit: Ini adalah tugas stokastik satu putaran yang menilai penalaran risiko-hadiah simbolik.
- Sokoban: Teka-teki deterministik multi-giliran yang melibatkan keputusan yang tidak dapat dibatalkan.
- Frozen Lake: Ini adalah tugas stokastik multi-giliran yang menuntut perencanaan adaptif.
Setiap lingkungan dirancang dengan cermat untuk meminimalkan bias dunia nyata, alih-alih berfokus pada strategi pengambilan keputusan yang muncul selama pelatihan.
Di lingkungan Bandit, misalnya, agen diberi tahu bahwa lengan ‘Naga’ dan ‘Phoenix’ mewakili distribusi hadiah yang berbeda. Alih-alih secara langsung memberikan probabilitas, agen harus bernalar secara simbolis, menafsirkan ‘Naga’ sebagai ‘kekuatan’ dan ‘Phoenix’ sebagai ‘harapan’ untuk memprediksi hasil. Pengaturan semacam ini mendorong model untuk menghasilkan penalaran analogis yang dapat dijelaskan.
Menstabilkan Pembelajaran Penguatan dengan StarPO-S
Untuk mengatasi masalah runtuhnya pelatihan, para peneliti mengembangkan StarPO-S, versi stabil dari kerangka kerja asli. StarPO-S menggabungkan tiga intervensi utama:
- Penyaringan rollout berbasis ketidakpastian: Ini memprioritaskan rollout di mana agen menunjukkan ketidakpastian tentang hasilnya.
- Penghapusan penalti KL: Memungkinkan model untuk menyimpang lebih bebas dari kebijakan aslinya dan menjelajahi perilaku baru.
- Klipping PPO asimetris: Ini memperkuat lintasan hadiah tinggi lebih dari yang rendah untuk meningkatkan pembelajaran.
Penyesuaian ini menunda atau menghilangkan runtuhnya pelatihan, yang mengarah pada peningkatan kinerja di ketiga tugas. Menurut Wang, ‘StarPO-S… berfungsi di ketiga tugas. Meringankan keruntuhan. Hadiah yang lebih baik.’
Keberhasilan pelatihan RL tidak hanya bergantung pada arsitektur tetapi juga pada kualitas data yang dihasilkan oleh agen itu sendiri. Tim mengidentifikasi tiga dimensi penting yang secara signifikan memengaruhi pelatihan:
- Keragaman tugas: Memaparkan model ke berbagai skenario awal meningkatkan generalisasi.
- Granularitas interaksi: Memungkinkan beberapa tindakan per giliran memungkinkan perencanaan yang lebih bermakna.
- Kesegaran rollout: Menjaga data pelatihan selaras dengan kebijakan model saat ini menghindari sinyal pembelajaran yang kedaluwarsa.
Bersama-sama, faktor-faktor ini berkontribusi pada proses pelatihan yang lebih stabil dan efektif.
Mengungkap Proses Berpikir Agen
Situs demo interaktif yang dibuat oleh para peneliti di GitHub secara visual merepresentasikan rollout agen sebagai giliran dialog penuh, mengungkapkan tidak hanya tindakan yang diambil tetapi juga proses berpikir langkah demi langkah di baliknya.
Misalnya, saat memecahkan masalah matematika, seorang agen mungkin pertama-tama ‘berpikir’ tentang mengisolasi variabel sebelum mengirimkan jawaban seperti ‘x = 5’. Pikiran-pikiran perantara ini terlihat dan dapat dilacak, memberikan transparansi tentang bagaimana agen sampai pada keputusan.
Meskipun penalaran eksplisit meningkatkan kinerja dalam tugas sederhana satu putaran seperti Bandit, penalaran cenderung menurun selama pelatihan multi-giliran. Meskipun menggunakan prompt dan token terstruktur, jejak penalaran sering menyusut atau menghilang kecuali diberi imbalan secara eksplisit.
Ini menyoroti keterbatasan dalam desain hadiah tradisional: berfokus pada penyelesaian tugas dapat mengabaikan kualitas proses. Tim bereksperimen dengan penalti berbasis format untuk mendorong penalaran yang lebih terstruktur, tetapi mengakui bahwa pembentukan hadiah yang lebih halus kemungkinan diperlukan.
Alat Sumber Terbuka untuk Pengembangan Agen AI
RAGEN, bersama dengan kerangka kerja StarPO dan StarPO-S, sekarang tersedia sebagai proyek sumber terbuka. Ini memberikan fondasi yang berharga bagi mereka yang tertarik untuk mengembangkan agen AI yang tidak hanya menyelesaikan tugas tetapi juga berpikir, merencanakan, dan berkembang.
Saat AI berkembang menuju otonomi yang lebih besar, proyek seperti RAGEN menjelaskan apa yang diperlukan untuk melatih model yang belajar dari data dan konsekuensi dari tindakan mereka sendiri.
Pertanyaan Kunci untuk Implementasi Dunia Nyata
Meskipun makalah RAGEN memberikan kerangka kerja teknis yang rinci, beberapa pertanyaan praktis tetap ada bagi mereka yang mempertimbangkan penerapannya di lingkungan perusahaan. Misalnya, seberapa baik pendekatan RAGEN diterjemahkan di luar tugas simbolik yang bergaya ini? Apakah perusahaan perlu membuat lingkungan dan fungsi hadiah yang sama sekali baru untuk menggunakan sistem ini dalam alur kerja seperti pemrosesan faktur atau dukungan pelanggan?
Pertimbangan penting lainnya adalah skalabilitas. Bahkan dengan peningkatan yang ditawarkan oleh StarPO-S, makalah tersebut mengakui bahwa pelatihan masih dapat runtuh dalam jangka waktu yang lebih lama. Ini menimbulkan pertanyaan apakah ada jalur teoretis atau praktis untuk mempertahankan penalaran atas urutan tugas yang terbuka atau terus berkembang.
RAGEN mewakili langkah signifikan menuju menciptakan agen AI yang lebih otonom dan mampu bernalar, bergerak melampaui kontribusi teknis semata untuk menawarkan kerangka kerja konseptual untuk pengembangan di masa depan. Apakah itu menjadi komponen standar dari toolkit AI perusahaan masih harus dilihat, tetapi wawasannya tentang dinamika pembelajaran agen sudah membentuk masa depan pelatihan LLM.
Metode baru ini mengatasi kebutuhan penting akan agen AI yang andal dan mudah beradaptasi, menawarkan jalan ke depan yang menjanjikan untuk aplikasi dunia nyata. Dengan berfokus pada pembelajaran melalui pengalaman dan mengoptimalkan lintasan pengambilan keputusan, RAGEN membantu menjembatani kesenjangan antara model teoretis dan implementasi praktis. Ketersediaan sumber terbuka dari kerangka kerja lebih lanjut mempercepat inovasi di lapangan, memberdayakan para peneliti dan pengembang untuk membangun di atas fondasinya dan menjelajahi batas-batas baru dalam teknologi agen AI.
RAGEN adalah sebuah inovasi penting dalam ranah kecerdasan buatan (AI), khususnya dalam pengembangan agen AI yang handal dan adaptif. Proyek kolaboratif yang melibatkan peneliti dari berbagai universitas terkemuka dan perusahaan teknologi, seperti Northwestern University, Microsoft, Stanford, University of Washington, dan DeepSeek, ini berupaya untuk mengatasi tantangan yang sering dihadapi dalam mentransisikan agen AI dari lingkungan penelitian ke implementasi dunia nyata.
Pendekatan yang ditawarkan oleh RAGEN sangat relevan mengingat banyak agen AI saat ini masih beroperasi dalam fase eksperimen, belum mampu memberikan kinerja yang konsisten dan dapat diandalkan dalam skenario yang kompleks dan dinamis. Dengan fokus pada pelatihan dan evaluasi agen AI yang lebih komprehensif, RAGEN bertujuan untuk menciptakan agen yang tidak hanya cerdas tetapi juga tangguh, dapat diandalkan, dan mampu beradaptasi dengan perubahan lingkungan dan tuntutan tugas yang beragam.
Salah satu aspek kunci dari RAGEN adalah penggunaan kerangka pembelajaran penguatan (RL) khusus yang disebut StarPO (State-Thinking-Actions-Reward Policy Optimization). Kerangka ini dirancang untuk memanfaatkan kekuatan model bahasa besar dan multimodal (LLM) dalam proses pembelajaran, memungkinkan agen AI untuk belajar melalui pengalaman dan penalaran, bukan hanya mengandalkan hafalan atau aturan yang telah diprogram sebelumnya.
StarPO bekerja melalui dua fase utama: fase rollout dan fase pembaruan. Fase rollout melibatkan LLM dalam menghasilkan urutan interaksi lengkap yang dipandu oleh penalaran. Ini berarti bahwa agen AI tidak hanya memberikan respons tetapi juga memikirkan alasan di balik respons tersebut dan mempertimbangkan konsekuensi dari tindakan mereka. Fase pembaruan kemudian menggunakan hadiah kumulatif yang dinormalisasi untuk mengoptimalkan model, memastikan bahwa agen AI secara konsisten meningkatkan kinerja mereka berdasarkan umpan balik yang mereka terima.
Keunggulan dari kerangka kerja StarPO adalah kemampuannya untuk menciptakan lingkaran pembelajaran yang lebih stabil dan transparan dibandingkan dengan metode optimasi kebijakan standar. Dengan mempertimbangkan seluruh lintasan interaksi, bukan hanya respons individu, StarPO memungkinkan agen AI untuk mengembangkan pemahaman yang lebih mendalam tentang lingkungan mereka dan bagaimana tindakan mereka memengaruhi hasil.
Dalam implementasinya, para peneliti menggunakan versi yang disesuaikan dari model Qwen Alibaba, yaitu Qwen 1.5 dan Qwen 2.5. Model-model ini dipilih karena bobot terbukanya dan kemampuannya untuk mengikuti instruksi dengan efektif. Ini memastikan bahwa hasil penelitian dapat direproduksi dan dibandingkan secara konsisten di berbagai tugas simbolik.
Salah satu tantangan utama yang diidentifikasi oleh tim RAGEN adalah fenomena yang disebut ‘Perangkap Gema’. Ini terjadi ketika agen AI, setelah mencapai tingkat kinerja tertentu, mulai mengandalkan jalan pintas atau strategi yang berulang yang pada akhirnya mengurangi kinerja keseluruhan mereka. Untuk mengatasi masalah ini, tim RAGEN mengembangkan StarPO-S, versi stabil dari kerangka kerja asli yang menggabungkan tiga intervensi utama: penyaringan rollout berbasis ketidakpastian, penghapusan penalti KL, dan klipping PPO asimetris.
Intervensi ini dirancang untuk mendorong agen AI untuk terus menjelajahi perilaku baru dan menghindari terjebak dalam pola yang berulang. Penyaringan rollout berbasis ketidakpastian memprioritaskan rollout di mana agen AI menunjukkan ketidakpastian tentang hasilnya, mendorong mereka untuk mengambil risiko dan mencoba pendekatan baru. Penghapusan penalti KL memungkinkan model untuk menyimpang lebih bebas dari kebijakan aslinya, memberi mereka lebih banyak fleksibilitas untuk menjelajahi solusi yang berbeda. Klipping PPO asimetris memperkuat lintasan hadiah tinggi lebih dari yang rendah, memastikan bahwa agen AI lebih termotivasi untuk mencari hasil yang optimal.
Selain itu, tim RAGEN juga menekankan pentingnya kualitas data dalam pelatihan agen AI. Mereka mengidentifikasi tiga dimensi penting yang secara signifikan memengaruhi pelatihan: keragaman tugas, granularitas interaksi, dan kesegaran rollout. Keragaman tugas memastikan bahwa agen AI terpapar ke berbagai skenario awal, meningkatkan kemampuan mereka untuk menggeneralisasi dan beradaptasi dengan situasi yang berbeda. Granularitas interaksi memungkinkan beberapa tindakan per giliran, memungkinkan perencanaan yang lebih bermakna dan pengambilan keputusan yang lebih kompleks. Kesegaran rollout menjaga data pelatihan selaras dengan kebijakan model saat ini, menghindari sinyal pembelajaran yang kedaluwarsa.
Untuk memfasilitasi pemahaman dan evaluasi hasil penelitian, tim RAGEN telah membuat situs demo interaktif yang memungkinkan pengguna untuk melihat rollout agen AI secara visual. Situs ini menampilkan tidak hanya tindakan yang diambil oleh agen AI tetapi juga proses berpikir langkah demi langkah di baliknya. Ini memberikan transparansi yang berharga ke dalam bagaimana agen AI sampai pada keputusan dan memungkinkan para peneliti untuk menganalisis dan memahami perilaku mereka dengan lebih baik.
Meskipun RAGEN menunjukkan kemajuan yang signifikan dalam pengembangan agen AI yang handal dan adaptif, masih ada beberapa pertanyaan dan tantangan yang perlu diatasi. Salah satunya adalah seberapa baik pendekatan RAGEN dapat diterjemahkan di luar tugas simbolik yang bergaya yang digunakan dalam penelitian. Apakah perusahaan perlu membuat lingkungan dan fungsi hadiah yang sama sekali baru untuk menggunakan sistem ini dalam alur kerja dunia nyata seperti pemrosesan faktur atau dukungan pelanggan?
Pertimbangan penting lainnya adalah skalabilitas. Meskipun StarPO-S membantu mengurangi runtuhnya pelatihan, masih mungkin terjadi dalam jangka waktu yang lebih lama. Apakah ada cara untuk mempertahankan penalaran agen AI selama urutan tugas yang terbuka atau terus berkembang?
Meskipun ada tantangan ini, RAGEN tetap merupakan langkah maju yang signifikan dalam pengembangan agen AI. Dengan fokus pada pembelajaran melalui pengalaman, optimasi pengambilan keputusan yang stabil, dan transparansi dalam proses berpikir, RAGEN membuka jalan bagi pengembangan agen AI yang lebih handal, adaptif, dan mampu bernalar. Ketersediaan sumber terbuka dari kerangka kerja lebih lanjut mempercepat inovasi di lapangan, memberdayakan para peneliti dan pengembang untuk membangun di atas fondasinya dan menjelajahi batas-batas baru dalam teknologi agen AI. Proyek ini bukan hanya tentang kemajuan teknis; ini adalah tentang menyediakan kerangka kerja konseptual untuk pengembangan AI di masa depan, dengan tujuan akhir untuk menciptakan sistem yang tidak hanya dapat menyelesaikan tugas tetapi juga berpikir, merencanakan, dan berkembang seiring waktu.