तंत्रज्ञानातील प्रगतीमुळे AI एजंट्सबद्दलची उत्सुकता वाढत आहे. अनेक तज्ञांनी भाकीत केले आहे की 2025 हे वर्ष या कार्यासाठी विशिष्ट AI अंमलबजावणीचे असेल. प्रगत मोठ्या भाषिक आणि मल्टीमॉडल मॉडेलद्वारे (LLMs) हे शक्य होईल. परंतु, बहुतेक AI एजंट्स अजूनही प्रयोगात्मक स्थितीत आहेत आणि ते संशोधन प्रयोगशाळेतून वास्तविक जगात येण्यासाठी संघर्ष करत आहेत.
नॉर्थवेस्टर्न युनिव्हर्सिटी, मायक्रोसॉफ्ट, स्टॅनफोर्ड आणि वॉशिंग्टन विद्यापीठातील संशोधकांनी एकत्रितपणे RAGEN नावाची एक नवीन प्रणाली सादर केली आहे. या प्रणालीचा उद्देश AI एजंट्सला प्रशिक्षण देणे आणि त्यांचे मूल्यांकन करणे आहे, ज्यामुळे ते अधिक विश्वसनीय बनतील आणि उद्योगांसाठी वापरण्यास योग्य ठरतील. यामध्ये झिहान वांग नावाच्या डीपसीकच्या माजी संशोधकाचाही समावेश आहे.
गणित किंवा कोडिंगसारख्या स्थिर समस्यांवर लक्ष केंद्रित करण्याऐवजी, RAGEN मल्टी-टर्न, परस्पर संवादात्मक परिस्थितींना सामोरे जाते. यामध्ये एजंट्सला अनिश्चित वातावरणात जुळवून घ्यावे लागते, शिकावे लागते आणि विचार करावा लागतो. वास्तविक जगातील जटिल परिस्थिती हाताळण्यासाठी AI विकसित करणे महत्त्वाचे आहे.
RAGEN च्या केंद्रस्थानी स्टारपीओ (State-Thinking-Actions-Reward Policy Optimization) नावाचे एक सानुकूल रीइन्फोर्समेंट लर्निंग (RL) फ्रेमवर्क आहे. हे सिस्टम LLM अनुभवातून कसे शिकू शकतात हे शोधते, केवळ स्मृतीवर अवलंबून न राहता ते शिकतात. स्टारपीओ संपूर्ण निर्णय प्रक्रियेवर लक्ष केंद्रित करते, केवळ वैयक्तिक प्रतिसादांवरच नव्हे तर संवादाच्या संपूर्ण मार्गावर विचार करते.
स्टारपीओ दोनdistinct टप्प्यांमध्ये कार्य करते. पहिला टप्पा, रोलआउट स्टेज म्हणून ओळखला जातो. यात LLM युक्तिवादाच्या आधारे संपूर्ण संवाद क्रम तयार करते. दुसरा टप्पा, अपडेट स्टेज, सामान्यीकृत संचयी rewards वापरून मॉडेलला अनुकूल करते. ही रचना मानक धोरण ऑप्टिमायझेशन पद्धतींपेक्षा अधिक स्थिर आणि पारदर्शक शिक्षण loop तयार करते.
संशोधकांनी अलीबाबाच्या क्वेन मॉडेलच्या फाइन-ट्यून केलेल्या आवृत्त्या वापरून फ्रेमवर्कची अंमलबजावणी केली आणि कठोरपणे चाचणी केली, विशेषत: क्वेन 1.5 आणि क्वेन 2.5. ही मॉडेल त्यांच्या खुल्या weights आणि सूचनांचे प्रभावीपणे पालन करण्याच्या क्षमतेसाठी निवडण्यात आली. यामुळे विविध प्रतीकात्मक कार्यांमध्ये पुनरुत्पादकता आणि सातत्यपूर्ण baseline तुलना करता आली.
‘इको ट्रॅप’ वर मात: रीइन्फोर्समेंट लर्निंग आणि Reasoning लॉस
झिहान वांग यांनी X thread मध्ये एक महत्त्वाचा मुद्दा मांडला: ‘तुमचे RL प्रशिक्षण नेहमी का कोसळते?’ टीमनुसार, LLM एजंट्स सुरुवातीला विचारपूर्वक, प्रतीकात्मक प्रतिसाद देतात. तथापि, RL प्रणाली कालांतराने शॉर्टकटला बक्षीस देतात, ज्यामुळे वारंवार वर्तन होते आणि एकूण कार्यक्षमतेत घट होते. या घटनेला ते ‘इको ट्रॅप’ म्हणतात.
हा ऱ्हास feedback loops मुळे होतो. काही विशिष्ट वाक्ये किंवा धोरणे लवकर उच्च rewards देतात, ज्यामुळे त्यांचा अतिवापर होतो आणि नवीन दृष्टिकोन शोधण्यात अडथळा येतो. वांग यांनी निदर्शनास आणले की हे मोजता येते, rewards variance cliffs, gradient spikes आणि reasoning traces चा ऱ्हास होतो.
या वर्तनांचे नियंत्रित वातावरणात परीक्षण करण्यासाठी, RAGEN तीन प्रतीकात्मक वातावरण वापरते:
- बँडिट: हे सिंगल-टर्न, stochastic कार्य आहे जे प्रतीकात्मक धोका-reward reasoning चे मूल्यांकन करते.
- सोकोबन: एक मल्टी-टर्न, deterministic कोडे ज्यामध्ये अपरिवर्तनीय निर्णय समाविष्ट आहेत.
- फ्रोजन लेक: हे stochastic, मल्टी-टर्न कार्य आहे ज्यामध्ये adaptive planning आवश्यक आहे.
प्रत्येक वातावरण वास्तविक जगातील bias कमी करण्यासाठी तयार केले आहे, त्याऐवजी प्रशिक्षणादरम्यान उद्भवणाऱ्या निर्णय धोरणांवर लक्ष केंद्रित केले आहे.
उदाहरणार्थ, बँडिट वातावरणात, एजंट्सना सूचित केले जाते की ‘ड्रॅगन’ आणि ‘फीनिक्स’ आर्म्स वेगवेगळ्या reward वितरणाचे प्रतिनिधित्व करतात. संभाव्यता थेट देण्याऐवजी, एजंट्सने प्रतीकात्मकपणे युक्तिवाद करणे आवश्यक आहे, ‘ड्रॅगन’ म्हणजे ‘सामर्थ्य’ आणि ‘फीनिक्स’ म्हणजे ‘आशा’ असे अर्थ लावून પરિણામોની આગાહી કરવી आवश्यक છે. अशा प्रकारची मांडणी मॉडेलला स्पष्ट करण्यायोग्य, analogical reasoning तयार करण्यास प्रोत्साहित करते.
StarPO-S सह रीइन्फोर्समेंट लर्निंग स्थिर करणे
प्रशिक्षण कोसळण्याच्या समस्येचे निराकरण करण्यासाठी, संशोधकांनी StarPO-S विकसित केले, जे मूळ फ्रेमवर्कचे स्थिर आवृत्ती आहे. StarPO-S मध्ये तीन मुख्य हस्तक्षेप समाविष्ट आहेत:
- अनिश्चितता-आधारित रोलआउट फिल्टरिंग: हे त्या रोलआउट्सना प्राधान्य देते जेथे एजंट પરિણામોबद्दल अनिश्चितता दर्शवितो.
- केएल पेनल्टी काढणे: मॉडेलला त्याच्या मूळ धोरणातून अधिक मुक्तपणे विचलित करण्यास आणि नवीन वर्तन शोधण्यास अनुमती देते.
- असममित पीपीओ क्लिपिंग: हे कमी reward पेक्षा उच्च reward मार्गांना अधिक वाढवते जेणेकरून शिक्षण सुधारता येईल.
हे समायोजन प्रशिक्षण कोसळण्यास विलंब करतात किंवा ते टाळतात, ज्यामुळे तीनही कार्यांमध्ये सुधारित कार्यक्षमता दिसून येते. वांग यांच्या मते, ‘StarPO-S … 3 कार्यांमध्ये कार्य करते. कोसळणे कमी करते. चांगले reward.’
RL प्रशिक्षणाचे यश केवळ आर्किटेक्चरवरच नव्हे तर एजंट्सद्वारे व्युत्पन्न केलेल्या डेटाच्या गुणवत्तेवर देखील अवलंबून असते. टीमने तीन महत्त्वपूर्ण आयाम ओळखले जे प्रशिक्षणावर लक्षणीय परिणाम करतात:
- कार्य विविधता: मॉडेलला सुरुवातीच्या परिस्थितींची विस्तृत श्रेणी दर्शविणे सामान्यीकरण वाढवते.
- परस्पर संवाद granularit: प्रति टर्न एकापेक्षा जास्त कृती करण्यास अनुमती देते, ज्यामुळे अधिक अर्थपूर्ण योजना शक्य होते.
- रोलआउट फ्रेशनेस: प्रशिक्षण डेटा current मॉडेल धोरणाशी जुळवून ठेवणे कालबाह्य शिक्षण सिग्नल टाळते.
एकत्रितपणे, हे घटक अधिक स्थिर आणि प्रभावी प्रशिक्षण प्रक्रियेस हातभार लावतात.
एजंट विचार प्रक्रिया उलगडणे
संशोधकांनी GitHub वर तयार केलेले एक इंटरैक्टिव्ह डेमो साइट एजंट रोलआउट्स पूर्ण संवाद वळणांप्रमाणे दृष्यदृष्ट्या दर्शवते, ज्यामुळे केवळ घेतलेल्या कृतीच नव्हे तर त्यामागील टप्प्याटप्प्याने विचार प्रक्रिया देखील दिसून येते.
उदाहरणार्थ, गणिताची समस्या सोडवताना, एखादा एजंट ‘x = 5’ असे उत्तर देण्यापूर्वी व्हेरिएबल वेगळे करण्याचा ‘विचार’ करू शकतो. हे दरम्यानचे विचार दृश्यमान आणि शोधण्यायोग्य आहेत, ज्यामुळे एजंट्स निर्णयांपर्यंत कसे पोहोचतात याबद्दल पारदर्शकता येते.
स्पष्ट reasoning साध्या, सिंगल-टर्न कार्यांमध्ये कार्यक्षमता सुधारते, परंतु मल्टी-टर्न प्रशिक्षणादरम्यान ते कमी होते. संरचित प्रॉम्प्ट आणि टोकन वापरूनही, जोपर्यंत स्पष्टपणे बक्षीस दिले जात नाही तोपर्यंत reasoning traces सहसा कमी होतात किंवा नाहीसे होतात.
हे पारंपरिक reward डिझाइनमधील एक मर्यादा दर्शवते: कार्य पूर्ण करण्यावर लक्ष केंद्रित केल्याने प्रक्रियेच्या गुणवत्तेकडे दुर्लक्ष होऊ शकते. टीमने अधिक चांगल्या संरचित reasoning प्रोत्साहित करण्यासाठी स्वरूप-आधारित दंड वापरून प्रयोग केले, परंतु अधिक परिष्कृत reward आकार देणे आवश्यक आहे हे मान्य केले.
AI एजंट विकासासाठी ओपन-सोर्स टूल्स
RAGEN, त्याच्या StarPO आणि StarPO-S फ्रेमवर्कसह, आता एक ओपन-सोर्स प्रकल्प म्हणून उपलब्ध आहे. हे AI एजंट्स विकसित करण्यात स्वारस्य असलेल्या लोकांसाठी एक मौल्यवान आधार प्रदान करते, जे केवळ कार्ये पूर्ण करत नाहीत तर विचार करतात, योजना करतात आणि विकसित होतात.
AI अधिकाधिक स्वायत्ततेकडे वाटचाल करत असताना, RAGEN सारखे प्रकल्प डेटा आणि त्यांच्या स्वतःच्या कृतींच्या परिणामांवरून शिकणाऱ्या मॉडेलना प्रशिक्षित करण्यासाठी काय आवश्यक आहे यावर प्रकाश टाकतात.
वास्तविक-जगात अंमलबजावणीसाठी महत्त्वाचे प्रश्न
RAGEN पेपर एक तपशीलवार तांत्रिक फ्रेमवर्क प्रदान करत असताना, उद्योगातील वातावरणात त्याचा वापर करण्याचा विचार करणाऱ्यांसाठी अनेक व्यावहारिक प्रश्न अजूनही अनुत्तरित आहेत. उदाहरणार्थ, RAGEN चा दृष्टिकोन या स्टाईल केलेल्या, प्रतीकात्मक कार्यांपेक्षा किती चांगला आहे? कंपन्यांना इनव्हॉइस प्रक्रिया किंवा ग्राहक समर्थनासारख्या वर्कफ्लोमध्ये हे सिस्टम वापरण्यासाठी पूर्णपणे नवीन वातावरण आणि reward फंक्शन्स तयार करण्याची आवश्यकता असेल का?
आणखी एक महत्त्वाचा विचार म्हणजे स्केलेबिलिटी. StarPO-S द्वारे देऊ केलेल्या सुधारणांसह, पेपर हे मान्य करतो की प्रशिक्षण अजूनही दीर्घ कालावधीत कोसळू शकते. हे उघड करते की सतत विकसित होणाऱ्या कार्य क्रमांवर reasoning टिकवून ठेवण्यासाठी सैद्धांतिक किंवा व्यावहारिक मार्ग आहे का?
RAGEN अधिक स्वायत्त, reasoning-सक्षम AI एजंट्स तयार करण्याच्या दिशेने एक महत्त्वपूर्ण पाऊल आहे, जे केवळ तांत्रिक योगदानाच्या पलीकडे जाऊन भविष्यातील विकासासाठी एक वैचारिक फ्रेमवर्क देतात. हे एंटरप्राइझ AI टूलकिटचा मानक घटक बनेल की नाही हे पाहणे बाकी आहे, परंतु एजंट लर्निंगच्या गतिशीलतेबद्दलचे त्याचे अंतर्दृष्टी LLM प्रशिक्षणाच्या भविष्याला आकार देत आहेत.
ही नवीन पद्धत विश्वसनीय आणि जुळवून घेण्यायोग्य AI एजंट्सच्या महत्त्वपूर्ण गरजेला संबोधित करते, जे वास्तविक-जगातील ऍप्लिकेशन्ससाठी एक आशादायक मार्ग देतात. अनुभवातून शिकण्यावर आणि निर्णय घेण्याच्या मार्गांना अनुकूल करण्यावर लक्ष केंद्रित करून, RAGEN सैद्धांतिक मॉडेल आणि व्यावहारिक अंमलबजावणी दरम्यानचा पूल बांधण्यास मदत करते. फ्रेमवर्कची ओपन-सोर्स उपलब्धता या क्षेत्रातील नवकल्पनांना आणखी गती देते, संशोधक आणि विकासकांना त्याच्या पायावर आधारित राहून AI एजंट तंत्रज्ञानातील नवीन सीमा शोधण्यास सक्षम करते.