AI ఏజెంట్ల గురించి నిరీక్షణ సంవత్సరాలుగా పెరుగుతోంది, చాలా మంది నిపుణులు 2025 సంవత్సరం టాస్క్-స్పెసిఫిక్ AI అమలులు, అధునాతన లార్జ్ లాంగ్వేజ్ మరియు మల్టీమోడల్ మోడల్స్ (LLMలు) ద్వారా శక్తిని పొందుతాయని అంచనా వేస్తున్నారు. అయితే, వాస్తవం ఏమిటంటే చాలా AI ఏజెంట్లు ప్రయోగాత్మక స్థితిలో ఉన్నాయి, పరిశోధనా ప్రయోగశాలల నుండి వాస్తవ-ప్రపంచ అనువర్తనాలకు మారడానికి కష్టపడుతున్నాయి.
ఇప్పుడు, నార్త్వెస్టర్న్ యూనివర్శిటీ, మైక్రోసాఫ్ట్, స్టాన్ఫోర్డ్ మరియు యూనివర్శిటీ ఆఫ్ వాషింగ్టన్ పరిశోధకులు, జిహాన్ వాంగ్తో సహా, డీప్సీక్ మాజీ పరిశోధకుడు, RAGEN అనే నవల వ్యవస్థను ప్రవేశపెట్టారు. ఈ కొత్త ఫ్రేమ్వర్క్ AI ఏజెంట్లను శిక్షణ ఇవ్వడానికి మరియు మూల్యాంకనం చేయడానికి ఉద్దేశించబడింది, వాటిని ఆచరణాత్మక, సంస్థ-స్థాయి వినియోగానికి మరింత నమ్మదగినదిగా మరియు స్థితిస్థాపకంగా చేస్తుంది.
గణితం లేదా కోడింగ్ వంటి స్థిర సమస్యలపై దృష్టి సారించే సాంప్రదాయ AI పనుల మాదిరిగా కాకుండా, RAGEN బహుళ-మలుపు, ఇంటరాక్టివ్ దృశ్యాలను పరిష్కరిస్తుంది, ఇక్కడ ఏజెంట్లు అనిశ్చిత వాతావరణాలలో అనుగుణంగా ఉండాలి, నేర్చుకోవాలి మరియు తార్కికంగా ఆలోచించాలి. వాస్తవ-ప్రపంచ పరిస్థితుల సంక్లిష్టతలను నిర్వహించగల AIని అభివృద్ధి చేయడానికి ఈ విధానం చాలా కీలకం.
RAGEN యొక్క గుండె వద్ద స్టార్పిఓ (స్టేట్-థింకింగ్-యాక్షన్స్-రివార్డ్ పాలసీ ఆప్టిమైజేషన్)గా పిలువబడే కస్టమ్ రీన్ఫోర్స్మెంట్ లెర్నింగ్ (RL) ఫ్రేమ్వర్క్ ఉంది. ఈ వ్యవస్థ LLMలు కేవలం జ్ఞాపకం చేసుకోవడంపై ఆధారపడకుండా అనుభవం ద్వారా ఎలా నేర్చుకుంటాయో అన్వేషిస్తుంది. స్టార్పిఓ వ్యక్తిగత ప్రతిస్పందనలను మాత్రమే కాకుండా పరస్పర చర్యల యొక్క పూర్తి పథాన్ని పరిగణనలోకి తీసుకుని మొత్తం నిర్ణయం తీసుకునే ప్రక్రియపై దృష్టి పెడుతుంది.
స్టార్పిఓ రెండు విభిన్న దశల ద్వారా పనిచేస్తుంది. మొదటి దశ, రోలౌట్ దశ అని పిలువబడుతుంది, LLM తార్కికం ద్వారా మార్గనిర్దేశం చేయబడిన పూర్తి పరస్పర చర్యల శ్రేణులను ఉత్పత్తి చేస్తుంది. రెండవ దశ, నవీకరణ దశ, సాధారణీకరించిన సంచిత బహుమతులను ఉపయోగించి నమూనాను ఆప్టిమైజ్ చేస్తుంది. ఈ నిర్మాణం ప్రామాణిక పాలసీ ఆప్టిమైజేషన్ పద్ధతులతో పోలిస్తే మరింత స్థిరమైన మరియు పారదర్శకమైన అభ్యాస లూప్ను సృష్టిస్తుంది.
పరిశోధకులు అలీబాబా యొక్క క్వెన్ మోడళ్ల యొక్క చక్కగా ట్యూన్ చేయబడిన సంస్కరణలను ఉపయోగించి ఫ్రేమ్వర్క్ను అమలు చేశారు మరియు ఖచ్చితంగా పరీక్షించారు, ప్రత్యేకంగా క్వెన్ 1.5 మరియు క్వెన్ 2.5. ఈ నమూనాలు వాటి ఓపెన్ వెయిట్స్ మరియు సూచనలను సమర్థవంతంగా అనుసరించే సామర్థ్యం కోసం ఎంపిక చేయబడ్డాయి, ఇది వివిధ సింబాలిక్ పనులలో పునరుత్పత్తి మరియు స్థిరమైన బేస్లైన్ పోలికలను అనుమతించింది.
“ఎకో ట్రాప్”ను అధిగమించడం: రీన్ఫోర్స్మెంట్ లెర్నింగ్ మరియు రీజనింగ్ లాస్
జిహాన్ వాంగ్ విస్తృతంగా భాగస్వామ్యం చేయబడిన X థ్రెడ్లో ఒక ప్రధాన సవాలును హైలైట్ చేశారు: ‘మీ RL శిక్షణ ఎందుకు ఎల్లప్పుడూ కూలిపోతుంది?’ బృందం ప్రకారం, LLM ఏజెంట్లు మొదట బాగా ఆలోచించి, సింబాలిక్ ప్రతిస్పందనలను ఉత్పత్తి చేస్తారు. అయితే, RL వ్యవస్థలు కాలక్రమేణా సత్వరమార్గాలకు బహుమతులు ఇవ్వడానికి మొగ్గు చూపుతాయి, ఇది పునరావృత ప్రవర్తనలకు దారితీస్తుంది, ఇది చివరికి మొత్తం పనితీరును తగ్గిస్తుంది. ఈ దృగ్విషయాన్ని వారు ‘ఎకో ట్రాప్’ అని పిలుస్తారు.
కొన్ని పదబంధాలు లేదా వ్యూహాలు ప్రారంభంలో ఎక్కువ బహుమతులు పొందే ఫీడ్బ్యాక్ లూప్ల కారణంగా ఈ తిరోగమనం జరుగుతుంది, ఇది వాటిని ఎక్కువగా ఉపయోగించడానికి దారితీస్తుంది మరియు కొత్త విధానాల అన్వేషణకు ఆటంకం కలిగిస్తుంది. వాంగ్ ఇది పరిమాణాత్మకంగా ఉంటుందని, కొలవగల రివార్డ్ వేరియన్స్ క్లిఫ్లు, గ్రేడియంట్ స్పైక్లు మరియు రీజనింగ్ ట్రేస్ల అదృశ్యంతో సూచిస్తుంది.
నియంత్రిత సెట్టింగ్లో ఈ ప్రవర్తనలను పరిశీలించడానికి, RAGEN మూడు సింబాలిక్ వాతావరణాలను ఉపయోగిస్తుంది:
- బాండిట్: ఇది సింగిల్-టర్న్, స్టోకాస్టిక్ టాస్క్, ఇది సింబాలిక్ రిస్క్-రివార్డ్ రీజనింగ్ను అంచనా వేస్తుంది.
- సోకోబాన్: ఇది మల్టీ-టర్న్, డిటర్మినిస్టిక్ పజిల్, ఇది తిరిగి మార్చలేని నిర్ణయాలను కలిగి ఉంటుంది.
- ఫ్రోజెన్ లేక్: ఇది స్టోకాస్టిక్, మల్టీ-టర్న్ టాస్క్, ఇది అనుకూల ప్రణాళికను డిమాండ్ చేస్తుంది.
ప్రతి వాతావరణం వాస్తవ-ప్రపంచ పక్షపాతాలను తగ్గించడానికి, శిక్షణ సమయంలో ఉద్భవించే నిర్ణయం తీసుకునే వ్యూహాలపై దృష్టి పెట్టడానికి ఖచ్చితంగా రూపొందించబడింది.
ఉదాహరణకు, బాండిట్ వాతావరణంలో, ‘డ్రాగన్’ మరియు ‘ఫీనిక్స్’ ఆర్మ్స్ వేర్వేరు రివార్డ్ డిస్ట్రిబ్యూషన్లను సూచిస్తాయని ఏజెంట్లకు తెలియజేయబడుతుంది. సంభావ్యతలను నేరుగా అందించడానికి బదులుగా, ఏజెంట్లు సింబాలిక్గా తార్కికంగా ఆలోచించాలి, ‘డ్రాగన్’ను ‘బలం’గా మరియు ‘ఫీనిక్స్’ను ‘ఆశ’గా అర్థం చేసుకోవాలి. ఈ రకమైన సెటప్ వివరించదగిన, సారూప్యమైన తార్కికాన్ని ఉత్పత్తి చేయడానికి నమూనాను ప్రోత్సహిస్తుంది.
స్టార్పిఓ-ఎస్తో రీన్ఫోర్స్మెంట్ లెర్నింగ్ను స్థిరీకరించడం
శిక్షణ కూలిపోయే సమస్యను పరిష్కరించడానికి, పరిశోధకులు అసలు ఫ్రేమ్వర్క్ యొక్క స్థిరీకరించబడిన సంస్కరణ అయిన స్టార్పిఓ-ఎస్ను అభివృద్ధి చేశారు. స్టార్పిఓ-ఎస్ మూడు ముఖ్యమైన జోక్యాలను కలిగి ఉంది:
- అనిశ్చితి-ఆధారిత రోలౌట్ ఫిల్టరింగ్: ఇది ఫలితం గురించి ఏజెంట్ అనిశ్చితిని ప్రదర్శించే రోలౌట్లకు ప్రాధాన్యత ఇస్తుంది.
- KL పెనాల్టీ తొలగింపు: నమూనా దాని అసలు విధానం నుండి మరింత స్వేచ్ఛగా వైదొలగడానికి మరియు కొత్త ప్రవర్తనలను అన్వేషించడానికి అనుమతిస్తుంది.
- అసమాన PPO క్లిప్పింగ్: ఇది తక్కువ-రివార్డ్ ట్రాజెక్టరీల కంటే ఎక్కువ-రివార్డ్ ట్రాజెక్టరీలను మరింత విస్తరిస్తుంది, అభ్యాసాన్ని మెరుగుపరుస్తుంది.
ఈ సర్దుబాట్లు శిక్షణ కూలిపోవడాన్ని ఆలస్యం చేస్తాయి లేదా తొలగిస్తాయి, ఇది మూడు పనులలో మెరుగైన పనితీరుకు దారితీస్తుంది. వాంగ్ ప్రకారం, ‘స్టార్పిఓ-ఎస్… 3 పనులన్నింటిలోనూ పనిచేస్తుంది. కూలిపోవడాన్ని తగ్గిస్తుంది. మెరుగైన రివార్డ్.’
RL శిక్షణ యొక్క విజయం నిర్మాణంతో మాత్రమే కాకుండా ఏజెంట్లు ఉత్పత్తి చేసే డేటా నాణ్యతపై కూడా ఆధారపడి ఉంటుంది. శిక్షణను గణనీయంగా ప్రభావితం చేసే మూడు కీలకమైన అంశాలను బృందం గుర్తించింది:
- టాస్క్ డైవర్సిటీ: నమూనాను విస్తృత శ్రేణి ప్రారంభ దృశ్యాలకు బహిర్గతం చేయడం సాధారణీకరణను మెరుగుపరుస్తుంది.
- ఇంటరాక్షన్ గ్రాన్యులారిటీ: ప్రతి మలుపుకు బహుళ చర్యలను అనుమతించడం మరింత అర్థవంతమైన ప్రణాళికను అనుమతిస్తుంది.
- రోలౌట్ ఫ్రెష్నెస్: శిక్షణ డేటాను ప్రస్తుత మోడల్ పాలసీతో సమలేఖనం చేయడం పాత అభ్యాస సంకేతాలను నివారిస్తుంది.
ఈ అంశాలు కలిసి మరింత స్థిరమైన మరియు ప్రభావవంతమైన శిక్షణ ప్రక్రియకు దోహదం చేస్తాయి.
ఏజెంట్ ఆలోచన ప్రక్రియలను వెలికితీయడం
GitHubలో పరిశోధకులు సృష్టించిన ఇంటరాక్టివ్ డెమో సైట్ ఏజెంట్ రోలౌట్లను పూర్తి సంభాషణ మలుపులుగా దృశ్యమానంగా సూచిస్తుంది, తీసుకున్న చర్యలను మాత్రమే కాకుండా వాటి వెనుక ఉన్న దశల వారీ ఆలోచన ప్రక్రియను కూడా వెల్లడిస్తుంది.
ఉదాహరణకు, ఒక గణిత సమస్యను పరిష్కరించేటప్పుడు, ఒక ఏజెంట్ మొదట ‘x = 5’ వంటి సమాధానాన్ని సమర్పించే ముందు వేరియబుల్ను వేరుచేయడం గురించి ‘ఆలోచించవచ్చు’. ఈ మధ్యంతర ఆలోచనలు కనిపిస్తాయి మరియు గుర్తించదగినవి, ఏజెంట్లు నిర్ణయాలకు ఎలా వస్తారనే దాని గురించి పారదర్శకతను అందిస్తాయి.
స్పష్టమైన తార్కికం బాండిట్ వంటి సాధారణ, సింగిల్-టర్న్ టాస్క్లలో పనితీరును మెరుగుపరిస్తే, అది మల్టీ-టర్న్ శిక్షణ సమయంలో క్షీణించే అవకాశం ఉంది. నిర్మాణాత్మక ప్రాంప్ట్లు మరియు టోకెన్లను ఉపయోగించినప్పటికీ, తార్కిక జాడలు తరచుగా కుంచించుకుపోతాయి లేదా స్పష్టంగా రివార్డ్ చేయకపోతే అదృశ్యమవుతాయి.
ఇది సాంప్రదాయ రివార్డ్ డిజైన్లో ఒక పరిమితిని హైలైట్ చేస్తుంది: టాస్క్ పూర్తిపై దృష్టి పెట్టడం ప్రక్రియ యొక్క నాణ్యతను విస్మరించవచ్చు. మెరుగైన నిర్మాణాత్మక తార్కికాన్ని ప్రోత్సహించడానికి బృందం ఫార్మాట్-ఆధారిత పెనాల్టీలతో ప్రయోగాలు చేసింది, అయితే మరింత శుద్ధి చేయబడిన రివార్డ్ షేపింగ్ అవసరమని అంగీకరించింది.
AI ఏజెంట్ అభివృద్ధి కోసం ఓపెన్-సోర్స్ టూల్స్
RAGEN, దాని స్టార్పిఓ మరియు స్టార్పిఓ-ఎస్ ఫ్రేమ్వర్క్లతో పాటు, ఇప్పుడు ఓపెన్-సోర్స్ ప్రాజెక్ట్గా అందుబాటులో ఉంది. ఇది పనులను పూర్తి చేయడమే కాకుండా ఆలోచించే, ప్లాన్ చేసే మరియు అభివృద్ధి చెందే AI ఏజెంట్లను అభివృద్ధి చేయడంలో ఆసక్తి ఉన్నవారికి విలువైన పునాదిని అందిస్తుంది.
AI మరింత స్వయంప్రతిపత్తి వైపు పురోగమిస్తున్నందున, డేటా మరియు వారి స్వంత చర్యల పరిణామాల నుండి నేర్చుకునే నమూనాలను శిక్షణ ఇవ్వడానికి ఏమి అవసరమో RAGEN వంటి ప్రాజెక్ట్లు వెలుగులోకి తెస్తాయి.
వాస్తవ-ప్రపంచ అమలు కోసం ముఖ్యమైన ప్రశ్నలు
RAGEN పేపర్ వివరణాత్మక సాంకేతిక ఫ్రేమ్వర్క్ను అందిస్తున్నప్పటికీ, సంస్థల వాతావరణాలలో దాని అప్లికేషన్ను పరిశీలిస్తున్న వారికి అనేక ఆచరణాత్మక ప్రశ్నలు మిగిలి ఉన్నాయి. ఉదాహరణకు, RAGEN విధానం ఈ శైలీకృత, సింబాలిక్ పనులకు మించి ఎంత బాగా అనువదిస్తుంది? ఇన్వాయిస్ ప్రాసెసింగ్ లేదా కస్టమర్ సపోర్ట్ వంటి వర్క్ఫ్లోలలో ఈ వ్యవస్థను ఉపయోగించడానికి కంపెనీలు పూర్తిగా కొత్త వాతావరణాలను మరియు రివార్డ్ ఫంక్షన్లను సృష్టించాల్సిన అవసరం ఉందా?
మరొక ముఖ్యమైన పరిశీలన స్కేలబిలిటీ. స్టార్పిఓ-ఎస్ అందించే మెరుగుదలలతో కూడా, శిక్షణ ఎక్కువ కాలం పాటు కూలిపోతుందని పేపర్ అంగీకరిస్తుంది. ఓపెన్-ఎండ్ లేదా నిరంతరం అభివృద్ధి చెందుతున్న టాస్క్ సీక్వెన్స్లపై తార్కికాన్ని నిలబెట్టుకోవడానికి సైద్ధాంతిక లేదా ఆచరణాత్మక మార్గం ఉందా అనే ప్రశ్న ఇది లేవనెత్తుతుంది.
RAGEN మరింత స్వయంప్రతిపత్తమైన, తార్కికంగా ఆలోచించగల AI ఏజెంట్లను సృష్టించడానికి ఒక ముఖ్యమైన అడుగును సూచిస్తుంది, సాంకేతిక సహకారాలను దాటి భవిష్యత్తు అభివృద్ధి కోసం ఒక సంభావిత ఫ్రేమ్వర్క్ను అందిస్తుంది. ఇది సంస్థ AI టూల్కిట్ యొక్క ప్రామాణిక భాగం అవుతుందో లేదో చూడాలి, కానీ ఏజెంట్ అభ్యాసం యొక్క డైనమిక్స్పై దాని అంతర్దృష్టులు ఇప్పటికే LLM శిక్షణ యొక్క భవిష్యత్తును ఆకృతి చేస్తున్నాయి.
ఈ నవల పద్ధతి నమ్మదగిన మరియు అనుకూల AI ఏజెంట్ల యొక్క కీలకమైన అవసరాన్ని పరిష్కరిస్తుంది, వాస్తవ-ప్రపంచ అనువర్తనాల కోసం ఒక మంచి మార్గాన్ని అందిస్తుంది. అనుభవం ద్వారా నేర్చుకోవడం మరియు నిర్ణయం తీసుకునే పథాలను ఆప్టిమైజ్ చేయడంపై దృష్టి పెట్టడం ద్వారా, RAGEN సైద్ధాంతిక నమూనాలు మరియు ఆచరణాత్మక అమలుల మధ్య అంతరాన్ని తగ్గించడానికి సహాయపడుతుంది. ఫ్రేమ్వర్క్ యొక్క ఓపెన్-సోర్స్ లభ్యత రంగంలో ఆవిష్కరణలను మరింత వేగవంతం చేస్తుంది, పరిశోధకులు మరియు డెవలపర్లను దాని పునాదులపై నిర్మించడానికి మరియు AI ఏజెంట్ టెక్నాలజీలో కొత్త సరిహద్దులను అన్వేషించడానికి అధికారం ఇస్తుంది.