విశ్వసనీయ AI ఏజెంట్ల శిక్షణకు కొత్త మార్గం: RAGEN

AI ఏజెంట్ల గురించి నిరీక్షణ సంవత్సరాలుగా పెరుగుతోంది, చాలా మంది నిపుణులు 2025 సంవత్సరం టాస్క్-స్పెసిఫిక్ AI అమలులు, అధునాతన లార్జ్ లాంగ్వేజ్ మరియు మల్టీమోడల్ మోడల్స్ (LLMలు) ద్వారా శక్తిని పొందుతాయని అంచనా వేస్తున్నారు. అయితే, వాస్తవం ఏమిటంటే చాలా AI ఏజెంట్లు ప్రయోగాత్మక స్థితిలో ఉన్నాయి, పరిశోధనా ప్రయోగశాలల నుండి వాస్తవ-ప్రపంచ అనువర్తనాలకు మారడానికి కష్టపడుతున్నాయి.

ఇప్పుడు, నార్త్‌వెస్టర్న్ యూనివర్శిటీ, మైక్రోసాఫ్ట్, స్టాన్‌ఫోర్డ్ మరియు యూనివర్శిటీ ఆఫ్ వాషింగ్టన్ పరిశోధకులు, జిహాన్ వాంగ్‌తో సహా, డీప్‌సీక్ మాజీ పరిశోధకుడు, RAGEN అనే నవల వ్యవస్థను ప్రవేశపెట్టారు. ఈ కొత్త ఫ్రేమ్‌వర్క్ AI ఏజెంట్లను శిక్షణ ఇవ్వడానికి మరియు మూల్యాంకనం చేయడానికి ఉద్దేశించబడింది, వాటిని ఆచరణాత్మక, సంస్థ-స్థాయి వినియోగానికి మరింత నమ్మదగినదిగా మరియు స్థితిస్థాపకంగా చేస్తుంది.

గణితం లేదా కోడింగ్ వంటి స్థిర సమస్యలపై దృష్టి సారించే సాంప్రదాయ AI పనుల మాదిరిగా కాకుండా, RAGEN బహుళ-మలుపు, ఇంటరాక్టివ్ దృశ్యాలను పరిష్కరిస్తుంది, ఇక్కడ ఏజెంట్లు అనిశ్చిత వాతావరణాలలో అనుగుణంగా ఉండాలి, నేర్చుకోవాలి మరియు తార్కికంగా ఆలోచించాలి. వాస్తవ-ప్రపంచ పరిస్థితుల సంక్లిష్టతలను నిర్వహించగల AIని అభివృద్ధి చేయడానికి ఈ విధానం చాలా కీలకం.

RAGEN యొక్క గుండె వద్ద స్టార్‌పిఓ (స్టేట్-థింకింగ్-యాక్షన్స్-రివార్డ్ పాలసీ ఆప్టిమైజేషన్)గా పిలువబడే కస్టమ్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) ఫ్రేమ్‌వర్క్ ఉంది. ఈ వ్యవస్థ LLMలు కేవలం జ్ఞాపకం చేసుకోవడంపై ఆధారపడకుండా అనుభవం ద్వారా ఎలా నేర్చుకుంటాయో అన్వేషిస్తుంది. స్టార్‌పిఓ వ్యక్తిగత ప్రతిస్పందనలను మాత్రమే కాకుండా పరస్పర చర్యల యొక్క పూర్తి పథాన్ని పరిగణనలోకి తీసుకుని మొత్తం నిర్ణయం తీసుకునే ప్రక్రియపై దృష్టి పెడుతుంది.

స్టార్‌పిఓ రెండు విభిన్న దశల ద్వారా పనిచేస్తుంది. మొదటి దశ, రోలౌట్ దశ అని పిలువబడుతుంది, LLM తార్కికం ద్వారా మార్గనిర్దేశం చేయబడిన పూర్తి పరస్పర చర్యల శ్రేణులను ఉత్పత్తి చేస్తుంది. రెండవ దశ, నవీకరణ దశ, సాధారణీకరించిన సంచిత బహుమతులను ఉపయోగించి నమూనాను ఆప్టిమైజ్ చేస్తుంది. ఈ నిర్మాణం ప్రామాణిక పాలసీ ఆప్టిమైజేషన్ పద్ధతులతో పోలిస్తే మరింత స్థిరమైన మరియు పారదర్శకమైన అభ్యాస లూప్‌ను సృష్టిస్తుంది.

పరిశోధకులు అలీబాబా యొక్క క్వెన్ మోడళ్ల యొక్క చక్కగా ట్యూన్ చేయబడిన సంస్కరణలను ఉపయోగించి ఫ్రేమ్‌వర్క్‌ను అమలు చేశారు మరియు ఖచ్చితంగా పరీక్షించారు, ప్రత్యేకంగా క్వెన్ 1.5 మరియు క్వెన్ 2.5. ఈ నమూనాలు వాటి ఓపెన్ వెయిట్స్ మరియు సూచనలను సమర్థవంతంగా అనుసరించే సామర్థ్యం కోసం ఎంపిక చేయబడ్డాయి, ఇది వివిధ సింబాలిక్ పనులలో పునరుత్పత్తి మరియు స్థిరమైన బేస్‌లైన్ పోలికలను అనుమతించింది.

“ఎకో ట్రాప్”ను అధిగమించడం: రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ మరియు రీజనింగ్ లాస్

జిహాన్ వాంగ్ విస్తృతంగా భాగస్వామ్యం చేయబడిన X థ్రెడ్‌లో ఒక ప్రధాన సవాలును హైలైట్ చేశారు: ‘మీ RL శిక్షణ ఎందుకు ఎల్లప్పుడూ కూలిపోతుంది?’ బృందం ప్రకారం, LLM ఏజెంట్లు మొదట బాగా ఆలోచించి, సింబాలిక్ ప్రతిస్పందనలను ఉత్పత్తి చేస్తారు. అయితే, RL వ్యవస్థలు కాలక్రమేణా సత్వరమార్గాలకు బహుమతులు ఇవ్వడానికి మొగ్గు చూపుతాయి, ఇది పునరావృత ప్రవర్తనలకు దారితీస్తుంది, ఇది చివరికి మొత్తం పనితీరును తగ్గిస్తుంది. ఈ దృగ్విషయాన్ని వారు ‘ఎకో ట్రాప్’ అని పిలుస్తారు.

కొన్ని పదబంధాలు లేదా వ్యూహాలు ప్రారంభంలో ఎక్కువ బహుమతులు పొందే ఫీడ్‌బ్యాక్ లూప్‌ల కారణంగా ఈ తిరోగమనం జరుగుతుంది, ఇది వాటిని ఎక్కువగా ఉపయోగించడానికి దారితీస్తుంది మరియు కొత్త విధానాల అన్వేషణకు ఆటంకం కలిగిస్తుంది. వాంగ్ ఇది పరిమాణాత్మకంగా ఉంటుందని, కొలవగల రివార్డ్ వేరియన్స్ క్లిఫ్‌లు, గ్రేడియంట్ స్పైక్‌లు మరియు రీజనింగ్ ట్రేస్‌ల అదృశ్యంతో సూచిస్తుంది.

నియంత్రిత సెట్టింగ్‌లో ఈ ప్రవర్తనలను పరిశీలించడానికి, RAGEN మూడు సింబాలిక్ వాతావరణాలను ఉపయోగిస్తుంది:

  • బాండిట్: ఇది సింగిల్-టర్న్, స్టోకాస్టిక్ టాస్క్, ఇది సింబాలిక్ రిస్క్-రివార్డ్ రీజనింగ్‌ను అంచనా వేస్తుంది.
  • సోకోబాన్: ఇది మల్టీ-టర్న్, డిటర్మినిస్టిక్ పజిల్, ఇది తిరిగి మార్చలేని నిర్ణయాలను కలిగి ఉంటుంది.
  • ఫ్రోజెన్ లేక్: ఇది స్టోకాస్టిక్, మల్టీ-టర్న్ టాస్క్, ఇది అనుకూల ప్రణాళికను డిమాండ్ చేస్తుంది.

ప్రతి వాతావరణం వాస్తవ-ప్రపంచ పక్షపాతాలను తగ్గించడానికి, శిక్షణ సమయంలో ఉద్భవించే నిర్ణయం తీసుకునే వ్యూహాలపై దృష్టి పెట్టడానికి ఖచ్చితంగా రూపొందించబడింది.

ఉదాహరణకు, బాండిట్ వాతావరణంలో, ‘డ్రాగన్’ మరియు ‘ఫీనిక్స్’ ఆర్మ్స్ వేర్వేరు రివార్డ్ డిస్ట్రిబ్యూషన్‌లను సూచిస్తాయని ఏజెంట్లకు తెలియజేయబడుతుంది. సంభావ్యతలను నేరుగా అందించడానికి బదులుగా, ఏజెంట్లు సింబాలిక్‌గా తార్కికంగా ఆలోచించాలి, ‘డ్రాగన్’ను ‘బలం’గా మరియు ‘ఫీనిక్స్’ను ‘ఆశ’గా అర్థం చేసుకోవాలి. ఈ రకమైన సెటప్ వివరించదగిన, సారూప్యమైన తార్కికాన్ని ఉత్పత్తి చేయడానికి నమూనాను ప్రోత్సహిస్తుంది.

స్టార్‌పిఓ-ఎస్‌తో రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌ను స్థిరీకరించడం

శిక్షణ కూలిపోయే సమస్యను పరిష్కరించడానికి, పరిశోధకులు అసలు ఫ్రేమ్‌వర్క్ యొక్క స్థిరీకరించబడిన సంస్కరణ అయిన స్టార్‌పిఓ-ఎస్‌ను అభివృద్ధి చేశారు. స్టార్‌పిఓ-ఎస్ మూడు ముఖ్యమైన జోక్యాలను కలిగి ఉంది:

  1. అనిశ్చితి-ఆధారిత రోలౌట్ ఫిల్టరింగ్: ఇది ఫలితం గురించి ఏజెంట్ అనిశ్చితిని ప్రదర్శించే రోలౌట్‌లకు ప్రాధాన్యత ఇస్తుంది.
  2. KL పెనాల్టీ తొలగింపు: నమూనా దాని అసలు విధానం నుండి మరింత స్వేచ్ఛగా వైదొలగడానికి మరియు కొత్త ప్రవర్తనలను అన్వేషించడానికి అనుమతిస్తుంది.
  3. అసమాన PPO క్లిప్పింగ్: ఇది తక్కువ-రివార్డ్ ట్రాజెక్టరీల కంటే ఎక్కువ-రివార్డ్ ట్రాజెక్టరీలను మరింత విస్తరిస్తుంది, అభ్యాసాన్ని మెరుగుపరుస్తుంది.

ఈ సర్దుబాట్లు శిక్షణ కూలిపోవడాన్ని ఆలస్యం చేస్తాయి లేదా తొలగిస్తాయి, ఇది మూడు పనులలో మెరుగైన పనితీరుకు దారితీస్తుంది. వాంగ్ ప్రకారం, ‘స్టార్‌పిఓ-ఎస్… 3 పనులన్నింటిలోనూ పనిచేస్తుంది. కూలిపోవడాన్ని తగ్గిస్తుంది. మెరుగైన రివార్డ్.’

RL శిక్షణ యొక్క విజయం నిర్మాణంతో మాత్రమే కాకుండా ఏజెంట్లు ఉత్పత్తి చేసే డేటా నాణ్యతపై కూడా ఆధారపడి ఉంటుంది. శిక్షణను గణనీయంగా ప్రభావితం చేసే మూడు కీలకమైన అంశాలను బృందం గుర్తించింది:

  • టాస్క్ డైవర్సిటీ: నమూనాను విస్తృత శ్రేణి ప్రారంభ దృశ్యాలకు బహిర్గతం చేయడం సాధారణీకరణను మెరుగుపరుస్తుంది.
  • ఇంటరాక్షన్ గ్రాన్యులారిటీ: ప్రతి మలుపుకు బహుళ చర్యలను అనుమతించడం మరింత అర్థవంతమైన ప్రణాళికను అనుమతిస్తుంది.
  • రోలౌట్ ఫ్రెష్‌నెస్: శిక్షణ డేటాను ప్రస్తుత మోడల్ పాలసీతో సమలేఖనం చేయడం పాత అభ్యాస సంకేతాలను నివారిస్తుంది.

ఈ అంశాలు కలిసి మరింత స్థిరమైన మరియు ప్రభావవంతమైన శిక్షణ ప్రక్రియకు దోహదం చేస్తాయి.

ఏజెంట్ ఆలోచన ప్రక్రియలను వెలికితీయడం

GitHubలో పరిశోధకులు సృష్టించిన ఇంటరాక్టివ్ డెమో సైట్ ఏజెంట్ రోలౌట్‌లను పూర్తి సంభాషణ మలుపులుగా దృశ్యమానంగా సూచిస్తుంది, తీసుకున్న చర్యలను మాత్రమే కాకుండా వాటి వెనుక ఉన్న దశల వారీ ఆలోచన ప్రక్రియను కూడా వెల్లడిస్తుంది.

ఉదాహరణకు, ఒక గణిత సమస్యను పరిష్కరించేటప్పుడు, ఒక ఏజెంట్ మొదట ‘x = 5’ వంటి సమాధానాన్ని సమర్పించే ముందు వేరియబుల్‌ను వేరుచేయడం గురించి ‘ఆలోచించవచ్చు’. ఈ మధ్యంతర ఆలోచనలు కనిపిస్తాయి మరియు గుర్తించదగినవి, ఏజెంట్లు నిర్ణయాలకు ఎలా వస్తారనే దాని గురించి పారదర్శకతను అందిస్తాయి.

స్పష్టమైన తార్కికం బాండిట్ వంటి సాధారణ, సింగిల్-టర్న్ టాస్క్‌లలో పనితీరును మెరుగుపరిస్తే, అది మల్టీ-టర్న్ శిక్షణ సమయంలో క్షీణించే అవకాశం ఉంది. నిర్మాణాత్మక ప్రాంప్ట్‌లు మరియు టోకెన్‌లను ఉపయోగించినప్పటికీ, తార్కిక జాడలు తరచుగా కుంచించుకుపోతాయి లేదా స్పష్టంగా రివార్డ్ చేయకపోతే అదృశ్యమవుతాయి.

ఇది సాంప్రదాయ రివార్డ్ డిజైన్‌లో ఒక పరిమితిని హైలైట్ చేస్తుంది: టాస్క్ పూర్తిపై దృష్టి పెట్టడం ప్రక్రియ యొక్క నాణ్యతను విస్మరించవచ్చు. మెరుగైన నిర్మాణాత్మక తార్కికాన్ని ప్రోత్సహించడానికి బృందం ఫార్మాట్-ఆధారిత పెనాల్టీలతో ప్రయోగాలు చేసింది, అయితే మరింత శుద్ధి చేయబడిన రివార్డ్ షేపింగ్ అవసరమని అంగీకరించింది.

AI ఏజెంట్ అభివృద్ధి కోసం ఓపెన్-సోర్స్ టూల్స్

RAGEN, దాని స్టార్‌పిఓ మరియు స్టార్‌పిఓ-ఎస్ ఫ్రేమ్‌వర్క్‌లతో పాటు, ఇప్పుడు ఓపెన్-సోర్స్ ప్రాజెక్ట్‌గా అందుబాటులో ఉంది. ఇది పనులను పూర్తి చేయడమే కాకుండా ఆలోచించే, ప్లాన్ చేసే మరియు అభివృద్ధి చెందే AI ఏజెంట్లను అభివృద్ధి చేయడంలో ఆసక్తి ఉన్నవారికి విలువైన పునాదిని అందిస్తుంది.

AI మరింత స్వయంప్రతిపత్తి వైపు పురోగమిస్తున్నందున, డేటా మరియు వారి స్వంత చర్యల పరిణామాల నుండి నేర్చుకునే నమూనాలను శిక్షణ ఇవ్వడానికి ఏమి అవసరమో RAGEN వంటి ప్రాజెక్ట్‌లు వెలుగులోకి తెస్తాయి.

వాస్తవ-ప్రపంచ అమలు కోసం ముఖ్యమైన ప్రశ్నలు

RAGEN పేపర్ వివరణాత్మక సాంకేతిక ఫ్రేమ్‌వర్క్‌ను అందిస్తున్నప్పటికీ, సంస్థల వాతావరణాలలో దాని అప్లికేషన్‌ను పరిశీలిస్తున్న వారికి అనేక ఆచరణాత్మక ప్రశ్నలు మిగిలి ఉన్నాయి. ఉదాహరణకు, RAGEN విధానం ఈ శైలీకృత, సింబాలిక్ పనులకు మించి ఎంత బాగా అనువదిస్తుంది? ఇన్‌వాయిస్ ప్రాసెసింగ్ లేదా కస్టమర్ సపోర్ట్ వంటి వర్క్‌ఫ్లోలలో ఈ వ్యవస్థను ఉపయోగించడానికి కంపెనీలు పూర్తిగా కొత్త వాతావరణాలను మరియు రివార్డ్ ఫంక్షన్‌లను సృష్టించాల్సిన అవసరం ఉందా?

మరొక ముఖ్యమైన పరిశీలన స్కేలబిలిటీ. స్టార్‌పిఓ-ఎస్ అందించే మెరుగుదలలతో కూడా, శిక్షణ ఎక్కువ కాలం పాటు కూలిపోతుందని పేపర్ అంగీకరిస్తుంది. ఓపెన్-ఎండ్ లేదా నిరంతరం అభివృద్ధి చెందుతున్న టాస్క్ సీక్వెన్స్‌లపై తార్కికాన్ని నిలబెట్టుకోవడానికి సైద్ధాంతిక లేదా ఆచరణాత్మక మార్గం ఉందా అనే ప్రశ్న ఇది లేవనెత్తుతుంది.

RAGEN మరింత స్వయంప్రతిపత్తమైన, తార్కికంగా ఆలోచించగల AI ఏజెంట్లను సృష్టించడానికి ఒక ముఖ్యమైన అడుగును సూచిస్తుంది, సాంకేతిక సహకారాలను దాటి భవిష్యత్తు అభివృద్ధి కోసం ఒక సంభావిత ఫ్రేమ్‌వర్క్‌ను అందిస్తుంది. ఇది సంస్థ AI టూల్‌కిట్ యొక్క ప్రామాణిక భాగం అవుతుందో లేదో చూడాలి, కానీ ఏజెంట్ అభ్యాసం యొక్క డైనమిక్స్‌పై దాని అంతర్దృష్టులు ఇప్పటికే LLM శిక్షణ యొక్క భవిష్యత్తును ఆకృతి చేస్తున్నాయి.

ఈ నవల పద్ధతి నమ్మదగిన మరియు అనుకూల AI ఏజెంట్ల యొక్క కీలకమైన అవసరాన్ని పరిష్కరిస్తుంది, వాస్తవ-ప్రపంచ అనువర్తనాల కోసం ఒక మంచి మార్గాన్ని అందిస్తుంది. అనుభవం ద్వారా నేర్చుకోవడం మరియు నిర్ణయం తీసుకునే పథాలను ఆప్టిమైజ్ చేయడంపై దృష్టి పెట్టడం ద్వారా, RAGEN సైద్ధాంతిక నమూనాలు మరియు ఆచరణాత్మక అమలుల మధ్య అంతరాన్ని తగ్గించడానికి సహాయపడుతుంది. ఫ్రేమ్‌వర్క్ యొక్క ఓపెన్-సోర్స్ లభ్యత రంగంలో ఆవిష్కరణలను మరింత వేగవంతం చేస్తుంది, పరిశోధకులు మరియు డెవలపర్‌లను దాని పునాదులపై నిర్మించడానికి మరియు AI ఏజెంట్ టెక్నాలజీలో కొత్త సరిహద్దులను అన్వేషించడానికి అధికారం ఇస్తుంది.