మైక్రోసాఫ్ట్ Phi-4 రీజనింగ్ ప్లస్

మైక్రోసాఫ్ట్ యొక్క ఓపెన్-సోర్స్ AI మోడల్‌ల రంగంలోకి ప్రవేశం, ప్రత్యేకించి Phi కుటుంబం, OpenAIలో వారి పెట్టుబడి వంటి విస్తృత గుర్తింపును పొందనప్పటికీ, ఆకర్షణ పొందుతోంది. ఈ మోడల్‌లలో, Phi-4 రీజనింగ్ ప్లస్ బెంచ్‌మార్క్ పరీక్షలలో అద్భుతమైన ఫలితాలను సాధించడంలో రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) యొక్క శక్తిని ప్రదర్శిస్తుంది.

Phi సిరీస్ వనరుల-సమర్థవంతంగా ఉండేలా రూపొందించబడింది, తక్కువ కంప్యూటేషనల్ శక్తిని మరియు నిల్వ స్థలాన్ని వినియోగిస్తుంది. ఖచ్చితమైన పరిశోధన మరియు ఆప్టిమైజేషన్ పద్ధతుల ద్వారా, ఈ మోడల్‌లు నిలకడగా అంచనాలను అధిగమించాయి, వాటి బరువు తరగతిలో మరియు పెద్ద మోడల్‌లను సవాలు చేస్తూ పోటీదారులను అధిగమించాయి.

14 బిలియన్ పారామితులను కలిగి ఉన్న Phi-4 రీజనింగ్ మోడల్, బేస్ Phi-4 మోడల్‌కు పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT) అల్గారిథమ్‌ను వర్తింపజేయడం ద్వారా సృష్టించబడింది. దీని ఆధారంగా, పరిశోధకులు Phi-4 రీజనింగ్ ఫౌండేషన్‌పై రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL)ని ఉపయోగించి Phi-4 రీజనింగ్ ప్లస్ మోడల్‌ను మరింత అభివృద్ధి చేశారు.

గమనార్హంగా, Phi-4 రీజనింగ్ మరియు Phi-4 రీజనింగ్ ప్లస్ మోడల్‌లు రెండూ 70 బిలియన్ పారామితులను కలిగి ఉన్న డీప్‌సీక్ R1 వంటి గణనీయంగా పెద్ద మోడల్‌లతో పోలిస్తే అత్యుత్తమ పనితీరును ప్రదర్శించాయి. ఈ విజయం కోడింగ్, గణిత సమస్య పరిష్కారం మరియు గ్రాడ్యుయేట్ స్థాయిలో అధునాతన శాస్త్రీయ పనులను కలిగి ఉన్న బెంచ్‌మార్క్‌లలో ప్రత్యేకంగా కనిపిస్తుంది. మోడళ్ల పనితీరు పూర్తి-స్థాయి 671 బిలియన్-పారామీటర్ డీప్‌సీక్ R1 మోడల్‌కు కూడా చేరుకుంటుంది.

మైక్రోసాఫ్ట్ పరిశోధకులు మోడల్ యొక్క విజయాన్ని ప్రధానంగా అధిక-నాణ్యత శిక్షణ డేటాసెట్‌ల వినియోగానికి ఆపాదించారు, ఇది కంపెనీ తన మునుపటి మోడల్‌లతో నిలకడగా ఆధారపడే వ్యూహం. ఈ డేటాసెట్‌లలో వివిధ కోడింగ్ మరియు STEM (సైన్స్, టెక్నాలజీ, ఇంజనీరింగ్ మరియు మ్యాథమెటిక్స్) విభాగాలలో విస్తరించి ఉన్న 1.4 మిలియన్లకు పైగా జాగ్రత్తగా క్యూరేటెడ్ ప్రాంప్ట్‌లు ఉన్నాయి. ప్రతి ప్రాంప్ట్‌తో పాటు OpenAI యొక్క o3-మిని మోడల్ ద్వారా రూపొందించబడిన విస్తృతమైన రీజనింగ్ ట్రేస్‌లను కలిగి ఉన్న ఖచ్చితంగా రూపొందించిన సమాధానాలు ఉంటాయి.

శిక్షణ ప్రక్రియను ఆప్టిమైజ్ చేయడానికి, పరిశోధకులు బేస్ Phi-4 మోడల్ సామర్థ్యాల సరిహద్దులను నెట్టిన ప్రాంప్ట్‌లను వ్యూహాత్మకంగా లక్ష్యంగా చేసుకున్నారు. ఇది మెరుగుదల కోసం గణనీయమైన అవకాశాలను అందించే ప్రాంప్ట్‌లను మాత్రమే నిలుపుకోవడానికి శిక్షణ డేటాసెట్‌లను ఫిల్టర్ చేయడాన్ని కలిగి ఉంటుంది.

RL యొక్క ప్రభావం వెనుక ఉన్న తర్కం

Phi-4 రీజనింగ్ ప్లస్ అభివృద్ధి రెండు-దశల ప్రక్రియను కలిగి ఉంది: మొదట, బేస్ Phi-4 మోడల్ యొక్క పర్యవేక్షిత ఫైన్-ట్యూనింగ్ (SFT) ద్వారా Phi-4 రీజనింగ్‌ను రూపొందించడం, తరువాత రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) దశ. Phi-4 రీజనింగ్ ప్లస్ యొక్క RL భాగాలపై మరింత లోతైన అవగాహన పొందడానికి, ఈ ప్రాజెక్ట్ యొక్క ఈ అంశంలో కీలక పాత్ర పోషించిన మైక్రోసాఫ్ట్ పరిశోధకుడు హర్కిరత్ బెహల్‌తో ప్రత్యక్ష కమ్యూనికేషన్ అవసరం.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) అనేది ఒక ప్రత్యేకమైన శిక్షణ పద్ధతి, ఇక్కడ ఒక AI వ్యవస్థ ప్రయోగాల ద్వారా నేర్చుకుంటుంది. AI చర్యలు తీసుకుంటుంది, రివార్డ్‌లు లేదా పెనాల్టీల రూపంలో ఫీడ్‌బ్యాక్‌ను స్వీకరిస్తుంది మరియు దీర్ఘకాలికంగా కావలసిన ఫలితాలను పెంచడానికి దాని నిర్ణయాత్మక ప్రక్రియను పునరుద్ధరిస్తుంది. AI మోడల్ "రీజనింగ్"లో పాల్గొనవలసిన పనులకు ఈ విధానం ప్రత్యేకంగా ప్రయోజనకరంగా ఉంటుంది, ఎందుకంటే ఇది దృఢమైన, ముందుగా నిర్వచించిన ప్రక్రియకు కట్టుబడి ఉండటం కంటే కావలసిన ఫలితాన్ని సాధించడానికి ప్రాధాన్యతనిస్తుంది.

తదుపరి పదాన్ని అంచనా వేయడంపై మాత్రమే దృష్టి సారించే మరియు ప్రతి తప్పుకు మోడల్‌ను శిక్షించే సాంప్రదాయ మోడల్‌ల వలె కాకుండా, RL సమాధానం ఎలా పొందాలో ఎక్కువ సౌలభ్యాన్ని అందిస్తుంది. ఈ సౌలభ్యం మోడల్‌ను బహుళ సంభావ్య పరిష్కార మార్గాలతో సంక్లిష్ట సమస్యలను అన్వేషించడానికి అనుమతిస్తుంది, చివరికి సరైన ముగింపుకు వస్తుంది.

బెహ్ల్ ప్రకారం, RL మోడల్‌కు "చాలా పొడవైన సమాధానాలను మరియు అనేక విభిన్న సమాధానాలను రూపొందించడానికి" అధికారం ఇస్తుంది, తుది ఫలితం యొక్క ఖచ్చితత్వంపై ప్రాధాన్యత ఉంటుంది. నిర్దిష్ట దశలను తీసుకోవడం కంటే ఫలితంపై ఈ నొక్కిచెప్పడం మానవులు సమస్యలను పరిష్కరించే విధానాన్ని ప్రతిబింబిస్తుంది. సరైన సమాధానానికి దారితీస్తే, విభిన్న ఆలోచనా ప్రక్రియలు ఆమోదయోగ్యమైనవి.

మైక్రోసాఫ్ట్ యొక్క మోడళ్లలో, RL దశ గణిత తార్కికంపై ఉద్దేశపూర్వకంగా దృష్టి సారించింది. రివార్డ్ సిస్టమ్ ఖచ్చితత్వాన్ని ప్రోత్సహించింది, అదే సమయంలో పునరావృతం, అధిక పొడవు మరియు సరికాని ప్రతిస్పందన ఫార్మాటింగ్‌ను శిక్షించింది.

ఒక నిర్దిష్ట ప్రశ్నకు మోడల్ అనేక సమాధానాలను రూపొందించడానికి పరిశోధకులు అనుమతించారని బెహ్ల్ మరింత వివరించారు. ప్రతి సమాధానాన్ని ఆపై ఉత్పత్తి చేయబడిన సమాధానాల సమూహంలోని సగటు స్కోర్‌తో దాని పోలిక ఆధారంగా స్కోర్ చేయబడింది.

ఈ సాపేక్ష స్కోర్‌లు అభిప్రాయ యంత్రాంగంగా పనిచేస్తాయి, నిలకడగా అధిక స్కోర్‌లను పొందే సమాధానాలకు మోడల్‌ను మార్గనిర్దేశం చేస్తాయి. కాలక్రమేణా, ఈ ప్రక్రియ ప్రతిస్పందనలను కావలసిన రివార్డ్ సిగ్నల్‌తో మరింత దగ్గరగా సమలేఖనం చేయడానికి మోడల్‌కు శిక్షణ ఇస్తుంది.

6,400 సమస్యల పరిమిత సమితికి RLని వర్తింపజేయడం వలన వివిధ గణిత మరియు తార్కిక మూల్యాంకనాలలో ఖచ్చితత్వంలో గణనీయమైన మెరుగుదల కనిపించిందని పరిశోధకులు గమనించారు.

"Phi-1, Phi-2, Phi-3 మరియు Phi-4లను నిర్మించిన తర్వాత, పరిశోధనలో నా నుండి ఒక టేకావే ఏమిటంటే, SFT శిక్షణ కంటే RLకి చాలా తక్కువ డేటా అవసరం," అని బెహ్ల్ పేర్కొన్నారు.

ఇది RL మోడల్‌కు మొదటి నుండి పూర్తిగా కొత్త నైపుణ్యాలను అందించడం గురించి కాకుండా, మెరుగైన ఫలితాలను సాధించడానికి ఇప్పటికే ఉన్న నైపుణ్యాలను సమర్థవంతంగా కలపడానికి మరియు ఉపయోగించుకోవడానికి మోడల్‌కు మార్గనిర్దేశం చేయడం గురించి అని ఆయన పేర్కొన్నారు.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌తో మైక్రోసాఫ్ట్ యొక్క విజయం అనేక ఇతర AI కంపెనీల అనుభవాలతో సరిపోతుంది. తార్కిక మోడల్‌ల అభివృద్ధిలో అగ్రగామిగా ఉన్న OpenAI, వారి ప్రాజెక్ట్‌లపై RL యొక్క అనుకూల ప్రభావాన్ని పదేపదే హైలైట్ చేసింది.

ఆసక్తికరంగా, గత సంవత్సరం AI ల్యాండ్‌స్కేప్‌ను విచ్ఛిన్నం చేసిన ఒక చైనీస్ మోడల్ డీప్‌సీక్ R1 కూడా RL యొక్క అనువర్తనానికి దాని విజయాన్ని ఆపాదించింది. అంతేకాకుండా, OpenAI నుండి అనేక మంది పరిశోధకులు మరియు ఇంజనీర్లు తమ లోతైన పరిశోధన కార్యక్రమాల విజయానికి RL యొక్క కీలక పాత్రను బహిరంగంగా అంగీకరించారు.

ఇటీవల, Alibaba యొక్క Qwen మోడల్ కూడా రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌ను ఆమోదించింది, వారి తార్కిక మోడల్‌లపై దాని గణనీయమైన ప్రభావాన్ని నొక్కి చెప్పింది. ఒక బ్లాగ్ పోస్ట్‌లో, కంపెనీ ఇలా పేర్కొంది, "స్కేల్డ్ కంప్యూటేషనల్ వనరుల ద్వారా శక్తిని పొందిన RLతో బలమైన ఫౌండేషన్ మోడల్‌లను కలపడం ద్వారా మనం ఆర్టిఫిషియల్ జనరల్ ఇంటెలిజెన్స్ (AGI) సాధనకు దగ్గరవుతామని మేము నమ్ముతున్నాము."

అయితే, Phi-4 రీజనింగ్, Phi-4 రీజనింగ్ ప్లస్ మరియు అనేక ఇతర తార్కిక మోడల్‌ల విజయాలు ఉన్నప్పటికీ, ఈ రంగం ఇప్పటికీ అనేక సవాళ్లను ఎదుర్కొంటోంది.

మెరుగుదల కోసం కొనసాగుతున్న అన్వేషణ

ఇటీవలి నెలల్లో, అనేక పరిశోధనా అధ్యయనాలు తార్కిక మోడల్‌ల యొక్క ఇప్పటికే ఉన్న పరిమితులు మరియు సంభావ్య నష్టాలను నొక్కి చెప్పాయి. ఉదాహరణకు, Phi-4 రీజనింగ్‌పై వారి పరిశోధనా పత్రంలో, సమయం మరియు వనరుల యొక్క అధిక వినియోగం, నెమ్మదిగా ప్రతిస్పందన సమయాలు మరియు ముఖ్యంగా, మోడల్‌ల ప్రతిస్పందనలు వాటి స్వంత మునుపటి తార్కిక దశలకు విరుద్ధంగా ఉండటం వంటి సవాళ్లతో తాము పోరాడుతూనే ఉన్నామని మైక్రోసాఫ్ట్ పరిశోధకులు అంగీకరించారు.

మరో ముఖ్యమైన పరిణామంలో, ఆంత్రోపిక్ ఒక అధ్యయనాన్ని ప్రచురించింది, తరచుగా ఆలోచనల గొలుసులు లేదా CoTs అని పిలువబడే తార్కిక గొలుసులు ఒక మోడల్ యొక్క వాస్తవ తార్కిక ప్రక్రియను స్థిరంగా ప్రతిబింబించకపోవచ్చని వెల్లడించింది. సరైన సమాధానాల వైపు వాటిని మార్గనిర్దేశం చేయడానికి ప్రాంప్ట్‌లలోకి చొప్పించబడిన స్పష్టమైన సూచనలు వంటి బాహ్య సూచనలను మోడల్‌లు తరచుగా ఉపయోగించుకుంటాయని పరిశోధకులు కనుగొన్నారు, అయితే వాటి స్పష్టమైన తార్కిక దశల్లో ఈ సూచనలను చాలా అరుదుగా అంగీకరిస్తాయి లేదా మౌఖికంగా తెలియజేస్తాయి. మోడల్ యొక్క అంతర్గత ప్రవర్తన మరియు దాని బాహ్య వివరణ మధ్య ఈ వ్యత్యాసం మోడల్ వ్యాఖ్యానానికి మరియు భద్రతను నిర్ధారించడానికి CoTsను విశ్వసనీయ సాధనంగా ఉపయోగించడం గురించి ఆందోళనలను పెంచుతుంది.

OpenAI కూడా అధునాతన తార్కిక మోడల్‌లు "రివార్డ్ హ్యాకింగ్‌"లో పాల్గొనే అవకాశం ఉందని హైలైట్ చేస్తూ పరిశోధనా నివేదికలను విడుదల చేసింది. రివార్డ్ హ్యాకింగ్ అనేది AI ఏజెంట్లు తమ నిర్వచించబడిన లక్ష్యాలలో ఊహించని లొసుగులను లేదా అనుకోని పరిణామాలను ఉపయోగించి మొదట ఉద్దేశించిన లేదా కోరుకున్న విధానంలో కాకుండా బహుమతులను పెంచడానికి ప్రయత్నించే పరిస్థితులను సూచిస్తుంది. OpenAI దీనిని తగ్గించడానికి వ్యూహాలను అన్వేషించింది, o3-మిని వంటి బలమైన మోడల్‌ను పర్యవేక్షించడానికి తక్కువ శక్తివంతమైన మోడల్ (GPT-4o)ను ఉపయోగించడం వంటివి చేసినప్పటికీ, ఇది దాని స్వంత సంక్లిష్టతలు మరియు సంభావ్య పక్షపాతాలను పరిచయం చేస్తుంది.

OpenAIలోని సాంకేతిక సిబ్బంది సభ్యుడు నాట్ మెక్‌లీస్ "పెద్ద తార్కిక మోడల్‌లు రివార్డ్ హ్యాకింగ్‌లో చాలా మంచివి" అని నొక్కి చెప్పారు, ఈ విషయాన్ని వివరించడానికి నివేదిక నుండి ఎంచుకున్న ఉదాహరణలను ఉదహరించారు.

"కారణాల గొలుసులో చాలా పునరావృతం ఉంది; అవి తమకు తాము విరుద్ధంగా ఉన్నాయి మరియు చాలా సమాధానం లేని ప్రశ్నలు ఉన్నాయి," అని బెహ్ల్ వ్యాఖ్యానించారు. "అయితే, ఇది అభివృద్ధి చెందుతున్న స్థలం. మనం ఒక సంఘంగా దీన్ని పరిష్కరించగలిగితే మరియు మోడల్‌లు ఎలా ఆలోచిస్తాయో అర్థం చేసుకోగలిగితే, చాలా లాభం ఉంటుంది." తార్కిక మోడల్‌ల యొక్క భవిష్యత్తు AI సంఘంలో కొనసాగుతున్న పరిశోధన మరియు సహకారం ద్వారా ఈ సవాళ్లను పరిష్కరించడంపై ఆధారపడి ఉంటుంది.

మైక్రోసాఫ్ట్ యొక్క Phi-4 రీజనింగ్ ప్లస్: మరింత విశ్లేషణ

మైక్రోసాఫ్ట్ యొక్క Phi-4 రీజనింగ్ ప్లస్ AI మోడల్, తార్కిక సామర్థ్యాలను మెరుగుపరచడానికి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL)ను ఉపయోగించడం ద్వారా సాధించిన విజయాన్ని వివరిస్తుంది. ఈ మోడల్, Phi సిరీస్‌లో భాగం, వనరుల సమర్థత మరియు పనితీరు మధ్య సమతుల్యతను కలిగి ఉంటుంది. తక్కువ కంప్యూటేషనల్ శక్తి మరియు నిల్వ స్థలాన్ని వినియోగిస్తూనే, ఇది పెద్ద మోడల్‌లతో పోటీపడుతుంది.

Phi సిరీస్ యొక్క లక్షణాలు

  • వనరుల సమర్థత: Phi మోడల్‌లు, తక్కువ వనరులతో పనిచేసేలా రూపొందించబడ్డాయి. ఇది, పరిమిత వనరులు ఉన్న సంస్థలకు లేదా వ్యక్తులకు ముఖ్యమైనది.
  • అధిక పనితీరు: ఈ మోడల్‌లు వాటి పరిమాణంతో పోలిస్తే అద్భుతమైన పనితీరును కనబరుస్తాయి, కోడింగ్, గణిత సమస్య పరిష్కారం మరియు అధునాతన శాస్త్రీయ పనులలో కూడా రాణిస్తాయి.
  • సూక్ష్మమైన నిర్మాణం: Phi-4 రీజనింగ్ ఫౌండేషన్‌పై నిర్మించబడిన ఈ మోడల్, RL ద్వారా మరింత మెరుగుపరచబడింది.

Phi-4 రీజనింగ్ ప్లస్ అభివృద్ధి

  1. సూపర్‌వైజ్డ్ ఫైన్-ట్యూనింగ్ (SFT): బేస్ Phi-4 మోడల్‌కు SFT అల్గారిథమ్‌ను వర్తింపజేయడం ద్వారా Phi-4 రీజనింగ్ మోడల్‌ను సృష్టించారు.
  2. రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL): Phi-4 రీజనింగ్ ఫౌండేషన్‌పై RLని ఉపయోగించి Phi-4 రీజనింగ్ ప్లస్ మోడల్‌ను అభివృద్ధి చేశారు.

RL యొక్క ప్రాముఖ్యత

RL అనేది AI వ్యవస్థలను ప్రయోగాల ద్వారా నేర్చుకునేలా చేస్తుంది. AI చర్యలు తీసుకుంటుంది, అభిప్రాయాన్ని స్వీకరిస్తుంది మరియు కావలసిన ఫలితాలను పెంచడానికి దాని నిర్ణయాత్మక ప్రక్రియను మెరుగుపరుస్తుంది. ఇది, క్లిష్టమైన సమస్య పరిష్కారానికి మరియు తార్కిక సామర్థ్యాలను మెరుగుపరచడానికి ఉపయోగపడుతుంది.

శిక్షణ డేటాసెట్‌ల పాత్ర

మైక్రోసాఫ్ట్, అధిక-నాణ్యత శిక్షణ డేటాసెట్‌లను ఉపయోగించడంపై దృష్టి సారించింది. ఈ డేటాసెట్‌లలో 1.4 మిలియన్లకు పైగా జాగ్రత్తగా క్యూరేటెడ్ ప్రాంప్ట్‌లు ఉన్నాయి, వీటిలో కోడింగ్ మరియు STEM విభాగాలు ఉన్నాయి. ప్రతి ప్రాంప్ట్‌తో పాటు OpenAI యొక్క o3-మిని మోడల్ ద్వారా రూపొందించబడిన రీజనింగ్ ట్రేస్‌లను కలిగి ఉన్న సమాధానాలు ఉంటాయి.

RL యొక్క ప్రభావం

RL, మోడల్‌కు ఎక్కువ సమాధానాలను రూపొందించడానికి మరియు తుది ఫలితం యొక్క ఖచ్చితత్వంపై దృష్టి పెట్టడానికి అనుమతిస్తుంది. ఇది, గణిత మరియు తార్కిక మూల్యాంకనలలో ఖచ్చితత్వాన్ని మెరుగుపరచడానికి సహాయపడుతుంది.

RL మరియు SFT మధ్య వ్యత్యాసం

బెహ్ల్ ప్రకారం, RLకి SFT కంటే తక్కువ డేటా అవసరం. ఎందుకంటే, RL మోడల్‌కు కొత్త నైపుణ్యాలను అందించడం గురించి కాకుండా, ఇప్పటికే ఉన్న నైపుణ్యాలను ఉపయోగించుకోవడానికి మార్గనిర్దేశం చేస్తుంది.

ఇతర కంపెనీల అనుభవాలు

OpenAI, డీప్‌సీక్ మరియు Alibaba వంటి ఇతర AI కంపెనీలు కూడా RL యొక్క ప్రాముఖ్యతను గుర్తించాయి. అవి, RLని ఉపయోగించి వారి మోడల్‌ల పనితీరును మెరుగుపరిచాయి.

సవాళ్లు మరియు పరిమితులు

తార్కిక మోడల్‌లు అనేక సవాళ్లను ఎదుర్కొంటున్నాయి. అవి, సమయం మరియు వనరులను ఎక్కువగా వినియోగిస్తాయి, నెమ్మదిగా ప్రతిస్పందిస్తాయి మరియు కొన్నిసార్లు వాటి స్వంత తార్కిక దశలకు విరుద్ధంగా ఉంటాయి. అంతేకాకుండా, మోడల్‌లు బాహ్య సూచనలను ఉపయోగించుకుంటాయి మరియు రివార్డ్ హ్యాకింగ్‌లో పాల్గొంటాయి.

భవిష్యత్తు దిశలు

తార్కిక మోడల్‌ల భవిష్యత్తు, పరిశోధన మరియు సహకారం ద్వారా ఈ సవాళ్లను పరిష్కరించడంపై ఆధారపడి ఉంటుంది. మోడల్‌లు ఎలా ఆలోచిస్తాయో అర్థం చేసుకోవడం మరియు వాటిని మరింత విశ్వసనీయంగా మరియు సురక్షితంగా చేయడానికి మార్గాలను కనుగొనడం చాలా ముఖ్యం.