మైక్రోసాఫ్ట్ చిన్న మోడల్ గణిత చీట్ కోడ్

ఫి-4 రీజనింగ్ మోడల్స్ యొక్క పెరుగుదల

ప్రస్తుతం AI ప్రపంచం రీజనింగ్ మోడల్స్‌తో నిండి ఉంది. మైక్రోసాఫ్ట్ ఇటీవల ఫి-4 ఇన్ఫరెన్స్ మోడల్స్ యొక్క ఫ్యామిలీని పరిచయం చేసింది. ఇందులో ఫి-4-రీజనింగ్, ఫి-4-రీజనింగ్-ప్లస్, మరియు ఫి-4-మిని-రీజనింగ్ ఉన్నాయి. వీటిలో అతిపెద్ద మోడల్ కూడా కేవలం 14 బిలియన్ పారామీటర్లను కలిగి ఉంది, ఇది అధిక-పనితీరు ల్యాప్‌టాప్‌లలో కూడా సజావుగా పనిచేస్తుంది. అంతేకాకుండా, 3.8 బిలియన్ పారామీటర్ ఫి-4-మిని-రీజనింగ్, 8 బిలియన్ పారామీటర్ డీప్‌సీక్-ఆర్1 డిస్టిల్డ్ మోడల్‌ను గణిత రీజనింగ్‌లో అధిగమించింది. చిన్న మోడల్స్ యొక్క శక్తిని ఇది తెలియజేస్తుంది.

రెండవ తరం డీప్‌సీక్-ఆర్2 రీజనింగ్ మోడల్ ఏప్రిల్‌లో విడుదల కోసం ఎదురుచూసే బదులు, మైక్రోసాఫ్ట్ ఫి-4 రీజనింగ్ మోడల్స్ యొక్క కొత్త సిరీస్‌ను ఆవిష్కరించింది. ఈ మోడల్స్ గణిత రీజనింగ్‌లో అసాధారణమైన పనితీరును కనబరుస్తాయి. ఫి-4-మిని-రీజనింగ్ చిన్న పారామీటర్ స్కేల్‌ను కలిగి ఉన్నప్పటికీ, డీప్‌సీక్-ఆర్1 డిస్టిల్డ్ మోడల్‌ను అధిగమిస్తుంది.

మైక్రోసాఫ్ట్ AI ఫ్రాంటియర్స్ లాబొరేటరీలోని పార్టనర్ రీసెర్చ్ మేనేజర్ అహ్మద్ అవాదల్లా ఫి-4-రీజనింగ్‌ను వివరించారు మరియు కొత్త మోడల్ యొక్క లక్షణాలను సంగ్రహించారు.

  • మోడల్ సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ (జాగ్రత్తగా ఎంపిక చేసిన రీజనింగ్ ఉదాహరణ డేటాసెట్‌ను ఉపయోగించి) మరియు రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌తో శిక్షణ పొందింది.
  • ఇది ఇన్ఫరెన్స్ బెంచ్‌మార్క్‌లలో చక్కగా పనిచేస్తుంది మరియు డీప్‌సీక్ ఆర్1 వంటి పెద్ద టాప్ మోడల్స్‌తో పోల్చవచ్చు.
  • కొత్త పరీక్షలలో (AIME 2025, HMMT వంటివి) కూడా బలంగా పనిచేస్తుంది
  • రీజనింగ్ సామర్థ్యం బలమైన ట్రాన్స్‌ఫరబిలిటీ / జనరలైజేషన్ సామర్థ్యాన్ని కలిగి ఉంది, సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ తర్వాత కూడా, ఇది కొత్త పనులకు అనుగుణంగా ఉంటుంది (k-SAT, గణిత సమీకరణ పరిష్కారం, షెడ్యూలింగ్ మొదలైనవి)
  • సాధారణ సామర్థ్యాలను (సూచనలను అర్థం చేసుకోవడం మరియు అమలు చేయడం వంటివి) నిలుపుకుంటుంది మరియు బాగా మెరుగుపరుస్తుంది

ఫి-4లో ఇంకా అనేక అంశాలు మెరుగుపరచాల్సిన అవసరం ఉందని, ముఖ్యంగా కాంటెక్స్ట్ లెంగ్త్, ఎన్‌కోడింగ్ సామర్థ్యం మరియు టూల్ ఇంటిగ్రేషన్‌లో అని ఆయన పేర్కొన్నారు.

మోడల్‌తో పాటు, మైక్రోసాఫ్ట్ వివరణాత్మక సాంకేతిక నివేదికను కూడా పంచుకుంది, ఇది మోడల్ యొక్క శిక్షణ మరియు మూల్యాంకన ప్రక్రియ యొక్క లోతైన విశ్లేషణను అందిస్తుంది.

మైక్రోసాఫ్ట్ రీసెర్చ్ AI ఫ్రాంటియర్స్ లాబొరేటరీలోని ప్రిన్సిపల్ రీసెర్చర్ మరియు విస్కాన్సిన్ విశ్వవిద్యాలయంలో అసోసియేట్ ప్రొఫెసర్ అయిన దిమిత్రిస్ పపైలియోపౌలోస్ Xలో ఫి-4 రీజనింగ్ మోడల్ గురించి మరిన్ని వివరాలను పరిచయం చేశారు.

ఫి-4-రీజనింగ్ గ్రాడ్యుయేట్ స్థాయికి పూర్తిగా చేరుకుందని మరియు లోకల్ PCలో కూడా అమలు చేయవచ్చని ఆయన అభిప్రాయపడ్డారు.

AI అభివృద్ధికి ఇది తన అంచనాలను మించిపోయింది.

కొత్త మోడల్‌కు తక్కువ పారామీటర్లు ఉన్నాయి, కానీ పనితీరు బలంగా ఉంది.

పనితీరు పవర్‌హౌస్

పరిమిత సైజు ఉన్నప్పటికీ, ఈ మోడల్ AIME, HMMT మరియు ఓమ్నిమాత్ వంటి గణిత బెంచ్‌మార్క్‌లలో రాణిస్తుంది. ఇది QwQ-32B, R1-70B మరియు R1 వంటి పెద్ద ఓపెన్-వెయిట్ మోడల్స్ మరియు o1-mini మరియు sonnet 3.7 వంటి క్లోజ్డ్ మోడల్స్‌తో సమానంగా లేదా వాటిని మించి పని చేస్తుంది.

ఈ మోడల్ పరిమాణంలో చిన్నది మరియు అధిక-పనితీరు ల్యాప్‌టాప్‌లలో సజావుగా అమలు చేయడానికి అనుకూలంగా ఉంటుంది.

అదే సమయంలో, ఇది పెద్ద నాన్-రీజనింగ్ మోడల్స్ మరియు కొన్ని రీజనింగ్ మోడల్స్ కూడా పరిష్కరించలేని అనేక సమస్యలను పరిష్కరించగలదు.

ఇది దిమిత్రిస్ ఎవాల్ పరీక్షలో కూడా ఉత్తీర్ణత సాధించింది!

ఆశ్చర్యకరంగా, రీజనింగ్ అనేది నిజంగా ట్రాన్స్‌ఫరబుల్ ‘మెటా-స్కిల్’ అని తెలుస్తోంది, దీనిని సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ ద్వారా కూడా నేర్చుకోవచ్చు!

ఎవిడెన్స్ 1: నాన్-రీజనింగ్ పనులపై ప్రత్యేక శిక్షణ లేకుండా కూడా, పరిశోధకులు IFEval, FlenQA మరియు అంతర్గత ఫిబెంచ్ (10 పాయింట్ల కంటే ఎక్కువ పెరుగుదల!)లో గణనీయమైన పనితీరు మెరుగుదలలను గమనించారు.

అదనంగా, SFT దశలో కోడింగ్‌కు సంబంధించిన చాలా తక్కువ డేటా ఉంది (మరియు RL దశలో అస్సలు లేదు), కానీ మోడల్ ఈ విషయంలో చక్కగా పనిచేస్తుంది.

అదనంగా, ప్రోగ్రామింగ్ అనేది తదుపరి వెర్షన్‌లకు ముఖ్యమైన దృష్టి అని దిమిత్రిస్ పపైలియోపౌలోస్ వెల్లడించారు.

ఎవిడెన్స్ 2: స్పష్టంగా శిక్షణ పొందిన కొన్ని నిర్దిష్ట సమస్యల విషయంలో (SFT లేదా RL దశలో), ట్రావెలింగ్ సేల్స్‌మెన్ సమస్య, మేజ్ సాల్వింగ్, k-SAT, కన్‌స్ట్రైండ్ ప్లానింగ్ మొదలైనవాటిలో మోడల్ ఈ పనులలో చాలా బాగా పనిచేస్తుంది!

మరియు ఫి-4 (మరియు GPT-4 కూడా) దీన్ని చేయలేవు.

రీజనింగ్ సామర్థ్యం నిజంగా ఒక నైపుణ్యంగా బదిలీ చేయగలదని ఇది పూర్తిగా వివరిస్తుంది!

చాలా తక్కువ రౌండ్ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ తర్వాత (SFT కోసం 1.4 మిలియన్ ఉదాహరణలతో పోలిస్తే కేవలం 6,000 నమూనాలను ఉపయోగించి), మోడల్ యొక్క రీజనింగ్ మెకానిజం ‘లాక్’ అయినట్లు కనిపిస్తుంది.

ఇది దిమిత్రిస్ పపైలియోపౌలోస్‌ను ప్రత్యేకంగా ఆశ్చర్యపరిచింది.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ మోడల్‌కు ‘దాని స్వంత భాషలో’ రీజనింగ్ నేర్పినట్లుగా అనిపిస్తుంది, AIME మరియు HMMTలో ఖచ్చితత్వాన్ని సుమారు 10% పెంచుతుంది మరియు కష్టమైన సమస్యలలో సగటు సమాధానం పొడవును 50% పెంచుతుంది.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ నిజంగా ప్రభావవంతంగా ఉంది!!

రీజనింగ్ మెకానిజం ‘లాక్’ అయ్యే దృగ్విషయం సాధారణంగా మోడల్ యొక్క అవుట్‌పుట్ డిస్ట్రిబ్యూషన్‌ను మరింత కేంద్రీకృతం చేస్తుంది మరియు ఖచ్చితత్వం కూడా ఎక్కువగా ఉంటుంది.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ మోడల్ యొక్క సామర్థ్యాలను గణనీయంగా మెరుగుపరుస్తుందనే వాస్తవం మైక్రోసాఫ్ట్ యొక్క మునుపటి పరిశోధనలో కూడా ప్రతిబింబిస్తుంది.

రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ దశలో కొత్త మోడల్ డేటా కోసం ప్రత్యేకంగా ఆప్టిమైజ్ చేయబడలేదు: 6,000 ప్రశ్నలు పెద్ద ఎంపిక డేటాసెట్‌ల నుండి యాదృచ్ఛికంగా ఎంపిక చేయబడ్డాయి.

కాబట్టి మైక్రోసాఫ్ట్ ఎక్కువ రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ శిక్షణను ఎందుకు నిర్వహించలేదు?

మోడల్ 32k కాంటెక్స్ట్ లెంగ్త్‌ను మించిన ప్రశ్నలకు సమాధానాలను ఉత్పత్తి చేసింది (మోడల్ శిక్షణ పొందిన పొడవు కాదు), వారు దానిని కత్తిరించవలసి వచ్చింది.

అదనంగా, సమాంతర రీజనింగ్ గణనల సహాయంతో (Maj@N వంటివి), కొత్త రీజనింగ్ మోడల్ దాదాపు AIME 2025లో పనితీరు పరిమితికి చేరుకుంది మరియు దాని టీచర్ మోడల్ (o3-mini) యొక్క పాస్@1 పనితీరును కూడా అధిగమించింది.

మరియు ఫిబ్రవరి 2025కి ముందు మొత్తం డేటా సేకరణ పూర్తయింది, కాబట్టి HMMT కూడా అంతే.

ఇతర పనులలో, పరిశోధకులు ‘గురువును అధిగమించే’ దృగ్విషయాన్ని కూడా గమనించారు, ఉదాహరణకు ఓమ్నిమాత్ మరియు క్యాలెండర్ ప్లానింగ్ పనులు.

SFT దశలోని ప్రాంప్ట్ డిజైన్, తరువాతి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ ప్రక్రియతో పాటు, గురువు మోడల్ అందించిన జ్ఞానం యొక్క పరిధిని మించి ‘స్వీయ-మెరుగుదల’ సామర్థ్యాన్ని మోడల్‌కు అందించినట్లు కనిపిస్తుంది.

క్రింది చిత్రంలో మెజెంటా రంగు o3-miniని మరియు ఆకుపచ్చ రంగు ఫిని సూచిస్తుంది.

ఆసక్తికరమైన విషయం ఏమిటంటే: టాప్ 25%లో ప్రతిస్పందన పొడవులతో కూడిన పొడవైన టెక్స్ట్‌లు తరచుగా తప్పు సమాధానాలతో బలంగా సంబంధం కలిగి ఉంటాయి!

అయితే మరోవైపు చాలా మూల్యాంకనలలో మొత్తం సగటు సమాధానం పొడవు ఎక్కువగా ఉంటుంది మరియు ఖచ్చితత్వం ఎక్కువగా ఉంటుంది.

మరో మాటలో చెప్పాలంటే, పరీక్ష సమయంలో కంప్యూటింగ్ వనరులను పెంచడం సహాయపడుతుంది, అయితే మోడల్ ‘చిక్కుకుపోయినప్పుడు’ ‘అతిగా మాట్లాడే’ అవకాశం కూడా ఉంది.

మోడల్ యొక్క పరిమితుల గురించి కూడా కొన్ని విషయాలు గుర్తుంచుకోవాలి:

  • 32k కంటే ఎక్కువ కాంటెక్స్ట్ పొడవులను నిర్వహించే సామర్థ్యం పూర్తిగా విస్తరించబడలేదు లేదా పరీక్షించబడలేదు.
  • మోడల్ సాధారణ సమస్యలను పరిష్కరించేటప్పుడు ‘అతిగా ఆలోచించే’ అవకాశం ఉంది మరియు స్వీయ-మూల్యాంకనంలో చాలా మాటలు చెప్పినట్లుగా అనిపించవచ్చు.
  • మల్టీ-టర్న్ డైలాగ్‌ల సామర్థ్యం విస్తృతంగా పరీక్షించబడలేదు.

ఖచ్చితంగా, కనుగొనవలసిన మరిన్ని ‘గుడ్డి మచ్చలు’ ఉన్నాయి, అయితే మొత్తంమీద పరిశోధనా బృందం తాము సరైన మార్గంలో ఉన్నామని భావిస్తోంది!

శిక్షణ ఆశ్చర్యాలు

మైక్రోసాఫ్ట్ రీసెర్చ్‌లోని ప్రిన్సిపల్ రీసెర్చ్ మేనేజర్ మరియు ఫి సిరీస్ మోడల్‌లను అభివృద్ధి చేయడానికి బాధ్యత వహించే ‘AGI ఫిజిక్స్’ బృందానికి చెందిన సూరియా గుణశేఖర్ ఈ పని యొక్క ప్రధాన సూత్రాలను పరిచయం చేయడంపై దృష్టి సారించారు.

ఈసారి మైక్రోసాఫ్ట్ ఫి బృందం పోస్ట్-ట్రైనింగ్ దశపై దృష్టి సారించింది మరియు ఫి-4-రీజనింగ్ (SFTని మాత్రమే ఉపయోగించి) మరియు ఫి-4-రీజనింగ్-ప్లస్ (SFT+ తక్కువ మొత్తంలో RL)ని ప్రారంభించింది.

రెండూ 14B మోడల్స్ మరియు ఇవి రీజనింగ్ మరియు సాధారణ టాస్క్ బెంచ్‌మార్క్‌లలో బలమైన సామర్థ్యాలను ప్రదర్శించాయి.

ఈ పని యొక్క ప్రధాన భాగం ప్రాంప్ట్ ఎంపిక మరియు బదిలీ చేయగల, స్వీయ-మెరుగుదల రీజనింగ్ నైపుణ్యాల యొక్క ప్రయోగాత్మక అన్వేషణ.

శిక్షణ ప్రక్రియలో రెండు ఆశ్చర్యకరమైన విషయాలు కనుగొనబడ్డాయి:

మొదట, కొన్ని డొమైన్-శిక్షణ పొందిన లాంగ్-చైన్ రీజనింగ్ (CoT) ట్రాజెక్టరీలను ఉపయోగించినంత మాత్రాన, ఫి-4 షెడ్యూలింగ్, మేజ్ సాల్వింగ్ (విజువల్ ఇన్‌పుట్ లేకుండా), IFEva, FlenQA, KITAB (లుకప్-బేస్డ్ క్వశ్చన్ ఆన్సరింగ్), మరియు అంతర్గత ఫిబెంచ్ వంటి అనేక పనులలో గణనీయమైన పనితీరు మెరుగుదలలను సాధించగలదు;

రెండవది, కేవలం 6,000 గణిత ఉదాహరణలను ఉపయోగించి కనీస RL శిక్షణను ఉపయోగించినప్పటికీ, మోడల్ యొక్క పనితీరు కొన్ని బెంచ్‌మార్క్‌లలో గణనీయంగా మెరుగుపడుతుంది, అత్యధికంగా 10%కి చేరుకుంటుంది (కానీ టోకెన్ వినియోగం సుమారు 1.5 రెట్లు పెరిగింది) మరియు RL దశలో నైపుణ్యాల క్రాస్-డొమైన్ బదిలీ కూడా గమనించబడింది.

మరో మాటలో చెప్పాలంటే OpenAI మరియు Google వంటి ప్రధాన పోటీదారులతో పోలిస్తే మైక్రోసాఫ్ట్ ఫి-4 రీజనింగ్ సిరీస్ కొత్త అవకాశాలను ప్రదర్శిస్తుంది: అధిక-నాణ్యత డేటా మరియు శుద్ధి చేసిన శిక్షణ వ్యూహాలను ఉపయోగించడం ద్వారా చిన్న మోడల్స్ నిర్దిష్ట పనులలో పెద్ద మోడల్స్‌తో సరిపోలగలవు లేదా అధిగమించగలవు.

ప్రధాన పద్ధతులు

రీజనింగ్ మోడల్ ఫి-4-రీజనింగ్ 14 బిలియన్ పారామీటర్లను కలిగి ఉంది మరియు సంక్లిష్ట రీజనింగ్ పనులలో బలంగా పనిచేస్తుంది.

మోడల్ సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ శిక్షణ కోసం ఫి-4 ఆధారంగా రూపొందించబడింది. ఇది తగినంత సంక్లిష్టత మరియు వైవిధ్యాన్ని కలిగి ఉన్న ‘నేర్పించదగిన’ ప్రాంప్ట్‌ల యొక్క జాగ్రత్తగా ఎంపిక చేసిన సెట్‌ను ఉపయోగిస్తుంది; శిక్షణ ప్రక్రియలో o3-mini ఉత్పత్తి చేసిన రీజనింగ్ ఉదాహరణలను సూచనలుగా ఉపయోగిస్తారు.

ఫి-4-రీజనింగ్ వివరణాత్మక రీజనింగ్ చైన్‌లను ఉత్పత్తి చేయగలదు మరియు రీజనింగ్ ప్రక్రియలో కంప్యూటింగ్ వనరులను పూర్తిగా ఉపయోగించగలదు.

దీని ఆధారంగా మైక్రోసాఫ్ట్ మరింతగా ఫి-4-రీజనింగ్-ప్లస్ను అభివృద్ధి చేసింది.

దీనిని అసలైన మోడల్ ఆధారంగా ఫలితం ఆధారిత రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ యొక్క చిన్న దశ ద్వారా మెరుగుపరచబడుతుంది మరియు పొడవైన మరియు మరింత శక్తివంతమైన రీజనింగ్ చైన్‌లను ఉత్పత్తి చేస్తుంది.

బాగా రూపొందించిన SFT డేటాసెట్ రీజనింగ్ లాంగ్వేజ్ మోడల్స్ యొక్క ప్రభావాన్ని గణనీయంగా మెరుగుపరుస్తుందని పరిశోధన చూపిస్తుంది మరియు రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ (RL) ఈ మెరుగుదలను మరింతగా పెంచుతుంది.

SFT ప్రయోగాలలో ఈ సాపేక్షంగా సరళమైన జనరేషన్ సెట్టింగ్‌లో కూడా విత్తన సమస్యల యొక్క జాగ్రత్తగా ఎంపిక మరియు కఠినమైన వడపోత మోడల్ విజయంలో కీలకం.

వారు శిక్షణ డేటా మొత్తాన్ని విస్తృతంగా ఉపయోగించే రీజనింగ్ లేదా సాధారణ బెంచ్‌మార్క్ ప్రశ్నలతో ఎక్కువగా అతివ్యాప్తి చెందని డేటాను కలిగి ఉండకుండా నిర్ధారించడానికి కఠినమైన కాలుష్య నివారణ ప్రక్రియకు గురి చేశారు, ఇందులో ఈ నివేదికలో పేర్కొనబడని కొన్ని బెంచ్‌మార్క్‌లు కూడా ఉన్నాయి.

కలుషితం చేయని బెంచ్‌మార్క్ పరీక్షల పూర్తి జాబితా క్రింది విధంగా ఉంది:

  • గణితం మరియు రీజనింగ్: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
  • ప్రోగ్రామింగ్: LiveCodeBench, Codeforces, HumanEval, MBPP
  • ప్రశ్నలకు సమాధానం చెప్పడం మరియు సాధారణ జ్ఞానం: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
  • ఇతర మూల్యాంకన పనులు: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench

14 బిలియన్ పారామీటర్లతో ఫి-4 మోడల్ యొక్క సూపర్వైజ్డ్ ఫైన్‌ట్యూనింగ్ (SFT) ద్వారా పరిశోధకులు ఫి-4-రీజనింగ్‌ను పొందారు, అంతకుముందు ఎలాంటి రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్ లేకుండా.

SFT లక్ష్యం ప్రాథమిక మోడల్‌లో ఉన్న స్ట్రక్చర్డ్ రీజనింగ్ సామర్థ్యాన్ని మెరుగుపరచడం.

ఫి-4-రీజనింగ్ యొక్క ఆర్కిటెక్చర్ ఫి-4 మోడల్ మాదిరిగానే ఉంటుంది, కానీ రెండు ముఖ్యమైన మార్పులు ఉన్నాయి:

  • రీజనింగ్ టోకెన్స్: ప్రాథమిక మోడల్‌లోని రెండు ప్లేస్‌హోల్డర్ టోకెన్‌లను మరియు టోకెన్‌లుగా తిరిగి ఉపయోగించబడతాయి, ఇవి రీజనింగ్ (‘ఆలోచించడం’) ప్రక్రియ ప్రారంభం మరియు ముగింపును గుర్తించడానికి ఉపయోగించబడతాయి.
  • పెరిగిన టోకెన్ పొడవు: ప్రాథమిక మోడల్ (ఫి-4) ప్రారంభంలో మద్దతు ఇచ్చిన గరిష్ట టోకెన్ పొడవు 16K. అదనపు రీజనింగ్ టోకెన్‌లకు అనుగుణంగా RoPE యొక్క బేస్ ఫ్రీక్వెన్సీ రెట్టింపు చేయబడింది మరియు మోడల్‌కు గరిష్టంగా 32K టోకెన్ పొడవుతో శిక్షణ ఇవ్వబడింది.

వారు ఆలోచన రీజనింగ్ ఉదాహరణల యొక్క పెద్ద సంఖ్యలో సింథటిక్ పద్ధతిని ఉపయోగించారు.

ఉపయోగించిన SFT డేటాసెట్‌లో 1.4 మిలియన్ కంటే ఎక్కువ ప్రాంప్ట్-ప్రతిస్పందన జంటలు ఉన్నాయి, మొత్తం 8.3 బిలియన్ ప్రత్యేక టోకెన్‌లు గణితం మరియు ప్రోగ్రామింగ్ వంటి రీజనింగ్ ఫీల్డ్‌లను మరియు సురక్షితమైన మరియు బాధ్యతాయుతమైన AI కోసం సమలేఖన డేటాను కలిగి ఉంటాయి.

చిత్రం 4a SFT ఇటరేషన్ ప్రక్రియ అంతటా ముఖ్య సూచికలలో మార్పులను చూపుతుంది.

శిక్షణ ప్రారంభంలోనే మోడల్ స్పష్టమైన ‘ఆలోచించడం’ టోకెన్‌లను ఉపయోగించడం ప్రారంభించింది, ఇది మోడల్ ఈ తక్కువ స్ట్రక్చర్డ్ ఫార్మాట్‌ను త్వరగా నేర్చుకుందని సూచిస్తుంది.

అయితే చిత్రం 4aలో చూపిన విధంగా ఆలోచనల గొలుసు మాడ్యూల్ యొక్క ప్రభావం మరియు మోడల్ యొక్క రీజనింగ్ సామర్థ్యం శిక్షణ ప్రక్రియ అంతటా మెరుగుపడుతున్నాయి, ఇది మోడల్ ఫార్మాట్‌ను కాపీ చేయడం మాత్రమే కాదని వాస్తవానికి రీజనింగ్ నైపుణ్యాలను నేర్చుకుంటుందని సూచిస్తుంది.

ఆసక్తికరంగా రీన్‌ఫోర్స్‌మెంట్ లెర్నింగ్‌కు భిన్నంగా SFT ప్రక్రియలో ప్రతిస్పందన పొడవులో పెరుగుదల కనిపించలేదు.

వాస్తవానికి చిత్రం 4bలో చూపిన విధంగా సగటు ప్రతిస్పందన పొడవు కొద్దిగా తగ్గింది.

శిక్షణ పురోగమిస్తున్న కొద్దీ మోడల్ తన టోకెన్ బడ్జెట్‌ను మరింత ప్రభావవంతంగా ఉపయోగించడం నేర్చుకుంటుందని ఇది చూపిస్తుంది.

విభిన్న శిక్షణ వ్యూహాలను క్రమపద్ధతిలో మూల్యాంకనం చేయడానికి వారు నిర్దిష్ట బెంచ్‌మార్క్‌ను ఉపయోగించారు - పురోగతికి సూచికగా AIME 2024 మరియు GPQA డైమండ్.

మొత్తంమీద ప్రయోగాత్మక పద్ధతిని రెండు దశలుగా విభజించవచ్చు: అన్వేషణ మరియు స్కేలింగ్.

అన్వేషణ దశలో పరిశోధకులు తక్కువ శిక్షణా చక్రాలు మరియు పరిమిత డేటా వనరులను ఉపయోగించి త్వరగా పునరావృతం చేయడానికి మరియు బలమైన శిక్షణ పద్ధతులను సంగ్రహించడానికి ఉపయోగిస్తారు.

తరువాతి విస్తరణ దశలో పరిశోధకులు ప్రారంభ రిస్క్ తగ్గింపు ప్రయోగాల ఫలితాలను సంగ్రహించారు మరియు SFT సెట్టింగ్‌లను ఖరారు చేశారు.

ముఖ్యమైన డిజైన్ ఎంపికల కోసం అబ్లేషన్ ప్రయోగాలను హైలైట్ చేస్తూ చిత్రం 5 ఈ పురోగతిని సంగ్రహిస్తుంది.

చిత్రం 5 ఫి-4-రీజనింగ్ సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ (SFT) ప్రయోగాత్మక చక్రం యొక్క ఉన్నత స్థాయి అవలోకనాన్ని చూపుతుంది. ఇందులో కొన్ని ఉదాహరణ ప్రయోగాలను ఉపయోగించి అన్వేషణ మరియు విస్తరణ దశలు ఉంటాయి. ప్రతి డాట్ క్లస్టర్ నిర్దిష్ట శిక్షణ డిజైన్ ఎంపిక యొక్క ప్రయోగాత్మక ఫలితాలను సూచిస్తుంది.

చిత్రం 7 GRPO శిక్షణ ప్రక్రియలో ఫి-4-రీజనింగ్-ప్లస్ మోడల్ యొక్క ముఖ్యమైన ఫలితాలను చూపుతుంది.

సూపర్వైజ్డ్ ఫైన్-ట్యూనింగ్ (SFT) బేస్ మోడల్ ఫి-4-రీజనింగ్ నుండి ప్రారంభించి కేవలం 90 దశల GRPO శిక్షణ AIME పనితీరును 10% కంటే ఎక్కువ పెంచింది (చిత్రం 7a).

శిక్షణ దశల సంఖ్యను కొనసాగించడం వల్ల అదనపు ప్రయోజనాలు లభించలేదు, బలమైన SFT మోడల్ యొక్క సామర్థ్యం పనితీరు గరిష్టానికి దగ్గరగా ఉందని ఇది సూచిస్తుంది. GRPO శిక్షణలో అవుట్‌పుట్ 31k టోకెన్‌లలో పరిమితం చేయబడిందని గమనించాలి ఇది GRPO యొక్క ఆప్టిమైజేషన్ స్థలాన్ని పరిమితం చేస్తుంది.

చిత్రం 7cలో చూపిన విధంగా ప్రతిస్పందన పొడవు AIME పనితీరుతో బలంగా సంబంధం కలిగి ఉంది, అయితే రివార్డ్ స్కోర్ మరియు AIME స్కోర్ మధ్య సంబంధం బలహీనంగా ఉంది. ఈ ప్రతిస్పందన పొడవు వృద్ధి ప్రభావం GRPO శిక్షణ యొక్క ఆశించిన ప్రభావం - మోడల్ ‘ఆలోచించే సమయాన్ని’ పెంచడం ద్వారా దాని రీజనింగ్ సామర్థ్యాన్ని మెరుగుపరుస్తుంది.

చిత్రం 7d మరింతగా రివార్డ్ మోడల్ యొక్క రూపకల్పన కారణంగా తప్పు సమాధానాల యొక్క జనరేషన్ పొడవు సరైన సమాధానాల కంటే గణనీయంగా వేగంగా పెరుగుతుందని వెల్లడిస్తుంది (మోడల్ యొక్క ప్రస్తుత సమాధానం తప్పుగా ఉంటే ఎక్కువసేపు ఆలోచించమని సిస్టమ్ ప్రోత్సహిస్తుంది).

వాస్తవానికి ప్రతిస్పందన పొడవుపై ఆధారపడి తిరస్కరణ నమూనాను నిర్వహించడం (ముఖ్యంగా మధ్యస్థం కంటే గణనీయంగా ఎక్కువ పొడవైన ప్రతిస్పందనలు) GRPO పనితీరును మరింత మెరుగుపరుస్తుంది.

చిత్రం 7dలో చూపిన విధంగా శిక్షణ ప్రక్రియలో తక్కువ ప్రతిస్పందనల యొక్క వృద్ధి ధోరణి (దిగువ 25% క్వాంటైల్‌లో ఉన్న పొడవు) సరైన సమాధానాల సగటు పొడవును పోలి ఉంటుంది అయితే తప్పు సమాధానాల పొడవు మొత్తం ప్రతిస్పందన పొడవు యొక్క 75% క్వాంటైల్‌కు దగ్గరగా ఉంటుంది.

పొడవు ఆధారిత తిరస్కరణ నమూనా చాలా పొడవైన సరికాని అవుట్‌పుట్‌లను తగ్గించడం ద్వారా మోడల్ సామర్థ్యాన్ని మెరుగుపరుస్తుందని ఈ విభిన్న దృగ్విషయం సూచిస్తుంది.