மைக்ரோசாஃப்ட்டின் சிறிய மாதிரி அசத்துகிறது: 6,000 மாதிரிகளில் பயிற்சி பெற்ற ‘கணித சூட்சுமம்’
DeepSeek-R2 இன்னும் வெளிவராத நிலையில், மைக்ரோசாஃப்ட்டின் சிறிய மாதிரிகள் அலைகளை உருவாக்கி வருகின்றன. ஆச்சரியமளிக்கும் வகையில் சிறிய தரவுத்தொகுப்பில் பயிற்சி பெற்ற அவை, ஈர்க்கக்கூடிய பகுத்தறிவு திறன்களைக் காட்டுகின்றன.
ஃபை-4 பகுத்தறிவு மாதிரிகளின் எழுச்சி
AI உலகம் தற்போது பகுத்தறிவு மாதிரிகளால் ஈர்க்கப்பட்டுள்ளது. மைக்ரோசாஃப்ட் சமீபத்தில் ஃபை-4 அனுமான மாதிரிகளின் குடும்பத்தை அறிமுகப்படுத்தியுள்ளது. இதில் ஃபை-4-ரீசனிங் (Phi-4-reasoning), ஃபை-4-ரீசனிங்-பிளஸ் (Phi-4-reasoning-plus) மற்றும் ஃபை-4-மினி-ரீசனிங் (Phi-4-mini-reasoning) ஆகியவை அடங்கும். குறிப்பிடத்தக்க விஷயம் என்னவென்றால், இந்த மாதிரிகளில் பெரியது, வெறும் 14 பில்லியன் அளவுருக்களைக் கொண்டிருந்தாலும், உயர் செயல்திறன் மடிக்கணினிகளில் சீராக இயங்க முடியும். மேலும், 3.8 பில்லியன் அளவுரு ஃபை-4-மினி-ரீசனிங், 8 பில்லியன் அளவுரு டீப் சீக்-ஆர்1 (DeepSeek-R1) வடிகட்டிய மாதிரியை கணித பகுத்தறிவில் மிஞ்சுகிறது, இது அனுமான பணிகளில் சிறிய மாதிரிகளின் சக்தியை எடுத்துக்காட்டுகிறது.
ஏப்ரலில் இரண்டாவது தலைமுறை டீப் சீக்-ஆர்2 பகுத்தறிவு மாதிரி வெளியீட்டுக்காக காத்திருக்காமல், மைக்ரோசாஃப்ட் ஃபை-4 பகுத்தறிவு மாதிரிகளின் புதிய வரிசையை வெளியிட்டது. இந்த மாதிரிகள் கணித பகுத்தறிவில் விதிவிலக்கான செயல்திறனைக் காட்டுகின்றன, ஃபை-4-மினி-ரீசனிங் சிறிய அளவுரு அளவைக் கொண்டிருந்தாலும் டீப் சீக்-ஆர்1 வடிகட்டிய மாதிரியை விட அதிகமாக உள்ளது.
மைக்ரோசாஃப்ட் AI ஃபிரான்டியர்ஸ் ஆய்வகத்தின் பார்ட்னர் ஆராய்ச்சி மேலாளர் அகமது அவாதல்லா (Ahmed Awadallah), ஃபை-4-ரீசனிங் பற்றி விவரித்தார் மற்றும் புதிய மாதிரியின் அம்சங்களைச் சுருக்கமாகக் கூறினார்.
- மாதிரியானது மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் (Supervised Fine-tuning) (கவனமாக தேர்ந்தெடுக்கப்பட்ட பகுத்தறிவு உதாரண தரவுத்தொகுப்பைப் பயன்படுத்தி) மற்றும் வலுவூட்டல் கற்றல் மூலம் பயிற்சி அளிக்கப்படுகிறது.
- இது அனுமான அளவுகோல்களில் சிறப்பாக செயல்படுகிறது மற்றும் டீப் சீக் ஆர்1 போன்ற பெரிய சிறந்த மாதிரிகளுக்கு ஒப்பானதாக இருக்கும்.
- இது புதிய சோதனைகளில் (AIME 2025, HMMT போன்றவை) தொடர்ந்து வலுவாக செயல்படுகிறது.
- பகுத்தறியும் திறன் வலுவான பரிமாற்றத்திறன்/பொதுமைப்படுத்தல் திறனைக் கொண்டுள்ளது, மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் செய்த பிறகும், இது புதிய பணிகளுக்கு (k-SAT, கணித சமன்பாடு தீர்வு, திட்டமிடல் போன்றவை) ஏற்றதாக இருக்கும்.
- பொதுவான திறன்களைத் தக்கவைத்து பெரிதும் மேம்படுத்துகிறது (அறிவுறுத்தல் புரிதல் மற்றும் செயலாக்கம் போன்றவை).
ஃபை-4 இன்னும் பல அம்சங்களில் முன்னேற்றம் தேவை என்று அவர் கூறினார், குறிப்பாக சூழல் நீளம், குறியாக்கம் திறன் மற்றும் கருவி ஒருங்கிணைப்பு ஆகியவற்றில்.
மாதிரி தவிர, மைக்ரோசாஃப்ட் ஒரு விரிவான தொழில்நுட்ப அறிக்கையையும் பகிர்ந்துள்ளது, இது மாதிரியின் பயிற்சி மற்றும் மதிப்பீட்டு செயல்முறை பற்றிய ஆழமான பகுப்பாய்வை வழங்குகிறது.
எக்ஸ் தளத்தில், மைக்ரோசாஃப்ட் ஆராய்ச்சி AI ஃபிரான்டியர்ஸ் ஆய்வகத்தின் முதன்மை ஆராய்ச்சியாளரும், விஸ்கான்சின் பல்கலைக்கழகத்தின் இணை பேராசிரியருமான டிமிட்ரிஸ் பாப்பைலியோபவுலோஸ் (Dimitris Papailiopoulos), ஃபை-4 பகுத்தறிவு மாதிரி பற்றிய கூடுதல் தகவல்களை அறிமுகப்படுத்தினார்.
ஃபை-4-ரீசனிங் முற்றிலும் பட்டதாரி நிலையை எட்டியுள்ளது என்றும் அதை உள்ளூர் பிசியில் இயக்க முடியும் என்றும் அவர் நம்புகிறார்.
இது AI வளர்ச்சிக்கான அவரது எதிர்பார்ப்புகளை மீறிவிட்டது.
புதிய மாடல் சில அளவுருக்களைக் கொண்டுள்ளது, ஆனால் வலுவான செயல்திறன் கொண்டது.
செயல்திறன் பவர்ஹவுஸ்
அதன் சிறிய அளவை மீறி, இந்த மாதிரி AIME, HMMT மற்றும் OmniMath போன்ற கணித அளவுகோல்களில் சிறந்து விளங்குகிறது. இது QwQ-32B, R1-70B மற்றும் R1 போன்ற பெரிய திறந்த எடை மாதிரிகள் மற்றும் o1-mini மற்றும் sonnet 3.7 போன்ற மூடிய மாதிரிகளுக்கு இணையாக அல்லது அதிகமாக செயல்படுகிறது.
இந்த மாதிரி சிறிய அளவுடையது மற்றும் உயர் செயல்திறன் மடிக்கணினிகளில் சீராக இயங்குவதற்கு ஏற்றது.
அதே நேரத்தில், பெரிய பகுத்தறிவற்ற மாதிரிகள் மற்றும் சில பகுத்தறிவு மாதிரிகள் கூட தீர்க்க முடியாத பல புதிர்களைத் தீர்க்கும் திறன் கொண்டது.
இது டிமிட்ரிஸ் மதிப்பீட்டு சோதனையிலும் தேர்ச்சி பெற்றது!
ஆச்சரியப்படும் விதமாக, பகுத்தறிவு என்பதுஉண்மையிலேயே மாற்றத்தக்க ‘மெட்டா-திறனாகத்’ தோன்றுகிறது, அதை மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் SFT மூலம் கூட கற்றுக்கொள்ள முடியும்!
சான்று 1: பகுத்தறிவற்ற பணிகளில் சிறப்பு பயிற்சி இல்லாமல் கூட, ஆராய்ச்சியாளர்கள் IFEval, FlenQA மற்றும் உள் ஃபைபெஞ்ச் (PhiBench) ஆகியவற்றில் குறிப்பிடத்தக்க செயல்திறன் மேம்பாடுகளைக் கண்டறிந்தனர் (10 புள்ளிகளுக்கு மேல் அதிகரிப்பு!).
கூடுதலாக, SFT கட்டத்தில் குறியீடாக்கம் தொடர்பான மிகக் குறைவான தரவு உள்ளது (மற்றும் RL கட்டத்தில் எதுவும் இல்லை), ஆனால் மாதிரி இந்த விஷயத்தில் இன்னும் சிறப்பாக செயல்படுகிறது.
கூடுதலாக, நிரலாக்கம் என்பது அடுத்தடுத்த பதிப்புகளுக்கான முக்கிய கவனம் என்று டிமிட்ரிஸ் பாப்பைலியோபவுலோஸ் வெளிப்படுத்தினார்.
சான்று 2: சில குறிப்பிட்ட சிக்கல்களின் விஷயத்தில், அவை வெளிப்படையாக பயிற்சி செய்யப்படவில்லை (SFT அல்லது RL கட்டம்), அதாவது பயண விற்பனையாளர் பிரச்சனை, பிரமை தீர்க்கும் பிரச்சனை, k-SAT, கட்டுப்படுத்தப்பட்ட திட்டமிடல் போன்றவை, இந்த மாதிரி இந்த பணிகளில் சிறப்பாக செயல்படுகிறது!
மேலும் ஃபை-4 (மற்றும் GPT-4 கூட) இதைச் செய்ய முடியாது.
பகுத்தறியும் திறன் ஒரு திறனாக மாற்றப்படலாம் என்பதை இது முழுமையாக விளக்குகிறது!
மிகக் குறுகிய சுற்று வலுவூட்டல் கற்றலுக்குப் பிறகு (SFT க்கு 1.4 மில்லியன் எடுத்துக்காட்டுகளுடன் ஒப்பிடும்போது வெறும் 6,000 மாதிரிகளைப் பயன்படுத்தி), மாதிரியின் பகுத்தறிவு வழிமுறை ‘பூட்டப்பட்டது’ போல் தெரிகிறது.
இது டிமிட்ரிஸ் பாப்பைலியோபவுலோஸை குறிப்பாக அதிர்ச்சியடையச் செய்தது.
வலுவூட்டல் கற்றல் மாதிரிக்கு ‘அதன் சொந்த மொழியில்’ பகுத்தறிவை கற்பித்தது போல் அவர் உணர்கிறார், AIME மற்றும் HMMT இல் துல்லியத்தை சுமார் 10% அதிகரிக்கிறது மற்றும் கடினமான சிக்கல்களில் சராசரி பதில் நீளத்தை 50% அதிகரிக்கிறது.
வலுவூட்டல் கற்றல் மிகவும் பயனுள்ளதாக இருக்கிறது!!
பகுத்தறிவு வழிமுறை ‘பூட்டப்பட்ட’ நிகழ்வு பொதுவாக மாதிரியின் வெளியீட்டு விநியோகத்தை மிகவும் குவிமையமாக்குகிறது மற்றும் துல்லியமும் அதிகமாக இருக்கும்.
வலுவூட்டல் கற்றல் மாதிரியின் திறன்களை கணிசமாக மேம்படுத்த முடியும் என்ற உண்மை மைக்ரோசாஃப்ட்டின் முந்தைய ஆராய்ச்சியில் பிரதிபலிக்கப்பட்டுள்ளது.
வலுவூட்டல் கற்றல் கட்டத்தில், புதிய மாதிரி தரவுகளுக்காக சிறப்பாக மேம்படுத்தப்படவில்லை: பெரிய தரவுத்தொகுப்புகளிலிருந்து 6,000 கேள்விகள் தோராயமாக தேர்ந்தெடுக்கப்பட்டன.
ஏன் மைக்ரோசாஃப்ட் அதிக வலுவூட்டல் கற்றல் பயிற்சியை நடத்தவில்லை?
ஏனெனில் மாதிரி 32k சூழல் நீளத்தை (மாதிரி பயிற்சி பெறாத நீளம்) மீறிய கேள்விகளுக்கு பதில்களை உருவாக்கியது, அதை அவர்களால் சுருக்க முடியும்.
கூடுதலாக, இணையான பகுத்தறிவு கணக்கீடுகளின் உதவியுடன் (Maj@N போன்றவை), புதிய பகுத்தறிவு மாதிரி AIME 2025 இல் கிட்டத்தட்ட செயல்திறன் வரம்பை எட்டியுள்ளது, மேலும் அதன் ஆசிரியர் மாதிரியின் (o3-mini) pass@1 செயல்திறனையும் தாண்டியது.
பிப்ரவரி 2025 க்கு முன்பு அனைத்து தரவு சேகரிப்பையும் முடித்தது, எனவே HMMT.
மற்ற பணிகளிலும், ஆராய்ச்சியாளர்கள் ‘ஆசிரியரை மிஞ்சும்’ நிகழ்வைக் கவனித்துள்ளனர், அதாவது ஆம்னிமேத் மற்றும் காலண்டர் திட்டமிடல் பணிகள்.
SFT கட்டத்தில் தூண்டுதல் வடிவமைப்பு, அடுத்தடுத்த வலுவூட்டல் கற்றல் செயல்முறையுடன் இணைந்து, மாதிரிக்கு ‘சுய-மேம்பாடு’ திறனை வழங்கியுள்ளது, இது ஆசிரியர் மாதிரி வழங்கிய அறிவின் வரம்பை மீறுகிறது.
கீழேயுள்ள படத்தில், மெஜந்தா o3-மினியையும் பச்சை ஃபைனையும் குறிக்கிறது.
ஒரு சுவாரஸ்யமான நிகழ்வு என்னவென்றால்: மேல் 25% இல் பதில் நீளம் கொண்ட நீண்ட உரைகள் பெரும்பாலும் தவறான பதில்களுடன் வலுவாக தொடர்புடையவை!
இருப்பினும், மறுபுறம், பெரும்பாலான மதிப்பீடுகளில், ஒட்டுமொத்த சராசரி பதில் நீளம் அதிகமாக உள்ளது மற்றும் துல்லியம் அதிகமாக உள்ளது.
வேறு வார்த்தைகளில் கூறுவதானால், சோதனையின் போது கணக்கீட்டு வளங்களை அதிகரிப்பது உதவுகிறது, ஆனால் மாதிரி ‘சிக்கிக்கொள்ளும்போது’ ‘அலையும்’ வாய்ப்புள்ளது.
மாதிரியின் வரம்புகள் குறித்து, சில விஷயங்களையும் கவனிக்க வேண்டும்:
- 32k ஐ தாண்டிய சூழல் நீளங்களைக் கையாளும் திறன் முழுமையாக விரிவாக்கப்படவில்லை அல்லது சோதிக்கப்படவில்லை.
- எளிமையான சிக்கல்களைக் கையாளும் போது மாதிரி ‘அதிகமாக சிந்திக்க’ வாய்ப்புள்ளது, மேலும் சுய மதிப்பீட்டில் அதிகமாக விவரிக்கப்படுவதாகத் தோன்றலாம்.
- மல்டி-டர்ன் உரையாடல்களின் திறன் பரவலாக சோதிக்கப்படவில்லை.
நிச்சயமாக, இன்னும் பல ‘குருட்டு புள்ளிகள்’ கண்டுபிடிக்கப்பட உள்ளன, ஆனால் ஒட்டுமொத்தமாக, ஆராய்ச்சி குழு அவர்கள் சரியான பாதையில் இருப்பதாக உணர்கிறது!
பயிற்சி ஆச்சரியங்கள்
மைக்ரோசாஃப்ட் ரிசர்ச்சின் முதன்மை ஆராய்ச்சி மேலாளரும், ஃபை தொடர் மாதிரிகளை உருவாக்குவதற்குப் பொறுப்பான ‘AGI இயற்பியல்’ குழுவைச் சேர்ந்தவருமான சூரியா குணசேகர், இந்த வேலையின் முக்கிய கோட்பாடுகளை அறிமுகப்படுத்துவதில் கவனம் செலுத்தினார்.
இந்த முறை, மைக்ரோசாஃப்ட் ஃபை குழு போஸ்ட்-பயிற்சி கட்டத்தில் கவனம் செலுத்தியது மற்றும் ஃபை-4-ரீசனிங் (SFT ஐ மட்டும் பயன்படுத்தி) மற்றும் ஃபை-4-ரீசனிங்-பிளஸ் (SFT+ ஒரு சிறிய அளவு RL) ஐ அறிமுகப்படுத்தியது.
இரண்டும் 14B மாதிரிகள் மற்றும் அவை பகுத்தறிவு மற்றும் பொது பணி அளவுகோல்களில் வலுவான திறன்களை நிரூபித்துள்ளன.
இந்த வேலையின் மையப்பகுதி தூண்டுதல் தேர்வு மற்றும் மாற்றத்தக்க, சுய-மேம்படுத்தும் பகுத்தறிவு திறன்களின் சோதனை ஆய்வு ஆகும்.
பயிற்சி செயல்பாட்டின் போது இரண்டு ஆச்சரியமான கண்டுபிடிப்புகள் இருந்தன:
முதலாவதாக, ஒரு சில டொமைன் பயிற்சி பெற்ற நீண்ட சங்கிலி பகுத்தறிவு (CoT) பாதைகள் பயன்படுத்தப்பட்டால், திட்டமிடல், பிரமை தீர்த்தல் (காட்சி உள்ளீடு இல்லாமல்), IFEva, FlenQA, KITAB (லுக்அப் அடிப்படையிலான கேள்வி பதில்) மற்றும் உள் ஃபைபெஞ்ச் போன்ற பல பணிகளில் ஃபை-4 குறிப்பிடத்தக்க செயல்திறன் மேம்பாடுகளை அடைய முடியும்;
இரண்டாவதாக, வெறும் 6,000 கணித எடுத்துக்காட்டுகள் குறைந்தபட்ச RL பயிற்சிக்கு பயன்படுத்தப்பட்டாலும், மாதிரியின் செயல்திறன் சில அளவுகோல்களில் கணிசமாக மேம்படுத்தப்பட்டுள்ளது, அதிகபட்ச முன்னேற்றம் 10% ஐ எட்டியுள்ளது (ஆனால் டோக்கன் பயன்பாடு சுமார் 1.5 மடங்கு அதிகரித்தது), மேலும் RL கட்டத்தில் குறுக்கு-டொமைன் திறன் பரிமாற்றமும் காணப்பட்டது.
வேறு வார்த்தைகளில் கூறுவதானால், OpenAI மற்றும் Google போன்ற முக்கிய போட்டியாளர்களுடன் ஒப்பிடும்போது, மைக்ரோசாஃப்ட் ஃபை-4 பகுத்தறிவு தொடர் புதிய சாத்தியக்கூறுகளை நிரூபிக்கிறது: உயர்தர தரவு மற்றும் சுத்திகரிக்கப்பட்ட பயிற்சி உத்திகளைப் பயன்படுத்துவதன் மூலம் சிறிய மாதிரிகள் குறிப்பிட்ட பணிகளில் பெரிய மாதிரிகளைப் பொருத்தலாம் அல்லது மிஞ்சலாம்.
முக்கிய முறைகள்
பகுத்தறிவு மாதிரி ஃபை-4-ரீசனிங் 14 பில்லியன் அளவுருக்களைக் கொண்டுள்ளது மற்றும் சிக்கலான பகுத்தறிவு பணிகளில் வலுவாக செயல்படுகிறது.
இந்த மாதிரி ஃபை-4 ஐ அடிப்படையாகக் கொண்டது மேற்பார்வையிடப்பட்ட ஃபைன்-ட்யூனிங் பயிற்சிக்கு, பொருத்தமான சிக்கலான தன்மை மற்றும் பன்முகத்தன்மை இரண்டையும் கொண்ட ‘கற்பிக்கக்கூடிய’ தூண்டுதல்களின் கவனமாக தேர்ந்தெடுக்கப்பட்ட தொகுப்பைப் பயன்படுத்துகிறது; o3-மினி உருவாக்கிய பகுத்தறிவு எடுத்துக்காட்டுகள் பயிற்சி செயல்பாட்டின் போது குறிப்புகளாகப் பயன்படுத்தப்படுகின்றன.
ஃபை-4-ரீசனிங் விரிவான பகுத்தறிவு சங்கிலிகளை உருவாக்க முடியும் மற்றும் பகுத்தறிவு செயல்பாட்டின் போது கணக்கீட்டு வளங்களை முழுமையாகப் பயன்படுத்த முடியும்.
இந்த அடிப்படையில், மைக்ரோசாஃப்ட் மேலும் ஃபை-4-ரீசனிங்-பிளஸை உருவாக்கியது.
இது அசல் மாதிரியின் அடிப்படையில் ஒரு சிறிய கட்ட முடிவை அடிப்படையாகக் கொண்ட வலுவூட்டல் கற்றல் மூலம் மேம்படுத்தப்பட்டுள்ளது, மேலும் நீண்ட மற்றும் சக்திவாய்ந்த பகுத்தறிவு சங்கிலிகளை உருவாக்குகிறது.
ஒரு நன்கு வடிவமைக்கப்பட்ட SFT தரவுத்தொகுப்பு பகுத்தறிவு மொழி மாதிரிகளின் விளைவை கணிசமாக மேம்படுத்த முடியும் என்றும், இந்த அடிப்படையில் வலுவூட்டல் கற்றல் (RL) மேலும் இந்த மேம்பாட்டை அதிகரிக்க முடியும் என்றும் ஆராய்ச்சி காட்டுகிறது.
SFT சோதனைகளில், இந்த ஒப்பீட்டளவில் எளிய தலைமுறை அமைப்பில் கூட, விதை சிக்கல்களின் கவனமான தேர்வு மற்றும் கடுமையான வடிகட்டுதல் ஆகியவை மாதிரியின் வெற்றிக்கு முக்கியமாகும்.
அவர்கள் முழு பயிற்சி தரவுத்தொகுப்பையும் கடுமையான மாசுபாடு நீக்கும் செயல்முறைக்கு உட்படுத்தியுள்ளனர், இது பரவலாகப் பயன்படுத்தப்படும் பகுத்தறிவு அல்லது பொது அளவுகோல் கேள்விகளுடன் அதிக அளவில் ஒன்றுடன் ஒன்று தரவைக் கொண்டிருக்கவில்லை என்பதை உறுதிப்படுத்த, இந்த அறிக்கையில் குறிப்பிடப்படாத சில அளவுகோல்கள் உட்பட.
மாசுபடுத்தப்பட்ட அளவுகோல் சோதனைகளின் முழு பட்டியல் பின்வருமாறு:
- கணிதம் மற்றும் பகுத்தறிவு: AIME-2024, MATH, GPQA, OmniMATH, GSM8k
- நிரலாக்கம்: LiveCodeBench, Codeforces, HumanEval, MBPP
- கேள்வி பதில் மற்றும் பொது அறிவு: SimpleQA, DROP, AGIEval, ARC-Challenge, ARC-Easy, CommonsenseQA, OpenBookQA, PIQA, WinoGrande
- பிற மதிப்பீட்டு பணிகள்: SWE-Bench Verified, ArenaHard, MT-Bench, PhiBench
14 பில்லியன் அளவுருக்களுடன் ஃபை-4 மாதிரியின் மேற்பார்வையிடப்பட்ட ஃபைன்ட்யூனிங் (SFT) மூலம், ஆராய்ச்சியாளர்கள் ஃபை-4-ரீசனிங் பெற்றனர், அதற்கு முன்பு எந்த வலுவூட்டல் கற்றலும் இல்லை.
அடிப்படை மாதிரியில் உள்ள கட்டமைக்கப்பட்ட பகுத்தறிவு திறனை சுத்திகரிப்பதே SFT இன் குறிக்கோள்.
ஃபை-4-ரீசனிங்கின் கட்டமைப்பு ஃபை-4 மாதிரியின் அதேதான், ஆனால் இரண்டு முக்கிய மாற்றங்களுடன்:
- பகுத்தறிவு டோக்கன்கள்: அடிப்படை மாதிரியில் உள்ள இரண்டு பிளேஸ்ஹோல்டர் டோக்கன்கள் மற்றும் டோக்கன்களாக மீண்டும் பயன்படுத்தப்படுகின்றன, அவை பகுத்தறிவு (‘சிந்தனை’) செயல்முறையின் தொடக்கத்தையும் முடிவையும் குறிக்கப் பயன்படுகின்றன.
- அதிகரிக்கப்பட்ட டோக்கன் நீளம்: அடிப்படை மாதிரி (ஃபை-4) முதலில் ஆதரித்த அதிகபட்ச டோக்கன் நீளம் 16K ஆகும். கூடுதல் பகுத்தறிவு டோக்கன்களை இடமளிக்க, RoPE இன் அடிப்படை அதிர்வெண் இரட்டிப்பாக்கப்பட்டது, மேலும் மாதிரி அதிகபட்ச டோக்கன் நீளம் 32K இல் பயிற்சி அளிக்கப்பட்டது.
சிந்தனை சங்கிலி பகுத்தறிவு எடுத்துக்காட்டுகளை உருவாக்க அவர்கள் ஒரு செயற்கை முறையைப் பயன்படுத்தினர்.
பயன்படுத்தப்பட்ட SFT தரவுத்தொகுப்பில் 1.4 மில்லியனுக்கும் அதிகமான தூண்டுதல்-பதில் ஜோடிகள் உள்ளன, மொத்தம் 8.3 பில்லியன் தனித்துவ டோக்கன்கள், கணிதம் மற்றும் நிரலாக்கம் போன்ற பகுத்தறிவு புலங்கள் மற்றும் பாதுகாப்பான மற்றும் பொறுப்பான AI க்கான சீரமைப்பு தரவு ஆகியவை அடங்கும்.
படம் 4a SFT மறு செய்கை செயல்முறை முழுவதும் முக்கிய குறிகாட்டிகளில் ஏற்படும் மாற்றங்களைக் காட்டுகிறது.
பயிற்சியின் ஆரம்பத்தில், மாதிரி வெளிப்படையான ‘சிந்தனை’ டோக்கன்களைப் பயன்படுத்தத் தொடங்கியது, இது மாதிரி இந்த ஆழமற்ற கட்டமைக்கப்பட்ட வடிவமைப்பை விரைவாகக் கற்றுக்கொண்டதைக் குறிக்கிறது.
இருப்பினும், படம் 4a இல் காட்டப்பட்டுள்ளபடி, சிந்தனை சங்கிலி தொகுதியின் செயல்திறன் மற்றும் மாதிரியின் பகுத்தறியும் திறன் பயிற்சி செயல்முறை முழுவதும் மேம்பட்டு வருகிறது, இது மாதிரி வடிவமைப்பை நகலெடுக்கவில்லை, ஆனால் உண்மையில் பகுத்தறியும் திறன்களைக் கற்றுக்கொள்கிறது என்பதைக் குறிக்கிறது.
சுவாரஸ்யமாக, வலுவூட்டல் கற்றலைப் போலன்றி, SFT செயல்பாட்டின் போது பதில் நீளம் அதிகரிப்பைக் ஆராய்ச்சியாளர்கள் காணவில்லை.
உண்மையில், படம் 4b இல் காட்டப்பட்டுள்ளபடி, சராசரி பதில் நீளம் சற்று குறைந்துள்ளது.
பயிற்சி முன்னேறும்போது, மாதிரி அதன் டோக்கன் பட்ஜெட்டை மிகவும் திறமையாகப் பயன்படுத்த கற்றுக்கொள்கிறது என்பதை இது காட்டுகிறது.
வெவ்வேறு பயிற்சி உத்திகளை முறையாக மதிப்பிடுவதற்கு, அவர்கள் ஒரு நிலையான அளவுகோலைப் பயன்படுத்தினர் - AIME 2024 மற்றும் GPQA வைரம் - முன்னேற்றத்தின் குறிகாட்டியாக.
ஒட்டுமொத்தமாக, சோதனை முறையை இரண்டு நிலைகளாகப் பிரிக்கலாம்: ஆய்வு மற்றும் அளவிடுதல்.
ஆய்வு கட்டத்தில், ஆராய்ச்சியாளர்கள் குறுகிய பயிற்சி சுழற்சிகளைப் பயன்படுத்தினர் மற்றும் விரைவாக மறு செய்கை செய்து வலுவான பயிற்சி முறைகளை பிரித்தெடுக்க வரையறுக்கப்பட்ட தரவு ஆதாரங்களையும் புலங்களையும் பயன்படுத்தினர்.
அடுத்த விரிவாக்க கட்டத்தில், ஆராய்ச்சியாளர்கள் ஆரம்பகால இடர் குறைப்பு சோதனைகளின் முடிவுகளை சுருக்கமாகவும் இறுதி SFT அமைப்புகளையும் உருவாக்கினர்.
படம் 5 இந்த முன்னேற்றத்தை சுருக்கமாகக் காட்டுகிறது, பல முக்கிய வடிவமைப்பு தேர்வுகளுக்கான நீக்குதல் சோதனைகளை எடுத்துக்காட்டுகிறது.
படம் 5 ஃபை-4-ரீசனிங் மேற்பார்வையிடப்பட்ட ஃபைன்ட்யூனிங் (SFT) சோதனை சுழற்சியின் உயர் மட்ட கண்ணோட்டத்தைக் காட்டுகிறது, இதில் ஆய்வு மற்றும் விரிவாக்க கட்டங்கள் உட்பட சில எடுத்துக்காட்டு சோதனைகளைப் பயன்படுத்தி குறிப்பிடப்படுகின்றன. ஒவ்வொரு புள்ளி கொத்தும் ஒரு குறிப்பிட்ட பயிற்சி வடிவமைப்பு தேர்வின் சோதனை முடிவுகளைக் குறிக்கிறது.
படம் 7 GRPO பயிற்சி செயல்பாட்டின் போது ஃபை-4-ரீசனிங்-பிளஸ் மாதிரியின் முக்கிய கண்டுபிடிப்புகளைக் காட்டுகிறது.
மேற்பார்வையிடப்பட்ட ஃபைன்ட்யூனிங் (SFT) அடிப்படை மாடல் ஃபை-4-ரீசனிங்கிலிருந்து தொடங்கி, GRPO பயிற்சியின் 90 படிகள் மட்டுமே AIME செயல்திறனை 10% க்கும் அதிகமாக உயர்த்தின (படம் 7a).
தொடர்ந்து பயிற்சி படிகளின் எண்ணிக்கையை அதிகரிப்பது கூடுதல் பலன்களைத் தரவில்லை, இது ஒரு வலுவான SFT மாதிரியின் ஆற்றல் செயல்திறன் உச்சவரம்புக்கு அருகில் இருப்பதைக் குறிக்கிறது. GRPO பயிற்சியில் வெளியீடு 31k டோக்கன்களுக்குள் மட்டுப்படுத்தப்பட்டுள்ளது என்பதை கவனத்தில் கொள்ள வேண்டும், இது GRPO இன் தேர்வுமுறை இடத்தை புறநிலையாக கட்டுப்படுத்துகிறது.
படம் 7c இல் காட்டப்பட்டுள்ளபடி, பதில் நீளம் AIME செயல்திறனுடன் வலுவாக தொடர்புடையது, அதே நேரத்தில் வெகுமதி மதிப்பெண் மற்றும் AIME மதிப்பெண் இடையேயான தொடர்பு பலவீனமாக உள்ளது. இந்த பதில் நீளம் வளர்ச்சி விளைவு GRPO பயிற்சியின் எதிர்பார்க்கப்படும் விளைவாகும் - மாதிரி ‘சிந்திக்கும் நேரத்தை’ அதிகரிப்பதன் மூலம் அதன் பகுத்தறியும் திறனை மேம்படுத்துகிறது.
படம் 7d மேலும் வெளிப்படுத்துகிறது, வெகுமதி மாதிரியின் வடிவமைப்பால், தவறான பதில்களின் தலைமுறை நீளம் சரியான பதில்களை விட கணிசமாக வேகமாக வளர்கிறது (மாதிரியின் தற்போதைய பதில் தவறாக இருக்கும்போது, அது நீண்ட நேரம் சிந்திக்க அமைப்பு ஊக்குவிக்கும்).
உண்மையில், பதில் நீளத்தை அடிப்படையாகக் கொண்ட நிராகரிப்பு மாதிரியைச் செய்வது (குறிப்பாக நடுத்தரத்தை கணிசமாக மீறும் நீண்ட பதில்கள்) மேலும் GRPO செயல்திறனை மேம்படுத்தலாம்.
படம் 7d இல் காட்டப்பட்டுள்ளபடி, பயிற்சியின் போது குறுகிய பதில்களின் வளர்ச்சி போக்கு (கீழ் 25% குவாண்டிலில் உள்ள நீளம்) சரியான பதில்களின் சராசரி நீளத்திற்கு ஒத்திருக்கிறது, அதே நேரத்தில் தவறான பதில்களின் நீளம் ஒட்டுமொத்த பதில் நீளத்தின் 75% குவாண்டிலுக்கு நெருக்கமாக உள்ளது.
இந்த வேறுபாடு நிகழ்வு நீளம் அடிப்படையிலான நிராகரிப்பு மாதிரி அதிகப்படியான நீண்ட தவறான வெளியீடுகளை அடக்குவதன் மூலம் மாதிரி திறனை மேம்படுத்த முடியும் என்பதைக் குறிக்கிறது.