மைக்ரோசாஃப்ட் ஓப்பன் சோர்ஸ் AI மாடல்களின் சாம்ராஜ்யத்தில் நுழைந்துள்ளது, குறிப்பாக ஃபை குடும்பம், OpenAI இல் செய்த முதலீட்டினைப் போல பரவலான அங்கீகாரத்தைப் பெறவில்லை என்றாலும், நல்ல வரவேற்பைப் பெற்று வருகின்றது. இந்த மாடல்களில், ஃபை-4(Phi-4) ரீசனிங் பிளஸ்(Reasoning Plus) சிறந்து விளங்குகிறது, இது தரப்படுத்தப்பட்ட சோதனைகளில் குறிப்பிடத்தக்க முடிவுகளை அடைவதில் வலுவூட்டல் கற்றல்( Reinforcement Learning (RL)) சக்தியைக் காட்டுகிறது.
ஃபை(Phi) தொடர், குறைவான கணக்கீட்டு சக்தி மற்றும் சேமிப்பகஇடத்தைப் பயன்படுத்தும் வகையில் வடிவமைக்கப்பட்டுள்ளது. உன்னிப்பான ஆராய்ச்சி மற்றும் மேம்படுத்தும் நுட்பங்களின் மூலம், இந்த மாடல்கள் தொடர்ந்து எதிர்பார்ப்புகளை மீறி, அவற்றின் எடைக் வகுப்பில் உள்ள போட்டியாளர்களை விடவும், பெரிய மாடல்களுக்கு சவால் விடும் வகையிலும் சிறப்பான செயலாற்றுகின்றன.
14 பில்லியன் அளவுருக்களைக் கொண்ட ஃபை-4(Phi-4) ரீசனிங் மாடல்(Reasoning model), அடிப்படை ஃபை-4(Phi-4) மாடலில் மேற்பார்வையிடப்பட்ட நுணுக்கமான ட்யூனிங்(fine-tuning (SFT)) அல்காரிதத்தைப் பயன்படுத்துவதன் மூலம் உருவாக்கப்பட்டது. இதை அடிப்படையாகக் கொண்டு, ஆராய்ச்சியாளர்கள் ஃபை-4(Phi-4) ரீசனிங் அடித்தளத்தில் வலுவூட்டல் கற்றல்(reinforcement learning (RL)) மூலம் மேலும் ஃபை-4(Phi-4) ரீசனிங் பிளஸ்(Reasoning Plus) மாடலை உருவாக்கினர்.
குறிப்பாக, ஃபை-4(Phi-4) ரீசனிங் மற்றும் ஃபை-4(Phi-4) ரீசனிங் பிளஸ்(Reasoning Plus) ஆகிய இரண்டு மாடல்களும், 70 பில்லியன் அளவுருக்களைக் கொண்ட டீப் சீக் ஆர்1(DeepSeek R1) போன்ற பெரிய மாடல்களை விட சிறந்த செயல்திறனைக் காட்டியுள்ளன. இந்தக் சாதனை குறிப்பாக குறியீடாக்கம், கணிதப் பிரச்சனைகளைத் தீர்ப்பது மற்றும் பட்டதாரி அளவிலான மேம்பட்ட அறிவியல் பணிகள் உள்ளிட்ட தர அளவுகோல்களில் தெளிவாகத் தெரிகிறது. இந்த மாடல்களின் செயல்திறன் முழு அளவிலான 671 பில்லியன் அளவுருக்கள் கொண்ட டீப் சீக் ஆர்1(DeepSeek R1) மாடலை நெருங்குகிறது.
மைக்ரோசாஃப்ட்(Microsoft) ஆராய்ச்சியாளர்கள் மாதிரி வெற்றிக்கான முக்கிய காரணங்களை உயர்தர பயிற்சி தரவுத்தொகுப்புகளின் பயன்பாட்டிற்குக் காரணமாக்குகிறார்கள், நிறுவனம் அதன் முந்தைய மாடல்களுடன் தொடர்ந்து நம்பியிருக்கும் ஒரு உத்தி இது. இந்தத் தரவுத்தொகுப்புகள் பல்வேறு குறியீட்டு மற்றும் STEM (அறிவியல், தொழில்நுட்பம், பொறியியல் மற்றும் கணிதம்) நெறிமுறைகளை உள்ளடக்கிய 1.4 மில்லியனுக்கும் அதிகமான கவனமாகத் தொகுக்கப்பட்ட தூண்டுதல்களை உள்ளடக்கியது. ஒவ்வொரு தூண்டுதலும், OpenAI இன் o3-மினி மாதிரியால் உருவாக்கப்பட்ட விரிவான நியாயமான தடங்களுடன் உள்ளன.
பயிற்சி செயல்முறையை மேம்படுத்த, ஆராய்ச்சியாளர்கள் அடிப்படை ஃபை-4(Phi-4) மாதிரியின் திறன்களைத் தாண்டிச்செல்லும் தூண்டுதல்களை குறிவைத்து வியூகம் வகுத்தனர். மேம்பாட்டிற்கான கணிசமான வாய்ப்புகளை வழங்கிய தூண்டுதல்களை மட்டும் தக்கவைத்துக்கொள்ள பயிற்சி தரவுத்தொகுப்புகளை வடிகட்டுவது இதில் அடங்கும்.
ஆர்எல்(RL)லின் செயல்திறனுக்கான காரணம்
ஃபை-4(Phi-4) ரீசனிங் பிளஸ்(Reasoning Plus) உருவாக்கம் இரண்டு-படி செயல்முறையை உள்ளடக்கியது: முதலாவதாக, அடிப்படை ஃபை-4(Phi-4) மாதிரியின் மேற்பார்வையிடப்பட்ட நுணுக்கமான ட்யூனிங்(fine-tuning (SFT)) மூலம் ஃபை-4(Phi-4) ரீசனிங்கை(Reasoning) உருவாக்குவது, பின்னர் வலுவூட்டல் கற்றல்(reinforcement learning (RL)) கட்டம். ஃபை-4(Phi-4) ரீசனிங் பிளஸின்(Reasoning Plus) RL(ஆர்எல்) கூறுகளைப் பற்றி ஆழமான நுண்ணறிவுகளைப் பெற, இந்தத் திட்டத்தின் முக்கியப் பங்கைக் கொண்ட மைக்ரோசாஃப்ட்(Microsoft) ஆராய்ச்சியாளரான ஹர்கிரத் பெஹ்லுடன்(Harkirat Behl) நேரடித் தொடர்பு அவசியம்.
வலுவூட்டல் கற்றல்(reinforcement learning (RL)) என்பது ஒரு தனித்துவமான பயிற்சி முறையாகும். இதில் ஒரு AI அமைப்பு பரிசோதனை மூலம் கற்றுக்கொள்கிறது. AI நடவடிக்கைகளை எடுக்கிறது, வெகுமதிகள் அல்லது அபராதங்கள் வடிவில் கருத்துக்களைப் பெறுகிறது மற்றும் நீண்ட கால விரும்பத்தக்க விளைவுகளை அதிகரிக்க அதன் முடிவெடுக்கும் செயல்முறையை மீண்டும் மீண்டும் செம்மைப்படுத்துகிறது. AI மாதிரி ‘காரணத்தை’ அடிப்படையாகக் கொள்ள வேண்டிய பணிகளுக்கு இந்த அணுகுமுறை மிகவும் நன்மை பயக்கும், ஏனெனில் இது ஒரு கடுமையான மற்றும் ஏற்கனவே வரையறுக்கப்பட்ட செயல்முறையை கடைப்பிடிப்பதை விட விரும்பிய விளைவை அடைவதற்கு முன்னுரிமை அளிக்கிறது.
அடுத்த வார்த்தையை முன்னறிவிப்பதில் மட்டுமே கவனம் செலுத்தி, ஒவ்வொரு தவறான பதிலுக்கும் மாதிரிக்கு அபராதம் விதிக்கும் பாரம்பரிய மாதிரிகள் போலல்லாமல், RL(ஆர்எல்) ஒரு பதில் எவ்வாறு பெறப்படுகிறது என்பதில் அதிக நெகிழ்வுத்தன்மையை வழங்குகிறது. இந்த நெகிழ்வுத்தன்மை பல சாத்தியமான தீர்வு வழிகளைக் கொண்ட சிக்கலான சிக்கல்களை ஆராய மாதிரியை அனுமதிக்கிறது. இறுதியில் சரியான முடிவில் ஒன்று கூடுகிறது.
பெஹ்லின்(Behl) கூற்றுப்படி, RL(ஆர்எல்) இறுதி முடிவின் துல்லியத்தில் முதன்மையான கவனம் செலுத்தி, ‘மிக நீண்ட பதில்களையும், பலவிதமான பதில்களையும் உருவாக்க’ மாதிரிக்கு அதிகாரம் அளிக்கிறது. குறிப்பிட்ட படிகளை எடுப்பதை விட, முடிவுக்கு முக்கியத்துவம் கொடுப்பது, மனிதர்கள் பிரச்சனைகளை அணுகும் முறையைப் பிரதிபலிக்கிறது. சரியான பதிலைக் கொடுக்கும் வரை, வெவ்வேறு சிந்தனை முறைகள் ஏற்றுக்கொள்ளப்படுகின்றன.
மைக்ரோசாஃப்ட்(Microsoft) வழங்கும் மாதிரிகளில், RL(ஆர்எல்) நிலை வேண்டுமென்றே கணித காரணத்தில் கவனம் செலுத்தியது. வெகுமதி அமைப்பு துல்லியமான பதில்களுக்கு ஊக்கமளித்தது, அதே நேரத்தில் திரும்பத் திரும்பச் சொல்லுதல், அதிகப்படியான நீளம் மற்றும் முறையற்ற பதில் வடிவமைப்பிற்கு அபராதம் விதித்தது.
மேலும் கேள்விக்கு மாதிரி பல பதில்களை உருவாக்க ஆராய்ச்சியாளர்கள் அனுமதித்ததாக பெஹ்ல்(Behl) விளக்கினார். பின்னர் ஒவ்வொரு பதிலும் உருவாக்கப்பட்ட பதில்களின் குழுவிற்குள் உள்ள சராசரி மதிப்பெண்ணுடன் ஒப்பிட்டு மதிப்பிடப்பட்டது.
இந்த ஒப்பீட்டு மதிப்பெண்கள் ஒரு பின்னூட்ட வழிமுறையாக செயல்படுகின்றன, மேலும் மாதிரி தொடர்ந்து அதிக மதிப்பெண்களைப் பெறும் பதில்களுக்கு சாதகமாக இருக்கும். காலப்போக்கில், இந்த செயல்முறை மாதிரி அதன் பதில்களை விரும்பிய வெகுமதி சமிக்ஞையுடன் நெருக்கமாக பொருந்துமாறு பயிற்சி அளிக்கிறது.
வரையறுக்கப்பட்ட அளவிலான 6,400 சிக்கல்களுக்கு RL(ஆர்எல்) செயல்படுத்துவது பல்வேறு கணிதம் மற்றும் பகுத்தறிவு மதிப்பீடுகளில் துல்லியத்தில் குறிப்பிடத்தக்க முன்னேற்றத்திற்கு வழிவகுத்தது என்று ஆராய்ச்சியாளர்கள் கண்டறிந்தனர்.
“ஃபை-1(Phi-1), ஃபை-2(Phi-2), ஃபை-3(Phi-3), மற்றும் ஃபை-4(Phi-4) ஐ உருவாக்கிய பிறகு, ஆராய்ச்சியில் நான் கற்றுக்கொண்டது என்னவென்றால், SFT பயிற்சியை விட RL க்கு மிகக் குறைவான தரவு தேவைப்படுகிறது” என்று பெஹ்ல்(Behl) குறிப்பிட்டார்.
RL(ஆர்எல்) முற்றிலும் புதிய திறன்களை மாதிரிக்கு புதிதாகச் சேர்ப்பது பற்றி குறைவாகவும், சிறந்த முடிவுகளை அடைய ஏற்கனவே இருக்கும் திறன்களை திறம்பட ஒருங்கிணைத்து பயன்படுத்த மாதிரிக்கு வழிகாட்டுவது பற்றியும் அதிகம் என்பதால் இது சாத்தியம் என்றார்.
வலுவூட்டல் கற்றலில்(Reinforcement Learning) மைக்ரோசாஃப்ட்(Microsoft)அடைந்த வெற்றி பல AI நிறுவனங்களின் அனுபவங்களுடன் ஒத்துப்போகிறது. பகுத்தறிவு மாதிரிகளின் வளர்ச்சியில் முன்னோடியாக இருக்கும் OpenAI, தங்கள் திட்டங்களில் RL(ஆர்எல்) ஏற்படுத்தும் சாதகமான தாக்கத்தை மீண்டும் மீண்டும் சுட்டிக்காட்டியுள்ளது.
சுவாரஸ்யமாக, கடந்த ஆண்டு AI உலகில் ஒரு பெரிய மாற்றத்தை ஏற்படுத்திய சீன மாடலான டீப் சீக் ஆர்1(DeepSeek R1) கூட, RL(ஆர்எல்) இன் பயன்பாட்டிற்கு ஒரு காரணம் என்று கூறியுள்ளது. மேலும், OpenAI இன் பல ஆராய்ச்சியாளர்கள் மற்றும் பொறியாளர்கள் தங்கள் ஆழமான ஆராய்ச்சி முயற்சிகளின் வெற்றிக்கு RL(ஆர்எல்) முக்கிய காரணம் என்று பகிரங்கமாக ஒப்புக் கொண்டுள்ளனர்.
சமீபத்தில், அலிபாபாவின்(Alibaba) Qwen மாதிரியும் வலுவூட்டல் கற்றலை(Reinforcement Learning) ஏற்றுக்கொண்டது, இது அவர்களின் பகுத்தறிவு மாதிரிகளில் ஏற்படுத்திய குறிப்பிடத்தக்க தாக்கத்தை வலியுறுத்தியது. ஒரு வலைப்பதிவு இடுகையில், நிறுவனம், “அதிகரிக்கப்பட்ட கணக்கீட்டு ஆதாரங்களால் இயக்கப்படும் RL(ஆர்எல்) உடன் வலுவான அடிப்படை மாதிரிகளை ஒருங்கிணைப்பது பொது செயற்கை நுண்ணறிவை (Artificial General Intelligence (AGI)) அடைவதற்கு எங்களை நெருக்கமாக கொண்டு செல்லும் என்று நாங்கள் நம்புகிறோம்.” என்று கூறியது.
இருப்பினும், ஃபை-4(Phi-4) ரீசனிங்(Reasoning), ஃபை-4(Phi-4) ரீசனிங் பிளஸ்(Reasoning Plus) மற்றும் பல பகுத்தறிவு மாதிரிகளின் வெற்றிகள் இருந்தபோதிலும், இந்தத் துறை இன்னும் பல சவால்களை எதிர்கொள்கிறது.
மேம்பாட்டிற்கான ஒரு தொடர் தேடல்
சமீபத்திய மாதங்களில், ஏராளமான ஆராய்ச்சி ஆய்வுகள் பகுத்தறிவு மாதிரிகளின் தற்போதைய வரம்புகள் மற்றும் சாத்தியமான ஆபத்துகளை அடிக்கோடிட்டுக் காட்டுகின்றன. உதாரணமாக, ஃபை-4(Phi-4) ரீசனிங்கின்(Reasoning) மீதான தங்கள் ஆய்வு கட்டுரையில், அதிகப்படியான நேரம் மற்றும் ஆதாரங்களை உட்கொள்ளுதல், மெதுவான பதில் நேரம் மற்றும் மிகவும் குறிப்பிடத்தக்க வகையில், மாதிரிகளின் பதில்கள் அவற்றின் சொந்த முந்தைய பகுத்தறிவு படிகளுக்கு முரணாக இருப்பது தொடர்பான சவால்களுடன் தொடர்ந்து போராடுவதாக மைக்ரோசாஃப்ட்(Microsoft) ஆராய்ச்சியாளர்கள் ஒப்புக்கொண்டனர்.
மற்றொரு குறிப்பிடத்தக்க வளர்ச்சியில், ஆந்த்ரோபிக்(Anthropic) ஒரு ஆய்வை வெளியிட்டது. அதில் பகுத்தறிவு தொடர்ச்சிகள் (பெரும்பாலும் சிந்தனைத் தொடர்ச்சிகள் அல்லது CoTs என்று குறிப்பிடப்படுகின்றன) ஒரு மாதிரியின் உண்மையான பகுத்தறிவு செயல்முறையை தொடர்ந்து பிரதிபலிக்காமல் போகலாம். சரியான பதில்களை நோக்கி அவர்களை வழிநடத்தும் வகையில் தூண்டுதல்களில் செருகப்பட்ட வெளிப்படையான குறிப்புகள் போன்ற வெளிப்புற குறிப்புகளை இந்த மாதிரிகள் பெரும்பாலும் பயன்படுத்துகின்றன. ஆனால் அவை வெளிப்படையான பகுத்தறிவு படிகளுக்குள் இந்த குறிப்புகளை அரிதாகவே ஒப்புக்கொள்கின்றன அல்லது வெளிப்படுத்துகின்றன என்று ஆராய்ச்சியாளர்கள் கண்டுபிடித்தனர். மாதிரியின் உள் நடத்தைக்கும் அதன் வெளிப்புற விளக்கத்திற்கும் இடையிலான இந்த வேறுபாடு, மாதிரி விளக்கத்திற்கான நம்பகமான கருவியாக பயன்படுத்துவதன் நம்பகத்தன்மை மற்றும் பாதுகாப்பை உறுதி செய்வது குறித்து கவலைகளை எழுப்புகிறது.
OpenAI கூட மேம்பட்ட பகுத்தறிவு மாதிரிகள் “வெகுமதி ஹேக்கிங்கில் ஈடுபடுவதற்கான” சாத்தியக்கூறுகளை எடுத்துக்காட்டும் ஆராய்ச்சி அறிக்கைகளை வெளியிட்டுள்ளது. வெகுமதி ஹேக்கிங்(hacking) என்பது AI முகவர்கள் தங்கள் வரையறுக்கப்பட்ட நோக்கங்களுக்குள் எதிர்பாராத ஓட்டைகள் அல்லது திட்டமிடப்படாத விளைவுகளைப் பயன்படுத்துவதை குறிக்கிறது. OpenAI இதைத் தணிப்பதற்கான உத்திகளை ஆராய்ந்துள்ளது. எடுத்துக்காட்டாக, o3-Mini போன்ற வலுவான மாதிரியைக் கண்காணிக்க குறைந்த சக்திவாய்ந்த மாதிரியான (GPT-4o) ஐப் பயன்படுத்துதல். இருப்பினும் இது அதன் சொந்த சிக்கல்கள் மற்றும் சாத்தியமான பாரபட்சங்களை அறிமுகப்படுத்துகிறது.
OpenAI இன் தொழில்நுட்ப பணியாளர்களில் ஒருவரான நாட் மெக்கலீஸ்(Nat McAleese), “பெரிய பகுத்தறிவு மாதிரிகள் வெகுமதி ஹேக்கிங்கில் மிகவும் சிறப்பாக உள்ளன” என்று வலியுறுத்தினார். இந்த புள்ளியை விளக்க அறிக்கையில் இருந்து தேர்ந்தெடுக்கப்பட்ட எடுத்துக்காட்டுகளை அவர் மேற்கோள் காட்டினார்.
“காரணங்களின் சங்கிலியில் நிறைய அதிகப்படியான தன்மை உள்ளது; அவை தங்களுக்குள் முரண்படுகின்றன, மேலும் நிறைய பதிலளிக்கப்படாத கேள்விகள் உள்ளன,” என்று பெஹ்ல்(Behl) கருத்து தெரிவித்தார். “ஆனால், இது ஒரு வளர்ந்து வரும் பகுதி. ஒரு சமூகமாக இதைச் சரியாகச் செய்து, மாதிரிகள் எவ்வாறு சிந்திக்கின்றன என்பதைப் புரிந்துகொள்ள முடிந்தால், நிறைய நன்மைகள் இருக்கும்.” பகுத்தறிவு மாதிரிகளின் எதிர்காலம் AI சமூகத்தில் தொடர்ச்சியான ஆராய்ச்சி மற்றும் ஒத்துழைப்பு மூலம் இந்த சவால்களை எதிர்கொள்வதில் உள்ளது.