ஃபை குடும்பம் விரிவடைகிறது: மல்டிமோடல் திறன்கள் அறிமுகம்
மைக்ரோசாப்ட், சிறிய மொழி மாதிரிகள் (SLMs) துறையில் தனது பங்களிப்பாக ஃபை குடும்பத்தை வழங்குகிறது. ஃபை-யின் நான்காவது தலைமுறை டிசம்பரில் அறிமுகப்படுத்தப்பட்டது, இப்போது, மைக்ரோசாப்ட் ஃபை-4-மல்டிமோடல் மற்றும் ஃபை-4-மினி ஆகிய இரண்டு குறிப்பிடத்தக்க சேர்த்தல்களுடன் வரிசையை மேம்படுத்துகிறது. அவற்றின் உடன்பிறப்புகளைப் போலவே, இந்த புதிய மாடல்களும் Azure AI ஃபவுண்டரி, ஹக்கிங் ஃபேஸ் மற்றும் Nvidia API கேட்டலாக் ஆகியவற்றின் மூலம் MIT உரிமத்தின் கீழ் உடனடியாக அணுகக்கூடியதாக இருக்கும்.
குறிப்பாக, ஃபை-4-மல்டிமோடல் தனித்து நிற்கிறது. இது 5.6 பில்லியன் அளவுருக்கள் கொண்ட மாதிரியாகும், இது ‘கலவை-லோராஸ்’ (குறைந்த-தர தழுவல்கள்) எனப்படும் ஒரு அதிநவீன நுட்பத்தைப் பயன்படுத்துகிறது. இந்த அணுகுமுறை மாதிரிக்கு பேச்சு, காட்சி உள்ளீடு மற்றும் உரைத் தரவை ஒரே நேரத்தில் செயலாக்க உதவுகிறது. LoRAs ஒரு பெரிய மொழி மாதிரியின் செயல்திறனை குறிப்பிட்ட பணிகளில் அதிகரிப்பதற்கான ஒரு புதிய முறையை பிரதிபலிக்கிறது, அதன் அனைத்து அளவுருக்களிலும் விரிவான நுணுக்கமான மாற்றத்தின் தேவையைத் தவிர்க்கிறது. அதற்கு பதிலாக, LoRA ஐப் பயன்படுத்தும் டெவலப்பர்கள் மாதிரியில் சிறிய எண்ணிக்கையிலான புதிய எடைகளை மூலோபாயமாக செருகுகிறார்கள். புதிதாக அறிமுகப்படுத்தப்பட்ட இந்த எடைகள் மட்டுமே பயிற்சிக்கு உட்படுத்தப்படுகின்றன, இதன் விளைவாக கணிசமாக வேகமான மற்றும் அதிக நினைவக திறன் கொண்ட செயல்முறை கிடைக்கிறது. இதன் விளைவாக மிகவும் இலகுவான மாடல்களின் தொகுப்பு கிடைக்கிறது, அவை சேமிக்கவும், பகிரவும் மற்றும் பயன்படுத்தவும் எளிதானவை.
இந்த செயல்திறனின் தாக்கங்கள் கணிசமானவை. ஃபை-4-மல்டிமோடல் குறைந்த தாமத அனுமானத்தை அடைகிறது - அதாவது தகவலைச் செயலாக்கி மிக விரைவாக பதில்களை வழங்க முடியும் - அதே நேரத்தில் சாதனத்தில் செயல்படுத்துவதற்கு உகந்ததாக உள்ளது. இது கணக்கீட்டு மேல்நிலைகளில் வியத்தகு குறைப்புக்கு வழிவகுக்கிறது, இதற்கு முன்னர் தேவையான செயலாக்க சக்தி இல்லாத சாதனங்களில் அதிநவீன AI பயன்பாடுகளை இயக்குவதை சாத்தியமாக்குகிறது.
சாத்தியமான பயன்பாட்டு நிகழ்வுகள்: ஸ்மார்ட்போன்கள் முதல் நிதி சேவைகள் வரை
ஃபை-4-மல்டிமோடலின் சாத்தியமான பயன்பாடுகள் வேறுபட்டவை மற்றும் தொலைநோக்குடையவை. ஸ்மார்ட்போன்களில் இந்த மாதிரி தடையின்றி செயல்படுவதை கற்பனை செய்து பாருங்கள், வாகனங்களுக்குள் மேம்பட்ட அம்சங்களை இயக்குகிறது அல்லது இலகுரக நிறுவன பயன்பாடுகளை இயக்குகிறது. ஒரு பன்மொழி நிதிச் சேவை பயன்பாடு ஒரு கட்டாய எடுத்துக்காட்டு, இது பல்வேறு மொழிகளில் பயனர் கேள்விகளைப் புரிந்துகொண்டு பதிலளிக்கும் திறன் கொண்டது, ஆவணங்கள் போன்ற காட்சித் தரவை செயலாக்குகிறது, இவை அனைத்தும் பயனரின் சாதனத்தில் திறமையாக செயல்படுகின்றன.
ஃபை-4-மல்டிமோடலின் மாற்றத்தக்க திறனை தொழில்துறை ஆய்வாளர்கள் அங்கீகரித்து வருகின்றனர். இது டெவலப்பர்களுக்கு, குறிப்பாக மொபைல் சாதனங்கள் அல்லது கணக்கீட்டு வளங்கள் குறைவாக உள்ள சூழல்களுக்கு AI-உந்துதல் பயன்பாடுகளை உருவாக்குவதில் கவனம் செலுத்துபவர்களுக்கு ஒரு குறிப்பிடத்தக்க படியாக பார்க்கப்படுகிறது.
ஃபாரெஸ்டரின் துணைத் தலைவரும் முதன்மை ஆய்வாளருமான சார்லி டாய், உரை, படம் மற்றும் ஆடியோ செயலாக்கத்தை வலுவான பகுத்தறிவு திறன்களுடன் ஒருங்கிணைக்கும் மாதிரியின் திறனை எடுத்துக்காட்டுகிறார். இந்த கலவையானது AI பயன்பாடுகளை மேம்படுத்துகிறது, டெவலப்பர்கள் மற்றும் நிறுவனங்களுக்கு “பல்துறை, திறமையான மற்றும் அளவிடக்கூடிய தீர்வுகளை” வழங்குகிறது என்பதை அவர் வலியுறுத்துகிறார்.
எவரெஸ்ட் குழுமத்தின் பங்குதாரரான யுகல் ஜோஷி, கணக்கீடு-கட்டுப்படுத்தப்பட்ட சூழல்களில் பயன்படுத்துவதற்கு மாதிரியின் பொருத்தத்தை ஒப்புக்கொள்கிறார். மொபைல் சாதனங்கள் அனைத்து ஜெனரேட்டிவ் AI பயன்பாட்டு நிகழ்வுகளுக்கும் சிறந்த தளமாக இருக்காது என்பதை அவர் குறிப்பிட்டாலும், பெரிய அளவிலான கணக்கீட்டு உள்கட்டமைப்பை நம்பியிருப்பதைக் குறைப்பதில் கவனம் செலுத்தும் மற்றொரு முயற்சியான டீப்சீக்கிலிருந்து மைக்ரோசாப்ட் உத்வேகம் பெறுவதை புதிய SLMகள் பிரதிபலிக்கின்றன என்று அவர் பார்க்கிறார்.
பெஞ்ச்மார்க்கிங் செயல்திறன்: பலங்கள் மற்றும் வளர்ச்சிக்கான பகுதிகள்
பெஞ்ச்மார்க் செயல்திறனைப் பொறுத்தவரை, ஃபை-4-மல்டிமோடல் ஜெமினி-2.0-ஃப்ளாஷ் மற்றும் GPT-4o-ரியல்டைம்-பிரிவியூ போன்ற மாடல்களுடன் ஒப்பிடும்போது செயல்திறன் இடைவெளியைக் காட்டுகிறது, குறிப்பாக பேச்சு கேள்வி பதில் (QA) பணிகளில். ஃபை-4 மாடல்களின் சிறிய அளவு கேள்வி-பதிலுக்கான உண்மையான அறிவைத் தக்கவைத்துக்கொள்வதற்கான அவற்றின் திறனைக் கட்டுப்படுத்துகிறது என்பதை மைக்ரோசாப்ட் ஒப்புக்கொள்கிறது. இருப்பினும், மாதிரியின் எதிர்கால மறு செய்கைகளில் இந்த திறனை மேம்படுத்த நிறுவனம் தொடர்ந்து முயற்சிகளை மேற்கொண்டு வருவதாக வலியுறுத்துகிறது.
இது இருந்தபோதிலும், ஃபை-4-மல்டிமோடல் மற்ற பகுதிகளில் ஈர்க்கக்கூடிய பலங்களை நிரூபிக்கிறது. குறிப்பாக, கணித மற்றும் அறிவியல் பகுத்தறிவு, ஆப்டிகல் கேரக்டர் ரெகக்னிஷன் (OCR) மற்றும் விஷுவல் சயின்ஸ் ரீசனிங் உள்ளிட்ட பணிகளில் ஜெமினி-2.0-ஃப்ளாஷ் லைட் மற்றும் கிளாட்-3.5-சொனெட் உள்ளிட்ட பல பிரபலமான LLMகளை விட இது சிறப்பாக செயல்படுகிறது. கல்வி மென்பொருள் முதல் அறிவியல் ஆராய்ச்சி கருவிகள் வரை பரந்த அளவிலான பயன்பாடுகளுக்கு இவை முக்கியமான திறன்களாகும்.
ஃபை-4-மினி: சிறிய அளவு, ஈர்க்கக்கூடிய செயல்திறன்
ஃபை-4-மல்டிமோடலுடன், மைக்ரோசாப்ட் ஃபை-4-மினியையும் அறிமுகப்படுத்தியது. இந்த மாதிரி இன்னும் கச்சிதமானது, 3.8 பில்லியன் அளவுருக்களைக் கொண்டுள்ளது. இது அடர்த்தியான டிகோடர்-மட்டும் டிரான்ஸ்பார்மர் கட்டமைப்பை அடிப்படையாகக் கொண்டது மற்றும் 128,000 டோக்கன்கள் வரை ஈர்க்கக்கூடிய வரிசைகளை ஆதரிக்கிறது.
மைக்ரோசாப்டின் ஜெனரேட்டிவ் AI இன் துணைத் தலைவரான வெய்சு சென், ஃபை-4-மினியின் சிறிய அளவு இருந்தபோதிலும் அதன் குறிப்பிடத்தக்க செயல்திறனை எடுத்துக்காட்டுகிறார். புதிய மாடல்களை விவரிக்கும் ஒரு வலைப்பதிவு இடுகையில், ஃபை-4-மினி “பகுத்தறிவு, கணிதம், குறியீட்டு முறை, அறிவுறுத்தல்-பின்பற்றுதல் மற்றும் செயல்பாடு-அழைப்பு உள்ளிட்ட உரை அடிப்படையிலான பணிகளில் பெரிய மாடல்களை விட தொடர்ந்து சிறப்பாக செயல்படுகிறது” என்று அவர் குறிப்பிடுகிறார். குறிப்பிட்ட பயன்பாட்டு களங்களில் குறிப்பிடத்தக்க மதிப்பை வழங்க சிறிய மாடல்களுக்கு கூட சாத்தியம் உள்ளது என்பதை இது அடிக்கோடிட்டுக் காட்டுகிறது.
IBM’ன் கிரானைட் புதுப்பிப்புகள்: பகுத்தறிவு திறன்களை மேம்படுத்துதல்
SLMகளில் முன்னேற்றங்கள் மைக்ரோசாப்ட்டுக்கு மட்டும் அல்ல. IBM தனது கிரானைட் அடிப்படை மாடல்களின் குடும்பத்திற்கு ஒரு புதுப்பிப்பையும் வெளியிட்டுள்ளது, கிரானைட் 3.2 2B மற்றும் 8B மாடல்களை அறிமுகப்படுத்தியுள்ளது. இந்த புதிய மாடல்கள் மேம்படுத்தப்பட்ட “சிந்தனை சங்கிலி” திறன்களைக் கொண்டுள்ளன, இது பகுத்தறிவு திறன்களை மேம்படுத்துவதற்கான ஒரு முக்கியமான அம்சமாகும். இந்த முன்னேற்றம் மாடல்கள் அவற்றின் முன்னோடிகளை விட உயர்ந்த செயல்திறனை அடைய அனுமதிக்கிறது.
மேலும், IBM ஆவண புரிதல் பணிகளுக்காக குறிப்பாக வடிவமைக்கப்பட்ட ஒரு புதிய விஷன் லாங்குவேஜ் மாடலை (VLM) வெளியிட்டுள்ளது. இந்த VLM ஆனது DocVQA, ChartQA, AI2D மற்றும் OCRBench1 போன்ற பெஞ்ச்மார்க்குகளில் Llama 3.2 11B மற்றும் Pixtral 12B போன்ற கணிசமாக பெரிய மாடல்களின் செயல்திறனைப் பொருத்துகிறது அல்லது மிஞ்சுகிறது. குறிப்பிட்ட களங்களில் போட்டி செயல்திறனை வழங்கும் சிறிய, சிறப்பு மாடல்களின் வளர்ந்து வரும் போக்கை இது எடுத்துக்காட்டுகிறது.
சாதனத்தில் AI-யின் எதிர்காலம்: ஒரு முன்னுதாரண மாற்றம்
ஃபை-4-மல்டிமோடல் மற்றும் ஃபை-4-மினி அறிமுகம், IBM’ன் கிரானைட் புதுப்பிப்புகளுடன், சக்திவாய்ந்த AI திறன்கள் பரந்த அளவிலான சாதனங்களில் உடனடியாகக் கிடைக்கக்கூடிய எதிர்காலத்தை நோக்கிய ஒரு குறிப்பிடத்தக்க படியைக் குறிக்கிறது. இந்த மாற்றம் பல்வேறு தொழில்கள் மற்றும் பயன்பாடுகளுக்கு ஆழமான தாக்கங்களைக் கொண்டுள்ளது:
- AI-யின் ஜனநாயகமயமாக்கல்: சிறிய, அதிக திறன் கொண்ட மாடல்கள் AI-ஐ பரந்த அளவிலான டெவலப்பர்கள் மற்றும் பயனர்களுக்கு அணுகக்கூடியதாக ஆக்குகின்றன, பெரிய கணக்கீட்டு வளங்களை அணுகக்கூடியவர்களுக்கு மட்டுமல்ல.
- மேம்படுத்தப்பட்ட தனியுரிமை மற்றும் பாதுகாப்பு: சாதனத்தில் செயலாக்கம் கிளவுட்டுக்கு முக்கியமான தரவை அனுப்ப வேண்டிய தேவையைக் குறைக்கிறது, தனியுரிமை மற்றும் பாதுகாப்பை மேம்படுத்துகிறது.
- மேம்படுத்தப்பட்ட பதிலளிப்பு மற்றும் தாமதம்: உள்ளூர் செயலாக்கம் கிளவுட் அடிப்படையிலான AI உடன் தொடர்புடைய தாமதங்களை நீக்குகிறது, இது வேகமான மறுமொழி நேரங்களுக்கும் மிகவும் தடையற்ற பயனர் அனுபவத்திற்கும் வழிவகுக்கிறது.
- ஆஃப்லைன் செயல்பாடு: சாதனத்தில் உள்ள AI இணைய இணைப்பு இல்லாமலும் கூட செயல்பட முடியும், இது தொலைதூர அல்லது குறைந்த இணைப்பு சூழல்களில் பயன்பாடுகளுக்கான புதிய சாத்தியங்களை திறக்கிறது.
- குறைக்கப்பட்ட ஆற்றல் நுகர்வு: சிறிய மாடல்களுக்கு செயல்பட குறைந்த ஆற்றல் தேவைப்படுகிறது, இது மொபைல் சாதனங்களுக்கான நீண்ட பேட்டரி ஆயுளுக்கும் குறைக்கப்பட்ட சுற்றுச்சூழல் தாக்கத்திற்கும் பங்களிக்கிறது.
- எட்ஜ் கம்ப்யூட்டிங் பயன்பாடுகள்: இதில் தன்னாட்சி ஓட்டுநர், ஸ்மார்ட் உற்பத்தி மற்றும் தொலைதூர சுகாதாரப் பாதுகாப்பு போன்ற துறைகள் அடங்கும்.
SLMகளில் உள்ள முன்னேற்றங்கள் AI நிலப்பரப்பில் ஒரு முன்னுதாரண மாற்றத்தை ஏற்படுத்துகின்றன. பெரிய மொழி மாதிரிகள் தொடர்ந்து முக்கிய பங்கு வகிக்கும் அதே வேளையில், ஃபை குடும்பத்தில் உள்ளதைப் போன்ற சிறிய, திறமையான மாடல்களின் எழுச்சி, AI மிகவும் பரவலாகவும், அணுகக்கூடியதாகவும், நமது அன்றாட வாழ்க்கையில் ஒருங்கிணைக்கப்பட்டதாகவும் இருக்கும் எதிர்காலத்திற்கு வழி வகுக்கிறது. கவனம் வெறும் அளவிலிருந்து செயல்திறன், சிறப்பு மற்றும் நாம் தினமும் பயன்படுத்தும் சாதனங்களில் நேரடியாக சக்திவாய்ந்த AI திறன்களை வழங்கும் திறனுக்கு மாறுகிறது. இந்த போக்கு துரிதப்படுத்த வாய்ப்புள்ளது, இது இன்னும் புதுமையான பயன்பாடுகளுக்கும் பல்வேறு துறைகளில் AI இன் பரந்த தத்தெடுப்புக்கும் வழிவகுக்கும். வளங்கள்-கட்டுப்படுத்தப்பட்ட சாதனங்களில் மல்டிமோடல் உள்ளீடுகளைப் புரிந்துகொள்வது போன்ற சிக்கலான பணிகளைச் செய்யும் திறன் செயற்கை நுண்ணறிவின் பரிணாம வளர்ச்சியில் ஒரு புதிய அத்தியாயத்தைத் திறக்கிறது.
அதிகரித்து வரும் அறிவார்ந்த மற்றும் திறன் கொண்ட SLM ஐ உருவாக்குவதற்கான போட்டி நடந்து கொண்டிருக்கிறது, மேலும் மைக்ரோசாப்டின் புதிய வழங்கல் ஒரு பெரிய படியாகும்.