செயற்கை நுண்ணறிவின் (Artificial Intelligence) மாறும் நிலப்பரப்பில், மைக்ரோசாஃப்ட் ஆராய்ச்சி ஒரு புதிய கண்டுபிடிப்பை அறிமுகப்படுத்தியுள்ளது. இது ஜெனரேட்டிவ் AI-யின் அணுகலை மற்றும் செயல்திறனை மறுவரையறை செய்ய உறுதியளிக்கிறது. அவர்களின் சமீபத்திய அறிக்கை BitNet b1.58 2B4T ஐ அறிமுகப்படுத்துகிறது. இது ‘1-பிட்’ எடைகளுடன், அல்லது இன்னும் துல்லியமாக, 1-ட்ரிட் எடைகளுடன் சொந்தமாக பயிற்சி பெற்ற ஒரு முன்னோடி பெரிய மொழி மாதிரி (LLM). இந்த புதுமையான அணுகுமுறை முழு துல்லியத்தில் முதலில் பயிற்சி செய்யப்பட்ட மாதிரிகளை குவாண்டைஸ் (Quantize) செய்யும் பாரம்பரிய முறைகளிலிருந்து விலகுகிறது.
பாரம்பரிய LLM-களின் வரம்புகளை கடத்தல்
பாரம்பரிய LLM-கள், அவற்றின் குறிப்பிடத்தக்க செயல்திறன் இருந்தபோதிலும், அவற்றின் பரவலான பயன்பாட்டைத் தடுக்கும் கணிசமான தடைகளுடன் போராடுகின்றன. இந்த வரம்புகள் முதன்மையாக அவற்றின் பெரிய நினைவக அளவு, அதிக ஆற்றல் நுகர்வு மற்றும் குறிப்பிடத்தக்க அனுமான தாமதம் ஆகியவற்றிலிருந்து எழுகின்றன. இதன் விளைவாக, இந்த மாதிரிகளை எட்ஜ் சாதனங்களில், வள-வரையறுக்கப்பட்ட சூழல்களில் மற்றும் நிகழ்நேர பயன்பாடுகளுக்கு பயன்படுத்துவது நடைமுறைக்கு மாறானது.
இந்த சவால்களைக் குறைக்க, AI சமூகம் குவாண்டைஸ்டு (Quantized) மாதிரிகளை ஆராய்வதில் அதிக கவனம் செலுத்தியுள்ளது. இந்த மாதிரிகள் அவற்றின் எடைகளை குறைந்த-பிட் வடிவத்திற்கு மாற்றுவதன் மூலம் முழு-துல்லியமான சகாக்களிலிருந்து பெறப்படுகின்றன. குவாண்டைசேஷன் (Quantization) மாதிரி அளவு மற்றும் கணக்கீட்டு தேவைகளை குறைக்க ஒரு பாதையை வழங்குகிறது, அதே நேரத்தில் துல்லிய இழப்பின் விலையில் வருகிறது. இது மாதிரியின் துல்லியம் மற்றும் ஒட்டுமொத்த செயல்திறனை பாதிக்கலாம்.
பிட்நெட் b1.58 2B4T கட்டமைப்பு
BitNet b1.58 2B4T என்பது LLM வடிவமைப்பில் ஒரு முன்னுதாரண மாற்றத்தை குறிக்கிறது. இது 1-பிட் எடைகளைப் பயன்படுத்தி மாதிரியை தரையிலிருந்து பயிற்சி செய்வதன் மூலம் குவாண்டைசேஷனுடன் (Quantization) தொடர்புடைய துல்லிய இழப்பைத் தவிர்க்கிறது. இந்த அணுகுமுறை, சிறிய எடைகளின் நன்மைகளைத் தக்கவைக்க மாதிரியை அனுமதிக்கிறது. இதில் குறைக்கப்பட்ட நினைவக அளவு மற்றும் குறைந்த கணக்கீட்டு செலவுகள் அடங்கும்.
மைக்ரோசாஃப்ட் ஆராய்ச்சியாளர்கள் 4 டிரில்லியன் டோக்கன்களின் பெரிய கார்பஸில் BitNet b1.58 2B4T ஐ பயிற்சிப்பதன் மூலம் இந்த லட்சிய முயற்சியைத் தொடங்கினர். இந்த விரிவான பயிற்சி தரவுத்தொகுப்பு, மாதிரி சிக்கலான மொழி வடிவங்களைக் கற்றுக்கொள்வதையும், மனித தகவல்தொடர்புகளின் நுணுக்கங்களைப் பற்றிய விரிவான புரிதலை உருவாக்குவதையும் உறுதி செய்தது.
செயல்திறன் மதிப்பீடு மற்றும் தரப்படுத்தல்
BitNet b1.58 2B4T இன் செயல்திறனை மதிப்பிடுவதற்கு, மைக்ரோசாஃப்ட் கடுமையான தரநிலைகளை நடத்தியது. அதன் செயல்திறனை ஒத்த அளவிலான முன்னணி திறந்த-எடை, முழு-துல்லிய மாதிரிகளுடன் ஒப்பிட்டது. மொழி புரிதல் மற்றும் பகுத்தறிவு, உலக அறிவு, வாசிப்பு புரிதல், கணிதம் மற்றும் குறியீடு மற்றும் அறிவுறுத்தல் பின்பற்றுதல் மற்றும் உரையாடல் உள்ளிட்ட பரந்த அளவிலான பணிகளில் புதிய மாதிரி ஒப்பீட்டளவில் செயல்பட்டது என்று முடிவுகள் காட்டுகின்றன.
செயல்திறன் சமத்துவத்தை முழு-துல்லியமான சகாக்களுடன் அடைய 1-பிட் LLM-களின் திறனை இந்த கண்டுபிடிப்புகள் அடிக்கோடிட்டுக் காட்டுகின்றன. அதே நேரத்தில் செயல்திறன் மற்றும் வள பயன்பாடு ஆகியவற்றின் அடிப்படையில் குறிப்பிடத்தக்க நன்மைகளை வழங்குகிறது.
முக்கிய கட்டடக்கலை கண்டுபிடிப்புகள்
BitNet b1.58 2B4T இன் இதயத்தில் அதன் புதுமையான கட்டமைப்பு உள்ளது. இது நிலையான முழு-துல்லியமான லீனியர் லேயர்களை தனிப்பயன் BitLinear லேயர்களுடன் மாற்றுகிறது. இந்த லேயர்கள் ஃபார்வர்டு பாஸின் போது எடைகளை டெர்னரி மதிப்புகளாக (trits) குறியாக்க 1.58-பிட் பிரதிநிதித்துவங்களைப் பயன்படுத்துகின்றன.
டெர்னரி மதிப்புகளின் பயன்பாடு {-1, 0, +1} என குறிப்பிடப்படுகிறது. இது மாதிரி அளவை வெகுவாகக் குறைக்கிறது மற்றும் திறமையான கணித செயல்பாடுகளை எளிதாக்குகிறது. இது ஒரு முழுமையான சராசரி (absmean
) குவாண்டைசேஷன் (Quantization) திட்டத்தின் மூலம் அடையப்படுகிறது. இது எடைகளை இந்த டெர்னரி மதிப்புகளுக்கு மேப் செய்கிறது.
BitLinear லேயர்களுக்கு கூடுதலாக, BitNet b1.58 2B4T சதுர ReLU ஆக்டிவேஷன் செயல்பாடுகள், ரோட்டரி பொசிஷனல் உட்பொதிவுகள் மற்றும் பையாஸ் டேர்ம் நீக்கம் போன்ற பல நிறுவப்பட்ட LLM நுட்பங்களை உள்ளடக்கியது. இந்தநுட்பங்கள் மாதிரியின் அளவைக் குறைப்பதற்கும் பயிற்சி ஸ்திரத்தன்மையை மேம்படுத்துவதற்கும் மேலும் பங்களிக்கின்றன.
பயிற்சி ஸ்திரத்தன்மை மற்றும் செயல்திறனை மேம்படுத்துதல்
BitLinear லேயர்களில் பயன்படுத்தப்படும் இரண்டு கூடுதல் நுட்பங்கள் - ஆக்டிவேஷன் குவாண்டைசேஷன் மற்றும் நார்மலைசேஷன் - மாதிரியின் அளவைக் குறைப்பதிலும் பயிற்சி ஸ்திரத்தன்மையை மேம்படுத்துவதிலும் முக்கிய பங்கு வகிக்கின்றன. ஆக்டிவேஷன் குவாண்டைசேஷன் ஆக்டிவேஷன்களின் துல்லியத்தைக் குறைக்கிறது, அதே நேரத்தில் நார்மலைசேஷன் நுட்பங்கள் ஆக்டிவேஷன்கள் அதிகமாகவோ அல்லது மிகச் சிறியதாகவோ ஆகாமல் தடுக்க உதவுகின்றன.
இந்த நுட்பங்கள், 1-பிட் எடைகளின் பயன்பாட்டுடன் இணைந்து, BitNet b1.58 2B4T ஐ பெரிய தரவுத்தொகுப்புகளில் கூட மிகவும் திறமையாகவும் திறம்படவும் பயிற்சி செய்ய உதவுகின்றன.
பயிற்சி முறைகள்
பயிற்சிக்காக, BitNet b1.58 2B4T மூன்று முக்கிய நுட்பங்களைப் பயன்படுத்துகிறது: பெரிய அளவிலான முன் பயிற்சி, மேற்பார்வையிடப்பட்ட நுணுக்கமான பயிற்சி மற்றும் நேரடி விருப்ப தேர்வுமுறை.
பெரிய அளவிலான முன் பயிற்சி
இந்த ஆரம்ப கட்டத்தில் உரை மற்றும் குறியீட்டின் பெரிய தரவுத்தொகுப்பில் மாதிரியைப் பயிற்சி செய்வது அடங்கும், இது பொதுவான மொழி வடிவங்களைக் கற்றுக்கொள்வதற்கும் உலகத்தைப் பற்றிய ஒரு பரந்த புரிதலை வளர்ப்பதற்கும் அனுமதிக்கிறது.
மேற்பார்வையிடப்பட்ட நுணுக்கமான பயிற்சி
இந்த கட்டத்தில் மாதிரி ஒரு சிறிய, இன்னும் குறிப்பிட்ட தரவுத்தொகுப்பில் நுணுக்கமாக பயிற்சி செய்யப்படுகிறது, இது ஒரு குறிப்பிட்ட பணி அல்லது களத்திற்கு ஏற்றது. இது பணியின் குறிப்பிட்ட தேவைகளுக்கு அதன் அறிவு மற்றும் திறன்களை மாற்றியமைக்க மாதிரியை அனுமதிக்கிறது.
நேரடி விருப்ப தேர்வுமுறை
இந்த நுட்பத்தில் மனித விருப்பங்களுக்காக நேரடியாக மேம்படுத்த மாதிரியைப் பயிற்றுவிப்பது அடங்கும், இது கருத்து அல்லது மதிப்பீடுகள் மூலம் வெளிப்படுத்தப்படுகிறது. இது மாதிரியின் வெளியீடுகள் மனித மதிப்புகள் மற்றும் எதிர்பார்ப்புகளுடன் ஒத்துப்போக உதவுகிறது.
ப்ராக்ஸிமல் பாலிசி ஆப்டிமைசேஷன் (Proximal Policy Optimization) அல்லது குரூப் ரிலேட்டிவ் பாலிசி ஆப்டிமைசேஷன் (Group Relative Policy Optimization) போன்ற மேம்பட்ட நுட்பங்கள் எதிர்காலத்தில் கணித திறன்களையும் செயின்-ஆஃப்-தாட் ரீசனிங்கையும் (chain-of-thought reasoning) மேம்படுத்த ஆராயப்படும் என்று ஆராய்ச்சியாளர்கள் குறிப்பிடுகின்றனர்.
பிட்நெட்.cpp ஊக நூலகம்
BitNet b1.58 2B4T இன் தனித்துவமான குவாண்டைசேஷன் (Quantization) திட்டத்தின் காரணமாக, மாதிரியை llama.cpp போன்ற நிலையான ஆழமான கற்றல் நூலகங்களுடன் பயன்படுத்த முடியாது மற்றும் ஒரு சிறப்பு கர்னல் தேவைப்படுகிறது. இந்த சவாலை எதிர்கொள்ள, மைக்ரோசாஃப்ட் திறந்த மூல அர்ப்பணிப்பு ஊக நூலகமான bitnet.cpp ஐ உருவாக்கியுள்ளது.
bitnet.cpp 1-பிட் LLM-களுக்கான அதிகாரப்பூர்வ ஊக கட்டமைப்பாக செயல்படுகிறது, BitNet b1.58 போன்றவை. இது CPU-களில் 1.58-பிட் மாதிரிகளின் வேகமான மற்றும் இழப்பற்ற ஊகத்தை ஆதரிக்கும் உகந்த கர்னல்களின் தொகுப்பை வழங்குகிறது, மேலும் எதிர்காலத்தில் NPU மற்றும் GPU களுக்கான ஆதரவை நீட்டிக்க திட்டமிட்டுள்ளது.
டெவலப்பர்கள் மற்றும் ஆராய்ச்சியாளர்களுக்கு மிகவும் அணுகக்கூடியதாக ஆக்குவதன் மூலம், BitNet b1.58 2B4T ஐ பரந்த அளவிலான சாதனங்கள் மற்றும் தளங்களில் பயன்படுத்துவதற்கு இந்த ஊக நூலகம் முக்கியமானது.
எதிர்கால ஆராய்ச்சி திசைகள்
தற்போதைய GPU ஹார்டுவேர் 1-பிட் மாதிரிகளுக்கு உகந்ததாக இல்லை என்றும், குறைந்த-பிட் செயல்பாடுகளுக்கான அர்ப்பணிப்பு லாஜிக்கை இணைப்பதன் மூலம் மேலும் செயல்திறன் ஆதாயங்களை அடைய முடியும் என்றும் ஆராய்ச்சியாளர்கள் ஒப்புக்கொள்கிறார்கள். குறைந்த-பிட் செயல்பாடுகளுக்கான அர்ப்பணிப்பு லாஜிக்கை இணைப்பதன் மூலம் மேலும் செயல்திறன் ஆதாயங்களை அடைய முடியும் என்றும் ஆராய்ச்சியாளர்கள் ஒப்புக்கொள்கிறார்கள். இது எதிர்கால வன்பொருள் கட்டமைப்புகள் குறிப்பாக 1-பிட் LLM-களை ஆதரிக்க வடிவமைக்கப்படலாம் என்று அறிவுறுத்துகிறது, இது இன்னும் அதிகமான செயல்திறன் மற்றும் செயல்திறனுக்கு வழிவகுக்கிறது.
வன்பொருள் மேம்பாடுகளுக்கு கூடுதலாக, எதிர்கால ஆராய்ச்சி திசைகளில் பெரிய மாதிரிகளைப் பயிற்சி செய்தல், பல மொழி திறன்களைச் சேர்ப்பது மற்றும் பல-முறை ஒருங்கிணைப்பு மற்றும் சூழல் சாளர நீளத்தை நீட்டிப்பது ஆகியவை அடங்கும். இந்த முன்னேற்றங்கள் BitNet b1.58 2B4T மற்றும் பிற 1-பிட் LLM-களின் திறன்களையும் பல்துறை திறனையும் மேலும் மேம்படுத்தும்.
தாக்கங்கள் மற்றும் சாத்தியமான தாக்கம்
BitNet b1.58 2B4T இன் வளர்ச்சி AI இன் எதிர்காலத்திற்கு, குறிப்பாக ஜெனரேட்டிவ் AI துறையில் குறிப்பிடத்தக்க தாக்கங்களை ஏற்படுத்துகிறது. 1-பிட் எடைகளைப் பயன்படுத்தி உயர் செயல்திறன் LLM-களைப் பயிற்றுவிக்க முடியும் என்பதை நிரூபிப்பதன் மூலம், மைக்ரோசாஃப்ட் மிகவும் திறமையான மற்றும் அணுகக்கூடிய AI அமைப்புகளை உருவாக்குவதற்கான புதிய சாத்தியங்களைத் திறந்துள்ளது.
இந்த திருப்புமுனை ஸ்மார்ட்போன்கள், IoT சாதனங்கள் மற்றும் பிற வள-வரையறுக்கப்பட்ட தளங்கள் உட்பட பரந்த அளவிலான சாதனங்களில் AI மாதிரிகளைப் பயன்படுத்த வழிவகுக்கும். இது ஆற்றல் திறன் கொண்ட AI அமைப்புகளின் வளர்ச்சிக்கும் வழிவகுக்கும், அவற்றின் சுற்றுச்சூழல் தாக்கத்தைக் குறைக்கும்.
மேலும், 1-பிட் எடைகளுடன் LLM-களைப் பயிற்றுவிக்கும் திறன் குறிப்பிட்ட பயன்பாடுகளுக்கான AI மாதிரிகளைத் தனிப்பயனாக்குவதையும் தனிப்பயனாக்குவதையும் எளிதாக்கும். தனிப்பட்ட பயனர்கள் மற்றும் அமைப்புகளின் தனித்துவமான தேவைகளுக்கு ஏற்ப வடிவமைக்கப்பட்ட மிகவும் பயனுள்ள மற்றும் பயனர் நட்பு AI அமைப்புகளின் வளர்ச்சிக்கு இது வழிவகுக்கும்.
முடிவு
மைக்ரோசாஃப்ட்டின் BitNet b1.58 2B4T என்பது மிகவும் திறமையான மற்றும் அணுகக்கூடிய AI க்கான தேடலில் ஒரு முக்கியமான படியாகும். 1-பிட் எடைகளைப் பயன்படுத்தி உயர் செயல்திறன் LLM-களைப் பயிற்றுவிக்க முடியும் என்பதை நிரூபிப்பதன் மூலம், மைக்ரோசாஃப்ட் மரபுகளை சவால் செய்து AI இன் எதிர்காலத்திற்கான புதிய சாத்தியங்களைத் திறந்துள்ளது.
இந்த துறையில் ஆராய்ச்சி தொடர்ந்து நடைபெற்று வருவதால், 1-பிட் LLM-களின் இன்னும் புதுமையான பயன்பாடுகளை நாம் எதிர்பார்க்கலாம், இது AI மிகவும் ஊடுருவக்கூடியதாகவும், திறமையானதாகவும் மற்றும் சமூகத்திற்கு ஒட்டுமொத்தமாக நன்மை பயக்கும் ஒரு எதிர்காலத்திற்கு வழிவகுக்கிறது.