கூகிள் நிறுவனம் சமீபத்தில் தனது திறந்த செயற்கை நுண்ணறிவு மாடல் குடும்பமான ‘ஜெம்மா 3’ க்கான குவாண்டம் பயிற்சி (QAT) மாதிரிகளை அறிமுகப்படுத்தியுள்ளது. இந்த வளர்ச்சியானது பெரிய மொழி மாதிரிகளின் கணக்கீட்டுத் தேவைகளைப் பூர்த்தி செய்வதையும், பரந்த அளவிலான வன்பொருள் உள்ளமைவுகளுக்கு அவற்றை அதிக அணுகக்கூடியதாக மாற்றுவதையும் நோக்கமாகக் கொண்டுள்ளது.
ஜெம்மா 3 ஐப் புரிந்துகொள்வது
ஜெம்மா 3 என்பது கூகிளால் உருவாக்கப்பட்ட இலகுரக, உயர் செயல்திறன் திறந்த எடை மாதிரிகளின் குடும்பமாகும். இது கூகிளின் ‘ஜெமினி 2.0’ மாதிரியின் அதே ஆராய்ச்சி மற்றும் தொழில்நுட்பத்தில் கட்டப்பட்டுள்ளது. ஜெம்மா 3, 1B, 4B, 12B மற்றும் 27B என நான்கு அளவுரு அளவுகளில் கிடைக்கிறது. இது NVIDIA H100 போன்ற உயர்தர GPU களில் சொந்த BFloat16 (BF16) துல்லியத்தில் இயங்கும் ஒரு முன்னணி மாதிரியாக தன்னை நிலைநிறுத்திக் கொண்டுள்ளது.
ஜெம்மா 3 இன் QAT மாதிரிகளின் ஒரு குறிப்பிடத்தக்க நன்மை என்னவென்றால், நினைவகத் தேவைகளை கணிசமாகக் குறைக்கும் அதே வேளையில் உயர் தரத்தை பராமரிக்க அவர்களின் திறன் ஆகும். ஜெம்மா 3 27B போன்ற உயர் செயல்திறன் மாதிரிகள் NVIDIA GeForce RTX 3090 போன்ற நுகர்வோர் தர GPU களில் உள்நாட்டில் இயக்க அனுமதிக்கிறது.
QAT மாதிரிகளுக்குப் பின்னால் உள்ள உந்துதல்
செயல்திறன் ஒப்பீடுகளில், BF16 பெரும்பாலும் பயன்படுத்தப்படுகிறது. இருப்பினும், பெரிய மாதிரிகளை வரிசைப்படுத்தும்போது, செயல்திறன் குறைபாடு ஏற்பட்டாலும் வன்பொருள் தேவைகளை (GPU களின் எண்ணிக்கை போன்றவை) குறைக்க FP8 (8-பிட்) போன்ற குறைந்த துல்லியமான வடிவங்கள்சில நேரங்களில் பயன்படுத்தப்படுகின்றன. ஏற்கனவே உள்ள வன்பொருளுடன் ஜெம்மா 3 ஐப் பயன்படுத்த அதிக தேவை உள்ளது.
இங்கே தான் குவாண்டமாக்கல் நடைமுறைக்கு வருகிறது. செயற்கை நுண்ணறிவு மாதிரிகளில், குவாண்டமாக்கல் என்பது மாதிரி பதில்களைச் சேமிக்கவும் கணக்கிடவும் பயன்படுத்தும் எண்களின் (மாடல் அளவுருக்கள்) துல்லியத்தைக் குறைக்கிறது. பயன்படுத்தப்படும் வண்ணங்களின் எண்ணிக்கையைக் குறைப்பதன் மூலம் ஒரு படத்தை சுருக்குவது போன்றது இது. 16-பிட் (BF16) இல் அளவுருக்களைக் குறிப்பதற்குப் பதிலாக, அவற்றை 8-பிட் (INT8) அல்லது 4-பிட் (INT4) போன்ற குறைவான பிட்களில் குறிப்பிட முடியும்.
இருப்பினும், குவாண்டமாக்கல் பெரும்பாலும் செயல்திறன் குறைவதற்கு வழிவகுக்கிறது. தரத்தை பராமரிக்க, கூகிள் QAT ஐப் பயன்படுத்துகிறது. மாதிரி முழுமையாகப் பயிற்றுவிக்கப்பட்ட பிறகு குவாண்டமாக்கல் செய்வதற்குப் பதிலாக, QAT குவாண்டமாக்கல் செயல்முறையை பயிற்சியில் ஒருங்கிணைக்கிறது. பயிற்சியின் போது குறைந்த துல்லியமான செயல்பாடுகளை உருவகப்படுத்துவதன் மூலம், QAT பயிற்சிக்குப் பிறகு செயல்திறன் குறைவதைக் குறைக்கிறது. இது சிறிய, வேகமான மாதிரிகளுக்கு வழிவகுக்கிறது, அதே நேரத்தில் துல்லியத்தையும் பராமரிக்கிறது.
கணிசமான VRAM சேமிப்பு
BF16 ஐப் பயன்படுத்துவதை விட INT4 குவாண்டமாக்கல் மாதிரி ஏற்றப்படுவதற்குத் தேவையான VRAM (GPU நினைவகம்) ஐக் கணிசமாகக் குறைக்கிறது என்று கூகிள் கூறுகிறது:
- ஜெம்மா 3 27B: 54GB (BF16) முதல் 14.1GB (INT4) வரை
- ஜெம்மா 3 12B: 24GB (BF16) முதல் 6.6GB (INT4) வரை
- ஜெம்மா 3 4B: 8GB (BF16) முதல் 2.6GB (INT4) வரை
- ஜெம்மா 3 1B: 2GB (BF16) முதல் 0.5GB (INT4) வரை
நினைவக தடயங்களில் இந்த குறைப்புகள் சக்திவாய்ந்த AI மாதிரிகளுக்கான அணுகலை ஜனநாயகப்படுத்துவதற்கு மிக முக்கியமானவை.
பல்வேறு சாதனங்களில் ஜெம்மா 3 மாடல்களை இயக்குதல்
கூகிளின் கூற்றுப்படி, QAT ஆனது ஜெம்மா 3 இன் சக்திவாய்ந்த மாதிரிகளை பரந்த அளவிலான நுகர்வோர் வன்பொருளில் இயக்க உதவுகிறது.
ஜெம்மா 3 27B (INT4 QAT): NVIDIA GeForce RTX 3090 (24GB VRAM) அல்லது அதற்கு இணையான கார்டுடன் டெஸ்க்டாப்பில் வசதியாக ஏற்றப்பட்டு உள்நாட்டில் இயக்க முடியும், இது பயனர்கள் மிகப்பெரிய ஜெம்மா 3 மாதிரியைப் பயன்படுத்த அனுமதிக்கிறது.
ஜெம்மா 3 12B (INT4 QAT): NVIDIA GeForce RTX 4060 லேப்டாப் GPU (8GB VRAM) போன்ற லேப்டாப் GPU களில் திறமையாக இயக்க முடியும், இது போர்ட்டபிள் இயந்திரங்களில் சக்திவாய்ந்த AI திறன்களை இயக்குகிறது.
சிறிய மாதிரிகள் (4B, 1B): ஸ்மார்ட்போன்கள் போன்ற வரையறுக்கப்பட்ட ஆதாரங்களைக் கொண்ட அமைப்புகளுக்கு அதிக அணுகல் கிடைத்துள்ளது.
வன்பொருள் இணக்கத்தன்மையின் இந்த விரிவாக்கம் ஜெம்மா 3 இன் சாத்தியமான பயன்பாடுகளை கணிசமாக விரிவுபடுத்துகிறது. இந்த மாதிரிகளை நுகர்வோர் தர வன்பொருளில் இயக்கக்கூடிய திறன் உள்ளூர் AI செயலாக்கத்திற்கான புதிய சாத்தியங்களைத் திறக்கிறது.
பிரபலமான கருவிகளுடன் எளிதாக ஒருங்கிணைத்தல்
டெவலப்பர்கள் இந்த புதிய QAT மாதிரிகளைப் பயன்படுத்த முடியும் என்பதை கூகிள் உறுதி செய்துள்ளது. ஜெம்மா 3 க்கான INT4 QAT மற்றும் Q4\_0 (4-பிட்) QAT மாதிரிகள் Hugging Face மற்றும் Kaggle இல் கிடைக்கின்றன. அவை போன்ற பிரபலமான டெவலப்பர் கருவிகளுடன் தடையின்றி சோதிக்கப்படலாம்:
Ollama: எளிய கட்டளைகளுடன் ஜெம்மா 3 QAT மாதிரிகளை இயக்க பயனர்களை அனுமதிக்கிறது. Ollama இந்த மாதிரிகளை வரிசைப்படுத்துதல் மற்றும் பரிசோதிக்கும் செயல்முறையை ஒழுங்குபடுத்துகிறது, இது டெவலப்பர்கள் தங்கள் திட்டங்களில் ஒருங்கிணைப்பதை எளிதாக்குகிறது.
LM Studio: பயனர்கள் தங்கள் டெஸ்க்டாப்புகளில் ஜெம்மா 3 QAT மாதிரிகளை எளிதாக பதிவிறக்கம் செய்து இயக்க அனுமதிக்கும் உள்ளுணர்வு மற்றும் பயன்படுத்த எளிதான GUI (கிராஃபிகல் யூசர் இடைமுகம்) வழங்குகிறது. LM Studio AI மாடல்களின் நிறுவல் மற்றும் நிர்வாகத்தை எளிதாக்குகிறது.
MLX: ஆப்பிள் சிலிகான் மூலம் இயங்கும் மேக்ஸில் ஜெம்மா 3 QAT மாடல்களின் உகந்த மற்றும் திறமையான அனுமானத்தை செயல்படுத்துகிறது. MLX AI பணிகளுக்கான மேம்பட்ட செயல்திறன் மற்றும் ஆற்றல் செயல்திறனை வழங்க ஆப்பிள் சிலிக்கானின் தனித்துவமான கட்டமைப்பைப் பயன்படுத்துகிறது.
Gemma.cpp: கூகிளின் பிரத்யேக சி++ செயலாக்கம். CPU இல் நேரடியாக மிகவும் திறமையான அனுமானத்திற்கு அனுமதிக்கிறது. AI பயன்பாடுகளின் செயல்திறனை நன்றாக மாற்ற விரும்பும் டெவலப்பர்களுக்கான குறைந்த-நிலை இடைமுகத்தை Gemma.cpp வழங்குகிறது.
llama.cpp: GGUF-வடிவ ஜெம்மா 3 QAT மாதிரிகளை நேட்டிவ் ஆக ஆதரிக்கிறது, இது ஏற்கனவே உள்ள பணிப்பாய்வுகளில் ஒருங்கிணைப்பதை எளிதாக்குகிறது. Llama.cpp என்பது CPU மற்றும் GPU உட்பட பல்வேறு வன்பொருள் தளங்களில் பெரிய மொழி மாதிரிகளை இயக்குவதற்கான பிரபலமான நூலகமாகும்.
இந்த தளங்களில் ஜெம்மா 3 QAT மாடல்களின் கிடைக்கும் தன்மை மற்றும் பிரபலமான கருவிகளுடன் அவற்றின் பொருந்தக்கூடிய தன்மை ஆகியவை இந்த மாதிரிகளை தங்கள் திட்டங்களில் பயன்படுத்த விரும்பும் டெவலப்பர்களுக்கான நுழைவுத் தடையைக் கணிசமாகக் குறைக்கிறது. ஒருங்கிணைப்பின் இந்த எளிதானது பரிசோதனையையும் புதுமையையும் ஊக்குவிக்கிறது.
குவாண்டம் பயிற்சிக்கு அடிப்படையான தொழில்நுட்பம்
ஜெம்மா 3 க்கான கூகிளின் QAT மாதிரிகளின் முக்கியத்துவத்தை முழுமையாகப் பாராட்ட, குவாண்டமாக்கலின் தொழில்நுட்ப விவரங்களையும் QAT எவ்வாறு தொடர்புடைய சவால்களை எதிர்கொள்கிறது என்பதையும் ஆராய்வது முக்கியம்.
குவாண்டமாக்கலைப் புரிந்துகொள்வது:
நரம்பியல் நெட்வொர்க்குகளின் அளவு மற்றும் கணக்கீட்டு சிக்கலைக் குறைக்கப் பயன்படுத்தப்படும் ஒரு நுட்பம் குவாண்டமாக்கல். மிதக்கும் புள்ளி எண்களுக்கு பதிலாக (எ.கா., 32-பிட் அல்லது 16-பிட்), குவாண்டமைஸ் செய்யப்பட்ட மாதிரிகள் இந்த மதிப்புகளைக் குறிக்க முழு எண்களைப் பயன்படுத்துகின்றன (எ.கா., 8-பிட் அல்லது 4-பிட்). துல்லியத்தில் இந்த குறைப்பு பல நன்மைகளுக்கு வழிவகுக்கிறது:
- குறைக்கப்பட்ட நினைவகத் தடம்: குறைந்த துல்லியமான பிரதிநிதித்துவங்களுக்கு மாதிரியைச் சேமிக்க குறைந்த நினைவகம் தேவைப்படுகிறது.
- வேகமான அனுமானம்: முழு எண் செயல்பாடுகள் மிதக்கும் புள்ளி செயல்பாடுகளை விட பொதுவாக வேகமானவை.
- குறைந்த மின் நுகர்வு: முழு எண் செயல்பாடுகள் மிதக்கும் புள்ளி செயல்பாடுகளை விட குறைவான சக்தியை உட்கொள்கின்றன.
குவாண்டமாக்கலின் சவால்கள்:
குவாண்டமாக்கல் குறிப்பிடத்தக்க நன்மைகளை வழங்கினாலும், இது சவால்களையும் அறிமுகப்படுத்துகிறது:
- துல்லியமான தரமிறக்கம்: எடைகள் மற்றும் செயல்பாடுகளின் துல்லியத்தைக் குறைப்பது துல்லிய இழப்புக்கு வழிவகுக்கும். தரவின் நுணுக்கங்களைப் பிடிக்க மாதிரி குறைவாகும்.
- அளவுத்திருத்த சிக்கல்கள்: முழு எண்களால் குறிப்பிடக்கூடிய மதிப்புகளின் வரம்பு வரையறுக்கப்பட்டுள்ளது.
குவாண்டம் பயிற்சி (QAT): ஒரு தீர்வு:
குவாண்டம் பயிற்சி (QAT) என்பது பயிற்சி செயல்பாட்டில் குவாண்டமாக்கலை இணைப்பதன் மூலம் துல்லியமான தரமிறக்கம் சிக்கலை எதிர்கொள்ளும் ஒரு நுட்பமாகும். QAT இல், மாதிரி உருவகப்படுத்தப்பட்ட குவாண்டமாக்கலுடன் பயிற்றுவிக்கப்படுகிறது. பயிற்சி முழுவதும் எடைகள் மற்றும் செயல்பாடுகள் குவாண்டமைஸ் செய்யப்படுகின்றன. இது குவாண்டமாக்கலின் விளைவுகளை ஈடுசெய்ய மாதிரி கற்றுக்கொள்ள அனுமதிக்கிறது.
QAT எப்படி வேலை செய்கிறது:
உருவகப்படுத்தப்பட்ட குவாண்டமாக்கல்: பயிற்சியின் போது, எடைகள் மற்றும் செயல்பாடுகள் விரும்பிய துல்லியத்திற்கு (எ.கா., 8-பிட் அல்லது 4-பிட்) குவாண்டமைஸ் செய்யப்படுகின்றன. இது அனுமானத்தின் போது பயன்படுத்தப்படும் குவாண்டமாக்கலை உருவகப்படுத்துகிறது.
கிரேடியன்ட் சரிசெய்தல்: குவாண்டமாக்கலின் விளைவுகளை கணக்கில் எடுத்துக்கொள்ள கிரேடியன்ட்களும் சரிசெய்யப்படுகின்றன. குவாண்டமாக்கலால் ஏற்படும் பிழையை எவ்வாறு குறைப்பது என்பதை அறிய இது மாதிரிக்கு உதவுகிறது.
சரிப்படுத்தும் பயிற்சி: உருவகப்படுத்தப்பட்ட குவாண்டமாக்கலுடன் பயிற்சிக்குப் பிறகு, குவாண்டமைஸ் செய்யப்பட்ட எடைகள் மற்றும் செயல்பாடுகளுடன் மாதிரி நன்றாக டியூன் செய்யப்படுகிறது. இது குவாண்டமைஸ் செய்யப்பட்ட மாதிரியின் துல்லியத்தை மேலும் மேம்படுத்துகிறது.
QAT இன் நன்மைகள்:
மேம்படுத்தப்பட்ட துல்லியம்: QAT, பயிற்சிக்குப் பிறகு குவாண்டமாக்கலை (PTQ) விட குவாண்டமைஸ் செய்யப்பட்ட மாதிரிகளின் துல்லியத்தை கணிசமாக மேம்படுத்துகிறது.
குவாண்டமாக்கலுக்கான வலிமை: QAT மாதிரி குவாண்டமாக்கலின் விளைவுகளுக்கு மிகவும் வலிமையாக்குகிறது.
வன்பொருள் இணக்கத்தன்மை: முழு எண் செயல்பாடுகளை ஆதரிக்கும் வன்பொருள் தளங்களில் மாதிரியை வரிசைப்படுத்த QAT அனுமதிக்கிறது.
ஜெம்மா 3 க்கான கூகிளின் QAT செயல்படுத்தல்:
ஜெம்மா 3 க்கான கூகிளின் QAT செயல்படுத்தல் உயர் துல்லியம் மற்றும் சுருக்க விகிதங்களை அடைய குவாண்டமாக்கல் நுட்பங்களில் சமீபத்திய முன்னேற்றங்களைப் பயன்படுத்துகிறது. அவர்களின் செயல்படுத்தலின் குறிப்பிட்ட விவரங்கள் பொதுவில் கிடைக்கவில்லை, ஆனால் அவர்கள் போன்ற நுட்பங்களைப் பயன்படுத்த வாய்ப்புள்ளது:
கலப்பு துல்லியமான குவாண்டமாக்கல்: துல்லியம் மற்றும் சுருக்கத்தை மேம்படுத்த மாதிரியின் வெவ்வேறு பகுதிகளுக்கு வெவ்வேறு துல்லிய நிலைகளைப் பயன்படுத்துதல்.
ஒரு டென்சார் குவாண்டமாக்கல்: குவாண்டமாக்கலால் ஏற்படும் பிழையை குறைக்க ஒவ்வொரு டென்சாரையும் சுயாதீனமாக குவாண்டமைஸ் செய்தல்.
கற்றுக் கொள்ளக்கூடிய குவாண்டமாக்கல் அளவுருக்கள்: துல்லியத்தை மேலும் மேம்படுத்த பயிற்சியின் போது குவாண்டமாக்கல் அளவுருக்களைக் கற்றல்.
QAT மற்றும் ஜெம்மா 3 இன் பரந்த தாக்கங்கள்
ஜெம்மா 3 க்கான QAT மாடல்களின் வெளியீடு அதிக அணுகக்கூடிய மற்றும் திறமையான AI மாடல்களின் வளர்ச்சியில் ஒரு குறிப்பிடத்தக்க படியாகும். இந்த மாதிரிகளின் நினைவகத் தடயத்தையும் கணக்கீட்டுத் தேவைகளையும் குறைப்பதன் மூலம், கூகிள் அவற்றின் திறன்களைப் பயன்படுத்த பரந்த அளவிலான டெவலப்பர்களையும் பயனர்களையும் செயல்படுத்துகிறது. இதற்கு பல முக்கியமான தாக்கங்கள் உள்ளன:
AI இன் ஜனநாயகமாக்கல்:
நுகர்வோர் தர வன்பொருளில் சக்திவாய்ந்த AI மாடல்களை இயக்கும் திறன் AI க்கான அணுகலை ஜனநாயகப்படுத்துகிறது, தனிநபர்கள் மற்றும் சிறிய வணிகங்கள் விலையுயர்ந்த கிளவுட் அடிப்படையிலான சேவைகளை நம்பாமல் AI மூலம் இயங்கும் பயன்பாடுகளை உருவாக்கவும் பயன்படுத்தவும் உதவுகிறது.
எட்ஜ் கம்ப்யூட்டிங்:
QAT மாதிரிகள் எட்ஜ் கம்ப்யூட்டிங் பயன்பாடுகளுக்கு ஏற்றவை. இது தாமதத்தைக் குறைக்கிறது, தனியுரிமையை மேம்படுத்துகிறது, தன்னாட்சி வாகனங்கள் மற்றும் ஸ்மார்ட் சென்சார்கள் போன்ற புதிய பயன்பாடுகளை செயல்படுத்துகிறது.
மொபைல் AI:
QAT மாதிரிகளின் குறைக்கப்பட்ட நினைவகத் தடம் அவற்றை மொபைல் சாதனங்களுக்கு ஏற்றதாக ஆக்குகிறது.
ஆராய்ச்சி மற்றும் மேம்பாடு:
ஜெம்மா 3 க்கான திறந்த மூல QAT மாடல்களின் கிடைக்கும் தன்மை AI துறையில் ஆராய்ச்சி மற்றும் மேம்பாட்டை துரிதப்படுத்தும்.
சுற்றுச்சூழல் நிலைத்தன்மை:
AI மாதிரிகளின் ஆற்றல் நுகர்வு குறைப்பதன் மூலம், QAT சுற்றுச்சூழல் நிலைத்தன்மைக்கு பங்களிக்கிறது.
முடிவில், ஜெம்மா 3 க்கான கூகிளின் QAT மாடல்களின் வெளியீடு ஒரு குறிப்பிடத்தக்க முன்னேற்றமாகும். AI மாடல்களை அதிக அணுகக்கூடியதாக, திறமையானதாகவும், நிலையானதாகவும் ஆக்குவதன் மூலம், கூகிள் சமூகத்தின் நலனுக்காக AI இன் முழு திறனையும் திறக்க உதவுகிறது. ஜெம்மா 3 இன் சக்திவாய்ந்த கட்டமைப்பு மற்றும் QAT இன் திறமையான குவாண்டமாக்கல் நுட்பங்களின் கலவையானது மொபைல் சாதனங்கள் முதல் எட்ஜ் கம்ப்யூட்டிங் மற்றும் அதற்கு அப்பால் பரவலான பயன்பாடுகளில் புதுமைகளை இயக்க உறுதியளிக்கிறது.