உற்பத்திக்கான LLMகளை அளவிடுதல்

LLM ஒருங்கிணைப்பிற்கான APIகளைப் பயன்படுத்துதல்

குறியீட்டுத் தளத்தில் LLMகளை ஒருங்கிணைக்கப் பல்வேறு முறைகள் உள்ளன, ஆனால் உற்பத்திப் பயன்பாடுகளுக்கு OpenAI-இணக்கமான APIஐப் பயன்படுத்துவது மிகவும் பரிந்துரைக்கப்படுகிறது. இந்த அணுகுமுறை, வேகமாக வளர்ந்து வரும் மாதிரி நிலப்பரப்புக்கு ஏற்ப மாறக்கூடிய நெகிழ்வுத்தன்மையை வழங்குகிறது. சில மாதங்களுக்கு முன்பு அதிநவீனமாகக் கருதப்பட்ட மாதிரிகள் விரைவாகப் பழமையானதாக மாறலாம்.

2022இல் ChatGPT உடன் தொடங்கிய AI ஏற்றம் காரணமாக, OpenAIஇன் API இடைமுகம், பயன்பாடுகளை LLMகளுடன் இணைப்பதற்கான உண்மையான தரநிலையாக உருவெடுத்துள்ளது. இந்தத் தரநிலை, டெவலப்பர்கள் கிடைக்கக்கூடிய ஆதாரங்களைப் பயன்படுத்தி பயன்பாடுகளை உருவாக்க அனுமதிக்கிறது, நோட்புக்கில் Llama.cppஇல் Mistral 7B உடன் தொடங்கி, உற்பத்திப் பயன்பாட்டிற்கு Mistral AIஇன் API சேவையகங்களுக்குச் தடையின்றி மாறலாம். இது ஒரு மாதிரி, அனுமான இயந்திரம் அல்லது API வழங்குநருக்குள் பூட்டப்படுவதைத் தடுக்கிறது.

கிளவுட் அடிப்படையிலான அனுமானச் சேவைகள், AI பயன்பாடுகளை அளவிடுவதற்கான மூலதனச் செலவு (capex) நட்பு வழியை வழங்குகின்றன. இந்தச் சேவைகள் வன்பொருள் மேலாண்மை மற்றும் மாதிரி உள்ளமைவின் தேவையை நீக்குகின்றன, அதற்குப் பதிலாக பயன்பாட்டு ஒருங்கிணைப்பிற்கான APIஐ வழங்குகின்றன.

முக்கிய மாதிரி உருவாக்குநர்களிடமிருந்து API வழங்கல்களுக்கு கூடுதலாக, அதிகரித்து வரும் AI உள்கட்டமைப்பு ஸ்டார்ட்அப்கள் திறந்த எடை மாதிரிகளுக்கான அனுமானம்-ஒரு-சேவையை வழங்குகின்றன. இந்த வழங்குநர்கள் தங்கள் அணுகுமுறைகளில் வேறுபடுகிறார்கள். SambaNova, Cerebras மற்றும் Groq போன்ற சில நிறுவனங்கள் அனுமானத்தை விரைவுபடுத்த சிறப்பு வன்பொருள் அல்லது ஊக டிகோடிங் போன்ற நுட்பங்களைப் பயன்படுத்துகின்றன, ஆனால் சிறிய மாதிரி தேர்வை வழங்குகின்றன. Fireworks AI போன்ற பிற நிறுவனங்கள் குறைந்த தரவரிசை தழுவல் (LoRA) அடாப்டர்களைப் பயன்படுத்தி தனிப்பயனாக்கப்பட்ட நன்றாகச் சரிசெய்யப்பட்ட மாதிரிகளின் பயன்பாட்டை ஆதரிக்கின்றன. AI சுற்றுச்சூழல் அமைப்பின் பன்முகத்தன்மை ஒரு குறிப்பிட்ட வழங்குநருக்கு உறுதியளிப்பதற்கு முன்பு முழுமையான ஆராய்ச்சி தேவைப்படுகிறது.

ஆன்-ப்ரீமிஸ் LLM பயன்பாட்டுக் கருத்தில் கொள்ளல்கள்

தனியுரிமை, ஒழுங்குமுறை அல்லது ஏற்கனவே உள்ள உள்கட்டமைப்பு கட்டுப்பாடுகள் (எடுத்துக்காட்டாக, ஒரு நிறுவனம் ஏற்கனவே GPU சேவையகங்களில் முதலீடு செய்துள்ளது) காரணமாக கிளவுட் அடிப்படையிலான அணுகுமுறைகள் சாத்தியமில்லாத சூழ்நிலைகளில், ஆன்-ப்ரீமிஸ் பயன்பாடு அவசியமாகிறது. இது பல சவால்களை முன்வைக்கலாம். எழும் சில பொதுவான கேள்விகள் பின்வருமாறு:

  • மாதிரித் தேர்வு: பொருத்தமான மாதிரி குறிப்பிட்ட பயன்பாட்டுக் கேஸைப் பொறுத்தது. வாடிக்கையாளர் சேவை சாட்பாட்டிற்காக வடிவமைக்கப்பட்ட ஒரு மாதிரி, மீட்டெடுப்பு-மேம்படுத்தப்பட்ட தலைமுறைக்கு அல்லது குறியீடு உதவியாளராகப் பயன்படுத்தப்படுவதை விட வேறு தேவைகளைக் கொண்டிருக்கும். தேவைகளைப் பூர்த்தி செய்யும் மாதிரியை அடையாளம் காண API வழங்குநர்களுடன் நேரத்தைச் செலவிட பரிந்துரைக்கப்படுகிறது.
  • வன்பொருள் தேவைகள்: தேவையான வன்பொருளைத் தீர்மானிப்பது முக்கியமானது, ஏனெனில் GPUகள் விலை உயர்ந்தவை மற்றும் பெறுவது கடினமாக இருக்கலாம். மாதிரியானது அதை இயக்கத் தேவையான வன்பொருள் பற்றிய நுண்ணறிவுகளை வழங்க முடியும். பெரிய மாதிரிகளுக்கு அதிக வன்பொருள் தேவைப்படுகிறது. குறைந்தபட்ச GPU நினைவகத்தின் தோராயமான மதிப்பீடு, 16-பிட் துல்லியத்தில் பயிற்சி பெற்ற மாதிரிகளுக்கு அளவுரு எண்ணிக்கையை (பில்லியன்களில்) 2GB ஆல் பெருக்குவதன் மூலம் கணக்கிட முடியும். 8-பிட் மாதிரிகளுக்கு, ஒரு பில்லியன் அளவுருக்களுக்கு 1GB தேவைப்படுகிறது. குவாண்டைசேஷன் போன்ற மாதிரி சுருக்க நுட்பங்கள் இதை ஒரு பில்லியன் அளவுருக்களுக்கு 512MB ஆக குறைக்கலாம். இது ஒரு குறைந்த வரம்பு. பல பயனர்களுக்கு ஒரே நேரத்தில் மாதிரியை வழங்க கூடுதல் நினைவகம் தேவைப்படுகிறது, ஏனெனில் முக்கிய-மதிப்பு தற்காலிக சேமிப்பு மாதிரியின் குறுகிய கால நினைவகமாக செயல்படுகிறது. Nvidiaஇன் ஆதரவு அணிவரிசை பல்வேறு மாதிரிகளை இயக்கத் தேவையான GPUகள் குறித்த வழிகாட்டுதலை வழங்குகிறது.
  • மிகைமை: மாதிரியை அளவிடுவதோடு மட்டுமல்லாமல், மிகைமையும் கருத்தில் கொள்ள வேண்டும். ஒரு ஒற்றை GPU முனை தோல்விக்கு ஆளாகிறது, எனவே தோல்வி மற்றும் சுமை சமநிலைக்கு இரண்டு அல்லது அதற்கு மேற்பட்ட அமைப்புகளைப் பயன்படுத்துவது முக்கியம்.
  • பயன்பாட்டு முறைகள்: LLMகளைப் பல்வேறு முறைகளைப் பயன்படுத்தி உருவாக்கலாம்: சுமை சமநிலையுடன் கூடிய வெற்று உலோகம், மெய்நிகர் இயந்திரங்கள் அல்லது டாக்கர் அல்லது Kubernetes இல் உள்ள கொள்கலன்கள். கொள்கலன் உருவாக்கம், நெட்வொர்க்கிங் மற்றும் சுமை சமநிலையை தானியக்கமாக்குவதன் மூலம் Kubernetes பெரிய அளவிலான பயன்பாடுகளை எளிதாக்குகிறது.

LLM பயன்பாட்டிற்கான Kubernetes

கொள்கலன் உருவாக்கம், நெட்வொர்க்கிங் மற்றும் சுமை சமநிலையை தானியக்கமாக்குவதன் மூலம் Kubernetes பெரிய அளவிலான பயன்பாடுகளுடன் தொடர்புடைய சிக்கலை நீக்குகிறது. பல நிறுவனங்கள் Kubernetesஐ ஏற்கனவே ஏற்றுக்கொண்டு புரிந்து கொண்டுள்ளன. Nvidia, Hugging Face மற்றும் பிற நிறுவனங்கள் பொதுவான பணிச்சுமைகள் மற்றும் பயன்பாடுகளுக்கு முன்பே உள்ளமைக்கப்பட்ட Nvidia அனுமான மைக்ரோ சர்வீசஸ் (NIMகள்) மற்றும் Hugging Face ஜெனரேட்டிவ் AI சேவைகள் (HUGS) ஆகியவற்றுடன் கொள்கலன் சூழல்களை விரும்புகின்றன.

அனுமான என்ஜின்கள்

Ollama மற்றும் Llama.cpp உட்பட மாதிரிகளை இயக்குவதற்கு பல்வேறு அனுமான என்ஜின்கள் உள்ளன, அவை பரந்த அளவிலான வன்பொருளுடன் இணக்கமாக உள்ளன. மாதிரிகளை அளவிடுவதற்கு, vLLM, TensorRT LLM, SGLang மற்றும் PyTorch போன்ற நூலகைகள் பெரும்பாலும் பயன்படுத்தப்படுகின்றன. இந்த வழிகாட்டி vLLMஐப் பயன்படுத்தி மாதிரிகளைப் பயன்படுத்துவதில் கவனம் செலுத்துகிறது, ஏனெனில் இது பிரபலமான மாதிரிகளின் பரந்த தேர்வை ஆதரிக்கிறது மற்றும் Nvidia, AMD மற்றும் பிற வன்பொருள்கள் முழுவதும் பரந்த ஆதரவையும் இணக்கத்தையும் வழங்குகிறது.

Kubernetes சூழலைத் தயாரித்தல்

GPUக்களுடன் வேலை செய்ய Kubernetes சூழலை அமைப்பதற்கு, ஒரு பொதுவான Kubernetes அமைப்போடு ஒப்பிடும்போது கூடுதல் இயக்கிகள் மற்றும் சார்புகள் தேவைப்படுகின்றன. AMD மற்றும் Nvidia வன்பொருளுக்கு அமைப்பு செயல்முறை மாறுபடும்.

இந்த வழிகாட்டி ஒற்றை-முனை உள்ளமைவில் K3Sஐப் பயன்படுத்துகிறது. அடிப்படை படிகள் பல-முனை சூழல்களுக்கு ஒத்தவை, ஆனால் ஒவ்வொரு GPU தொழிலாளர் முனையிலும் சார்புகள் பூர்த்தி செய்யப்பட வேண்டும், மேலும் சேமிப்பக உள்ளமைவுக்கு சரிசெய்தல் தேவைப்படலாம்.

உற்பத்திக்கு ஏற்ற வகையில் அனுமான பணிச்சுமைகளை உருவாக்க ஒரு திடமான அடித்தளத்தை வழங்குவதே குறிக்கோள். பின்வரும் முன்நிபந்தனைகள் தேவை:

  • குறைந்தது ஒரு ஆதரவு AMD அல்லது Nvidia GPU பலகையுடன் கூடிய ஒரு சேவையகம் அல்லது பணிநிலையம்
  • Ubuntu 24.04 LTSஇன் புதிய நிறுவல்

Nvidia சார்புகள்

Nvidia-துரிதப்படுத்தப்பட்ட K3S சூழலை அமைப்பதற்கு CUDA டிரைவர்கள் ஃபேப்ரிக் மேலாளர் மற்றும் ஹெட்லெஸ் சர்வர் டிரைவர்களை நிறுவ வேண்டும். டிரைவர் சிக்கல்களைக் கண்டறிய Nvidiaஇன் சர்வர் பயன்பாடுகளை நிறுவவும்.

LLMகளை உற்பத்திக்காக அளவிடுவது என்பது ஒரு சிக்கலான பணியாகும். தனிப்பட்ட கணினியில் LLMஐ இயக்குவதற்கும் அதை உற்பத்திச் சூழலில் இயக்குவதற்கும் நிறைய வேறுபாடுகள் உள்ளன. உற்பத்தியில், பல பயனர்களை ஒரே நேரத்தில் கையாள வேண்டும். இது எப்போதும் கிடைக்கும் தன்மையை உறுதி செய்வதுடன் GPU வள பயன்பாட்டை மேம்படுத்துகிறது. ஒரு தனிப்பட்ட கணினியில் 4 GB நினைவகத்துடன் திறமையாக இயங்கும் ஒரு மாதிரி பல ஒரே நேரக் கோரிக்கைகளைக் கையாள உற்பத்திச் சூழலில் பயன்படுத்தும்போது 40 GB அல்லது அதற்கு மேற்பட்ட GPU நினைவகத்தைக் கோரலாம்.

வலுவான பயன்பாட்டிற்கான சாத்தியமான தீர்வுகளை நாங்கள் பார்ப்போம். இது AI பணிச்சுமைகளை ஆரம்ப கட்ட முன்மாதிரி முதல் உற்பத்திச் சூழலுக்கு அளவிடுவதை நோக்கமாகக் கொண்டுள்ளது. இந்த வழிகாட்டி ஜெம்மா 3 அல்லது லாமா 3 போன்ற மாதிரிகளை அளவிடுவதில் உங்களுக்கு உதவும்.

நீங்கள் ஒரு மாதிரியைச் சரிசெய்ய விரும்பலாம். இந்த மாதிரி ஒரு வாடிக்கையாளர் சேவை சாட்பாட்டிற்கு வடிவமைக்கப்பட்ட மாதிரியாக இருந்தால் அது குறியீடு உதவியாளராகப் பயன்படுத்தப்படுவதை விட வேறு தேவைகளைக் கொண்டிருக்கும். பல்வேறு API வழங்குநர்களிடமிருந்து கிடைக்கும் மாடல்களைப் பயன்படுத்துவது உங்கள் தேவைக்கேற்ப எந்த மாதிரி மிகவும் பொருத்தமானது என்பதை அறிய உதவும்.

நீங்கள் ஒரு API இடைமுகத்தைப் பயன்படுத்த விரும்பலாம். OpenAIஇன் API இடைமுகம் இப்போது ஒரு முக்கியத் தரநிலையாக உள்ளது. இது டெவலப்பர்கள் கிடைக்கக்கூடிய ஆதாரங்களைப் பயன்படுத்தி பயன்பாடுகளை உருவாக்க அனுமதிக்கிறது. நீங்கள் Mistral 7B உடன் நோட்புக்கில் Llama.cpp இல் தொடங்கலாம். Mistral AIஇன் API சேவையகங்களுக்குச் சென்று உற்பத்திப் பயன்பாட்டிற்கு அதை உருவாக்கலாம்.

கிளவுட் அடிப்படையிலான அனுமானச் சேவைகள் AIஐ அளவிடுவதற்கான மூலதனச் செலவு குறைந்த வழியாகும். வன்பொருள் மேலாண்மை மற்றும் மாதிரி உள்ளமைவின் தேவை இல்லை. இவை பயன்பாட்டு ஒருங்கிணைப்பிற்கான APIஐ வழங்குகின்றன. நீங்கள் அதை வாங்காமல் பயன்படுத்துகிறீர்கள்.

சம்பனோவா, செரிப்ராஸ் மற்றும் கிரோக் போன்ற சில நிறுவனங்கள் ஊக டிகோடிங் போன்ற சில நுட்பங்களைப் பயன்படுத்துகின்றன. இவை அனைத்தும் அனுமானத்தை விரைவுபடுத்த உதவுகின்றன. ஃபயர் ஒர்க்ஸ் AI தனிப்பயனாக்கப்பட்ட நன்றாகச் சரிசெய்யப்பட்ட மாதிரிகளின் பயன்பாட்டை ஆதரிக்கிறது.

கிளவுட் அடிப்படையிலான அணுகுமுறைகள் சாத்தியமில்லாத சூழ்நிலைகளில் ஆன்-ப்ரீமிஸ் பயன்பாடு அவசியமாகிறது. நிறுவனங்கள் GPU சேவையகங்களில் முதலீடு செய்திருக்கலாம்.

தேவையான வன்பொருளைத் தீர்மானிப்பது மிகவும் முக்கியமானது. GPUகள் மிகவும் விலை உயர்ந்தவை. பெரிய மாதிரிகளுக்கு அதிக வன்பொருள் தேவை. குறைந்தபட்ச GPU நினைவகத்தின் தோராயமான மதிப்பீட்டை நாம் கணக்கிட முடியும். 16-பிட் துல்லியத்தில் பயிற்சி பெற்ற மாதிரிகளுக்கு அளவுரு எண்ணிக்கையை (பில்லியன்களில்) 2GB ஆல் பெருக்குவதன் மூலம் கணக்கிட முடியும். 8-பிட் மாதிரிகளுக்கு, ஒரு பில்லியன் அளவுருக்களுக்கு 1GB தேவைப்படுகிறது. குவாண்டைசேஷன் போன்ற மாதிரி சுருக்க நுட்பங்கள் இதை ஒரு பில்லியன் அளவுருக்களுக்கு 512MB ஆக குறைக்கலாம். Nvidiaஇன் ஆதரவு அணிவரிசை பல்வேறு மாதிரிகளை இயக்கத் தேவையான GPUகள் குறித்த வழிகாட்டுதலை வழங்குகிறது.

நீங்கள் சுமை சமநிலைக்கு இரண்டு அல்லது அதற்கு மேற்பட்ட அமைப்புகளைப் பயன்படுத்த வேண்டும். தோல்விக்கு ஆளாகும் ஒற்றை GPU முனையை நீங்கள் பயன்படுத்தக்கூடாது.

LLMகளைப் பல்வேறு முறைகளைப் பயன்படுத்தி உருவாக்கலாம். சுமை சமநிலையுடன் கூடிய வெற்று உலோகம், மெய்நிகர் இயந்திரங்கள் அல்லது டாக்கர் அல்லது Kubernetes இல் உள்ள கொள்கலன்கள்.

Kubernetes கொள்கலன் உருவாக்கம், நெட்வொர்க்கிங் மற்றும் சுமை சமநிலையை தானியக்கமாக்குவதன் மூலம் பெரிய அளவிலான பயன்பாடுகளை எளிதாக்குகிறது. பல நிறுவனங்கள் Kubernetesஐ ஏற்கனவே ஏற்றுக்கொண்டுள்ளன. Nvidia, Hugging Face மற்றும் பிற நிறுவனங்கள் Kubernetes உடன் கொள்கலன் சூழல்களை விரும்புகின்றன. Nvidia அனுமான மைக்ரோ சர்வீசஸ் (NIMகள்) மற்றும் Hugging Face ஜெனரேட்டிவ் AI சேவைகள் (HUGS) போன்ற தயாரிப்புகளைப் பயன்படுத்தவும்.

Ollama மற்றும் Llama.cpp உட்பட மாதிரிகளை இயக்குவதற்கு பல்வேறு அனுமான என்ஜின்கள் உள்ளன, அவை பரந்த அளவிலான வன்பொருளுடன் இணக்கமாக உள்ளன. மாதிரிகளை அளவிடுவதற்கு, vLLM, TensorRT LLM, SGLang மற்றும் PyTorch போன்ற நூலகைகள் பெரும்பாலும் பயன்படுத்தப்படுகின்றன. இந்த வழிகாட்டி vLLMஐப் பயன்படுத்தி மாதிரிகளைப் பயன்படுத்துவதில் கவனம் செலுத்துகிறது, ஏனெனில் இது பிரபலமான மாதிரிகளின் பரந்த தேர்வை ஆதரிக்கிறது மற்றும் Nvidia, AMD மற்றும் பிற வன்பொருள்கள் முழுவதும் பரந்த ஆதரவையும் இணக்கத்தையும் வழங்குகிறது.

GPUக்களுடன் வேலை செய்ய Kubernetes சூழலை அமைப்பதற்கு, ஒரு பொதுவான Kubernetes அமைப்போடு ஒப்பிடும்போது கூடுதல் இயக்கிகள் மற்றும் சார்புகள் தேவைப்படுகின்றன. AMD மற்றும் Nvidia வன்பொருளுக்கு அமைப்பு செயல்முறை மாறுபடும்.

இந்த வழிகாட்டி ஒற்றை-முனை உள்ளமைவில் K3Sஐப் பயன்படுத்துகிறது. அடிப்படை படிகள் பல-முனை சூழல்களுக்கு ஒத்தவை, ஆனால் ஒவ்வொரு GPU தொழிலாளர் முனையிலும் சார்புகள் பூர்த்தி செய்யப்பட வேண்டும், மேலும் சேமிப்பக உள்ளமைவுக்கு சரிசெய்தல் தேவைப்படலாம்.

உற்பத்திக்கு ஏற்ற வகையில் அனுமான பணிச்சுமைகளை உருவாக்க ஒரு திடமான அடித்தளத்தை வழங்குவதே குறிக்கோள்.

நீங்கள் Nvidia GPU ஐப் பயன்படுத்தினால், CUDA டிரைவர்கள் ஃபேப்ரிக் மேலாளர் மற்றும் ஹெட்லெஸ் சர்வர் டிரைவர்களை நிறுவ வேண்டும். டிரைவர் சிக்கல்களைக் கண்டறிய Nvidiaஇன் சர்வர் பயன்பாடுகளை நிறுவவும்.

சூழலை அமைப்பதற்கு முன் சில முன்நிபந்தனைகள் உள்ளன. உங்களுக்கு குறைந்தது ஒரு ஆதரவு AMD அல்லது Nvidia GPU பலகையுடன் கூடிய ஒரு சேவையகம் அல்லது பணிநிலையம் தேவை. உங்களுக்கு Ubuntu 24.04 LTSஇன் புதிய நிறுவலும் தேவை.

நீங்கள் ஒரு பெரிய மொழி மாதிரியை அளவிடும்போது ஒரு சிறந்த நடைமுறை உங்கள் சொந்த மாதிரிகளைப் பாதுகாப்பதாகும். உங்கள் சொந்த மாதிரிகளை நீங்கள் சரிசெய்ய வேண்டும்.

உற்பத்திச் சூழலில் உங்கள் சொந்த மாதிரியைப் பாதுகாப்பது மிகவும் முக்கியம். மாதிரிக்கு உரிமம் தேவையா என்பதை நீங்கள் சரிபார்க்க வேண்டும். வணிக பயன்பாடுகளுக்கு நீங்கள் ஒரு உரிமத்தை வைத்திருக்க வேண்டும்.

உயர் கிடைக்கும் மற்றும் தற்போதைய புதுப்பிப்புகள் மூலம் நிலையான பதிப்பைத் தேடுங்கள். மிகவும் புதிய பதிப்பு நிலையற்றதாக இருக்கலாம். புதிய புதுப்பிப்புகள் பாதுகாப்புச் சிக்கல்களைச் சரிசெய்யக்கூடும்.