ਪ੍ਰੋਡਕਸ਼ਨ ਲਈ LLMs ਨੂੰ ਸਕੇਲ ਕਰਨਾ: ਇੱਕ ਗਾਈਡ

LLM ਇੰਟੀਗ੍ਰੇਸ਼ਨ ਲਈ APIs ਦਾ ਲਾਭ ਉਠਾਉਣਾ

LLMs ਨੂੰ ਇੱਕ ਕੋਡਬੇਸ ਵਿੱਚ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ ਵੱਖ-ਵੱਖ ਤਰੀਕਿਆਂ ਨਾਲ ਪ੍ਰਾਪਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ, ਪਰ ਪ੍ਰੋਡਕਸ਼ਨ ਡਿਪਲੋਏਮੈਂਟਾਂ ਲਈ ਇੱਕ OpenAI- ਅਨੁਕੂਲ API ਵਰਤਣ ਦੀ ਬਹੁਤ ਸਿਫ਼ਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਪਹੁੰਚ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਸਤ ਹੋ ਰਹੇ ਮਾਡਲ ਲੈਂਡਸਕੇਪ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਲਈ ਲਚਕਤਾ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ। ਮਾਡਲ ਜਿਨ੍ਹਾਂ ਨੂੰ ਕੁਝ ਮਹੀਨੇ ਪਹਿਲਾਂ ਕਟਿੰਗ-ਐਜ ਮੰਨਿਆ ਜਾਂਦਾ ਸੀ, ਉਹ ਜਲਦੀ ਹੀ ਪੁਰਾਣੇ ਹੋ ਸਕਦੇ ਹਨ।

2022 ਵਿੱਚ ChatGPT ਨਾਲ ਸ਼ੁਰੂ ਹੋਏ AI ਬੂਮ ਤੋਂ ਬਾਅਦ, OpenAI ਦਾ API ਇੰਟਰਫੇਸ LLMs ਨਾਲ ਐਪਲੀਕੇਸ਼ਨਾਂ ਨੂੰ ਕਨੈਕਟ ਕਰਨ ਲਈ ਇੱਕ ਡੀ ਫੈਕਟੋ ਸਟੈਂਡਰਡ ਵਜੋਂ ਉੱਭਰਿਆ ਹੈ। ਇਹ ਸਟੈਂਡਰਡ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਉਪਲਬਧ ਸਰੋਤਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਐਪਲੀਕੇਸ਼ਨ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇੱਕ ਨੋਟਬੁੱਕ ‘ਤੇ Llama.cpp ਵਿੱਚ Mistral 7B ਨਾਲ ਸ਼ੁਰੂਆਤ ਕਰਨਾ ਅਤੇ ਪ੍ਰੋਡਕਸ਼ਨ ਡਿਪਲੋਏਮੈਂਟ ਲਈ Mistral AI ਦੇ API ਸਰਵਰਾਂ ਵਿੱਚ ਸਹਿਜੇ ਹੀ ਤਬਦੀਲ ਕਰਨਾ। ਇਹ ਇੱਕ ਸਿੰਗਲ ਮਾਡਲ, ਇਨਫਰੈਂਸ ਇੰਜਣ, ਜਾਂ API ਪ੍ਰਦਾਤਾ ਵਿੱਚ ਲਾਕ ਹੋਣ ਤੋਂ ਬਚਾਉਂਦਾ ਹੈ।

ਕਲਾਉਡ-ਅਧਾਰਤ ਇਨਫਰੈਂਸ ਸੇਵਾਵਾਂ AI ਡਿਪਲੋਏਮੈਂਟਾਂ ਨੂੰ ਸਕੇਲ ਕਰਨ ਦਾ ਇੱਕ ਪੂੰਜੀ ਖਰਚਾ (capex)-ਅਨੁਕੂਲ ਸਾਧਨ ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ। ਇਹ ਸੇਵਾਵਾਂ ਹਾਰਡਵੇਅਰ ਪ੍ਰਬੰਧਨ ਅਤੇ ਮਾਡਲ ਸੰਰਚਨਾ ਦੀ ਜ਼ਰੂਰਤ ਨੂੰ ਖਤਮ ਕਰਦੀਆਂ ਹਨ, ਇਸਦੀ ਬਜਾਏ ਐਪਲੀਕੇਸ਼ਨ ਇੰਟੀਗ੍ਰੇਸ਼ਨ ਲਈ ਇੱਕ API ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ।

ਮੁੱਖ ਮਾਡਲ ਬਿਲਡਰਾਂ ਤੋਂ API ਪੇਸ਼ਕਸ਼ਾਂ ਤੋਂ ਇਲਾਵਾ, AI ਬੁਨਿਆਦੀ ਢਾਂਚਾ ਸਟਾਰਟਅੱਪਾਂ ਦੀ ਵੱਧ ਰਹੀ ਗਿਣਤੀ ਓਪਨ-ਵੇਟ ਮਾਡਲਾਂ ਲਈ ਇਨਫਰੈਂਸ-ਐਜ਼-ਏ-ਸਰਵਿਸ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੀ ਹੈ। ਇਹ ਪ੍ਰਦਾਤਾ ਆਪਣੇ ਪਹੁੰਚ ਵਿੱਚ ਵੱਖਰੇ ਹਨ। ਕੁਝ, ਜਿਵੇਂ ਕਿ SambaNova, Cerebras, ਅਤੇ Groq, ਇਨਫਰੈਂਸ ਨੂੰ ਤੇਜ਼ ਕਰਨ ਲਈ ਵਿਸ਼ੇਸ਼ ਹਾਰਡਵੇਅਰ ਜਾਂ ਸਪੈਕੂਲੇਟਿਵ ਡੀਕੋਡਿੰਗ ਵਰਗੀਆਂ ਤਕਨੀਕਾਂ ਦਾ ਲਾਭ ਉਠਾਉਂਦੇ ਹਨ ਪਰ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਛੋਟੀ ਚੋਣ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦੇ ਹਨ। ਦੂਸਰੇ, ਜਿਵੇਂ ਕਿ Fireworks AI, ਲੋਅ ਰੈਂਕ ਅਡੈਪਟੇਸ਼ਨ (LoRA) ਅਡਾਪਟਰਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕਸਟਮ ਫਾਈਨ-ਟਿਊਨਡ ਮਾਡਲਾਂ ਦੀ ਤੈਨਾਤੀ ਦਾ ਸਮਰਥਨ ਕਰਦੇ ਹਨ। AI ਈਕੋਸਿਸਟਮ ਦੀ ਵਿਭਿੰਨਤਾ ਨੂੰ ਇੱਕ ਖਾਸ ਪ੍ਰਦਾਤਾ ਲਈ ਵਚਨਬੱਧ ਹੋਣ ਤੋਂ ਪਹਿਲਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਖੋਜ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਆਨ-ਪ੍ਰੀਮਿਸ LLM ਡਿਪਲੋਏਮੈਂਟ ਵਿਚਾਰ

ਉਹਨਾਂ ਸਥਿਤੀਆਂ ਵਿੱਚ ਜਿੱਥੇ ਕਲਾਉਡ-ਅਧਾਰਤ ਪਹੁੰਚ ਗੁਪਤਤਾ, ਰੈਗੂਲੇਟਰੀ, ਜਾਂ ਪਹਿਲਾਂ ਤੋਂ ਮੌਜੂਦ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਦੀਆਂ ਰੁਕਾਵਟਾਂ (ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਕੰਪਨੀ ਨੇ ਪਹਿਲਾਂ ਹੀ GPU ਸਰਵਰਾਂ ਵਿੱਚ ਨਿਵੇਸ਼ ਕੀਤਾ ਹੈ) ਦੇ ਕਾਰਨ ਸੰਭਵ ਨਹੀਂ ਹਨ, ਆਨ-ਪ੍ਰੀਮਿਸ ਡਿਪਲੋਏਮੈਂਟ ਜ਼ਰੂਰੀ ਹੋ ਜਾਂਦੀ ਹੈ। ਇਹ ਕਈ ਚੁਣੌਤੀਆਂ ਪੇਸ਼ ਕਰ ਸਕਦਾ ਹੈ। ਕੁਝ ਆਮ ਸਵਾਲ ਜੋ ਪੈਦਾ ਹੁੰਦੇ ਹਨ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:

  • ਮਾਡਲ ਚੋਣ: ਉਚਿਤ ਮਾਡਲ ਖਾਸ ਵਰਤੋਂ ਦੇ ਕੇਸ ‘ਤੇ ਨਿਰਭਰ ਕਰਦਾ ਹੈ। ਇੱਕ ਗਾਹਕ ਸੇਵਾ ਚੈਟਬੋਟ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਇੱਕ ਮਾਡਲ ਦੀਆਂ ਲੋੜਾਂ ਰੀਟ੍ਰੀਵਲ-ਔਗਮੈਂਟਡ ਜਨਰੇਸ਼ਨ ਜਾਂ ਕੋਡ ਸਹਾਇਕ ਵਜੋਂ ਵਰਤੇ ਜਾਣ ਵਾਲੇ ਮਾਡਲ ਨਾਲੋਂ ਵੱਖਰੀਆਂ ਹੋਣਗੀਆਂ। ਲੋੜਾਂ ਨੂੰ ਪੂਰਾ ਕਰਨ ਵਾਲੇ ਮਾਡਲ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ API ਪ੍ਰਦਾਤਾਵਾਂ ਨਾਲ ਸਮਾਂ ਬਿਤਾਉਣ ਦੀ ਸਿਫ਼ਾਰਸ਼ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।
  • ਹਾਰਡਵੇਅਰ ਲੋੜਾਂ: ਲੋੜੀਂਦੇ ਹਾਰਡਵੇਅਰ ਦਾ ਨਿਰਧਾਰਨ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਕਿਉਂਕਿ GPUs ਮਹਿੰਗੇ ਹੁੰਦੇ ਹਨ ਅਤੇ ਪ੍ਰਾਪਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਹੋ ਸਕਦਾ ਹੈ। ਮਾਡਲ ਖੁਦ ਇਸਨੂੰ ਚਲਾਉਣ ਲਈ ਲੋੜੀਂਦੇ ਹਾਰਡਵੇਅਰ ਵਿੱਚ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ। ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਵਧੇਰੇ ਹਾਰਡਵੇਅਰ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਘੱਟੋ-ਘੱਟ GPU ਮੈਮੋਰੀ ਦਾ ਇੱਕ ਮੋਟਾ ਅਨੁਮਾਨ 16-ਬਿੱਟ ਸ਼ੁੱਧਤਾ ‘ਤੇ ਸਿਖਲਾਈ ਪ੍ਰਾਪਤ ਮਾਡਲਾਂ ਲਈ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ (ਅਰਬਾਂ ਵਿੱਚ) ਨੂੰ 2GB ਨਾਲ ਗੁਣਾ ਕਰਕੇ ਗਿਣਿਆ ਜਾ ਸਕਦਾ ਹੈ। 8-ਬਿੱਟ ਮਾਡਲਾਂ ਲਈ, ਪ੍ਰਤੀ ਅਰਬ ਪੈਰਾਮੀਟਰਾਂ ਲਈ 1GB ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਮਾਡਲ ਕੰਪਰੈਸ਼ਨ ਤਕਨੀਕਾਂ ਜਿਵੇਂ ਕਿ ਕੁਆਂਟੀਕਰਨ ਇਸਨੂੰ ਪ੍ਰਤੀ ਅਰਬ ਪੈਰਾਮੀਟਰਾਂ ਵਿੱਚ 512MB ਤੱਕ ਘਟਾ ਸਕਦੀਆਂ ਹਨ। ਇਹ ਇੱਕ ਹੇਠਲੀ ਸੀਮਾ ਹੈ। ਮਾਡਲ ਦੀ ਥੋੜ੍ਹੇ ਸਮੇਂ ਦੀ ਮੈਮੋਰੀ ਵਜੋਂ ਕੰਮ ਕਰਨ ਵਾਲੇ ਕੁੰਜੀ-ਮੁੱਲ ਕੈਸ਼ ਦੇ ਕਾਰਨ, ਮਾਡਲ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਕਈ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸੇਵਾ ਦੇਣ ਲਈ ਵਾਧੂ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। Nvidia ਦਾ ਸਪੋਰਟ ਮੈਟ੍ਰਿਕਸ ਵੱਖ-ਵੱਖ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਲਈ ਲੋੜੀਂਦੇ GPUs ‘ਤੇ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।
  • ਰੀਡੰਡੈਂਸੀ: ਮਾਡਲ ਲਈ ਹਾਰਡਵੇਅਰ ਦੇ ਆਕਾਰ ਦੇ ਇਲਾਵਾ, ਰੀਡੰਡੈਂਸੀ ‘ਤੇ ਵਿਚਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ। ਇੱਕ ਸਿੰਗਲ GPU ਨੋਡ ਅਸਫਲਤਾ ਲਈ ਕਮਜ਼ੋਰ ਹੈ, ਇਸ ਲਈ ਫੇਲਓਵਰ ਅਤੇ ਲੋਡ ਬੈਲੇਂਸਿੰਗ ਲਈ ਦੋ ਜਾਂ ਵੱਧ ਸਿਸਟਮ ਤਾਇਨਾਤ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ।
  • ਡਿਪਲੋਏਮੈਂਟ ਦੇ ਢੰਗ: LLMs ਨੂੰ ਵੱਖ-ਵੱਖ ਢੰਗਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਉਤਪਾਦਨ ਵਿੱਚ ਤਾਇਨਾਤ ਅਤੇ ਸੇਵਾ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ: ਲੋਡ ਬੈਲੇਂਸਰਾਂ, ਵਰਚੁਅਲ ਮਸ਼ੀਨਾਂ, ਜਾਂ ਡੌਕਰ ਜਾਂ ਕੁਬਰਨੇਟਸ ਵਿੱਚ ਕੰਟੇਨਰਾਂ ਵਾਲੀ ਬੇਅਰ ਮੈਟਲ। ਕੁਬਰਨੇਟਸ ਕੰਟੇਨਰ ਬਣਾਉਣ, ਨੈੱਟਵਰਕਿੰਗ ਅਤੇ ਲੋਡ ਬੈਲੇਂਸਿੰਗ ਨੂੰ ਸਵੈਚਲਿਤ ਕਰਕੇ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਡਿਪਲੋਏਮੈਂਟਾਂ ਨੂੰ ਸਰਲ ਬਣਾਉਂਦਾ ਹੈ।

LLM ਡਿਪਲੋਏਮੈਂਟ ਲਈ ਕੁਬਰਨੇਟਸ

ਕੁਬਰਨੇਟਸ ਕੰਟੇਨਰ ਬਣਾਉਣ, ਨੈੱਟਵਰਕਿੰਗ ਅਤੇ ਲੋਡ ਬੈਲੇਂਸਿੰਗ ਨੂੰ ਸਵੈਚਲਿਤ ਕਰਕੇ ਵੱਡੇ ਪੈਮਾਨੇ ‘ਤੇ ਡਿਪਲੋਏਮੈਂਟਾਂ ਨਾਲ ਜੁੜੀ ਬਹੁਤ ਸਾਰੀ ਜਟਿਲਤਾ ਨੂੰ ਦੂਰ ਕਰਦਾ ਹੈ। ਬਹੁਤ ਸਾਰੇ ਉੱਦਮਾਂ ਨੇ ਪਹਿਲਾਂ ਹੀ ਕੁਬਰਨੇਟਸ ਨੂੰ ਅਪਣਾਇਆ ਅਤੇ ਸਮਝ ਲਿਆ ਹੈ। Nvidia, Hugging Face, ਅਤੇ ਹੋਰ ਆਮ ਵਰਕਲੋਡਸ ਅਤੇ ਡਿਪਲੋਏਮੈਂਟਾਂ ਲਈ ਪਹਿਲਾਂ ਤੋਂ ਕੌਂਫਿਗਰ ਕੀਤੇ Nvidia Inference Microservices (NIMs) ਅਤੇ Hugging Face Generative AI Services (HUGS) ਨਾਲ ਕੰਟੇਨਰਾਈਜ਼ਡ ਵਾਤਾਵਰਣਾਂ ਦਾ ਪੱਖ ਲੈਂਦੇ ਹਨ।

ਇਨਫਰੈਂਸ ਇੰਜਣ

ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਲਈ ਵੱਖ-ਵੱਖ ਇਨਫਰੈਂਸ ਇੰਜਣ ਉਪਲਬਧ ਹਨ, ਜਿਸ ਵਿੱਚ Ollama ਅਤੇ Llama.cpp ਸ਼ਾਮਲ ਹਨ, ਜੋ ਹਾਰਡਵੇਅਰ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਦੇ ਅਨੁਕੂਲ ਹਨ। ਸਕੇਲਿੰਗ ਮਾਡਲਾਂ ਲਈ, vLLM, TensorRT LLM, SGLang, ਅਤੇ PyTorch ਵਰਗੀਆਂ ਲਾਇਬ੍ਰੇਰੀਆਂ ਦੀ ਵਰਤੋਂ ਅਕਸਰ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। ਇਹ ਗਾਈਡ vLLM ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਮਾਡਲਾਂ ਨੂੰ ਤਾਇਨਾਤ ਕਰਨ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦੀ ਹੈ, ਕਿਉਂਕਿ ਇਹ ਪ੍ਰਸਿੱਧ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਚੋਣ ਦਾ ਸਮਰਥਨ ਕਰਦਾ ਹੈ ਅਤੇ Nvidia, AMD, ਅਤੇ ਹੋਰ ਹਾਰਡਵੇਅਰ ਵਿੱਚ ਵਿਆਪਕ ਸਮਰਥਨ ਅਤੇ ਅਨੁਕੂਲਤਾ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ।

ਕੁਬਰਨੇਟਸ ਵਾਤਾਵਰਣ ਤਿਆਰ ਕਰਨਾ

GPUs ਨਾਲ ਕੰਮ ਕਰਨ ਲਈ ਇੱਕ ਕੁਬਰਨੇਟਸ ਵਾਤਾਵਰਣ ਸਥਾਪਤ ਕਰਨ ਲਈ ਇੱਕ ਆਮ ਕੁਬਰਨੇਟਸ ਸੈੱਟਅੱਪ ਦੇ ਮੁਕਾਬਲੇ ਵਾਧੂ ਡਰਾਈਵਰਾਂ ਅਤੇ ਨਿਰਭਰਤਾਵਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਸੈੱਟਅੱਪ ਪ੍ਰਕਿਰਿਆ AMD ਅਤੇ Nvidia ਹਾਰਡਵੇਅਰ ਲਈ ਵੱਖਰੀ ਹੋਵੇਗੀ।

ਇਹ ਗਾਈਡ ਇੱਕ ਸਿੰਗਲ-ਨੋਡ ਸੰਰਚਨਾ ਵਿੱਚ K3S ਦੀ ਵਰਤੋਂ ਕਰਦੀ ਹੈ। ਬੁਨਿਆਦੀ ਕਦਮ ਮਲਟੀ-ਨੋਡ ਵਾਤਾਵਰਣਾਂ ਦੇ ਸਮਾਨ ਹਨ, ਪਰ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਹਰੇਕ GPU ਵਰਕਰ ਨੋਡ ‘ਤੇ ਪੂਰਾ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਅਤੇ ਸਟੋਰੇਜ ਸੰਰਚਨਾ ਲਈ ਵਿਵਸਥਾਵਾਂ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ।

ਟੀਚਾ ਉਤਪਾਦਨ-ਅਨੁਕੂਲ ਢੰਗ ਨਾਲ ਇਨਫਰੈਂਸ ਵਰਕਲੋਡਸ ਨੂੰ ਤਾਇਨਾਤ ਕਰਨ ਲਈ ਇੱਕ ਠੋਸ ਬੁਨਿਆਦ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ। ਹੇਠ ਲਿਖੀਆਂ ਪੂਰਵ-ਲੋੜਾਂ ਦੀ ਲੋੜ ਹੈ:

  • ਘੱਟੋ-ਘੱਟ ਇੱਕ ਸਮਰਥਿਤ AMD ਜਾਂ Nvidia GPU ਬੋਰਡ ਵਾਲਾ ਇੱਕ ਸਰਵਰ ਜਾਂ ਵਰਕਸਟੇਸ਼ਨ
  • Ubuntu 24.04 LTS ਦੀ ਇੱਕ ਨਵੀਂ ਸਥਾਪਨਾ

Nvidia ਨਿਰਭਰਤਾਵਾਂ

ਇੱਕ Nvidia-ਐਕਸਲੇਟਿਡ K3S ਵਾਤਾਵਰਣ ਸਥਾਪਤ ਕਰਨ ਲਈ CUDA ਡਰਾਈਵਰ ਫੈਬਰਿਕ ਮੈਨੇਜਰ ਅਤੇ ਹੈੱਡਲੈੱਸ ਸਰਵਰ ਡਰਾਈਵਰਾਂ ਨੂੰ ਸਥਾਪਤ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਡਰਾਈਵਰ ਮੁੱਦਿਆਂ ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਲਈ Nvidia ਦੀਆਂ ਸਰਵਰ ਉਪਯੋਗਤਾਵਾਂ ਸਥਾਪਤ ਕਰੋ।

ਇੱਕ Nvidia-ਐਕਸਲੇਟਿਡ K3S ਵਾਤਾਵਰਣ ਨੂੰ ਸਥਾਪਤ ਕਰਨ ਲਈ CUDA ਡਰਾਈਵਰਾਂ, ਫੈਬਰਿਕ ਮੈਨੇਜਰ ਅਤੇ ਹੈੱਡਲੈੱਸ ਸਰਵਰ ਡਰਾਈਵਰਾਂ ਨੂੰ ਸਥਾਪਤ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਡਰਾਈਵਰ ਮੁੱਦਿਆਂ ਨੂੰ ਡੀਬੱਗ ਕਰਨ ਲਈ Nvidia ਦੀਆਂ ਸਰਵਰ ਸਹੂਲਤਾਂ ਸਥਾਪਤ ਕਰੋ। ਤੁਸੀਂ ਇਸਨੂੰ ਹੇਠਾਂ ਦਿੱਤੇ ਕਮਾਂਡਾਂ ਨਾਲ ਕਰ ਸਕਦੇ ਹੋ: