ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਦੀ ਆਵਾਜ਼ ਉੱਚੀ ਹੁੰਦੀ ਜਾ ਰਹੀ ਹੈ, ਜੋ ਉਦਯੋਗਾਂ ਵਿੱਚ ਕੁਸ਼ਲਤਾ ਅਤੇ ਪਰਿਵਰਤਨ ਦਾ ਵਾਅਦਾ ਕਰਦੀ ਹੈ। ਇੱਕ ਖਾਸ ਤੌਰ ‘ਤੇ ਲੁਭਾਉਣ ਵਾਲੀ ਸੰਭਾਵਨਾ ਨਿੱਜੀ ਕੰਪਿਊਟਰਾਂ ‘ਤੇ ਸਿੱਧੇ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣਾ ਹੈ, ਜਿਸ ਨਾਲ ਕਲਾਉਡ ਨਿਰਭਰਤਾ, ਸਬਸਕ੍ਰਿਪਸ਼ਨ ਫੀਸਾਂ, ਅਤੇ ਡਾਟਾ ਗੋਪਨੀਯਤਾ ਦੀਆਂ ਚਿੰਤਾਵਾਂ ਨੂੰ ਬਾਈਪਾਸ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ। Google, Meta, ਅਤੇ Mistral AI ਵਰਗੀਆਂ ਵੱਡੀਆਂ ਕੰਪਨੀਆਂ ਨੇ ਗੁੰਝਲਦਾਰ Large Language Models (LLMs) ਨੂੰ ਡਾਊਨਲੋਡ ਕਰਨ ਲਈ ਮੁਫ਼ਤ ਵਿੱਚ ਉਪਲਬਧ ਕਰਵਾਇਆ ਹੈ। ਪਰ ਕੀ ਇਹ ਪਹੁੰਚਯੋਗਤਾ ਵਿਹਾਰਕ ਉਪਯੋਗਤਾ ਵਿੱਚ ਬਦਲਦੀ ਹੈ? ਕੀ ਇਹ ਡਿਜੀਟਲ ਦਿਮਾਗ, ਇੱਕ ਡੈਸਕਟਾਪ ਜਾਂ ਲੈਪਟਾਪ ਦੇ ਸਿਲੀਕਾਨ ਤੱਕ ਸੀਮਤ, ਪੱਤਰਕਾਰੀ ਲਿਖਤ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਕਾਰਜ-ਪ੍ਰਵਾਹਾਂ ਨੂੰ ਸੱਚਮੁੱਚ ਵਧਾ ਸਕਦੇ ਹਨ? ਇਹ ਬਿਰਤਾਂਤ ਇੱਕ ਵਿਆਪਕ ਪ੍ਰਯੋਗ ਦਾ ਵੇਰਵਾ ਦਿੰਦਾ ਹੈ ਜੋ ਇਸ ਸਵਾਲ ਦਾ ਜਵਾਬ ਦੇਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।
ਸਟੇਜ ਸੈੱਟ ਕਰਨਾ: ਸਥਾਨਕ AI ਪ੍ਰਯੋਗ
ਕਈ ਮਹੀਨਿਆਂ ਦੌਰਾਨ, ਸਥਾਨਕ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰਨ ਵਾਲੇ ਵੱਖ-ਵੱਖ ਮੁਫ਼ਤ ਡਾਊਨਲੋਡ ਕਰਨ ਯੋਗ LLMs ਦੀ ਅਸਲ-ਸੰਸਾਰ ਕਾਰਗੁਜ਼ਾਰੀ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਸਮਰਪਿਤ ਕੋਸ਼ਿਸ਼ ਕੀਤੀ ਗਈ। ਜਾਂਚ ਅਧੀਨ ਮਾਡਲਾਂ ਦੀ ਸੂਚੀ ਵਿਭਿੰਨ ਸੀ, ਜੋ ਓਪਨ-ਸੋਰਸ AI ਦੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਸਤ ਹੋ ਰਹੇ ਲੈਂਡਸਕੇਪ ਨੂੰ ਦਰਸਾਉਂਦੀ ਹੈ:
- Google Gemma (ਖਾਸ ਤੌਰ ‘ਤੇ ਸੰਸਕਰਣ 3)
- Meta Llama (ਸੰਸਕਰਣ 3.3)
- Anthropic Claude (ਸੰਸਕਰਣ 3.7 Sonnet – ਹਾਲਾਂਕਿ ਆਮ ਤੌਰ ‘ਤੇ ਕਲਾਉਡ-ਅਧਾਰਤ, ਇਸਦੀ ਸ਼ਮੂਲੀਅਤ ਵਿਆਪਕ ਟੈਸਟਿੰਗ ਦਾ ਸੁਝਾਅ ਦਿੰਦੀ ਹੈ)
- Mistral AI ਤੋਂ ਕਈ ਦੁਹਰਾਓ (Mistral, Mistral Small 3.1, Mistral Nemo, ਅਤੇ Mixtral ਸਮੇਤ)
- IBM Granite (ਸੰਸਕਰਣ 3.2)
- Alibaba Qwen (ਸੰਸਕਰਣ 2.5)
- DeepSeek R1 (ਇੱਕ ਤਰਕ ਪਰਤ ਜੋ ਅਕਸਰ Qwen ਜਾਂ Llama ਦੇ ਡਿਸਟਿਲਡ ਸੰਸਕਰਣਾਂ ‘ਤੇ ਲਾਗੂ ਹੁੰਦੀ ਹੈ)
ਮੁੱਖ ਉਦੇਸ਼ ਉਤਸ਼ਾਹੀ ਪਰ ਵਿਹਾਰਕ ਸੀ: ਇਹ ਨਿਰਧਾਰਤ ਕਰਨਾ ਕਿ ਕੀ ਇਹ ਸਥਾਨਕ ਤੌਰ ‘ਤੇ ਚੱਲਣ ਵਾਲੇ AIs ਕੱਚੇ ਇੰਟਰਵਿਊ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟਾਂ ਨੂੰ ਪਾਲਿਸ਼ਡ, ਪ੍ਰਕਾਸ਼ਿਤ ਕਰਨ ਯੋਗ ਲੇਖਾਂ ਵਿੱਚ ਬਦਲ ਸਕਦੇ ਹਨ। ਇਸ ਵਿੱਚ ਸਿਰਫ਼ ਤਕਨੀਕੀ ਸੰਭਾਵਨਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਸ਼ਾਮਲ ਨਹੀਂ ਸੀ - ਕੀ ਹਾਰਡਵੇਅਰ ਲੋਡ ਨੂੰ ਸੰਭਾਲ ਸਕਦਾ ਹੈ? - ਬਲਕਿ ਗੁਣਾਤਮਕ ਆਉਟਪੁੱਟ ਵੀ - ਕੀ ਨਤੀਜਾ ਪਾਠ ਵਰਤੋਂ ਯੋਗ ਸੀ? ਇਹ ਸ਼ੁਰੂ ਵਿੱਚ ਦੱਸਣਾ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਇੱਕ ਪੂਰੀ ਤਰ੍ਹਾਂ ਸਵੈਚਾਲਤ, ਪ੍ਰਕਾਸ਼ਨ-ਲਈ-ਤਿਆਰ ਲੇਖ ਪ੍ਰਾਪਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਸਾਬਤ ਹੋਇਆ। ਮੁੱਖ ਟੀਚਾ ਇਸ ਖਾਸ, ਮੰਗ ਵਾਲੇ ਵਰਤੋਂ ਦੇ ਕੇਸ ਦੁਆਰਾ ਮੌਜੂਦਾ ਔਨ-ਡਿਵਾਈਸ AI ਦੀਆਂ ਅਸਲ ਸਮਰੱਥਾਵਾਂ ਅਤੇ ਸੀਮਾਵਾਂ ਨੂੰ ਸਮਝਣ ਵੱਲ ਤਬਦੀਲ ਹੋ ਗਿਆ।
ਚੁਣੀ ਗਈ ਵਿਧੀ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰੋਂਪਟ ਦੇ ਆਲੇ-ਦੁਆਲੇ ਕੇਂਦਰਿਤ ਸੀ। ਇਸ ਵਿੱਚ ਲਗਭਗ 1,500 ਟੋਕਨ (ਲਗਭਗ 6,000 ਅੱਖਰ ਜਾਂ ਟੈਕਸਟ ਦੇ ਦੋ ਪੂਰੇ ਪੰਨੇ) ਸ਼ਾਮਲ ਸਨ ਜੋ ਲੋੜੀਂਦੇ ਲੇਖ ਦੀ ਬਣਤਰ, ਸ਼ੈਲੀ ਅਤੇ ਟੋਨ ਨੂੰ ਸਾਵਧਾਨੀ ਨਾਲ ਦਰਸਾਉਂਦੇ ਸਨ। ਇਸ ਹਦਾਇਤ ਸੈੱਟ ਵਿੱਚ ਇੰਟਰਵਿਊ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਖੁਦ ਸ਼ਾਮਲ ਕੀਤੀ ਗਈ ਸੀ, ਜੋ ਇੱਕ ਆਮ 45-ਮਿੰਟ ਦੀ ਗੱਲਬਾਤ ਲਈ ਔਸਤਨ 11,000 ਟੋਕਨ ਸੀ। ਇਸ ਸੰਯੁਕਤ ਇਨਪੁਟ ਦਾ ਵੱਡਾ ਆਕਾਰ (ਅਕਸਰ 12,500 ਟੋਕਨਾਂ ਤੋਂ ਵੱਧ) ਆਮ ਤੌਰ ‘ਤੇ ਕਈ ਔਨਲਾਈਨ AI ਪਲੇਟਫਾਰਮਾਂ ਦੀਆਂ ਮੁਫ਼ਤ ਵਰਤੋਂ ਸੀਮਾਵਾਂ ਨੂੰ ਪਾਰ ਕਰ ਜਾਂਦਾ ਹੈ। ਇਸ ਰੁਕਾਵਟ ਨੇ ਸਥਾਨਕ ਤੈਨਾਤੀ ਦੀ ਪੜਚੋਲ ਕਰਨ ਦੇ ਤਰਕ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕੀਤਾ, ਜਿੱਥੇ ਪ੍ਰੋਸੈਸਿੰਗ ਇਨਪੁਟ ਆਕਾਰ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ ਮੁਫ਼ਤ ਰਹਿੰਦੀ ਹੈ, ਸਿਰਫ਼ ਮਸ਼ੀਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੁਆਰਾ ਸੀਮਿਤ।
ਇਹਨਾਂ ਟੈਸਟਾਂ ਨੂੰ ਚਲਾਉਣ ਵਿੱਚ LM Studio ਦੀ ਵਰਤੋਂ ਸ਼ਾਮਲ ਸੀ, ਇੱਕ ਪ੍ਰਸਿੱਧ ਕਮਿਊਨਿਟੀ ਸੌਫਟਵੇਅਰ ਜੋ ਸਥਾਨਕ ਤੌਰ ‘ਤੇ ਚੱਲ ਰਹੇ LLMs ਨਾਲ ਗੱਲਬਾਤ ਕਰਨ ਲਈ ਇੱਕ ਉਪਭੋਗਤਾ-ਅਨੁਕੂਲ ਚੈਟਬੋਟ-ਵਰਗੇ ਇੰਟਰਫੇਸ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। LM Studio ਵੱਖ-ਵੱਖ ਮਾਡਲ ਸੰਸਕਰਣਾਂ ਨੂੰ ਡਾਊਨਲੋਡ ਕਰਨ ਲਈ ਸੁਵਿਧਾਜਨਕ ਤੌਰ ‘ਤੇ ਫੰਕਸ਼ਨਾਂ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਦਾ ਹੈ, ਹਾਲਾਂਕਿ ਇਹਨਾਂ ਮੁਫ਼ਤ ਉਪਲਬਧ ਮਾਡਲਾਂ ਦਾ ਮੁੱਖ ਸਰੋਤ Hugging Face ਰਿਪੋਜ਼ਟਰੀ ਬਣਿਆ ਹੋਇਆ ਹੈ, ਜੋ AI ਕਮਿਊਨਿਟੀ ਲਈ ਇੱਕ ਕੇਂਦਰੀ ਹੱਬ ਹੈ।
ਤਕਨੀਕੀ ਭੁੱਲ-ਭੁਲੱਈਆ ਵਿੱਚ ਨੈਵੀਗੇਟ ਕਰਨਾ: ਹਾਰਡਵੇਅਰ, ਮੈਮੋਰੀ, ਅਤੇ ਮਾਡਲ ਆਕਾਰ
ਸਥਾਨਕ AI ਪ੍ਰੋਸੈਸਿੰਗ ਦੀ ਯਾਤਰਾ ਨੇ ਜਲਦੀ ਹੀ ਸੌਫਟਵੇਅਰ ਅਤੇ ਹਾਰਡਵੇਅਰ ਵਿਚਕਾਰ ਇੱਕ ਗੁੰਝਲਦਾਰ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦਾ ਖੁਲਾਸਾ ਕੀਤਾ। AI ਦੇ ਆਉਟਪੁੱਟ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਗਤੀ ਟੈਸਟ ਮਸ਼ੀਨ ‘ਤੇ ਉਪਲਬਧ ਸਰੋਤਾਂ ਨਾਲ ਨੇੜਿਓਂ ਜੁੜੀ ਹੋਈ ਸੀ - ਇੱਕ Mac ਜੋ Apple Silicon M1 Max ਸਿਸਟਮ-ਆਨ-ਚਿੱਪ (SoC) ਅਤੇ ਇੱਕ ਉਦਾਰ 64 GB RAM ਨਾਲ ਲੈਸ ਸੀ। ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਇਸ ਆਰਕੀਟੈਕਚਰ ਵਿੱਚ Unified Memory Architecture (UMA) ਸ਼ਾਮਲ ਹੈ, ਜੋ 48 GB RAM ਨੂੰ ਪ੍ਰੋਸੈਸਰ ਕੋਰ (CPU), ਗ੍ਰਾਫਿਕਸ ਕੋਰ (GPU - ਵੈਕਟਰ ਐਕਸਲਰੇਸ਼ਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ), ਅਤੇ ਨਿਊਰਲ ਪ੍ਰੋਸੈਸਿੰਗ ਯੂਨਿਟ ਕੋਰ (NPU - ਮੈਟ੍ਰਿਕਸ ਐਕਸਲਰੇਸ਼ਨ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ) ਵਿਚਕਾਰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਸਾਂਝਾ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
ਕਈ ਮੁੱਖ ਤਕਨੀਕੀ ਕਾਰਕ ਨਿਰਣਾਇਕ ਵਜੋਂ ਉੱਭਰੇ:
- ਮਾਡਲ ਪੈਰਾਮੀਟਰ: LLMs ਨੂੰ ਅਕਸਰ ਉਹਨਾਂ ਦੇ ਪੈਰਾਮੀਟਰਾਂ ਦੀ ਸੰਖਿਆ (ਅਰਬਾਂ, ਆਮ ਤੌਰ ‘ਤੇ) ਦੁਆਰਾ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। ਵੱਡੇ ਮਾਡਲਾਂ ਵਿੱਚ ਆਮ ਤੌਰ ‘ਤੇ ਵਧੇਰੇ ਗਿਆਨ ਅਤੇ ਸੂਖਮਤਾ ਹੁੰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਉਹਨਾਂ ਨੂੰ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
- Quantization: ਇਹ ਮਾਡਲ ਦੇ ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ ਸਟੋਰ ਕਰਨ ਲਈ ਵਰਤੀ ਜਾਂਦੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ (ਉਦਾਹਰਨ ਲਈ, 8-ਬਿੱਟ, 4-ਬਿੱਟ, 3-ਬਿੱਟ)। ਘੱਟ ਬਿੱਟ ਸ਼ੁੱਧਤਾ ਮੈਮੋਰੀ ਫੁੱਟਪ੍ਰਿੰਟ ਨੂੰ ਬਹੁਤ ਘਟਾਉਂਦੀ ਹੈ ਅਤੇ ਪ੍ਰੋਸੈਸਿੰਗ ਸਪੀਡ ਵਧਾਉਂਦੀ ਹੈ, ਪਰ ਅਕਸਰ ਸ਼ੁੱਧਤਾ ਅਤੇ ਆਉਟਪੁੱਟ ਗੁਣਵੱਤਾ ਦੀ ਕੀਮਤ ‘ਤੇ (ਗਲਤੀਆਂ, ਦੁਹਰਾਓ, ਜਾਂ ਬੇਤੁਕੀ ਭਾਸ਼ਾ ਪੇਸ਼ ਕਰਨਾ)।
- Context Window: ਇਹ ਜਾਣਕਾਰੀ ਦੀ ਵੱਧ ਤੋਂ ਵੱਧ ਮਾਤਰਾ (ਪ੍ਰੋਂਪਟ + ਇਨਪੁਟ ਡੇਟਾ) ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦਾ ਹੈ ਜਿਸ ‘ਤੇ AI ਇੱਕ ਵਾਰ ਵਿੱਚ ਵਿਚਾਰ ਕਰ ਸਕਦਾ ਹੈ, ਟੋਕਨਾਂ ਵਿੱਚ ਮਾਪਿਆ ਜਾਂਦਾ ਹੈ। ਲੋੜੀਂਦਾ ਵਿੰਡੋ ਆਕਾਰ ਕਾਰਜ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ; ਇਸ ਸਥਿਤੀ ਵਿੱਚ, ਵੱਡੇ ਪ੍ਰੋਂਪਟ ਅਤੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿੰਡੋ ਦੀ ਲੋੜ ਸੀ।
- ਉਪਲਬਧ RAM: ਮੈਮੋਰੀ ਦੀ ਮਾਤਰਾ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਸੀਮਿਤ ਕਰਦੀ ਹੈ ਕਿ ਕਿਹੜੇ ਮਾਡਲ (ਅਤੇ ਕਿਸ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਪੱਧਰ ‘ਤੇ) ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਲੋਡ ਅਤੇ ਚਲਾਏ ਜਾ ਸਕਦੇ ਹਨ।
ਮੁਲਾਂਕਣ ਦੇ ਸਮੇਂ ਟੈਸਟ ਮਸ਼ੀਨ ‘ਤੇ ਗੁਣਵੱਤਾ ਅਤੇ ਸੰਭਾਵਨਾ ਦਾ ਸਭ ਤੋਂ ਵਧੀਆ ਸੰਤੁਲਨ ਪ੍ਰਦਾਨ ਕਰਨ ਵਾਲਾ ਸਵੀਟ ਸਪਾਟ, Google ਦੇ Gemma ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਕਰਕੇ 27 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਨਾਲ, 8 ਬਿੱਟਾਂ (ਸੰਸਕਰਣ ‘27B Q8_0’) ਤੱਕ ਕੁਆਂਟਾਈਜ਼ਡ ਕਰਕੇ ਪ੍ਰਾਪਤ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਹ ਸੰਰਚਨਾ 32,000-ਟੋਕਨ ਸੰਦਰਭ ਵਿੰਡੋ ਦੇ ਅੰਦਰ ਕੰਮ ਕਰਦੀ ਹੈ, ਲਗਭਗ 15,000-ਟੋਕਨ ਇਨਪੁਟ (ਹਦਾਇਤਾਂ + ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ) ਨੂੰ ਆਰਾਮ ਨਾਲ ਸੰਭਾਲਦੀ ਹੈ। ਇਹ ਨਿਰਧਾਰਤ Mac ਹਾਰਡਵੇਅਰ ‘ਤੇ ਚੱਲਿਆ, 48 GB ਸਾਂਝੀ ਮੈਮੋਰੀ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ।
ਇਹਨਾਂ ਅਨੁਕੂਲ ਸਥਿਤੀਆਂ ਦੇ ਤਹਿਤ, ਪ੍ਰੋਸੈਸਿੰਗ ਸਪੀਡ 6.82 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ਮਾਪੀ ਗਈ ਸੀ। ਕਾਰਜਸ਼ੀਲ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਤਤਕਾਲ ਤੋਂ ਬਹੁਤ ਦੂਰ ਹੈ। ਆਉਟਪੁੱਟ ਗੁਣਵੱਤਾ ਦੀ ਕੁਰਬਾਨੀ ਕੀਤੇ ਬਿਨਾਂ ਗਤੀ ਸੁਧਾਰ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਤੇਜ਼ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ - ਖਾਸ ਤੌਰ ‘ਤੇ, ਉੱਚ ਕਲਾਕ ਸਪੀਡ (GHz) ਜਾਂ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਪ੍ਰੋਸੈਸਿੰਗ ਕੋਰ (CPU, GPU, NPU) ਵਾਲੇ SoCs।
ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਪੈਰਾਮੀਟਰਾਂ (ਉਦਾਹਰਨ ਲਈ, 32 ਬਿਲੀਅਨ, 70 ਬਿਲੀਅਨ) ਵਾਲੇ ਮਾਡਲਾਂ ਨੂੰ ਲੋਡ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਨ ਨਾਲ ਜਲਦੀ ਹੀ ਮੈਮੋਰੀ ਸੀਮਾ ਤੱਕ ਪਹੁੰਚ ਗਈ। ਇਹ ਵੱਡੇ ਮਾਡਲ ਜਾਂ ਤਾਂ ਪੂਰੀ ਤਰ੍ਹਾਂ ਲੋਡ ਹੋਣ ਵਿੱਚ ਅਸਫਲ ਰਹੇ ਜਾਂ ਗੰਭੀਰ ਰੂਪ ਵਿੱਚ ਕੱਟੇ ਹੋਏ, ਬੇਕਾਰ ਆਉਟਪੁੱਟ (ਜਿਵੇਂ ਕਿ ਪੂਰੇ ਲੇਖ ਦੀ ਬਜਾਏ ਇੱਕ ਸਿੰਗਲ ਪੈਰਾਗ੍ਰਾਫ) ਪੈਦਾ ਕੀਤੇ। ਇਸਦੇ ਉਲਟ, ਘੱਟ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲੇ ਮਾਡਲਾਂ ਦੀ ਵਰਤੋਂ ਕਰਦੇ ਹੋਏ, ਮੈਮੋਰੀ ਖਾਲੀ ਕਰਦੇ ਹੋਏ, ਲਿਖਣ ਦੀ ਗੁਣਵੱਤਾ ਵਿੱਚ ਇੱਕ ਧਿਆਨ ਦੇਣ ਯੋਗ ਗਿਰਾਵਟ ਆਈ, ਜਿਸਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਦੁਹਰਾਓ ਅਤੇ ਮਾੜੇ ਢੰਗ ਨਾਲ ਬਿਆਨ ਕੀਤੇ ਵਿਚਾਰ ਸਨ। ਇਸੇ ਤਰ੍ਹਾਂ, ਵਧੇਰੇ ਹਮਲਾਵਰ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ (ਪੈਰਾਮੀਟਰਾਂ ਨੂੰ 3, 4, 5, ਜਾਂ 6 ਬਿੱਟਾਂ ਤੱਕ ਘਟਾਉਣਾ) ਨੇ ਗਤੀ ਵਧਾਈ ਪਰ ਆਉਟਪੁੱਟ ਨੂੰ ਗੰਭੀਰ ਰੂਪ ਵਿੱਚ ਘਟਾ ਦਿੱਤਾ, ਵਿਆਕਰਨਿਕ ਗਲਤੀਆਂ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਮਨਘੜਤ ਸ਼ਬਦਾਂ ਨੂੰ ਵੀ ਪੇਸ਼ ਕੀਤਾ।
ਲੋੜੀਂਦੇ ਸੰਦਰਭ ਵਿੰਡੋ ਦਾ ਆਕਾਰ, ਇਨਪੁਟ ਡੇਟਾ ਦੁਆਰਾ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ, ਕਾਰਜ ਲਈ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਗੈਰ-ਸਮਝੌਤਾਯੋਗ ਹੈ। ਜੇਕਰ ਇਨਪੁਟ ਡੇਟਾ ਇੱਕ ਵਿੰਡੋ ਦੀ ਮੰਗ ਕਰਦਾ ਹੈ ਜੋ, ਚੁਣੇ ਹੋਏ ਮਾਡਲ ਆਕਾਰ ਅਤੇ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਦੇ ਨਾਲ ਮਿਲ ਕੇ, ਉਪਲਬਧ RAM ਤੋਂ ਵੱਧ ਜਾਂਦਾ ਹੈ, ਤਾਂ ਇੱਕੋ ਇੱਕ ਉਪਾਅ ਇੱਕ ਛੋਟਾ ਮਾਡਲ ਚੁਣਨਾ ਹੈ, ਲਾਜ਼ਮੀ ਤੌਰ ‘ਤੇ ਮੈਮੋਰੀ ਸੀਮਾਵਾਂ ਦੇ ਅੰਦਰ ਰਹਿਣ ਲਈ ਅੰਤਿਮ ਨਤੀਜੇ ਦੀ ਸੰਭਾਵੀ ਗੁਣਵੱਤਾ ਨਾਲ ਸਮਝੌਤਾ ਕਰਨਾ।
ਗੁਣਵੱਤਾ ਦੀ ਖੋਜ: ਜਦੋਂ ਬਣਤਰ ਪਦਾਰਥ ਨਾਲ ਮਿਲਦੀ ਹੈ (ਜਾਂ ਇਸਦੀ ਘਾਟ)
ਕੀ ਸਥਾਨਕ ਤੌਰ ‘ਤੇ ਚੱਲਣ ਵਾਲਾ AI ਵਰਤੋਂ ਯੋਗ ਲੇਖ ਤਿਆਰ ਕਰਨ ਵਿੱਚ ਸਫਲ ਰਿਹਾ? ਹਾਂ ਅਤੇ ਨਾਂਹ। ਤਿਆਰ ਕੀਤੇ ਗਏ ਟੈਕਸਟ ਅਕਸਰ ਹੈਰਾਨੀਜਨਕ ਤੌਰ ‘ਤੇ ਚੰਗੀ ਬਣਤਰ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ। ਉਹ ਆਮ ਤੌਰ ‘ਤੇ ਬੇਨਤੀ ਕੀਤੇ ਫਾਰਮੈਟ ਦੀ ਪਾਲਣਾ ਕਰਦੇ ਸਨ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
- ਇੱਕ ਸਮਝਣ ਯੋਗ ਕੋਣ ਜਾਂ ਫੋਕਸ।
- ਥੀਮੈਟਿਕ ਭਾਗਾਂ ਰਾਹੀਂ ਇੱਕ ਤਾਲਮੇਲ ਵਾਲਾ ਪ੍ਰਵਾਹ।
- ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਤੋਂ ਉਚਿਤ ਤੌਰ ‘ਤੇ ਰੱਖੇ ਗਏ ਹਵਾਲੇ।
- ਦਿਲਚਸਪ ਸੁਰਖੀਆਂ ਅਤੇ ਸਿੱਟਾ ਵਾਕ।
ਹਾਲਾਂਕਿ, ਸਾਰੇ ਟੈਸਟ ਕੀਤੇ LLMs ਵਿੱਚ ਲਗਾਤਾਰ ਇੱਕ ਗੰਭੀਰ ਕਮੀ ਉਭਰੀ, ਜਿਸ ਵਿੱਚ DeepSeek R1 ਵਰਗੇ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਜੋ ਖਾਸ ਤੌਰ ‘ਤੇ ਵਧੇ ਹੋਏ ਤਰਕ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਹਨ: ਇੰਟਰਵਿਊ ਦੇ ਅੰਦਰ ਜਾਣਕਾਰੀ ਦੀ ਪ੍ਰਸੰਗਿਕਤਾ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਸਮਝਣ ਅਤੇ ਤਰਜੀਹ ਦੇਣ ਦੀ ਇੱਕ ਬੁਨਿਆਦੀ ਅਯੋਗਤਾ। AI ਮਾਡਲਾਂ ਨੇ ਲਗਾਤਾਰ ਗੱਲਬਾਤ ਦੇ ਮੂਲ ਨੂੰ ਗੁਆ ਦਿੱਤਾ, ਸੈਕੰਡਰੀ ਬਿੰਦੂਆਂ ਜਾਂ ਸਪਰਸ਼ ਵੇਰਵਿਆਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ।
ਨਤੀਜਾ ਅਕਸਰ ਅਜਿਹੇ ਲੇਖ ਹੁੰਦੇ ਸਨ ਜੋ ਵਿਆਕਰਨਿਕ ਤੌਰ ‘ਤੇ ਸਹੀ ਅਤੇ ਚੰਗੀ ਤਰ੍ਹਾਂ ਸੰਗਠਿਤ ਹੁੰਦੇ ਸਨ ਪਰ ਅੰਤ ਵਿੱਚ ਸਤਹੀ ਅਤੇ ਅਰੁਚੀਕਰ ਹੁੰਦੇ ਸਨ। ਕੁਝ ਮਾਮਲਿਆਂ ਵਿੱਚ, AI ਸਪੱਸ਼ਟ ਦੱਸਣ ਲਈ ਮਹੱਤਵਪੂਰਨ, ਚੰਗੀ ਤਰ੍ਹਾਂ ਬਹਿਸ ਕੀਤੇ ਅੰਸ਼ਾਂ ਨੂੰ ਸਮਰਪਿਤ ਕਰੇਗਾ - ਉਦਾਹਰਨ ਲਈ, ਲੰਬਾਈ ਵਿੱਚ ਵਿਸਤਾਰ ਕਰਨਾ ਕਿ ਇੰਟਰਵਿਊ ਕੀਤੀ ਕੰਪਨੀ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੇ ਨਾਲ ਇੱਕ ਮਾਰਕੀਟ ਵਿੱਚ ਕੰਮ ਕਰਦੀ ਹੈ। ਇਸ ਨੇ ਭਾਸ਼ਾਈ ਯੋਗਤਾ (ਸੁਸੰਗਤ ਵਾਕ ਬਣਾਉਣਾ) ਅਤੇ ਅਸਲ ਸਮਝ (ਮਹੱਤਵ ਅਤੇ ਸੰਦਰਭ ਨੂੰ ਸਮਝਣਾ) ਵਿਚਕਾਰ ਇੱਕ ਪਾੜਾ ਉਜਾਗਰ ਕੀਤਾ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਸਟਾਈਲਿਸਟਿਕ ਆਉਟਪੁੱਟ ਮਾਡਲਾਂ ਵਿਚਕਾਰ ਕਾਫ਼ੀ ਵੱਖਰਾ ਸੀ:
- Meta ਦਾ Llama 3.x: ਟੈਸਟਿੰਗ ਦੇ ਸਮੇਂ, ਅਜਿਹੇ ਵਾਕ ਤਿਆਰ ਕੀਤੇ ਜੋ ਅਕਸਰ ਉਲਝਣ ਵਾਲੇ ਅਤੇ ਸਮਝਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਹੁੰਦੇ ਸਨ।
- Mistral Models & Gemma: ਨੇ ‘ਮਾਰਕੀਟਿੰਗ ਸਪੀਕ’ ਸ਼ੈਲੀ ਵੱਲ ਝੁਕਾਅ ਦਿਖਾਇਆ, ਭਾਵੁਕ ਵਿਸ਼ੇਸ਼ਣਾਂ ਅਤੇ ਸਕਾਰਾਤਮਕ ਫਰੇਮਿੰਗ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਪਰ ਠੋਸ ਪਦਾਰਥ ਅਤੇ ਖਾਸ ਵੇਰਵਿਆਂ ਦੀ ਘਾਟ ਸੀ।
- Alibaba ਦਾ Qwen: ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਹੈ ਕਿ, ਟੈਸਟ ਸੈੱਟਅੱਪ ਦੀਆਂ ਰੁਕਾਵਟਾਂ ਦੇ ਅੰਦਰ, ਇਸ ਚੀਨੀ ਮਾਡਲ ਨੇ ਫ੍ਰੈਂਚ (ਮੂਲ ਮੁਲਾਂਕਣ ਟੀਮ ਦੀ ਭਾਸ਼ਾ) ਵਿੱਚ ਕੁਝ ਸਭ ਤੋਂ ਸੁਹਜਾਤਮਕ ਤੌਰ ‘ਤੇ ਪ੍ਰਸੰਨ ਕਰਨ ਵਾਲਾ ਗੱਦ ਤਿਆਰ ਕੀਤਾ।
- Mixtral 8x7B: ਸ਼ੁਰੂ ਵਿੱਚ, ਇਸ ‘ਮਾਹਰਾਂ ਦੇ ਮਿਸ਼ਰਣ’ ਮਾਡਲ (ਅੱਠ ਛੋਟੇ, ਵਿਸ਼ੇਸ਼ 7-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲਾਂ ਨੂੰ ਮਿਲਾ ਕੇ) ਨੇ ਵਾਅਦਾ ਦਿਖਾਇਆ। ਹਾਲਾਂਕਿ, ਇਸਨੂੰ 48 GB ਮੈਮੋਰੀ ਸੀਮਾ ਦੇ ਅੰਦਰ ਫਿੱਟ ਕਰਨ ਲਈ ਹਮਲਾਵਰ 3-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ਦੀ ਲੋੜ ਸੀ, ਜਿਸ ਨਾਲ ਮਹੱਤਵਪੂਰਨ ਸਿੰਟੈਕਸ ਗਲਤੀਆਂ ਹੋਈਆਂ। ਇੱਕ 4-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ਡ ਸੰਸਕਰਣ (‘Q4_K_M’) ਨੇ ਸ਼ੁਰੂ ਵਿੱਚ ਇੱਕ ਬਿਹਤਰ ਸਮਝੌਤਾ ਪੇਸ਼ ਕੀਤਾ, ਪਰ LM Studio ਸੌਫਟਵੇਅਰ ਦੇ ਬਾਅਦ ਦੇ ਅਪਡੇਟਾਂ ਨੇ ਇਸਦੇ ਮੈਮੋਰੀ ਫੁੱਟਪ੍ਰਿੰਟ ਨੂੰ ਵਧਾ ਦਿੱਤਾ, ਜਿਸ ਕਾਰਨ ਇਹ ਸੰਰਚਨਾ ਵੀ ਕੱਟੇ ਹੋਏ ਨਤੀਜੇ ਪੈਦਾ ਕਰਦੀ ਹੈ।
- Mistral Small 3.1: 8-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ੇਸ਼ਨ ‘ਤੇ 24 ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰਾਂ ਵਾਲਾ ਇੱਕ ਹੋਰ ਹਾਲੀਆ ਮਾਡਲ ਇੱਕ ਮਜ਼ਬੂਤ ਪ੍ਰਤੀਯੋਗੀ ਵਜੋਂ ਉੱਭਰਿਆ। ਇਸਦੀ ਆਉਟਪੁੱਟ ਗੁਣਵੱਤਾ 27B Gemma ਮਾਡਲ ਦੇ ਨੇੜੇ ਪਹੁੰਚ ਗਈ, ਅਤੇ ਇਸਨੇ 8.65 ਟੋਕਨ ਪ੍ਰਤੀ ਸਕਿੰਟ ‘ਤੇ ਪ੍ਰੋਸੈਸਿੰਗ ਕਰਦੇ ਹੋਏ, ਥੋੜ੍ਹਾ ਜਿਹਾ ਗਤੀ ਲਾਭ ਪੇਸ਼ ਕੀਤਾ।
ਇਹ ਪਰਿਵਰਤਨ ਇਸ ਗੱਲ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ ਕਿ ਇੱਕ LLM ਦੀ ਚੋਣ ਕਰਨਾ ਸਿਰਫ਼ ਆਕਾਰ ਜਾਂ ਗਤੀ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਅੰਤਰੀਵ ਸਿਖਲਾਈ ਡੇਟਾ ਅਤੇ ਆਰਕੀਟੈਕਚਰ ਇਸਦੀ ਲਿਖਣ ਸ਼ੈਲੀ ਅਤੇ ਸੰਭਾਵੀ ਪੱਖਪਾਤ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਿਤ ਕਰਦੇ ਹਨ।
ਹਾਰਡਵੇਅਰ ਆਰਕੀਟੈਕਚਰ: ਸਥਾਨਕ AI ਦਾ ਅਣਗੌਲਿਆ ਹੀਰੋ
ਪ੍ਰਯੋਗਾਂ ਨੇ ਇੱਕ ਮਹੱਤਵਪੂਰਨ, ਅਕਸਰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕੀਤੇ ਕਾਰਕ ‘ਤੇ ਰੌਸ਼ਨੀ ਪਾਈ: ਅੰਤਰੀਵ ਹਾਰਡਵੇਅਰ ਆਰਕੀਟੈਕਚਰ, ਖਾਸ ਤੌਰ ‘ਤੇ ਮੈਮੋਰੀ ਤੱਕ ਕਿਵੇਂ ਪਹੁੰਚ ਕੀਤੀ ਜਾਂਦੀ ਹੈ। Apple Silicon Mac ‘ਤੇ ਦੇਖੀ ਗਈ ਉੱਤਮ ਕਾਰਗੁਜ਼ਾਰੀ ਸਿਰਫ਼ RAM ਦੀ ਮਾਤਰਾ ਦੇ ਕਾਰਨ ਨਹੀਂ ਸੀ ਬਲਕਿ ਇਸਦੀ Unified Memory Architecture (UMA) ‘ਤੇ ਨਿਰਣਾਇਕ ਤੌਰ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਸੀ।
ਇੱਕ UMA ਸਿਸਟਮ ਵਿੱਚ, CPU, GPU, ਅਤੇ NPU ਕੋਰ ਸਾਰੇ ਭੌਤਿਕ RAM ਦੇ ਇੱਕੋ ਪੂਲ ਨੂੰ ਸਾਂਝਾ ਕਰਦੇ ਹਨ ਅਤੇ ਇੱਕੋ ਸਮੇਂ ਇੱਕੋ ਮੈਮੋਰੀ ਪਤਿਆਂ ‘ਤੇ ਡੇਟਾ ਤੱਕ ਪਹੁੰਚ ਕਰ ਸਕਦੇ ਹਨ। ਇਹ ਵੱਖ-ਵੱਖ ਪ੍ਰੋਸੈਸਰਾਂ ਨੂੰ ਸਮਰਪਿਤ ਵੱਖਰੇ ਮੈਮੋਰੀ ਪੂਲ (ਉਦਾਹਰਨ ਲਈ, CPU ਲਈ ਸਿਸਟਮ RAM ਅਤੇ ਇੱਕ ਵੱਖਰੇ ਗ੍ਰਾਫਿਕਸ ਕਾਰਡ ਲਈ ਸਮਰਪਿਤ VRAM) ਵਿਚਕਾਰ ਡੇਟਾ ਦੀ ਨਕਲ ਕਰਨ ਦੀ ਲੋੜ ਨੂੰ ਖਤਮ ਕਰਦਾ ਹੈ।
LLMs ਲਈ ਇਹ ਇੰਨਾ ਮਹੱਤਵਪੂਰਨ ਕਿਉਂ ਹੈ?
- ਕੁਸ਼ਲਤਾ: LLM ਪ੍ਰੋਸੈਸਿੰਗ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੇ ਕੋਰਾਂ ਵਿੱਚ ਤੀਬਰ ਗਣਨਾ ਸ਼ਾਮਲ ਹੁੰਦੀ ਹੈ। UMA ਸਹਿਜ ਡੇਟਾ ਸ਼ੇਅਰਿੰਗ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਡੇਟਾ ਡੁਪਲੀਕੇਸ਼ਨ ਅਤੇ ਟ੍ਰਾਂਸਫਰ ਨਾਲ ਜੁੜੀ ਲੇਟੈਂਸੀ ਅਤੇ ਓਵਰਹੈੱਡ ਨੂੰ ਘਟਾਉਂਦਾ ਹੈ।
- ਮੈਮੋਰੀ ਉਪਯੋਗਤਾ: UMA ਤੋਂ ਬਿਨਾਂ ਸਿਸਟਮਾਂ ਵਿੱਚ (ਜਿਵੇਂ ਕਿ ਇੱਕ ਵੱਖਰੇ GPU ਵਾਲਾ ਇੱਕ ਆਮ PC), ਉਹੀ ਡੇਟਾ ਮੁੱਖ ਸਿਸਟਮ RAM (CPU ਲਈ) ਅਤੇ GPU ਦੇ VRAM ਦੋਵਾਂ ਵਿੱਚ ਲੋਡ ਕਰਨ ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ। ਇਹ LLM ਲਈ ਹੀ ਵਰਤੋਂ ਯੋਗ ਮੈਮੋਰੀ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਘਟਾਉਂਦਾ ਹੈ।
ਵਿਹਾਰਕ ਪ੍ਰਭਾਵ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਜਦੋਂ ਕਿ ਟੈਸਟ Mac 48 GB ਸਾਂਝੀ UMA RAM ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਇੱਕ 27-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ, 8-ਬਿੱਟ ਕੁਆਂਟਾਈਜ਼ਡ ਮਾਡਲ ਨੂੰ ਆਰਾਮ ਨਾਲ ਚਲਾ ਸਕਦਾ ਹੈ, UMA ਤੋਂ ਬਿਨਾਂ ਇੱਕ PC ‘ਤੇ ਸਮਾਨ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਕੁੱਲ RAM ਦੀ ਲੋੜ ਹੋ ਸਕਦੀ ਹੈ। ਉਦਾਹਰਨ ਲਈ, 48 GB ਕੁੱਲ RAM ਵਾਲਾ ਇੱਕ PC ਜੋ CPU ਲਈ 24 GB ਅਤੇ GPU ਲਈ 24 GB ਵਿੱਚ ਵੰਡਿਆ ਹੋਇਆ ਹੈ, ਮੈਮੋਰੀ ਭਾਗ ਵੰਡ ਅਤੇ ਡੇਟਾ ਡੁਪਲੀਕੇਸ਼ਨ ਓਵਰਹੈੱਡ ਦੇ ਕਾਰਨ, ਸਿਰਫ ਇੱਕ ਬਹੁਤ ਛੋਟੇ 13-ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ ਮਾਡਲ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਚਲਾਉਣ ਦੇ ਯੋਗ ਹੋ ਸਕਦਾ ਹੈ।
ਇਹ ਆਰਕੀਟੈਕਚਰਲ ਫਾਇਦਾ ਸਥਾਨਕ AI ਸਪੇਸ ਵਿੱਚ Apple Silicon ਚਿਪਸ ਵਾਲੇ Macs ਦੁਆਰਾ ਪ੍ਰਾਪਤ ਕੀਤੀ ਸ਼ੁਰੂਆਤੀ ਲੀਡ ਦੀ ਵਿਆਖਿਆ ਕਰਦਾ ਹੈ। ਇਸ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ, AMD ਵਰਗੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਨੇ ਆਪਣੀ Ryzen AI Max SoC ਰੇਂਜ (2025 ਦੇ ਸ਼ੁਰੂ ਵਿੱਚ ਉਮੀਦ ਕੀਤੀ ਜਾਂਦੀ ਹੈ) ਦੀ ਘੋਸ਼ਣਾ ਕੀਤੀ ਜੋ ਇੱਕ ਸਮਾਨ ਯੂਨੀਫਾਈਡ ਮੈਮੋਰੀ ਪਹੁੰਚ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ। ਇਹਨਾਂ ਟੈਸਟਾਂ ਦੇ ਸਮੇਂ, Intel ਦੇ Core Ultra SoCs, ਜਦੋਂ ਕਿ CPU, GPU, ਅਤੇ NPU ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਦੇ ਹੋਏ, ਸਾਰੇ ਕੋਰ ਕਿਸਮਾਂ ਵਿੱਚ ਪੂਰੀ ਤਰ੍ਹਾਂ ਯੂਨੀਫਾਈਡ ਮੈਮੋਰੀ ਐਕਸੈਸ ਦੇ ਸਮਾਨ ਪੱਧਰ ਦੀ ਵਿਸ਼ੇਸ਼ਤਾ ਨਹੀਂ ਰੱਖਦੇ ਸਨ। ਇਹ ਹਾਰਡਵੇਅਰ ਅੰਤਰ ਕਿਸੇ ਵੀ ਵਿਅਕਤੀ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਿਚਾਰ ਹੈ ਜੋ ਸਥਾਨਕ ਤੌਰ ‘ਤੇ ਵੱਡੇ, ਵਧੇਰੇ ਸਮਰੱਥ LLMs ਨੂੰ ਚਲਾਉਣ ਬਾਰੇ ਗੰਭੀਰ ਹੈ।
ਪ੍ਰੋਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਦਾ ਗੁੰਝਲਦਾਰ ਨਾਚ
ਇੱਕ AI ਨੂੰ ਇੱਕ ਇੰਟਰਵਿਊ ਨੂੰ ਇੱਕ ਲੇਖ ਵਿੱਚ ਬਦਲਣ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਕਾਰਜ ਨੂੰ ਕਰਨ ਲਈ ਸਿਰਫ਼ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹਾਰਡਵੇਅਰ ਅਤੇ ਇੱਕ ਸਮਰੱਥ ਮਾਡਲ ਤੋਂ ਵੱਧ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ; ਇਸ ਲਈ ਸੂਝਵਾਨ ਹਦਾਇਤਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ - ਪ੍ਰੋਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਦੀ ਕਲਾ ਅਤੇ ਵਿਗਿਆਨ। ਸ਼ੁਰੂਆਤੀ 1,500-ਟੋਕਨ ਪ੍ਰੋਂਪਟ ਨੂੰ ਤਿਆਰ ਕਰਨਾ ਜਿਸ ਨੇ AI ਦਾ ਮਾਰਗਦਰਸ਼ਨ ਕੀਤਾ, ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕੰਮ ਸੀ।
ਇੱਕ ਉਪਯੋਗੀ ਸ਼ੁਰੂਆਤੀ ਬਿੰਦੂ ਵਿੱਚ ਰਿਵਰਸ ਇੰਜੀਨੀਅਰਿੰਗ ਸ਼ਾਮਲ ਸੀ: AI ਨੂੰ ਇੱਕ ਪੂਰਾ, ਮਨੁੱਖੀ-ਲਿਖਤ ਲੇਖ ਇਸਦੇ ਅਨੁਸਾਰੀ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟ ਦੇ ਨਾਲ ਫੀਡ ਕਰਨਾ ਅਤੇ ਪੁੱਛਣਾ ਕਿ ਉਸ ਨਤੀਜੇ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਕੀ ਪ੍ਰੋਂਪਟ ਦਿੱਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਸੀ। ਕਈ ਵਿਭਿੰਨ ਉਦਾਹਰਣਾਂ ਵਿੱਚ AI ਦੇ ਸੁਝਾਵਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਨਾਲ ਹਦਾਇਤ ਸੈੱਟ ਲਈ ਜ਼ਰੂਰੀ ਤੱਤਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਮਿਲੀ।
ਹਾਲਾਂਕਿ, AI-ਤਿਆਰ ਪ੍ਰੋਂਪਟ ਸੁਝਾਅ ਲਗਾਤਾਰ ਬਹੁਤ ਸੰਖੇਪ ਸਨ ਅਤੇ ਇੱਕ ਵਿਆਪਕ ਲੇਖ ਦੀ ਸਿਰਜਣਾ ਦਾ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਵੇਰਵਿਆਂ ਦੀ ਘਾਟ ਸੀ। ਅਸਲ ਕੰਮ ਇਹਨਾਂ ਸ਼ੁਰੂਆਤੀ AI-ਪ੍ਰਦਾਨ ਕੀਤੀਆਂ ਲੀਡਾਂ ਨੂੰ ਲੈਣ ਅਤੇ ਉਹਨਾਂ ‘ਤੇ ਵਿਸਤਾਰ ਕਰਨ ਵਿੱਚ ਸੀ, ਪੱਤਰਕਾਰੀ ਦੀ ਬਣਤਰ, ਟੋਨ, ਸ਼ੈਲੀ, ਅਤੇ ਨੈਤਿਕ ਵਿਚਾਰਾਂ ਬਾਰੇ ਡੂੰਘੇ ਡੋਮੇਨ ਗਿਆਨ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ।
ਕਈ ਗੈਰ-ਅਨੁਭਵੀ ਸਬਕ ਉੱਭਰੇ:
- ਸੁੰਦਰਤਾ ਨਾਲੋਂ ਸਪੱਸ਼ਟਤਾ: ਹੈਰਾਨੀ ਦੀ ਗੱਲ ਹੈ ਕਿ, ਪ੍ਰੋਂਪਟ ਨੂੰ ਵਧੇਰੇ ਕੁਦਰਤੀ, ਵਹਿਣ ਵਾਲੀ ਸ਼ੈਲੀ ਵਿੱਚ ਲਿਖਣ ਨਾਲ ਅਕਸਰ AI ਦੀ ਸਮਝ ਘੱਟ ਜਾਂਦੀ ਹੈ। ਮਾਡਲਾਂ ਨੇ ਅਸਪਸ਼ਟਤਾ ਨਾਲ ਸੰਘਰਸ਼ ਕੀਤਾ, ਖਾਸ ਤੌਰ ‘ਤੇ ਪੜਨਾਂਵ (‘ਉਹ,’ ‘ਇਹ,’ ‘ਇਸ’)। ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪਹੁੰਚ ਵਿੱਚ ਮਸ਼ੀਨ ਦੀ ਸ਼ੁੱਧਤਾ ਲਈ ਮਨੁੱਖੀ ਪੜ੍ਹਨਯੋਗਤਾ ਦੀ ਕੁਰਬਾਨੀ ਸ਼ਾਮਲ ਸੀ, ਕਿਸੇ ਵੀ ਸੰਭਾਵੀ ਗਲਤ ਵਿਆਖਿਆ ਤੋਂ ਬਚਣ ਲਈ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਵਿਸ਼ਿਆਂ ਨੂੰ ਦੁਹਰਾਉਣਾ (‘ਲੇਖ ਨੂੰ ਚਾਹੀਦਾ ਹੈ…’, ‘ਲੇਖ ਦਾ ਟੋਨ ਲਾਜ਼ਮੀ ਹੈ…’, ‘ਲੇਖ ਦੀ ਜਾਣ-ਪਛਾਣ ਦੀ ਲੋੜ ਹੈ…’)।
- ਰਚਨਾਤਮਕਤਾ ਦੀ ਅਸਪਸ਼ਟ ਪ੍ਰਕਿਰਤੀ: ਲਚਕਤਾ ਦੀ ਆਗਿਆ ਦੇਣ ਦੇ ਉਦੇਸ਼ ਨਾਲ ਸਾਵਧਾਨ ਪ੍ਰੋਂਪਟ ਡਿਜ਼ਾਈਨ ਦੇ ਬਾਵਜੂਦ, AI-ਤਿਆਰ ਲੇਖ