ਵੱਡੇ AI ਮਾਡਲ: ਕੀ ਵੱਡਾ ਹੋਣਾ ਹਮੇਸ਼ਾ ਬਿਹਤਰ ਹੁੰਦਾ ਹੈ?

ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਕਮਿਊਨਿਟੀ ਵਿੱਚ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਨੂੰ ਲਗਾਤਾਰ ਵੱਡਾ ਕਰਨ ਅਤੇ ਲੱਖਾਂ ਟੋਕਨਾਂ ਤੋਂ ਅੱਗੇ ਲਿਜਾਣ ਬਾਰੇ ਇੱਕ ਤਿੱਖੀ ਬਹਿਸ ਛਿੜੀ ਹੋਈ ਹੈ। MiniMax-Text-01 ਦੇ 4 ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਅਤੇ Gemini 1.5 Pro ਦੀ ਇੱਕੋ ਸਮੇਂ 2 ਮਿਲੀਅਨ ਟੋਕਨਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੀ ਸਮਰੱਥਾ ਵਰਗੇ ਵੱਡੇ ਟੋਕਨ ਸਮਰੱਥਾ ਵਾਲੇ ਮਾਡਲ ਤਰੱਕੀ ਕਰ ਰਹੇ ਹਨ। ਇਹ ਮਾਡਲ ਕ੍ਰਾਂਤੀਕਾਰੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦਾ ਵਾਅਦਾ ਕਰਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਇੱਕੋ ਵਾਰ ਵਿਆਪਕ ਕੋਡਬੇਸ, ਗੁੰਝਲਦਾਰ ਕਾਨੂੰਨੀ ਦਸਤਾਵੇਜ਼, ਅਤੇ ਡੂੰਘਾਈ ਨਾਲ ਖੋਜ ਪੱਤਰਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਹੈ।

ਇਸ ਚਰਚਾ ਵਿੱਚ ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਕਾਰਕ ਪ੍ਰਸੰਗ ਲੰਬਾਈ ਹੈ – ਟੈਕਸਟ ਦੀ ਉਹ ਮਾਤਰਾ ਜੋ ਇੱਕ AI ਮਾਡਲ ਕਿਸੇ ਵੀ ਸਮੇਂ ਪ੍ਰੋਸੈਸ ਅਤੇ ਬਰਕਰਾਰ ਰੱਖ ਸਕਦਾ ਹੈ। ਇੱਕ ਵੱਡੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਇੱਕ ML ਮਾਡਲ ਨੂੰ ਇੱਕੋ ਬੇਨਤੀ ਵਿੱਚ ਬਹੁਤ ਜ਼ਿਆਦਾ ਜਾਣਕਾਰੀ ਦਾ ਪ੍ਰਬੰਧਨ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਦਸਤਾਵੇਜ਼ਾਂ ਨੂੰ ਤੋੜਨ ਜਾਂ ਗੱਲਬਾਤਾਂ ਨੂੰ ਖੰਡਿਤ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਘੱਟ ਜਾਂਦੀ ਹੈ। ਇਸ ਨੂੰ ਸਮਝਣ ਲਈ, 4 ਮਿਲੀਅਨ ਟੋਕਨ ਸਮਰੱਥਾ ਵਾਲਾ ਮਾਡਲ ਸਿਧਾਂਤਕ ਤੌਰ ‘ਤੇ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਲਗਭਗ 10,000 ਪੰਨਿਆਂ ਦੀਆਂ ਕਿਤਾਬਾਂ ਨੂੰ ਹਜ਼ਮ ਕਰ ਸਕਦਾ ਹੈ।

ਸਿਧਾਂਤਕ ਤੌਰ ‘ਤੇ, ਇਸ ਵਧੇ ਹੋਏ ਪ੍ਰਸੰਗ ਨਾਲ ਬਿਹਤਰ ਸਮਝ ਅਤੇ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਤਰਕ ਹੋਣਾ ਚਾਹੀਦਾ ਹੈ। ਹਾਲਾਂਕਿ, ਸਭ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਸਵਾਲ ਇਹ ਹੈ: ਕੀ ਇਹ ਵੱਡੀਆਂ ਪ੍ਰਸੰਗ ਵਿੰਡੋਜ਼ ਠੋਸ ਕਾਰੋਬਾਰੀ ਮੁੱਲ ਵਿੱਚ ਬਦਲਦੀਆਂ ਹਨ?

ਜਿਵੇਂ ਕਿ ਕਾਰੋਬਾਰ ਆਪਣੀ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਨੂੰ ਵਧਾਉਣ ਦੀ ਲਾਗਤ ਦਾ ਮੁਲਾਂਕਣ ਉਤਪਾਦਕਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸੰਭਾਵੀ ਲਾਭਾਂ ਦੇ ਮੁਕਾਬਲੇ ਕਰਦੇ ਹਨ, ਇਸਦੇ ਅੰਦਰੂਨੀ ਸਵਾਲ ਇਹ ਹੈ ਕਿ ਕੀ ਅਸੀਂ ਅਸਲ ਵਿੱਚ AI ਤਰਕ ਦੇ ਨਵੇਂ ਪੱਧਰਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰ ਰਹੇ ਹਾਂ ਜਾਂ ਕੀ ਅਸੀਂ ਸਿਰਫ਼ ਅਰਥਪੂਰਨ ਤਰੱਕੀ ਪ੍ਰਾਪਤ ਕੀਤੇ ਬਿਨਾਂ ਟੋਕਨ ਮੈਮੋਰੀ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਵਧਾ ਰਹੇ ਹਾਂ। ਇਹ ਲੇਖ ਤਕਨੀਕੀ ਅਤੇ ਆਰਥਿਕ ਵਪਾਰ-ਬੰਦ, ਬੈਂਚਮਾਰਕਿੰਗ ਮੁਸ਼ਕਲਾਂ, ਅਤੇ ਵਿਕਸਤ ਹੋ ਰਹੇ ਉੱਦਮ ਵਰਕਫਲੋ ਵਿੱਚ ਡੂੰਘਾਈ ਨਾਲ ਜਾਂਦਾ ਹੈ ਜੋ ਵੱਡੇ-ਪ੍ਰਸੰਗ LLMs ਦੇ ਭਵਿੱਖ ਨੂੰ ਆਕਾਰ ਦੇ ਰਹੇ ਹਨ।

ਪ੍ਰਸੰਗ ਲੰਬਾਈ ਦੀ ਦੌੜ: AI ਕੰਪਨੀਆਂ ਕਿਉਂ ਮੁਕਾਬਲਾ ਕਰ ਰਹੀਆਂ ਹਨ

OpenAI, Google DeepMind, ਅਤੇ MiniMax ਸਮੇਤ ਪ੍ਰਮੁੱਖ AI ਸੰਸਥਾਵਾਂ, ਪ੍ਰਸੰਗ ਲੰਬਾਈ ਨੂੰ ਵਧਾਉਣ ਲਈ ਇੱਕ ਸਖ਼ਤ ਮੁਕਾਬਲੇ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ, ਜੋ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਟੈਕਸਟ ਦੀ ਉਸ ਮਾਤਰਾ ਨਾਲ ਸਬੰਧਤ ਹੈ ਜੋ ਇੱਕ AI ਮਾਡਲ ਇੱਕੋ ਉਦਾਹਰਣ ਵਿੱਚ ਪ੍ਰੋਸੈਸ ਕਰ ਸਕਦਾ ਹੈ। ਵਾਅਦਾ ਇਹ ਹੈ ਕਿ ਵੱਡੀ ਪ੍ਰਸੰਗ ਲੰਬਾਈ ਡੂੰਘੀ ਸਮਝ ਨੂੰ ਸਮਰੱਥ ਕਰੇਗੀ, ਹਲੂਸੀਨੇਸ਼ਨਾਂ (ਮਨਘੜਤ ਗੱਲਾਂ) ਨੂੰ ਘਟਾਏਗੀ, ਅਤੇ ਵਧੇਰੇ ਨਿਰਵਿਘਨ ਗੱਲਬਾਤਾਂ ਪੈਦਾ ਕਰੇਗੀ।

ਕਾਰੋਬਾਰਾਂ ਲਈ, ਇਸਦਾ ਮਤਲਬ ਹੈ AI ਜੋ ਪੂਰੇ ਇਕਰਾਰਨਾਮੇ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ, ਵੱਡੇ ਕੋਡਬੇਸ ਨੂੰ ਡੀਬੱਗ ਕਰ ਸਕਦਾ ਹੈ, ਜਾਂ ਪ੍ਰਸੰਗ ਨੂੰ ਗੁਆਏ ਬਿਨਾਂ ਲੰਬੀਆਂ ਰਿਪੋਰਟਾਂ ਦਾ ਸਾਰ ਦੇ ਸਕਦਾ ਹੈ। ਉਮੀਦ ਇਹ ਹੈ ਕਿ ਚੰਕਿੰਗ ਜਾਂ ਰੀਟ੍ਰੀਵਲ-ਔਗਮੈਂਟਡ ਜਨਰੇਸ਼ਨ (RAG) ਵਰਗੇ ਵਰਕਆਰਾਊਂਡਾਂ ਨੂੰ ਖਤਮ ਕਰਕੇ, AI ਵਰਕਫਲੋ ਸੁਚਾਰੂ ਅਤੇ ਵਧੇਰੇ ਕੁਸ਼ਲ ਹੋ ਸਕਦੇ ਹਨ।

‘ਹੇ-ਸਟੈਕ ਵਿੱਚ ਸੂਈ’ ਸਮੱਸਿਆ: ਨਾਜ਼ੁਕ ਜਾਣਕਾਰੀ ਲੱਭਣਾ

‘ਹੇ-ਸਟੈਕ ਵਿੱਚ ਸੂਈ’ ਸਮੱਸਿਆ AI ਨੂੰ ਵਿਸ਼ਾਲ ਡੇਟਾਸੈਟਾਂ (‘ਹੇ-ਸਟੈਕ’) ਵਿੱਚ ਛੁਪੀ ਨਾਜ਼ੁਕ ਜਾਣਕਾਰੀ (‘ਸੂਈ’) ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਆਉਣ ਵਾਲੀ ਮੁਸ਼ਕਲ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ। LLMs ਅਕਸਰ ਮੁੱਖ ਵੇਰਵਿਆਂ ਦੀ ਪਛਾਣ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਕਈ ਖੇਤਰਾਂ ਵਿੱਚ ਅਕੁਸ਼ਲਤਾਵਾਂ ਪੈਦਾ ਹੁੰਦੀਆਂ ਹਨ:

  • ਖੋਜ ਅਤੇ ਗਿਆਨ ਮੁੜ ਪ੍ਰਾਪਤ ਕਰਨਾ: AI ਸਹਾਇਕਾਂ ਨੂੰ ਅਕਸਰ ਵਿਆਪਕ ਦਸਤਾਵੇਜ਼ ਰਿਪੋਜ਼ਟਰੀਆਂ ਤੋਂ ਸਭ ਤੋਂ ਢੁਕਵੇਂ ਤੱਥਾਂ ਨੂੰ ਕੱਢਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਉਂਦੀ ਹੈ।

  • ਕਾਨੂੰਨੀ ਅਤੇ ਪਾਲਣਾ: ਵਕੀਲਾਂ ਨੂੰ ਲੰਬੇ ਇਕਰਾਰਨਾਮਿਆਂ ਦੇ ਅੰਦਰ ਧਾਰਾਵਾਂ ਦੀਆਂ ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਟਰੈਕ ਕਰਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

  • ਉੱਦਮ ਵਿਸ਼ਲੇਸ਼ਣ: ਵਿੱਤੀ ਵਿਸ਼ਲੇਸ਼ਕਾਂ ਨੂੰ ਗੁੰਝਲਦਾਰ ਰਿਪੋਰਟਾਂ ਵਿੱਚ ਦੱਬੀ ਮਹੱਤਵਪੂਰਨ ਜਾਣਕਾਰੀ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨ ਦਾ ਖਤਰਾ ਹੁੰਦਾ ਹੈ।

ਵੱਡੀਆਂ ਪ੍ਰਸੰਗ ਵਿੰਡੋਜ਼ ਮਾਡਲਾਂ ਨੂੰ ਵਧੇਰੇ ਜਾਣਕਾਰੀ ਬਰਕਰਾਰ ਰੱਖਣ ਵਿੱਚ ਮਦਦ ਕਰਦੀਆਂ ਹਨ, ਜੋ ਹਲੂਸੀਨੇਸ਼ਨਾਂ ਨੂੰ ਘਟਾਉਂਦੀਆਂ ਹਨ, ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦੀਆਂ ਹਨ, ਅਤੇ ਇਹਨਾਂ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦੀਆਂ ਹਨ:

  • ਕਰਾਸ-ਡੌਕੂਮੈਂਟ ਪਾਲਣਾ ਜਾਂਚ: ਇੱਕ ਸਿੰਗਲ 256K-ਟੋਕਨ ਪ੍ਰੋਂਪਟ ਇੱਕ ਪੂਰੀ ਨੀਤੀ ਮੈਨੂਅਲ ਦੀ ਨਵੀਂ ਵਿਧਾਨ ਦੇ ਵਿਰੁੱਧ ਤੁਲਨਾ ਕਰ ਸਕਦਾ ਹੈ।

  • ਮੈਡੀਕਲ ਲਿਟਰੇਚਰ ਸਿੰਥੇਸਿਸ: ਖੋਜਕਰਤਾ ਦਵਾਈ ਦੇ ਅਜ਼ਮਾਇਸ਼ ਨਤੀਜਿਆਂ ਦੀ ਤੁਲਨਾ ਦਹਾਕਿਆਂ ਦੇ ਅਧਿਐਨਾਂ ਵਿੱਚ ਕਰਨ ਲਈ 128K+ ਟੋਕਨ ਵਿੰਡੋਜ਼ ਦੀ ਵਰਤੋਂ ਕਰ ਸਕਦੇ ਹਨ।

  • ਸਾਫਟਵੇਅਰ ਡਿਵੈਲਪਮੈਂਟ: ਡੀਬੱਗਿੰਗ ਵਿੱਚ ਸੁਧਾਰ ਹੁੰਦਾ ਹੈ ਜਦੋਂ AI ਨਿਰਭਰਤਾਵਾਂ ਨੂੰ ਗੁਆਏ ਬਿਨਾਂ ਲੱਖਾਂ ਲਾਈਨਾਂ ਦੇ ਕੋਡ ਨੂੰ ਸਕੈਨ ਕਰ ਸਕਦੀ ਹੈ।

  • ਵਿੱਤੀ ਖੋਜ: ਵਿਸ਼ਲੇਸ਼ਕ ਇੱਕ ਸਿੰਗਲ ਪੁੱਛਗਿੱਛ ਵਿੱਚ ਪੂਰੀ ਕਮਾਈ ਰਿਪੋਰਟਾਂ ਅਤੇ ਮਾਰਕੀਟ ਡੇਟਾ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦੇ ਹਨ।

  • ਗਾਹਕ ਸਹਾਇਤਾ: ਲੰਬੀ ਮੈਮੋਰੀ ਵਾਲੇ ਚੈਟਬੋਟ ਵਧੇਰੇ ਪ੍ਰਸੰਗ-ਜਾਗਰੂਕ ਗੱਲਬਾਤਾਂ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ।

ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਨੂੰ ਵਧਾਉਣ ਨਾਲ ਮਾਡਲ ਨੂੰ ਢੁਕਵੇਂ ਵੇਰਵਿਆਂ ਦਾ ਬਿਹਤਰ ਹਵਾਲਾ ਦੇਣ ਵਿੱਚ ਵੀ ਮਦਦ ਮਿਲਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਗਲਤ ਜਾਂ ਮਨਘੜਤ ਜਾਣਕਾਰੀ ਪੈਦਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਘੱਟ ਜਾਂਦੀ ਹੈ। 2024 ਦੇ ਸਟੈਨਫੋਰਡ ਅਧਿਐਨ ਵਿੱਚ ਪਾਇਆ ਗਿਆ ਕਿ 128K-ਟੋਕਨ ਮਾਡਲਾਂ ਨੇ ਰਲੇਵੇਂ ਸਮਝੌਤਿਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੇ ਸਮੇਂ RAG ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਮੁਕਾਬਲੇ ਹਲੂਸੀਨੇਸ਼ਨ ਦਰਾਂ ਨੂੰ 18% ਤੱਕ ਘਟਾ ਦਿੱਤਾ।

ਇਹਨਾਂ ਸੰਭਾਵੀ ਲਾਭਾਂ ਦੇ ਬਾਵਜੂਦ, ਸ਼ੁਰੂਆਤੀ ਅਪਣਾਉਣ ਵਾਲਿਆਂ ਨੇ ਚੁਣੌਤੀਆਂ ਦੀ ਰਿਪੋਰਟ ਕੀਤੀ ਹੈ। ਜੇਪੀ ਮੋਰਗਨ ਚੇਜ਼ ਦੀ ਖੋਜ ਨੇ ਦਿਖਾਇਆ ਹੈ ਕਿ ਮਾਡਲ ਆਪਣੇ ਪ੍ਰਸੰਗ ਦੇ ਲਗਭਗ 75% ‘ਤੇ ਮਾੜਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਗੁੰਝਲਦਾਰ ਵਿੱਤੀ ਕਾਰਜਾਂ ‘ਤੇ ਪ੍ਰਦਰਸ਼ਨ 32K ਟੋਕਨਾਂ ਤੋਂ ਬਾਹਰ ਲਗਭਗ ਜ਼ੀਰੋ ਤੱਕ ਡਿੱਗ ਜਾਂਦਾ ਹੈ। ਮਾਡਲ ਅਜੇ ਵੀ ਲੰਬੇ ਸਮੇਂ ਦੀ ਯਾਦ ਨਾਲ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਅਕਸਰ ਡੂੰਘੀ ਸੂਝ ‘ਤੇ ਹਾਲੀਆ ਡੇਟਾ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ।

ਇਹ ਮਹੱਤਵਪੂਰਨ ਸਵਾਲ ਖੜ੍ਹੇ ਕਰਦਾ ਹੈ: ਕੀ 4-ਮਿਲੀਅਨ-ਟੋਕਨ ਵਿੰਡੋ ਅਸਲ ਵਿੱਚ ਤਰਕ ਨੂੰ ਵਧਾਉਂਦੀ ਹੈ, ਜਾਂ ਕੀ ਇਹ ਸਿਰਫ਼ ਮੈਮੋਰੀ ਦਾ ਇੱਕ ਮਹਿੰਗਾ ਵਿਸਥਾਰ ਹੈ? ਇਸ ਵਿਸ਼ਾਲ ਇਨਪੁਟ ਵਿੱਚੋਂ ਕਿੰਨਾ ਹਿੱਸਾ ਮਾਡਲ ਅਸਲ ਵਿੱਚ ਵਰਤਦਾ ਹੈ? ਅਤੇ ਕੀ ਲਾਭ ਵੱਧਦੀਆਂ ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਾਗਤਾਂ ਤੋਂ ਵੱਧ ਹਨ?

RAG ਬਨਾਮ ਵੱਡੇ ਪ੍ਰੋਂਪਟ: ਆਰਥਿਕ ਵਪਾਰ-ਬੰਦ

ਰੀਟ੍ਰੀਵਲ-ਔਗਮੈਂਟਡ ਜਨਰੇਸ਼ਨ (RAG) LLMs ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਇੱਕ ਰੀਟ੍ਰੀਵਲ ਸਿਸਟਮ ਨਾਲ ਜੋੜਦਾ ਹੈ ਜੋ ਬਾਹਰੀ ਸਰੋਤਾਂ ਜਿਵੇਂ ਕਿ ਡੇਟਾਬੇਸ ਜਾਂ ਦਸਤਾਵੇਜ਼ ਸਟੋਰਾਂ ਤੋਂ ਢੁਕਵੀਂ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਡਲ ਨੂੰ ਇਸਦੇ ਪੂਰਵ-ਮੌਜੂਦ ਗਿਆਨ ਅਤੇ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਪ੍ਰਾਪਤ ਕੀਤੇ ਡੇਟਾ ਦੋਵਾਂ ਦੇ ਅਧਾਰ ਤੇ ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।

ਜਿਵੇਂ ਕਿ ਕੰਪਨੀਆਂ ਗੁੰਝਲਦਾਰ ਕਾਰਜਾਂ ਲਈ AI ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਦੀਆਂ ਹਨ, ਉਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਬੁਨਿਆਦੀ ਫੈਸਲੇ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ: ਕੀ ਉਨ੍ਹਾਂ ਨੂੰ ਵੱਡੀਆਂ ਪ੍ਰਸੰਗ ਵਿੰਡੋਜ਼ ਦੇ ਨਾਲ ਵੱਡੇ ਪ੍ਰੋਂਪਟ ਦੀ ਵਰਤੋਂ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ, ਜਾਂ ਕੀ ਉਨ੍ਹਾਂ ਨੂੰ ਰੀਅਲ-ਟਾਈਮ ਵਿੱਚ ਢੁਕਵੀਂ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ RAG ‘ਤੇ ਨਿਰਭਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ?

  • ਵੱਡੇ ਪ੍ਰੋਂਪਟ: ਵੱਡੇ ਟੋਕਨ ਵਿੰਡੋਜ਼ ਵਾਲੇ ਮਾਡਲ ਹਰ ਚੀਜ਼ ਨੂੰ ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਪ੍ਰੋਸੈਸ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਬਾਹਰੀ ਰੀਟ੍ਰੀਵਲ ਸਿਸਟਮਾਂ ਨੂੰ ਬਣਾਈ ਰੱਖਣ ਅਤੇ ਕ੍ਰਾਸ-ਡੌਕੂਮੈਂਟ ਸੂਝ ਨੂੰ ਹਾਸਲ ਕਰਨ ਦੀ ਜ਼ਰੂਰਤ ਘੱਟ ਜਾਂਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਇਹ ਪਹੁੰਚ ਕੰਪਿਊਟੇਸ਼ਨਲ ਤੌਰ ‘ਤੇ ਮਹਿੰਗੀ ਹੈ, ਜਿਸ ਨਾਲ ਉੱਚ ਅਨੁਮਾਨ ਲਾਗਤਾਂ ਅਤੇ ਵਧੀ ਹੋਈ ਮੈਮੋਰੀ ਲੋੜਾਂ ਹੁੰਦੀਆਂ ਹਨ।

  • RAG: ਇੱਕੋ ਵਾਰ ਵਿੱਚ ਪੂਰੇ ਦਸਤਾਵੇਜ਼ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਦੀ ਬਜਾਏ, RAG ਜਵਾਬ ਤਿਆਰ ਕਰਨ ਤੋਂ ਪਹਿਲਾਂ ਸਿਰਫ਼ ਸਭ ਤੋਂ ਢੁਕਵੇਂ ਹਿੱਸਿਆਂ ਨੂੰ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ। ਇਹ ਟੋਕਨ ਦੀ ਵਰਤੋਂ ਅਤੇ ਲਾਗਤਾਂ ਨੂੰ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਘਟਾਉਂਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਇਹ ਅਸਲ-ਸੰਸਾਰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਵਧੇਰੇ ਸਕੇਲੇਬਲ ਬਣ ਜਾਂਦਾ ਹੈ।

ਅਨੁਮਾਨ ਲਾਗਤਾਂ: ਮਲਟੀ-ਸਟੈਪ ਰੀਟ੍ਰੀਵਲ ਬਨਾਮ ਵੱਡੇ ਸਿੰਗਲ ਪ੍ਰੋਂਪਟ

ਜਦੋਂ ਕਿ ਵੱਡੇ ਪ੍ਰੋਂਪਟ ਵਰਕਫਲੋ ਨੂੰ ਸੁਚਾਰੂ ਬਣਾਉਂਦੇ ਹਨ, ਉਨ੍ਹਾਂ ਨੂੰ ਵਧੇਰੇ GPU ਪਾਵਰ ਅਤੇ ਮੈਮੋਰੀ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ, ਜਿਸ ਨਾਲ ਉਹਨਾਂ ਨੂੰ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ ਲਾਗੂ ਕਰਨਾ ਮਹਿੰਗਾ ਹੋ ਜਾਂਦਾ ਹੈ। RAG-ਅਧਾਰਤ ਪਹੁੰਚ, ਮਲਟੀਪਲ ਰੀਟ੍ਰੀਵਲ ਸਟੈਪਾਂ ਦੀ ਲੋੜ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਅਕਸਰ ਸਮੁੱਚੀ ਟੋਕਨ ਖਪਤ ਨੂੰ ਘਟਾਉਂਦੀਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਸ਼ੁੱਧਤਾ ਨਾਲ ਸਮਝੌਤਾ ਕੀਤੇ ਬਿਨਾਂ ਘੱਟ ਅਨੁਮਾਨ ਲਾਗਤਾਂ ਹੁੰਦੀਆਂ ਹਨ।

ਜ਼ਿਆਦਾਤਰ ਕਾਰੋਬਾਰਾਂ ਲਈ, ਆਦਰਸ਼ ਪਹੁੰਚ ਖਾਸ ਵਰਤੋਂ ਦੇ ਕੇਸ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੀ ਹੈ:

  • ਕੀ ਤੁਹਾਨੂੰ ਦਸਤਾਵੇਜ਼ਾਂ ਦੇ ਡੂੰਘੇ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਲੋੜ ਹੈ? ਵੱਡੇ ਪ੍ਰਸੰਗ ਮਾਡਲ ਬਿਹਤਰ ਵਿਕਲਪ ਹੋ ਸਕਦੇ ਹਨ।
  • ਕੀ ਤੁਹਾਨੂੰ ਗਤੀਸ਼ੀਲ ਪੁੱਛਗਿੱਛਾਂ ਲਈ ਸਕੇਲੇਬਲ, ਲਾਗਤ-ਕੁਸ਼ਲ AI ਦੀ ਲੋੜ ਹੈ? RAG ਇੱਕ ਵਧੀਆ ਵਿਕਲਪ ਹੋਣ ਦੀ ਸੰਭਾਵਨਾ ਹੈ।

ਇੱਕ ਵੱਡੀ ਪ੍ਰਸੰਗ ਵਿੰਡੋ ਖਾਸ ਤੌਰ ‘ਤੇ ਉਦੋਂ ਕੀਮਤੀ ਹੁੰਦੀ ਹੈ ਜਦੋਂ:

  • ਪੂਰੇ ਟੈਕਸਟ ਦਾ ਇੱਕੋ ਵਾਰ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਜਾਣਾ ਚਾਹੀਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਇਕਰਾਰਨਾਮੇ ਦੀਆਂ ਸਮੀਖਿਆਵਾਂ ਜਾਂ ਕੋਡ ਆਡਿਟ ਵਿੱਚ।
  • ਮੁੜ ਪ੍ਰਾਪਤ ਕਰਨ ਦੀਆਂ ਗਲਤੀਆਂ ਨੂੰ ਘੱਟ ਕਰਨਾ ਮਹੱਤਵਪੂਰਨ ਹੈ, ਉਦਾਹਰਨ ਲਈ, ਰੈਗੂਲੇਟਰੀ ਪਾਲਣਾ ਵਿੱਚ।
  • ਸ਼ੁੱਧਤਾ ਨਾਲੋਂ ਲੇਟੈਂਸੀ ਘੱਟ ਚਿੰਤਾਜਨਕ ਹੈ, ਜਿਵੇਂ ਕਿ ਰਣਨੀਤਕ ਖੋਜ ਵਿੱਚ।

ਗੂਗਲ ਦੀ ਖੋਜ ਦੇ ਅਨੁਸਾਰ, 10 ਸਾਲਾਂ ਦੀਆਂ ਕਮਾਈਆਂ ਦੇ ਟ੍ਰਾਂਸਕ੍ਰਿਪਟਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਦੇ ਹੋਏ 128K-ਟੋਕਨ ਵਿੰਡੋਜ਼ ਦੀ ਵਰਤੋਂ ਕਰਨ ਵਾਲੇ ਸਟਾਕ ਭਵਿੱਖਬਾਣੀ ਮਾਡਲਾਂ ਨੇ RAG ਨਾਲੋਂ 29% ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਸਦੇ ਉਲਟ, GitHub Copilot ‘ਤੇ ਅੰਦਰੂਨੀ ਟੈਸਟਿੰਗ ਨੇ ਦਿਖਾਇਆ ਕਿ ਮੋਨੋਰੇਪੋ ਮਾਈਗ੍ਰੇਸ਼ਨ ਲਈ RAG ਦੇ ਮੁਕਾਬਲੇ ਵੱਡੇ ਪ੍ਰੋਂਪਟ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਟਾਸਕ ਪੂਰਾ ਕਰਨਾ 2.3 ਗੁਣਾ ਤੇਜ਼ ਸੀ।

ਵੱਡੇ ਪ੍ਰਸੰਗ ਮਾਡਲਾਂ ਦੀਆਂ ਸੀਮਾਵਾਂ: ਲੇਟੈਂਸੀ, ਲਾਗਤਾਂ, ਅਤੇ ਉਪਯੋਗਤਾ

ਜਦੋਂ ਕਿ ਵੱਡੇ ਪ੍ਰਸੰਗ ਮਾਡਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਸਮਰੱਥਾਵਾਂ ਪੇਸ਼ ਕਰਦੇ ਹਨ, ਇੱਥੇ ਇਸ ਗੱਲ ਦੀਆਂ ਸੀਮਾਵਾਂ ਹਨ ਕਿ ਕਿੰਨਾ ਵਾਧੂ ਪ੍ਰਸੰਗ ਸੱਚਮੁੱਚ ਲਾਭਦਾਇਕ ਹੈ। ਜਿਵੇਂ ਕਿ ਪ੍ਰਸੰਗ ਵਿੰਡੋਜ਼ ਦਾ ਵਿਸਤਾਰ ਹੁੰਦਾ ਹੈ, ਤਿੰਨ ਮੁੱਖ ਕਾਰਕ ਲਾਗੂ ਹੁੰਦੇ ਹਨ:

  • ਲੇਟੈਂਸੀ: ਜਿੰਨੇ ਜ਼ਿਆਦਾ ਟੋਕਨ ਇੱਕ ਮਾਡਲ ਪ੍ਰੋਸੈਸ ਕਰਦਾ ਹੈ, ਓਨਾ ਹੀ ਹੌਲੀ ਅਨੁਮਾਨ ਲਗਾਇਆ ਜਾਂਦਾ ਹੈ। ਵੱਡੀਆਂ ਪ੍ਰਸੰਗ ਵਿੰਡੋਜ਼ ਮਹੱਤਵਪੂਰਨ ਦੇਰੀ ਦਾ ਕਾਰਨ ਬਣ ਸਕਦੀਆਂ ਹਨ, ਖਾਸ ਕਰਕੇ ਜਦੋਂ ਰੀਅਲ-ਟਾਈਮ ਜਵਾਬਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

  • ਲਾਗਤਾਂ: ਕੰਪਿਊਟੇਸ਼ਨਲ ਲਾਗਤਾਂ ਪ੍ਰੋਸੈਸ ਕੀਤੇ ਗਏ ਹਰੇਕ ਵਾਧੂ ਟੋਕਨ ਨਾਲ ਵਧਦੀਆਂ ਹਨ। ਇਹਨਾਂ ਵੱਡੇ ਮਾਡਲਾਂ ਨੂੰ ਸੰਭਾਲਣ ਲਈ ਬੁਨਿਆਦੀ ਢਾਂਚੇ ਨੂੰ ਵਧਾਉਣਾ ਮਹਿੰਗਾ ਹੋ ਸਕਦਾ ਹੈ, ਖਾਸ ਕਰਕੇ ਉੱਚ-ਵੌਲਯੂਮ ਵਰਕਲੋਡ ਵਾਲੇ ਉੱਦਮਾਂ ਲਈ।

  • ਉਪਯੋਗਤਾ: ਜਿਵੇਂ ਕਿ ਪ੍ਰਸੰਗ ਵਧਦਾ ਹੈ, ਸਭ ਤੋਂ ਢੁਕਵੀਂ ਜਾਣਕਾਰੀ ‘ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ‘ਧਿਆਨ ਕੇਂਦਰਿਤ’ ਕਰਨ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਘੱਟ ਜਾਂਦੀ ਹੈ। ਇਸ ਨਾਲ ਅਕੁਸ਼ਲ ਪ੍ਰੋਸੈਸਿੰਗ ਹੋ ਸਕਦੀ ਹੈ, ਜਿੱਥੇ ਘੱਟ ਢੁਕਵਾਂ ਡੇਟਾ ਮਾਡਲ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਪ੍ਰਭਾਵਿਤ ਕਰਦਾ ਹੈ, ਜਿਸਦੇ ਨਤੀਜੇ ਵਜੋਂ ਸ਼ੁੱਧਤਾ ਅਤੇ ਕੁਸ਼ਲਤਾ ਦੋਵਾਂ ਲਈ ਘੱਟ ਰਿਟਰਨ ਹੁੰਦਾ ਹੈ।

ਗੂਗਲ ਦੀ ਇਨਫਿਨੀ-ਅਟੈਂਸ਼ਨ ਤਕਨੀਕ ਸੀਮਤ ਮੈਮੋਰੀ ਨਾਲ ਮਨਮਾਨੀ-ਲੰਬਾਈ ਵਾਲੇ ਪ੍ਰਸੰਗ ਦੇ ਸੰਕੁਚਿਤ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਨੂੰ ਸਟੋਰ ਕਰਕੇ ਇਹਨਾਂ ਵਪਾਰ-ਬੰਦਾਂ ਨੂੰ ਘਟਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਕੰਪਰੈਸ਼ਨ ਲਾਜ਼ਮੀ ਤੌਰ ‘ਤੇ ਜਾਣਕਾਰੀ ਦੇ ਨੁਕਸਾਨ ਦਾ ਕਾਰਨ ਬਣਦਾ ਹੈ, ਅਤੇ ਮਾਡਲ ਤੁਰੰਤ ਅਤੇ ਇਤਿਹਾਸਕ ਜਾਣਕਾਰੀ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਨ ਲਈ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਰਵਾਇਤੀ RAG ਦੇ ਮੁਕਾਬਲੇ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਗਿਰਾਵਟ ਅਤੇ ਵਧੀਆਂ ਲਾਗਤਾਂ ਹੁੰਦੀਆਂ ਹਨ।

ਜਦੋਂ ਕਿ 4M-ਟੋਕਨ ਮਾਡਲ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ, ਉੱਦਮਾਂ ਨੂੰ ਉਹਨਾਂ ਨੂੰ ਵਿਆਪਕ ਹੱਲਾਂ ਦੀ ਬਜਾਏ ਵਿਸ਼ੇਸ਼ ਸਾਧਨਾਂ ਵਜੋਂ ਦੇਖਣਾ ਚਾਹੀਦਾ ਹੈ। ਭਵਿੱਖ ਹਾਈਬ੍ਰਿਡ ਪ੍ਰਣਾਲੀਆਂ ਵਿੱਚ ਹੈ ਜੋ ਖਾਸ ਟਾਸਕ ਲੋੜਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ RAG ਅਤੇ ਵੱਡੇ ਪ੍ਰੋਂਪਟ ਦੇ ਵਿਚਕਾਰ ਅਨੁਕੂਲਿਤ ਤੌਰ ‘ਤੇ ਚੋਣ ਕਰਦੀਆਂ ਹਨ।

ਉੱਦਮਾਂ ਨੂੰ ਤਰਕ ਦੀ ਗੁੰਝਲਤਾ, ਲਾਗਤ ਵਿਚਾਰਾਂ, ਅਤੇ ਲੇਟੈਂਸੀ ਲੋੜਾਂ ਦੇ ਅਧਾਰ ਤੇ ਵੱਡੇ ਪ੍ਰਸੰਗ ਮਾਡਲਾਂ ਅਤੇ RAG ਦੇ ਵਿਚਕਾਰ ਚੋਣ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ। ਵੱਡੀਆਂ ਪ੍ਰਸੰਗ ਵਿੰਡੋਜ਼ ਡੂੰਘੀ ਸਮਝ ਦੀ ਲੋੜ ਵਾਲੇ ਕਾਰਜਾਂ ਲਈ ਆਦਰਸ਼ ਹਨ, ਜਦੋਂ ਕਿ RAG ਸਰਲ, ਤੱਥਾਂ ਵਾਲੇ ਕਾਰਜਾਂ ਲਈ ਵਧੇਰੇ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਅਤੇ ਕੁਸ਼ਲ ਹੈ। ਲਾਗਤਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਪ੍ਰਬੰਧਿਤ ਕਰਨ ਲਈ, ਉੱਦਮਾਂ ਨੂੰ ਸਪਸ਼ਟ ਲਾਗਤ ਸੀਮਾਵਾਂ ਨਿਰਧਾਰਤ ਕਰਨੀਆਂ ਚਾਹੀਦੀਆਂ ਹਨ, ਜਿਵੇਂ ਕਿ ਪ੍ਰਤੀ ਟਾਸਕ $0.50, ਕਿਉਂਕਿ ਵੱਡੇ ਮਾਡਲ ਜਲਦੀ ਹੀ ਮਹਿੰਗੇ ਹੋ ਸਕਦੇ ਹਨ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਵੱਡੇ ਪ੍ਰੋਂਪਟ ਔਫਲਾਈਨ ਕਾਰਜਾਂ ਲਈ ਵਧੇਰੇ ਢੁਕਵੇਂ ਹਨ, ਜਦੋਂ ਕਿ RAG ਪ੍ਰਣਾਲੀਆਂ ਰੀਅਲ-ਟਾਈਮ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਉੱਤਮ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੇਜ਼ ਜਵਾਬਾਂ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਗ੍ਰਾਫਆਰਏਜੀ ਵਰਗੀਆਂ ਉੱਭਰ ਰਹੀਆਂ ਕਾਢਾਂ ਗਿਆਨ ਗ੍ਰਾਫਾਂ ਨੂੰ ਰਵਾਇਤੀ ਵੈਕਟਰ ਰੀਟ੍ਰੀਵਲ ਵਿਧੀਆਂ ਨਾਲ ਜੋੜ ਕੇ ਇਹਨਾਂ ਅਨੁਕੂਲ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਹੋਰ ਵਧਾ ਸਕਦੀਆਂ ਹਨ। ਇਹ ਏਕੀਕਰਣ ਗੁੰਝਲਦਾਰ ਸਬੰਧਾਂ ਨੂੰ ਹਾਸਲ ਕਰਨ ਵਿੱਚ ਸੁਧਾਰ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਵੈਕਟਰ-ਕੇਵਲ ਪਹੁੰਚਾਂ ਦੇ ਮੁਕਾਬਲੇ 35% ਤੱਕ ਵਧੀ ਹੋਈ ਬਾਰੀਕ ਤਰਕ ਅਤੇ ਜਵਾਬ ਸ਼ੁੱਧਤਾ ਹੁੰਦੀ ਹੈ। Lettria ਵਰਗੀਆਂ ਕੰਪਨੀਆਂ ਦੁਆਰਾ ਹਾਲੀਆ ਲਾਗੂਕਰਨਾਂ ਨੇ ਸ਼ੁੱਧਤਾ ਵਿੱਚ ਨਾਟਕੀ ਸੁਧਾਰ ਦਿਖਾਏ ਹਨ, ਜੋ ਰਵਾਇਤੀ RAG ਨਾਲ 50% ਤੋਂ ਵੱਧ ਕੇ ਹਾਈਬ੍ਰਿਡ ਰੀਟ੍ਰੀਵਲ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਅੰਦਰ GraphRAG ਦੀ ਵਰਤੋਂ ਕਰਕੇ 80% ਤੋਂ ਵੱਧ ਹੋ ਗਈ ਹੈ।

ਜਿਵੇਂ ਕਿ ਯੂਰੀ ਕੁਰਾਟੋਵ ਨੇ ਸਹੀ ਢੰਗ ਨਾਲ ਚੇਤਾਵਨੀ ਦਿੱਤੀ ਹੈ, ‘ਤਰਕ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤੇ ਬਿਨਾਂ ਪ੍ਰਸੰਗ ਦਾ ਵਿਸਤਾਰ ਕਰਨਾ ਉਹਨਾਂ ਕਾਰਾਂ ਲਈ ਚੌੜੇ ਹਾਈਵੇ ਬਣਾਉਣ ਵਰਗਾ ਹੈ ਜੋ ਸਟੀਅਰ ਨਹੀਂ ਕਰ ਸਕਦੀਆਂ।’ AI ਦਾ ਅਸਲ ਭਵਿੱਖ ਉਹਨਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਹੈ ਜੋ ਅਸਲ ਵਿੱਚ ਕਿਸੇ ਵੀ ਪ੍ਰਸੰਗ ਆਕਾਰ ਵਿੱਚ ਸਬੰਧਾਂ ਨੂੰ ਸਮਝਦੇ ਹਨ, ਨਾ ਕਿ ਸਿਰਫ਼ ਉਹਨਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਜੋ ਵੱਡੀ ਮਾਤਰਾ ਵਿੱਚ ਡੇਟਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰ ਸਕਦੇ ਹਨ। ਇਹ ਬੁੱਧੀ ਬਾਰੇ ਹੈ, ਨਾ ਕਿ ਸਿਰਫ਼ ਮੈਮੋਰੀ ਬਾਰੇ।