Alibaba ਦਾ Qwen 2.5 Omni: ਮਲਟੀਮੋਡਲ AI 'ਚ ਨਵਾਂ ਦਾਅਵੇਦਾਰ

ਮੈਦਾਨ ਵਿੱਚ ਦਾਖਲਾ: ਉੱਨਤ AI ਵਿੱਚ Alibaba ਦੀ ਅਭਿਲਾਸ਼ੀ ਖੇਡ

ਆਰਟੀਫਿਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਵਿੱਚ ਨਵੀਨਤਾ ਦੀ ਨਿਰੰਤਰ ਗਤੀ ਉਦਯੋਗਾਂ ਨੂੰ ਮੁੜ ਆਕਾਰ ਦੇ ਰਹੀ ਹੈ ਅਤੇ ਮਨੁੱਖੀ-ਕੰਪਿਊਟਰ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀਆਂ ਸੀਮਾਵਾਂ ਨੂੰ ਮੁੜ ਪਰਿਭਾਸ਼ਿਤ ਕਰ ਰਹੀ ਹੈ। ਇਸ ਤੀਬਰ ਮੁਕਾਬਲੇ ਵਾਲੇ ਗਲੋਬਲ ਲੈਂਡਸਕੇਪ ਵਿੱਚ, ਪ੍ਰਮੁੱਖ ਤਕਨਾਲੋਜੀ ਖਿਡਾਰੀ ਲਗਾਤਾਰ ਅਜਿਹੇ ਮਾਡਲਾਂ ਨੂੰ ਪੇਸ਼ ਕਰਨ ਲਈ ਮੁਕਾਬਲਾ ਕਰ ਰਹੇ ਹਨ ਜੋ ਸਿਰਫ ਵਾਧੇ ਵਾਲੇ ਬਿਹਤਰ ਨਹੀਂ ਹਨ, ਬਲਕਿ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਵਧੇਰੇ ਸਮਰੱਥ ਹਨ। ਇਸ ਖੇਤਰ ਵਿੱਚ ਦਲੇਰੀ ਨਾਲ ਕਦਮ ਰੱਖਦੇ ਹੋਏ, Alibaba Cloud ਦੀ Qwen ਟੀਮ ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਆਪਣੇ ਵਧ ਰਹੇ AI ਪੋਰਟਫੋਲੀਓ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਵਾਧੇ ਤੋਂ ਪਰਦਾ ਹਟਾਇਆ: Qwen 2.5 Omni। ਇੱਕ ਫਲੈਗਸ਼ਿਪ-ਟੀਅਰ ਪੇਸ਼ਕਸ਼ ਵਜੋਂ ਸਥਿਤੀ, ਇਹ ਸਿਰਫ਼ ਇੱਕ ਹੋਰ ਭਾਸ਼ਾ ਮਾਡਲ ਨਹੀਂ ਹੈ; ਇਹ ਸੱਚਮੁੱਚ ਵਿਆਪਕ AI ਪ੍ਰਣਾਲੀਆਂ ਵੱਲ ਇੱਕ ਸੂਝਵਾਨ ਛਾਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਬੁੱਧਵਾਰ ਨੂੰ ਲਾਂਚ ਕੀਤਾ ਗਿਆ, ਇਹ ਮਾਡਲ Alibaba ਦੇ ਉੱਚ ਪੱਧਰਾਂ ‘ਤੇ ਮੁਕਾਬਲਾ ਕਰਨ ਦੇ ਸਪੱਸ਼ਟ ਇਰਾਦੇ ਦਾ ਸੰਕੇਤ ਦਿੰਦਾ ਹੈ, ਜੋ Silicon Valley ਦੇ ਦਿੱਗਜਾਂ ਤੋਂ ਉੱਭਰਨ ਵਾਲੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਕਾਬਲਾ ਕਰਨ ਵਾਲੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ। ‘Omni’ ਦਾ ਅਹੁਦਾ ਖੁਦ ਮਾਡਲ ਦੀ ਅਭਿਲਾਸ਼ਾ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ - ਸਮਝਣ ਅਤੇ ਸੰਚਾਰ ਕਰਨ ਦੀ ਆਪਣੀ ਯੋਗਤਾ ਵਿੱਚ ਸਰਵ-ਵਿਆਪਕ ਹੋਣਾ, Qwen ਪਰਿਵਾਰ ਅਤੇ Alibaba ਦੀ ਵਿਆਪਕ AI ਰਣਨੀਤੀ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਪਲ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਇਹ ਰੀਲੀਜ਼ ਸਿਰਫ਼ ਤਕਨੀਕੀ ਮੁਹਾਰਤ ਬਾਰੇ ਨਹੀਂ ਹੈ; ਇਹ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਸਤ ਹੋ ਰਹੇ AI ਈਕੋਸਿਸਟਮ ਵਿੱਚ ਡਿਵੈਲਪਰ ਦੀ ਦਿਲਚਸਪੀ ਅਤੇ ਮਾਰਕੀਟ ਸ਼ੇਅਰ ਹਾਸਲ ਕਰਨ ਦੇ ਉਦੇਸ਼ ਨਾਲ ਇੱਕ ਰਣਨੀਤਕ ਕਦਮ ਹੈ।

ਟੈਕਸਟ ਤੋਂ ਪਰੇ: ਸੰਚਾਰ ਦੇ ਪੂਰੇ ਸਪੈਕਟ੍ਰਮ ਨੂੰ ਅਪਣਾਉਣਾ

ਸਾਲਾਂ ਤੋਂ, AI ਨਾਲ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦਾ ਮੁੱਖ ਢੰਗ ਟੈਕਸਟ-ਅਧਾਰਤ ਰਿਹਾ ਹੈ। ਸ਼ਕਤੀਸ਼ਾਲੀ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਇਹ ਸੀਮਾ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਸੰਚਾਰ ਦੀ ਅਮੀਰੀ ਅਤੇ ਸੂਖਮਤਾ ਨੂੰ ਸੀਮਤ ਕਰਦੀ ਹੈ। Qwen 2.5 Omni ਸੱਚੀ ਮਲਟੀਮੋਡੈਲਿਟੀ ਨੂੰ ਅਪਣਾ ਕੇ ਇਹਨਾਂ ਰੁਕਾਵਟਾਂ ਨੂੰ ਤੋੜਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦਾ ਹੈ। ਇਸਦਾ ਮਤਲਬ ਹੈ ਕਿ ਮਾਡਲ ਸਿਰਫ ਸਕ੍ਰੀਨ ‘ਤੇ ਸ਼ਬਦਾਂ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਤੱਕ ਸੀਮਿਤ ਨਹੀਂ ਹੈ; ਇਸਦੀਆਂ ਸਮਝਣ ਵਾਲੀਆਂ ਸਮਰੱਥਾਵਾਂ ਇੱਕ ਬਹੁਤ ਵਿਆਪਕ ਸੰਵੇਦੀ ਸਪੈਕਟ੍ਰਮ ਵਿੱਚ ਫੈਲੀਆਂ ਹੋਈਆਂ ਹਨ।

ਸਿਸਟਮ ਨੂੰ ਵਿਭਿੰਨ ਇਨਪੁਟਸ ਤੋਂ ਜਾਣਕਾਰੀ ਸਵੀਕਾਰ ਕਰਨ ਅਤੇ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਇੰਜਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ:

  • ਟੈਕਸਟ: ਬੁਨਿਆਦੀ ਤੱਤ, ਰਵਾਇਤੀ ਪ੍ਰੋਂਪਟ ਅਤੇ ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ।
  • ਚਿੱਤਰ: AI ਨੂੰ ਫੋਟੋਆਂ ਅਤੇ ਡਾਇਗ੍ਰਾਮ ਤੋਂ ਲੈ ਕੇ ਗੁੰਝਲਦਾਰ ਦ੍ਰਿਸ਼ਾਂ ਤੱਕ, ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਨੂੰ ‘ਦੇਖਣ’ ਅਤੇ ਸਮਝਣ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ।
  • ਆਡੀਓ: ਮਾਡਲ ਨੂੰ ਬੋਲੀ ਜਾਣ ਵਾਲੀ ਭਾਸ਼ਾ, ਆਵਾਜ਼ਾਂ ਅਤੇ ਸੰਗੀਤ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਆਵਾਜ਼-ਅਧਾਰਤ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਅਤੇ ਵਿਸ਼ਲੇਸ਼ਣ ਲਈ ਦਰਵਾਜ਼ੇ ਖੋਲ੍ਹਦਾ ਹੈ।
  • ਵੀਡੀਓ: ਸਮੇਂ ਦੇ ਨਾਲ ਵਿਜ਼ੂਅਲ ਅਤੇ ਆਡੀਟੋਰੀ ਜਾਣਕਾਰੀ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ, ਗਤੀਸ਼ੀਲ ਘਟਨਾਵਾਂ, ਪੇਸ਼ਕਾਰੀਆਂ, ਜਾਂ ਉਪਭੋਗਤਾ ਕਾਰਵਾਈਆਂ ਦੀ ਸਮਝ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।

ਇਸ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟ ਸਮਰੱਥਾ ਦੀ ਮਹੱਤਤਾ ਨੂੰ ਵਧਾ-ਚੜ੍ਹਾ ਕੇ ਨਹੀਂ ਦੱਸਿਆ ਜਾ ਸਕਦਾ। ਇਹ AI ਨੂੰ ਦੁਨੀਆ ਅਤੇ ਉਪਭੋਗਤਾ ਦੇ ਇਰਾਦੇ ਦੀ ਇੱਕ ਬਹੁਤ ਅਮੀਰ, ਵਧੇਰੇ ਪ੍ਰਸੰਗ-ਜਾਣੂ ਸਮਝ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਕਲਪਨਾ ਕਰੋ, ਇੱਕ ਉਪਭੋਗਤਾ ਜ਼ੁਬਾਨੀ ਤੌਰ ‘ਤੇ ਇੱਕ ਫੋਟੋ ਵਿੱਚ ਇੱਕ ਖਾਸ ਵਸਤੂ ਬਾਰੇ ਇੱਕ ਸਵਾਲ ਪੁੱਛ ਰਿਹਾ ਹੈ ਜੋ ਉਹ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਜਾਂ ਇੱਕ AI ਇੱਕ ਵੀਡੀਓ ਕਾਨਫਰੰਸ ਕਾਲ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਰਿਹਾ ਹੈ, ਨਾ ਸਿਰਫ ਬੋਲੇ ਗਏ ਸ਼ਬਦਾਂ ਨੂੰ ਸਮਝ ਰਿਹਾ ਹੈ ਬਲਕਿ ਸਾਂਝੀਆਂ ਸਕ੍ਰੀਨਾਂ ‘ਤੇ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਵਿਜ਼ੂਅਲ ਸੰਕੇਤਾਂ ਨੂੰ ਵੀ ਸਮਝ ਰਿਹਾ ਹੈ। ਇਹ ਸੰਪੂਰਨ ਸਮਝ AI ਨੂੰ ਮਨੁੱਖੀ-ਵਰਗੀ ਧਾਰਨਾ ਦੀ ਨਕਲ ਕਰਨ ਦੇ ਨੇੜੇ ਲੈ ਜਾਂਦੀ ਹੈ, ਜਿੱਥੇ ਵੱਖ-ਵੱਖ ਇੰਦਰੀਆਂ ਗੁੰਝਲਦਾਰ ਸਥਿਤੀਆਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਲਈ ਮਿਲ ਕੇ ਕੰਮ ਕਰਦੀਆਂ ਹਨ। ਇਹਨਾਂ ਵਿਭਿੰਨ ਡਾਟਾ ਸਟ੍ਰੀਮਾਂ ਨੂੰ ਇੱਕੋ ਸਮੇਂ ਪ੍ਰੋਸੈਸ ਕਰਕੇ, Qwen 2.5 Omni ਉਹਨਾਂ ਕਾਰਜਾਂ ਨਾਲਨਜਿੱਠ ਸਕਦਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਸਿੰਗਲ-ਮੋਡੈਲਿਟੀ ਮਾਡਲਾਂ ਲਈ ਅਸੰਭਵ ਸਨ, ਵਧੇਰੇ ਅਨੁਭਵੀ ਅਤੇ ਸ਼ਕਤੀਸ਼ਾਲੀ AI ਐਪਲੀਕੇਸ਼ਨਾਂ ਲਈ ਰਾਹ ਪੱਧਰਾ ਕਰਦੇ ਹਨ। ਵੱਖ-ਵੱਖ ਸਰੋਤਾਂ ਤੋਂ ਜਾਣਕਾਰੀ ਨੂੰ ਸਹਿਜੇ ਹੀ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਦੀ ਯੋਗਤਾ AI ਏਜੰਟ ਬਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਜੋ ਬਹੁਪੱਖੀ ਅਸਲ ਸੰਸਾਰ ਵਿੱਚ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕੰਮ ਕਰ ਸਕਦੇ ਹਨ।

ਬੁੱਧੀ ਦੀ ਆਵਾਜ਼: ਰੀਅਲ-ਟਾਈਮ ਸਪੀਚ ਅਤੇ ਵੀਡੀਓ ਇੰਟਰੈਕਸ਼ਨ

ਇਸਦੀਆਂ ਇਨਪੁਟ ਸਮਰੱਥਾਵਾਂ ਜਿੰਨੀਆਂ ਹੀ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹਨ Qwen 2.5 Omni ਦੇ ਪ੍ਰਗਟਾਵੇ ਦੇ ਢੰਗ। ਸਥਿਰ ਟੈਕਸਟ ਜਵਾਬਾਂ ਤੋਂ ਪਰੇ ਜਾਂਦੇ ਹੋਏ, ਮਾਡਲ ਟੈਕਸਟ ਅਤੇ ਕਮਾਲ ਦੀ ਕੁਦਰਤੀ-ਆਵਾਜ਼ ਵਾਲੀ ਸਪੀਚ ਦੋਵਾਂ ਦੀ ਰੀਅਲ-ਟਾਈਮ ਜਨਰੇਸ਼ਨ ਦੀ ਅਗਵਾਈ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ ਇਸਦੇ ਡਿਜ਼ਾਈਨ ਦਾ ਇੱਕ ਅਧਾਰ ਹੈ, ਜਿਸਦਾ ਉਦੇਸ਼ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਨੂੰ ਤਰਲ, ਤੁਰੰਤ, ਅਤੇ ਦਿਲਚਸਪ ਤੌਰ ‘ਤੇ ਮਨੁੱਖੀ ਵਰਗਾ ਬਣਾਉਣਾ ਹੈ।

‘ਰੀਅਲ-ਟਾਈਮ’ ‘ਤੇ ਜ਼ੋਰ ਮਹੱਤਵਪੂਰਨ ਹੈ। ਉਹਨਾਂ ਪ੍ਰਣਾਲੀਆਂ ਦੇ ਉਲਟ ਜੋ ਇੱਕ ਪੁੱਛਗਿੱਛ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰ ਸਕਦੀਆਂ ਹਨ ਅਤੇ ਫਿਰ ਧਿਆਨ ਦੇਣ ਯੋਗ ਦੇਰੀ ਨਾਲ ਜਵਾਬ ਪੈਦਾ ਕਰ ਸਕਦੀਆਂ ਹਨ, Qwen 2.5 Omni ਤੁਰੰਤਤਾ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ ਘੱਟ ਲੇਟੈਂਸੀ ਸੱਚਮੁੱਚ ਗੱਲਬਾਤ ਦੇ ਤਜ਼ਰਬੇ ਬਣਾਉਣ ਲਈ ਜ਼ਰੂਰੀ ਹੈ, ਜਿੱਥੇ AI ਇੱਕ ਸੰਵਾਦ ਦੇ ਅੰਦਰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ, ਬਹੁਤ ਕੁਝ ਇੱਕ ਮਨੁੱਖੀ ਭਾਗੀਦਾਰ ਵਾਂਗ। ਟੀਚਾ ਸਹਿਜ ਅੱਗੇ-ਪਿੱਛੇ ਹੈ, ਉਹਨਾਂ ਅਜੀਬ ਵਿਰਾਮਾਂ ਨੂੰ ਖਤਮ ਕਰਨਾ ਜੋ ਅਕਸਰ ਮੌਜੂਦਾ AI ਪਰਸਪਰ ਪ੍ਰਭਾਵਾਂ ਦੀ ਨਕਲੀ ਪ੍ਰਕਿਰਤੀ ਨੂੰ ਧੋਖਾ ਦਿੰਦੇ ਹਨ।

ਇਸ ਤੋਂ ਇਲਾਵਾ, ਫੋਕਸ ਕੁਦਰਤੀ ਭਾਸ਼ਣ ‘ਤੇ ਹੈ। ਉਦੇਸ਼ ਅਕਸਰ ਇਕਸਾਰ ਜਾਂ ਰੋਬੋਟਿਕ ਕੈਡੈਂਸ ਨੂੰ ਪਾਰ ਕਰਨਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਦੀਆਂ ਟੈਕਸਟ-ਟੂ-ਸਪੀਚ ਤਕਨਾਲੋਜੀਆਂ ਨਾਲ ਜੁੜਿਆ ਹੋਇਆ ਹੈ। Alibaba ਮਾਡਲ ਦੀ ਅਸਲ-ਸਮੇਂ ਵਿੱਚ ਭਾਸ਼ਣ ਦੀ ਸਟ੍ਰੀਮਿੰਗ ਦੀ ਸਮਰੱਥਾ ਨੂੰ ਇਸ ਤਰੀਕੇ ਨਾਲ ਉਜਾਗਰ ਕਰਦਾ ਹੈ ਜੋ ਮਨੁੱਖੀ ਪ੍ਰੋਸੋਡੀ ਅਤੇ ਇੰਟੋਨੇਸ਼ਨ ਦੀ ਨਕਲ ਕਰਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਜ਼ੁਬਾਨੀ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਪ੍ਰਮਾਣਿਕ ਅਤੇ ਘੱਟ ਪ੍ਰੇਸ਼ਾਨ ਕਰਨ ਵਾਲੇ ਮਹਿਸੂਸ ਹੁੰਦੇ ਹਨ।

ਇੰਟਰਐਕਟਿਵ ਡੂੰਘਾਈ ਦੀ ਇੱਕ ਹੋਰ ਪਰਤ ਜੋੜਨਾ ਮਾਡਲ ਦੀ ਵੀਡੀਓ ਚੈਟ ਸਮਰੱਥਾ ਹੈ। ਇਹ ਆਹਮੋ-ਸਾਹਮਣੇ ਸ਼ੈਲੀ ਦੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ ਜਿੱਥੇ AI ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਨਾ ਸਿਰਫ ਜ਼ੁਬਾਨੀ ਤੌਰ ‘ਤੇ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ ਬਲਕਿ ਅਸਲ-ਸਮੇਂ ਵਿੱਚ ਉਪਭੋਗਤਾ ਤੋਂ ਵਿਜ਼ੂਅਲ ਇਨਪੁਟ ‘ਤੇ ਵੀ ਪ੍ਰਤੀਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ। ਇੱਕ ਲਾਈਵ ਵੀਡੀਓ ਪ੍ਰਸੰਗ ਵਿੱਚ ਦੇਖਣ, ਸੁਣਨ ਅਤੇ ਬੋਲਣ ਦਾ ਇਹ ਸੁਮੇਲ ਵਧੇਰੇ ਮੂਰਤ ਅਤੇ ਵਿਅਕਤੀਗਤ AI ਸਹਾਇਕਾਂ ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਇਹ ਆਉਟਪੁੱਟ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਸਮੂਹਿਕ ਤੌਰ ‘ਤੇ ਉਪਭੋਗਤਾ ਅਨੁਭਵ ਨੂੰ ਬਦਲਦੀਆਂ ਹਨ। ਇੱਕ AI ਜੋ ਕੁਦਰਤੀ ਤੌਰ ‘ਤੇ ਗੱਲਬਾਤ ਕਰ ਸਕਦਾ ਹੈ, ਤੁਰੰਤ ਜਵਾਬ ਦੇ ਸਕਦਾ ਹੈ, ਅਤੇ ਵੀਡੀਓ ਦੁਆਰਾ ਸ਼ਾਮਲ ਹੋ ਸਕਦਾ ਹੈ, ਇੱਕ ਸਾਧਨ ਵਾਂਗ ਘੱਟ ਅਤੇ ਇੱਕ ਸਹਿਯੋਗੀ ਜਾਂ ਸਹਾਇਕ ਵਾਂਗ ਵਧੇਰੇ ਮਹਿਸੂਸ ਹੁੰਦਾ ਹੈ। ਹਾਲ ਹੀ ਤੱਕ, ਅਜਿਹੀਆਂ ਸੂਝਵਾਨ ਰੀਅਲ-ਟਾਈਮ, ਮਲਟੀਮੋਡਲ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਸਮਰੱਥਾਵਾਂ ਵੱਡੇ ਪੱਧਰ ‘ਤੇ Google (Gemini ਵਰਗੇ ਮਾਡਲਾਂ ਨਾਲ) ਅਤੇ OpenAI (GPT-4o ਨਾਲ) ਵਰਗੇ ਦਿੱਗਜਾਂ ਦੇ ਬੰਦ-ਸਰੋਤ ਈਕੋਸਿਸਟਮ ਤੱਕ ਸੀਮਤ ਸਨ। Alibaba ਦਾ ਇਸ ਤਕਨਾਲੋਜੀ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਅਤੇ, ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਓਪਨ-ਸੋਰਸ ਕਰਨ ਦਾ ਫੈਸਲਾ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਲੋਕਤੰਤਰੀਕਰਨ ਕਦਮ ਹੈ।

ਪਰਦੇ ਦੇ ਪਿੱਛੇ: ਹੁਸ਼ਿਆਰ ‘Thinker-Talker’ ਆਰਕੀਟੈਕਚਰ

ਇਹਨਾਂ ਉੱਨਤ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਨਾ ਇੱਕ ਨਾਵਲ ਸਿਸਟਮ ਆਰਕੀਟੈਕਚਰ ਹੈ ਜਿਸਨੂੰ Alibaba ‘Thinker-Talker’ ਕਹਿੰਦਾ ਹੈ। ਇਹ ਡਿਜ਼ਾਈਨ ਫਿਲਾਸਫੀ ਚਲਾਕੀ ਨਾਲ ਬੋਧਾਤਮਕ ਪ੍ਰੋਸੈਸਿੰਗ ਨੂੰ ਭਾਵਪੂਰਤ ਡਿਲੀਵਰੀ ਤੋਂ ਵੱਖ ਕਰਦੀ ਹੈ, ਹਰੇਕ ਫੰਕਸ਼ਨ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਂਦੀ ਹੈ ਜਦੋਂ ਕਿ ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦੀ ਹੈ ਕਿ ਉਹ ਇੱਕ ਸਿੰਗਲ, ਯੂਨੀਫਾਈਡ ਮਾਡਲ ਦੇ ਅੰਦਰ ਸੰਪੂਰਨ ਇਕਸੁਰਤਾ ਵਿੱਚ ਕੰਮ ਕਰਦੇ ਹਨ। ਇਹ ਇੱਕ ਸ਼ਾਨਦਾਰ ਹੱਲ ਹੈ ਜੋ ਰੀਅਲ-ਟਾਈਮ ਮਲਟੀਮੋਡਲ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀਆਂ ਜਟਿਲਤਾਵਾਂ ਨੂੰ ਕੁਸ਼ਲਤਾ ਨਾਲ ਸੰਭਾਲਣ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ।

The Thinker: ਇਹ ਕੰਪੋਨੈਂਟ ਮਾਡਲ ਦੇ ਬੋਧਾਤਮਕ ਕੋਰ, ਇਸਦੇ ‘ਦਿਮਾਗ’ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਭਿੰਨ ਇਨਪੁਟਸ - ਟੈਕਸਟ, ਚਿੱਤਰ, ਆਡੀਓ ਅਤੇ ਵੀਡੀਓ - ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ ਅਤੇ ਸਮਝਣ ਦੀ ਮੁੱਖ ਜ਼ਿੰਮੇਵਾਰੀ ਲੈਂਦਾ ਹੈ। ਖੋਜਕਰਤਾ ਦੱਸਦੇ ਹਨ ਕਿ ਇਹ ਬੁਨਿਆਦੀ ਤੌਰ ‘ਤੇ ਇੱਕ Transformer ਡੀਕੋਡਰ ਆਰਕੀਟੈਕਚਰ ‘ਤੇ ਅਧਾਰਤ ਹੈ, ਜੋ ਵੱਖ-ਵੱਖ ਰੂਪਾਂ ਨੂੰ ਇੱਕ ਸਾਂਝੇ ਪ੍ਰਤੀਨਿਧਤਾਤਮਕ ਸਪੇਸ ਵਿੱਚ ਏਨਕੋਡ ਕਰਨ ਵਿੱਚ ਮਾਹਰ ਹੈ। ਇਹ Thinker ਨੂੰ ਸੰਬੰਧਿਤ ਜਾਣਕਾਰੀ ਕੱਢਣ, ਵੱਖ-ਵੱਖ ਡਾਟਾ ਕਿਸਮਾਂ ਵਿੱਚ ਤਰਕ ਕਰਨ, ਅਤੇ ਅੰਤ ਵਿੱਚ ਜਵਾਬ ਦੀ ਸਮੱਗਰੀ ਤਿਆਰ ਕਰਨ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਨਿਰਧਾਰਤ ਕਰਦਾ ਹੈ ਕਿ ਇਨਪੁਟ ਪ੍ਰਸੰਗ ਦੀ ਇਸਦੀ ਵਿਆਪਕ ਸਮਝ ਦੇ ਅਧਾਰ ਤੇ ਕੀ ਕਹਿਣ ਜਾਂ ਦੱਸਣ ਦੀ ਲੋੜ ਹੈ। ਇਹ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਕਰਾਸ-ਮੋਡਲ ਫਿਊਜ਼ਨ ਹੁੰਦਾ ਹੈ, ਮਾਡਲ ਨੂੰ ਜੋੜਨ ਦੇ ਯੋਗ ਬਣਾਉਂਦਾ ਹੈ, ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਚਿੱਤਰ ਦੇ ਅੰਦਰ ਇੱਕ ਤੱਤ ਲਈ ਇੱਕ ਬੋਲੀ ਗਈ ਪੁੱਛਗਿੱਛ।

The Talker: ਜੇਕਰ Thinker ਦਿਮਾਗ ਹੈ, ਤਾਂ Talker ‘ਮੂੰਹ’ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, ਜੋ Thinker ਦੇ ਤਿਆਰ ਕੀਤੇ ਜਵਾਬ ਨੂੰ ਸਪਸ਼ਟ ਕਰਨ ਲਈ ਜ਼ਿੰਮੇਵਾਰ ਹੈ। ਇਸਦੀ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ Thinker ਤੋਂ ਸੰਕਲਪਿਕ ਆਉਟਪੁੱਟ ਲੈਣਾ ਅਤੇ ਇਸਨੂੰ ਭਾਸ਼ਣ (ਜਾਂ ਟੈਕਸਟ, ਜੇ ਲੋੜ ਹੋਵੇ) ਦੀ ਇੱਕ ਸਹਿਜ, ਕੁਦਰਤੀ-ਆਵਾਜ਼ ਵਾਲੀ ਧਾਰਾ ਵਜੋਂ ਪੇਸ਼ ਕਰਨਾ ਹੈ। ਖੋਜਕਰਤਾ ਇਸਨੂੰ ਇੱਕ ਡਿਊਲ-ਟਰੈਕ ਆਟੋਰਿਗਰੈਸਿਵ Transformer ਡੀਕੋਡਰ ਵਜੋਂ ਦਰਸਾਉਂਦੇ ਹਨ। ਇਹ ਖਾਸ ਡਿਜ਼ਾਈਨ ਸੰਭਾਵਤ ਤੌਰ ‘ਤੇ ਭਾਸ਼ਣ ਦੀ ਤਰਲ, ਧਾਰਾ-ਵਰਗੀ ਪੀੜ੍ਹੀ ਦੀ ਸਹੂਲਤ ਦਿੰਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਸਧਾਰਨ ਆਰਕੀਟੈਕਚਰਾਂ ਨਾਲੋਂ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਇੰਟੋਨੇਸ਼ਨ ਅਤੇ ਪੇਸਿੰਗ ਵਰਗੇ ਪਹਿਲੂਆਂ ਨੂੰ ਸੰਭਾਲਦਾ ਹੈ। ‘ਡਿਊਲ-ਟਰੈਕ’ ਪ੍ਰਕਿਰਤੀ ਸਮਾਨਾਂਤਰ ਪ੍ਰੋਸੈਸਿੰਗ ਮਾਰਗਾਂ ਦਾ ਸੰਕੇਤ ਦੇ ਸਕਦੀ ਹੈ, ਜੋ ਅਸਲ-ਸਮੇਂ ਦੀ ਗੱਲਬਾਤ ਲਈ ਲੋੜੀਂਦੀ ਘੱਟ ਲੇਟੈਂਸੀ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੀ ਹੈ। ਇਹ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਡਿਲੀਵਰੀ ਨਾ ਸਿਰਫ ਸਹੀ ਹੈ ਬਲਕਿ ਉਚਿਤ ਸਮੇਂ ਸਿਰ ਅਤੇ ਕੁਦਰਤੀ-ਆਵਾਜ਼ ਵਾਲੀ ਵੀ ਹੈ।

ਤਾਲਮੇਲ ਅਤੇ ਏਕੀਕਰਣ: Thinker-Talker ਆਰਕੀਟੈਕਚਰ ਦੀ ਪ੍ਰਤਿਭਾ ਇਸਦੇ ਏਕੀਕਰਣ ਵਿੱਚ ਹੈ। ਇਹ ਦੋ ਵੱਖਰੇ ਮਾਡਲ ਨਹੀਂ ਹਨ ਜੋ ਅਜੀਬ ਤਰੀਕੇ ਨਾਲ ਇਕੱਠੇ ਜੁੜੇ ਹੋਏ ਹਨ; ਉਹ ਇੱਕ ਸਿੰਗਲ, ਇਕਸਾਰ ਸਿਸਟਮ ਦੇ ਹਿੱਸਿਆਂ ਵਜੋਂ ਕੰਮ ਕਰਦੇ ਹਨ। ਇਹ ਤੰਗ ਏਕੀਕਰਣ ਮਹੱਤਵਪੂਰਨ ਫਾਇਦੇ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ:

  • ਐਂਡ-ਟੂ-ਐਂਡ ਟ੍ਰੇਨਿੰਗ: ਪੂਰੇ ਮਾਡਲ ਨੂੰ, ਇਨਪੁਟ ਧਾਰਨਾ (Thinker) ਤੋਂ ਆਉਟਪੁੱਟ ਜਨਰੇਸ਼ਨ (Talker) ਤੱਕ, ਸੰਪੂਰਨ ਤੌਰ ‘ਤੇ ਸਿਖਲਾਈ ਦਿੱਤੀ ਜਾ ਸਕਦੀ ਹੈ। ਇਹ ਸਿਸਟਮ ਨੂੰ ਪੂਰੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੇ ਪ੍ਰਵਾਹ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਪਾਈਪਲਾਈਨ ਪਹੁੰਚਾਂ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਸਮਝ ਅਤੇ ਪ੍ਰਗਟਾਵੇ ਦੇ ਵਿਚਕਾਰ ਬਿਹਤਰ ਤਾਲਮੇਲ ਵੱਲ ਅਗਵਾਈ ਕਰਦਾ ਹੈ।
  • ਸਹਿਜ ਅਨੁਮਾਨ: ਓਪਰੇਸ਼ਨ ਦੌਰਾਨ, ਜਾਣਕਾਰੀ Thinker ਤੋਂ Talker ਤੱਕ ਸੁਚਾਰੂ ਢੰਗ ਨਾਲ ਵਹਿੰਦੀ ਹੈ, ਰੁਕਾਵਟਾਂ ਨੂੰ ਘੱਟ ਕਰਦੀ ਹੈ ਅਤੇ ਰੀਅਲ-ਟਾਈਮ ਟੈਕਸਟ ਅਤੇ ਸਪੀਚ ਜਨਰੇਸ਼ਨ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦੀ ਹੈ ਜੋ Qwen 2.5 Omni ਨੂੰ ਪਰਿਭਾਸ਼ਿਤ ਕਰਦੀ ਹੈ।
  • ਕੁਸ਼ਲਤਾ: ਇੱਕ ਮਾਡਲ ਦੇ ਅੰਦਰ ਇਕੱਠੇ ਕੰਮ ਕਰਨ ਲਈ ਕੰਪੋਨੈਂਟਸ ਨੂੰ ਡਿਜ਼ਾਈਨ ਕਰਕੇ, Alibaba ਸਮਝਣ ਅਤੇ ਪੈਦਾ ਕਰਨ ਲਈ ਕਈ, ਵੱਖੋ-ਵੱਖਰੇ ਮਾਡਲਾਂ ਨੂੰ ਚਲਾਉਣ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਵਧੇਰੇ ਕੁਸ਼ਲਤਾ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦਾ ਹੈ।

ਇਹ ਆਰਕੀਟੈਕਚਰ ਮਲਟੀਮੋਡਲ AI ਦੀਆਂ ਚੁਣੌਤੀਆਂ ਨਾਲ ਨਜਿੱਠਣ ਲਈ ਇੱਕ ਵਿਚਾਰਸ਼ੀਲ ਪਹੁੰਚ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਜਵਾਬਦੇਹ, ਕੁਦਰਤੀ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੀ ਲੋੜ ਦੇ ਨਾਲ ਸੂਝਵਾਨ ਪ੍ਰੋਸੈਸਿੰਗ ਨੂੰ ਸੰਤੁਲਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਇੱਕ ਤਕਨੀਕੀ ਨੀਂਹ ਹੈ ਜੋ ਰੀਅਲ-ਟਾਈਮ, ਮਨੁੱਖੀ-ਵਰਗੀ ਗੱਲਬਾਤ ਦੀਆਂ ਮੰਗਾਂ ਲਈ ਬਣਾਈ ਗਈ ਹੈ।

ਇੱਕ ਰਣਨੀਤਕ ਜੁਗਤ: ਓਪਨ ਸੋਰਸ ਦੀ ਸ਼ਕਤੀ

ਸ਼ਾਇਦ Qwen 2.5 Omni ਲਾਂਚ ਦੇ ਸਭ ਤੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਪਹਿਲੂਆਂ ਵਿੱਚੋਂ ਇੱਕ Alibaba ਦਾ ਤਕਨਾਲੋਜੀ ਨੂੰ ਓਪਨ-ਸੋਰਸ ਕਰਨ ਦਾ ਫੈਸਲਾ ਹੈ। ਇੱਕ ਯੁੱਗ ਵਿੱਚ ਜਿੱਥੇ OpenAI ਅਤੇ Google ਵਰਗੇ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੇ ਪ੍ਰਮੁੱਖ ਮਲਟੀਮੋਡਲ ਮਾਡਲ ਅਕਸਰ ਮਲਕੀਅਤ ਵਾਲੇ ਹੁੰਦੇ ਹਨ, ਉਹਨਾਂ ਦੇ ਸੰਬੰਧਿਤ ਈਕੋਸਿਸਟਮ ਦੇ ਅੰਦਰ ਨੇੜਿਓਂ ਸੁਰੱਖਿਅਤ ਹੁੰਦੇ ਹਨ, Alibaba ਇੱਕ ਵੱਖਰਾ ਰਸਤਾ ਅਪਣਾ ਰਿਹਾ ਹੈ। ਇਸ ਕਦਮ ਦੇ ਮਹੱਤਵਪੂਰਨ ਰਣਨੀਤਕ ਪ੍ਰਭਾਵ ਹਨ, Alibaba ਅਤੇ ਵਿਆਪਕ AI ਭਾਈਚਾਰੇ ਦੋਵਾਂ ਲਈ।

Hugging Face ਅਤੇ GitHub ਵਰਗੇ ਪਲੇਟਫਾਰਮਾਂ ਰਾਹੀਂ ਮਾਡਲ ਅਤੇ ਇਸਦੇ ਅੰਤਰੀਵ ਆਰਕੀਟੈਕਚਰ ਨੂੰ ਪਹੁੰਚਯੋਗ ਬਣਾ ਕੇ, Alibaba ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਗਲੋਬਲ ਡਿਵੈਲਪਰ ਅਤੇ ਖੋਜ ਭਾਈਚਾਰੇ ਨੂੰ ਉਹਨਾਂ ਦੇ ਕੰਮ ਦੀ ਵਰਤੋਂ ਕਰਨ, ਜਾਂਚ ਕਰਨ ਅਤੇ ਉਸ ‘ਤੇ ਨਿਰਮਾਣ ਕਰਨ ਲਈ ਸੱਦਾ ਦੇ ਰਿਹਾ ਹੈ। ਇਹ ਕੁਝ ਵਿਰੋਧੀਆਂ ਦੁਆਰਾ ਪਸੰਦ ਕੀਤੇ ‘ਵਾਲਡ ਗਾਰਡਨ’ ਪਹੁੰਚ ਨਾਲ ਤੇਜ਼ੀ ਨਾਲ ਉਲਟ ਹੈ। ਇਸ ਖੁੱਲ੍ਹੀ ਰਣਨੀਤੀ ਨੂੰ ਕੀ ਪ੍ਰੇਰਿਤ ਕਰ ਸਕਦਾ ਹੈ?

  • ਤੇਜ਼ੀ ਨਾਲ ਅਪਣਾਉਣਾ ਅਤੇ ਨਵੀਨਤਾ: ਓਪਨ-ਸੋਰਸਿੰਗ ਦੁਨੀਆ ਭਰ ਦੇ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਖੋਜਕਰਤਾਵਾਂ ਲਈ ਦਾਖਲੇ ਦੀ ਰੁਕਾਵਟ ਨੂੰ ਨਾਟਕੀ ਢੰਗ ਨਾਲ ਘੱਟ ਕਰ ਸਕਦੀ ਹੈ। ਇਹ Qwen ਤਕਨਾਲੋਜੀ ਨੂੰ ਤੇਜ਼ੀ ਨਾਲ ਅਪਣਾਉਣ ਅਤੇ ਨਵੀਨਤਾ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰ ਸਕਦਾ ਹੈ ਕਿਉਂਕਿ ਭਾਈਚਾਰਾ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਦਾ ਹੈ ਅਤੇ ਉਹਨਾਂ ਤਰੀਕਿਆਂ ਨਾਲ ਵਿਸਤਾਰ ਕਰਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ Alibaba ਨੇ ਕਲਪਨਾ ਨਹੀਂ ਕੀਤੀ ਹੋ ਸਕਦੀ।
  • ਇੱਕ ਭਾਈਚਾਰਾ ਅਤੇ ਈਕੋਸਿਸਟਮ ਬਣਾਉਣਾ: ਇੱਕ ਸਰਗਰਮ ਓਪਨ-ਸੋਰਸ ਭਾਈਚਾਰਾ Qwen ਮਾਡਲਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਇੱਕ ਜੀਵੰਤ ਈਕੋਸਿਸਟਮ ਬਣਾ ਸਕਦਾ ਹੈ। ਇਹ ਕੀਮਤੀ ਫੀਡਬੈਕ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ, ਬੱਗਾਂ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦਾ ਹੈ, ਸੁਧਾਰਾਂ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾ ਸਕਦਾ ਹੈ, ਅਤੇ ਅੰਤ ਵਿੱਚ ਪਲੇਟਫਾਰਮ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰ ਸਕਦਾ ਹੈ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਇਸਨੂੰ ਕੁਝ ਡੋਮੇਨਾਂ ਵਿੱਚ ਇੱਕ ਡੀ ਫੈਕਟੋ ਸਟੈਂਡਰਡ ਵਜੋਂ ਸਥਾਪਤ ਕਰ ਸਕਦਾ ਹੈ।
  • ਪਾਰਦਰਸ਼ਤਾ ਅਤੇ ਵਿਸ਼ਵਾਸ: ਖੁੱਲ੍ਹਾਪਣ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ, ਸੀਮਾਵਾਂ ਅਤੇ ਸੰਭਾਵੀ ਪੱਖਪਾਤਾਂ ਦੀ ਵਧੇਰੇ ਜਾਂਚ ਦੀ ਆਗਿਆ ਦਿੰਦਾ ਹੈ। ਇਹ ਪਾਰਦਰਸ਼ਤਾ ਉਪਭੋਗਤਾਵਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਵਿੱਚ ਵਿਸ਼ਵਾਸ ਪੈਦਾ ਕਰ ਸਕਦੀ ਹੈ, ਜੋ ਕਿ ਵੱਧ ਤੋਂ ਵੱਧ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦਾ ਜਾ ਰਿਹਾ ਹੈ ਕਿਉਂਕਿ AI ਸਿਸਟਮ ਰੋਜ਼ਾਨਾ ਜੀਵਨ ਵਿੱਚ ਵਧੇਰੇ ਏਕੀਕ੍ਰਿਤ ਹੁੰਦੇ ਜਾ ਰਹੇ ਹਨ।
  • ਪ੍ਰਤੀਯੋਗੀ ਵਿਭਿੰਨਤਾ: ਬੰਦ ਮਾਡਲਾਂ ਦੁਆਰਾ ਪ੍ਰਭਾਵਿਤ ਮਾਰਕੀਟ ਵਿੱਚ, ਇੱਕ ਓਪਨ-ਸੋਰਸ ਰਣਨੀਤੀ ਇੱਕ ਸ਼ਕਤੀਸ਼ਾਲੀ ਵਿਭਿੰਨਤਾ ਹੋ ਸਕਦੀ ਹੈ, ਜੋ ਉਹਨਾਂ ਡਿਵੈਲਪਰਾਂ ਅਤੇ ਸੰਗਠਨਾਂ ਨੂੰ ਆਕਰਸ਼ਿਤ ਕਰਦੀ ਹੈ ਜੋ ਲਚਕਤਾ, ਅਨੁਕੂਲਤਾ, ਅਤੇ ਵਿਕਰੇਤਾ ਲਾਕ-ਇਨ ਤੋਂ ਬਚਣ ਨੂੰ ਤਰਜੀਹ ਦਿੰਦੇ ਹਨ।
  • ਪ੍ਰਤਿਭਾ ਆਕਰਸ਼ਣ: ਓਪਨ-ਸੋਰਸ AI ਅੰਦੋਲਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਯੋਗਦਾਨ ਪਾਉਣਾ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਨੇਤਾ ਵਜੋਂ Alibaba ਦੀ ਸਾਖ ਨੂੰ ਵਧਾ ਸਕਦਾ ਹੈ, ਚੋਟੀ ਦੇ AI ਪ੍ਰਤਿਭਾ ਨੂੰ ਆਕਰਸ਼ਿਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ।

ਬੇਸ਼ੱਕ, ਓਪਨ-ਸੋਰਸਿੰਗ ਸੰਭਾਵੀ ਕਮੀਆਂ ਤੋਂ ਬਿਨਾਂ ਨਹੀਂ ਹੈ, ਜਿਵੇਂ ਕਿ ਤਕਨਾਲੋਜੀ ਦਾ ਲਾਭ ਉਠਾਉਣ ਵਾਲੇ ਪ੍ਰਤੀਯੋਗੀ। ਹਾਲਾਂਕਿ, Alibaba ਸੱਟਾ ਲਗਾ ਰਿਹਾ ਹੈ ਕਿ ਭਾਈਚਾਰਕ ਸ਼ਮੂਲੀਅਤ, ਤੇਜ਼ ਨਵੀਨਤਾ, ਅਤੇ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਅਪਣਾਉਣ ਦੇ ਲਾਭ ਇਹਨਾਂ ਜੋਖਮਾਂ ਤੋਂ ਵੱਧ ਹਨ। ਵਿਆਪਕ AI ਈਕੋਸਿਸਟਮ ਲਈ, ਇਹ ਰੀਲੀਜ਼ ਅਤਿ-ਆਧੁਨਿਕ ਮਲਟੀਮੋਡਲ ਸਮਰੱਥਾਵਾਂ ਤੱਕ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦੀ ਹੈ ਜੋ ਪਹਿਲਾਂ ਪ੍ਰਤਿਬੰਧਿਤ ਸਨ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਖੇਡ ਦੇ ਮੈਦਾਨ ਨੂੰ ਬਰਾਬਰ ਕਰਦੀਆਂ ਹਨ ਅਤੇ ਛੋਟੇ ਖਿਡਾਰੀਆਂ ਅਤੇ ਅਕਾਦਮਿਕ ਸੰਸਥਾਵਾਂ ਨੂੰ ਅਤਿ-ਆਧੁਨਿਕ AI ਵਿਕਾਸ ਵਿੱਚ ਵਧੇਰੇ ਪੂਰੀ ਤਰ੍ਹਾਂ ਹਿੱਸਾ ਲੈਣ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰਦੀਆਂ ਹਨ।

ਮਾਪਣਾ: ਪ੍ਰਦਰਸ਼ਨ ਅਤੇ ਕੁਸ਼ਲਤਾ ਦੇ ਵਿਚਾਰ

Alibaba Qwen 2.5 Omni ਨੂੰ ਉੱਚ-ਪ੍ਰਦਰਸ਼ਨ ਵਾਲੇ ਮਾਡਲ ਵਜੋਂ ਸਥਿਤੀ ਦੇਣ ਤੋਂ ਸ਼ਰਮਿੰਦਾ ਨਹੀਂ ਹੈ। ਜਦੋਂ ਕਿ ਸੁਤੰਤਰ, ਤੀਜੀ-ਧਿਰ ਦੀ ਤਸਦੀਕ ਹਮੇਸ਼ਾ ਮਹੱਤਵਪੂਰਨ ਹੁੰਦੀ ਹੈ, ਕੰਪਨੀ ਨੇ ਆਪਣੀ ਅੰਦਰੂਨੀ ਜਾਂਚ ਦੇ ਨਤੀਜੇ ਸਾਂਝੇ ਕੀਤੇ, ਇਹ ਸੁਝਾਅ ਦਿੰਦੇ ਹੋਏ ਕਿ ਮਾਡਲ ਜ਼ਬਰਦਸਤ ਪ੍ਰਤੀਯੋਗੀਆਂ ਦੇ ਵਿਰੁੱਧ ਆਪਣਾ ਸਥਾਨ ਰੱਖਦਾ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, Alibaba ਦਾਅਵਾ ਕਰਦਾ ਹੈ ਕਿ Qwen 2.5 Omni OmniBench ‘ਤੇ Google ਦੇ Gemini 1.5 Pro ਮਾਡਲ ਨੂੰ ਪਛਾੜਦਾ ਹੈ, ਇੱਕ ਬੈਂਚਮਾਰਕ ਜੋ ਮਲਟੀਮੋਡਲ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਕਥਿਤ ਤੌਰ ‘ਤੇ ਪਿਛਲੇ ਵਿਸ਼ੇਸ਼ Qwen ਮਾਡਲਾਂ (ਦ੍ਰਿਸ਼ਟੀ-ਭਾਸ਼ਾ ਲਈ Qwen 2.5-VL-7B ਅਤੇ ਆਡੀਓ ਲਈ Qwen2-Audio) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸਿੰਗਲ-ਮੋਡੈਲਿਟੀ ਕਾਰਜਾਂ ‘ਤੇ ਪਛਾੜਦਾ ਹੈ, ਜੋ ਇੱਕ ਆਮ ਮਲਟੀਮੋਡਲ ਸਿਸਟਮ ਵਜੋਂ ਇਸਦੀ ਤਾਕਤ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ।

ਇੱਕ ਦਿਲਚਸਪ ਤਕਨੀਕੀ ਵੇਰਵਾ ਮਾਡਲ ਦਾ ਆਕਾਰ ਹੈ: ਸੱਤ ਬਿਲੀਅਨ ਪੈਰਾਮੀਟਰ। ਆਧੁਨਿਕ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਦੇ ਸੰਦਰਭ ਵਿੱਚ, ਜਿੱਥੇ ਪੈਰਾਮੀਟਰ ਗਿਣਤੀ ਸੈਂਕੜੇ ਅਰਬਾਂ ਜਾਂ ਖਰਬਾਂ ਤੱਕ ਵੱਧ ਸਕਦੀ ਹੈ, 7B ਮੁਕਾਬਲਤਨ ਮਾਮੂਲੀ ਹੈ। ਇਹ ਪੈਰਾਮੀਟਰ ਆਕਾਰ ਇੱਕ ਦਿਲਚਸਪ ਵਪਾਰ-ਬੰਦ ਪੇਸ਼ ਕਰਦਾ ਹੈ:

  • ਕੁਸ਼ਲਤਾ ਦੀ ਸੰਭਾਵਨਾ: ਛੋਟੇ ਮਾਡਲਾਂ ਨੂੰ ਆਮ ਤੌਰ ‘ਤੇ ਸਿਖਲਾਈ ਅਤੇ ਅਨੁਮਾਨ (ਮਾਡਲ ਚਲਾਉਣਾ) ਦੋਵਾਂ ਲਈ ਘੱਟ ਕੰਪਿਊਟੇਸ਼ਨਲ ਪਾਵਰ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਇਸਦਾ ਅਨੁਵਾਦ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਘੱਟ ਸੰਚਾਲਨ ਲਾਗਤਾਂ ਅਤੇ ਘੱਟ ਸ਼ਕਤੀਸ਼ਾਲੀ ਹਾਰਡਵੇਅਰ ‘ਤੇ ਮਾਡਲ ਨੂੰ ਚਲਾਉਣ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਹੁੰਦਾ ਹੈ, ਸ਼ਾਇਦ ਭਵਿੱਖ ਵਿੱਚ ਕਿਨਾਰੇ ਵਾਲੇ ਉਪਕਰਣਾਂ ‘ਤੇ ਵੀ। ਇਹ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ Alibaba ਦੇ ਦਾਅਵੇ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ ਕਿ ਮਾਡਲ ਲਾਗਤ-ਪ੍ਰਭਾਵਸ਼ਾਲੀ AI ਏਜੰਟਾਂ ਦੇ ਨਿਰਮਾਣ ਅਤੇ ਤੈਨਾਤੀ ਨੂੰ ਸਮਰੱਥ ਬਣਾਉਂਦਾ ਹੈ।
  • ਸਮਰੱਥਾ ਬਨਾਮ ਆਕਾਰ: ਜਦੋਂ ਕਿ ਵੱਡੇ ਮਾਡਲ ਅਕਸਰ ਵਧੇਰੇ ਕੱਚੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਆਰਕੀਟੈਕਚਰ (ਜਿਵੇਂ ਕਿ Thinker-Talker) ਅਤੇ ਸਿਖਲਾਈ ਤਕਨੀਕਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤਰੱਕੀ ਦਾ ਮਤਲਬ ਹੈ ਕਿ ਛੋਟੇ ਮਾਡਲ ਅਜੇ ਵੀ ਖਾਸ ਕਾਰਜਾਂ ‘ਤੇ ਅਤਿ-ਆਧੁਨਿਕ ਪ੍ਰਦਰਸ਼ਨ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ, ਖਾਸ ਤੌਰ ‘ਤੇ ਜਦੋਂ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਅਨੁਕੂਲਿਤ ਕੀਤਾ ਜਾਂਦਾ ਹੈ। Alibaba