Artificial intelligence (AI) ਨੇ ਸਾਲਾਂ ਤੋਂ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ਟੈਕਸਟ ਦੇ ਖੇਤਰ ਵਿੱਚ ਸੰਚਾਰ ਅਤੇ ਕੰਮ ਕੀਤਾ ਹੈ। ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਨੇ ਮਨੁੱਖੀ ਭਾਸ਼ਾ ਨੂੰ ਪ੍ਰੋਸੈਸ ਕਰਨ, ਤਿਆਰ ਕਰਨ ਅਤੇ ਸਮਝਣ ਦੀ ਆਪਣੀ ਯੋਗਤਾ ਨਾਲ ਹੈਰਾਨ ਕੀਤਾ ਹੈ, ਜਿਸ ਨਾਲ ਅਸੀਂ ਜਾਣਕਾਰੀ ਅਤੇ ਤਕਨਾਲੋਜੀ ਨਾਲ ਕਿਵੇਂ ਗੱਲਬਾਤ ਕਰਦੇ ਹਾਂ, ਇਸ ਵਿੱਚ ਕ੍ਰਾਂਤੀ ਲਿਆ ਦਿੱਤੀ ਹੈ। ਫਿਰ ਵੀ, ਜਿਸ ਸੰਸਾਰ ਵਿੱਚ ਅਸੀਂ ਰਹਿੰਦੇ ਹਾਂ ਉਹ ਸਿਰਫ਼ ਟੈਕਸਟ-ਅਧਾਰਿਤ ਨਹੀਂ ਹੈ; ਇਹ ਵਿਜ਼ੂਅਲ ਉਤੇਜਨਾ ਦਾ ਇੱਕ ਅਮੀਰ ਤਾਣਾ-ਬਾਣਾ ਹੈ। ਹਕੀਕਤ ਦੇ ਇਸ ਬੁਨਿਆਦੀ ਪਹਿਲੂ ਨੂੰ ਪਛਾਣਦੇ ਹੋਏ, AI ਵਿਕਾਸ ਦਾ ਮੋਰਚਾ ਤੇਜ਼ੀ ਨਾਲ ਅਜਿਹੇ ਸਿਸਟਮਾਂ ਵੱਲ ਵਧ ਰਿਹਾ ਹੈ ਜੋ ਨਾ ਸਿਰਫ਼ ਪੜ੍ਹ ਸਕਦੇ ਹਨ ਬਲਕਿ ਆਲੇ ਦੁਆਲੇ ਦੀ ਵਿਜ਼ੂਅਲ ਦੁਨੀਆ ਨੂੰ ਦੇਖ ਅਤੇ ਵਿਆਖਿਆ ਵੀ ਕਰ ਸਕਦੇ ਹਨ। ਇਸ ਵਿਕਸਤ ਹੋ ਰਹੇ ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਮਜ਼ਬੂਤੀ ਨਾਲ ਕਦਮ ਰੱਖਦੇ ਹੋਏ, ਚੀਨੀ ਤਕਨਾਲੋਜੀ ਸਮੂਹ Alibaba ਨੇ ਇੱਕ ਦਿਲਚਸਪ ਨਵਾਂ ਵਿਕਾਸ ਪੇਸ਼ ਕੀਤਾ ਹੈ: QVQ-Max, ਇੱਕ AI ਸਿਸਟਮ ਜੋ ਵਿਜ਼ੂਅਲ ਤਰਕ ਦੀ ਸਮਰੱਥਾ ਨਾਲ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਹ AI ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ ਜੋ ਜਾਣਕਾਰੀ ਨਾਲ ਬਹੁਤ ਕੁਝ ਉਸੇ ਤਰ੍ਹਾਂ ਗੱਲਬਾਤ ਕਰਦਾ ਹੈ ਜਿਵੇਂ ਮਨੁੱਖ ਕਰਦੇ ਹਨ - ਦ੍ਰਿਸ਼ਟੀ ਨੂੰ ਸਮਝ ਅਤੇ ਵਿਚਾਰ ਨਾਲ ਜੋੜ ਕੇ।
ਟੈਕਸਟ ਤੋਂ ਪਰੇ: ਵਿਜ਼ੂਅਲ ਤਰਕ ਦੇ ਤੱਤ ਨੂੰ ਸਮਝਣਾ
Artificial intelligence ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਤਰਕ ਦੀ ਧਾਰਨਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਟੈਕਸਟ-ਚਾਲਿਤ ਪ੍ਰੋਸੈਸਿੰਗ ਤੋਂ ਵੱਖ ਹੋਣ ਦਾ ਸੰਕੇਤ ਦਿੰਦੀ ਹੈ। ਰਵਾਇਤੀ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲ (LLMs) ਲਿਖਤੀ ਜਾਂ ਬੋਲੀ ਜਾਣ ਵਾਲੀ ਭਾਸ਼ਾ ਨਾਲ ਜੁੜੇ ਕੰਮਾਂ ਵਿੱਚ ਉੱਤਮ ਹਨ - ਲੇਖਾਂ ਦਾ ਸਾਰ ਦੇਣਾ, ਭਾਸ਼ਾਵਾਂ ਦਾ ਅਨੁਵਾਦ ਕਰਨਾ, ਈਮੇਲ ਲਿਖਣਾ, ਜਾਂ ਕੋਡ ਲਿਖਣਾ ਵੀ। ਹਾਲਾਂਕਿ, ਉਹਨਾਂ ਨੂੰ ਇੱਕ ਚਿੱਤਰ, ਇੱਕ ਡਾਇਗ੍ਰਾਮ, ਜਾਂ ਇੱਕ ਵੀਡੀਓ ਕਲਿੱਪ ਪੇਸ਼ ਕਰੋ, ਅਤੇ ਉਹਨਾਂ ਦੀ ਸਮਝ ਇੱਕ ਕੰਧ ਨਾਲ ਟਕਰਾ ਜਾਂਦੀ ਹੈ ਜਦੋਂ ਤੱਕ ਕਿ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟ ਲਈ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਸਿਖਲਾਈ ਨਾ ਦਿੱਤੀ ਗਈ ਹੋਵੇ। ਜੇਕਰ ਉਹ ਬੁਨਿਆਦੀ ਕੰਪਿਊਟਰ ਵਿਜ਼ਨ ਨਾਲ ਲੈਸ ਹਨ ਤਾਂ ਉਹ ਇੱਕ ਚਿੱਤਰ ਦੇ ਅੰਦਰ ਵਸਤੂਆਂ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦੇ ਹਨ, ਪਰ ਉਹ ਅਕਸਰ ਸੰਦਰਭ, ਤੱਤਾਂ ਵਿਚਕਾਰ ਸਬੰਧਾਂ, ਜਾਂ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਦੱਸੇ ਗਏ ਅੰਤਰੀਵ ਅਰਥਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਸੰਘਰਸ਼ ਕਰਦੇ ਹਨ।
ਵਿਜ਼ੂਅਲ ਤਰਕ ਦਾ ਉਦੇਸ਼ ਇਸ ਨਾਜ਼ੁਕ ਪਾੜੇ ਨੂੰ ਪੂਰਾ ਕਰਨਾ ਹੈ। ਇਸ ਵਿੱਚ AI ਨੂੰ ਸਿਰਫ਼ ‘ਦੇਖਣ’ (ਚਿੱਤਰ ਪਛਾਣ) ਦੀ ਯੋਗਤਾ ਨਾਲ ਲੈਸ ਕਰਨਾ ਹੀ ਨਹੀਂ, ਸਗੋਂ ਸਥਾਨਿਕ ਸਬੰਧਾਂ ਨੂੰ ਸਮਝਣਾ, ਕਾਰਵਾਈਆਂ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ, ਸੰਦਰਭ ਦਾ ਅਨੁਮਾਨ ਲਗਾਉਣਾ, ਅਤੇ ਵਿਜ਼ੂਅਲ ਇਨਪੁਟ ਦੇ ਅਧਾਰ ‘ਤੇ ਤਰਕਪੂਰਨ ਕਟੌਤੀਆਂ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। ਇੱਕ ਅਜਿਹੇ AI ਦੀ ਕਲਪਨਾ ਕਰੋ ਜੋ ਇੱਕ ਤਸਵੀਰ ਵਿੱਚ ਸਿਰਫ਼ ਇੱਕ ‘ਬਿੱਲੀ’ ਅਤੇ ਇੱਕ ‘ਚਟਾਈ’ ਦੀ ਪਛਾਣ ਨਹੀਂ ਕਰਦਾ, ਸਗੋਂ ‘ਬਿੱਲੀ ਚਟਾਈ ਉੱਤੇ ਹੈ’ ਦੀ ਧਾਰਨਾ ਨੂੰ ਸਮਝਦਾ ਹੈ। ਇਸਨੂੰ ਹੋਰ ਅੱਗੇ ਵਧਾਓ: ਇੱਕ AI ਜੋ ਸਮੱਗਰੀ ਅਤੇ ਖਾਣਾ ਪਕਾਉਣ ਦੇ ਕਦਮਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਤਸਵੀਰਾਂ ਦੀ ਇੱਕ ਲੜੀ ਨੂੰ ਦੇਖ ਸਕਦਾ ਹੈ ਅਤੇ ਫਿਰ ਇਕਸਾਰ ਨਿਰਦੇਸ਼ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਜਾਂ ਸੰਭਾਵੀ ਤਣਾਅ ਬਿੰਦੂਆਂ ਨੂੰ ਦਰਸਾਉਣ ਲਈ ਇੱਕ ਗੁੰਝਲਦਾਰ ਇੰਜੀਨੀਅਰਿੰਗ ਡਾਇਗ੍ਰਾਮ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ।
ਇਹ ਸਮਰੱਥਾ AI ਨੂੰ ਬੁੱਧੀ ਦੇ ਇੱਕ ਵਧੇਰੇ ਸੰਪੂਰਨ ਰੂਪ ਦੇ ਨੇੜੇ ਲੈ ਜਾਂਦੀ ਹੈ, ਜੋ ਮਨੁੱਖੀ ਬੋਧ ਨੂੰ ਵਧੇਰੇ ਨੇੜਿਓਂ ਦਰਸਾਉਂਦੀ ਹੈ। ਅਸੀਂ ਲਗਾਤਾਰ ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਦੀ ਪ੍ਰਕਿਰਿਆ ਕਰਦੇ ਹਾਂ, ਇਸਨੂੰ ਆਪਣੇ ਗਿਆਨ ਅਤੇ ਤਰਕ ਯੋਗਤਾਵਾਂ ਨਾਲ ਸਹਿਜੇ ਹੀ ਜੋੜਦੇ ਹਾਂ ਤਾਂ ਜੋ ਦੁਨੀਆ ਨੂੰ ਨੈਵੀਗੇਟ ਕੀਤਾ ਜਾ ਸਕੇ, ਸਮੱਸਿਆਵਾਂ ਹੱਲ ਕੀਤੀਆਂ ਜਾ ਸਕਣ, ਅਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਸੰਚਾਰ ਕੀਤਾ ਜਾ ਸਕੇ। ਮਜ਼ਬੂਤ ਵਿਜ਼ੂਅਲ ਤਰਕ ਨਾਲ ਸੰਪੰਨ ਇੱਕ AI ਜਾਣਕਾਰੀ ਦੇ ਇੱਕ ਬਹੁਤ ਵਿਆਪਕ ਸਪੈਕਟ੍ਰਮ ਨਾਲ ਜੁੜ ਸਕਦਾ ਹੈ, ਸਹਾਇਤਾ, ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਲਈ ਨਵੀਆਂ ਸੰਭਾਵਨਾਵਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰ ਸਕਦਾ ਹੈ ਜੋ ਪਹਿਲਾਂ ਵਿਗਿਆਨ ਗਲਪ ਤੱਕ ਸੀਮਤ ਸਨ। ਇਹ ਇੱਕ ਅਜਿਹੇ AI ਵਿੱਚ ਅੰਤਰ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜੋ ਇੱਕ ਨਕਸ਼ੇ ਦੀ ਕਥਾ ਨੂੰ ਪੜ੍ਹ ਸਕਦਾ ਹੈ ਅਤੇ ਇੱਕ ਅਜਿਹਾ AI ਜੋ ਵਿਜ਼ੂਅਲ ਲੈਂਡਮਾਰਕਸ ਦੇ ਅਧਾਰ ‘ਤੇ ਦਿਸ਼ਾਵਾਂ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਨਕਸ਼ੇ ਦੀ ਖੁਦ ਵਿਆਖਿਆ ਕਰ ਸਕਦਾ ਹੈ। Alibaba ਦਾ QVQ-Max ਆਪਣੇ ਆਪ ਨੂੰ ਇਸ ਆਧੁਨਿਕ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਦਾਅਵੇਦਾਰ ਵਜੋਂ ਸਥਾਪਤ ਕਰਦਾ ਹੈ, ਉਹਨਾਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਦਾਅਵਾ ਕਰਦਾ ਹੈ ਜੋ ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਦੁਆਰਾ ਸ਼ੁਰੂ ਕੀਤੀਆਂ ਅਸਲ ਸਮਝ ਅਤੇ ਸੋਚ ਪ੍ਰਕਿਰਿਆਵਾਂ ਤੱਕ ਫੈਲੀਆਂ ਹੋਈਆਂ ਹਨ।
QVQ-Max ਪੇਸ਼ ਕਰ ਰਿਹਾ ਹੈ: AI ਦ੍ਰਿਸ਼ਟੀ ਅਤੇ ਵਿਚਾਰ ਵਿੱਚ Alibaba ਦਾ ਕਦਮ
Alibaba QVQ-Max ਨੂੰ ਸਿਰਫ਼ ਇੱਕ ਚਿੱਤਰ ਪਛਾਣਕਰਤਾ ਵਜੋਂ ਨਹੀਂ ਬਲਕਿ ਇੱਕ ਆਧੁਨਿਕ ਵਿਜ਼ੂਅਲ ਤਰਕ ਮਾਡਲ ਵਜੋਂ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਮੁੱਖ ਦਾਅਵਾ ਇਹ ਹੈ ਕਿ ਇਹ AI ਬੋਟ ਸਧਾਰਨ ਵਸਤੂ ਖੋਜ ਤੋਂ ਪਰੇ ਹੈ; ਇਹ ਫੋਟੋਆਂ ਅਤੇ ਵੀਡੀਓ ਸਮੱਗਰੀ ਤੋਂ ਪ੍ਰਾਪਤ ਜਾਣਕਾਰੀ ਨਾਲ ਸਰਗਰਮੀ ਨਾਲ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਤਰਕ ਕਰਦਾ ਹੈ। Alibaba ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ QVQ-Max ਨੂੰ ਇਸ ਨੂੰ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਵਿਜ਼ੂਅਲ ਤੱਤਾਂ ਬਾਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਦੇਖਣ, ਸਮਝਣ ਅਤੇ ਸੋਚਣ ਲਈ ਇੰਜੀਨੀਅਰ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਨਾਲ ਅਮੂਰਤ, ਟੈਕਸਟ-ਅਧਾਰਿਤ AI ਪ੍ਰੋਸੈਸਿੰਗ ਅਤੇ ਠੋਸ, ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਦੇ ਵਿਚਕਾਰ ਪਾੜਾ ਘੱਟ ਹੁੰਦਾ ਹੈ ਜੋ ਅਸਲ-ਸੰਸਾਰ ਡੇਟਾ ਦਾ ਬਹੁਤ ਹਿੱਸਾ ਬਣਦਾ ਹੈ।
ਇਸਦੇ ਪਿੱਛੇ ਦੀ ਕਾਰਜਪ੍ਰਣਾਲੀ ਵਿੱਚ ਗੁੰਝਲਦਾਰ ਵਿਜ਼ੂਅਲ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਪਾਰਸ ਕਰਨ ਅਤੇ ਮੁੱਖ ਤੱਤਾਂ ਅਤੇ ਉਹਨਾਂ ਦੇ ਆਪਸੀ ਸਬੰਧਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਵਿੱਚ ਉੱਨਤ ਸਮਰੱਥਾਵਾਂ ਸ਼ਾਮਲ ਹਨ। ਇਹ ਸਿਰਫ਼ ਵਸਤੂਆਂ ਨੂੰ ਲੇਬਲ ਕਰਨ ਬਾਰੇ ਨਹੀਂ ਹੈ ਬਲਕਿ ਵਿਜ਼ੂਅਲ ਇਨਪੁਟ ਦੇ ਅੰਦਰ ਬਿਰਤਾਂਤ ਜਾਂ ਬਣਤਰ ਨੂੰ ਸਮਝਣ ਬਾਰੇ ਹੈ। Alibaba ਮਾਡਲ ਦੀ ਲਚਕਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ, ਇਸ ਕੋਰ ਵਿਜ਼ੂਅਲ ਤਰਕ ਫੈਕਲਟੀ ਤੋਂ ਪੈਦਾ ਹੋਣ ਵਾਲੀਆਂ ਸੰਭਾਵੀ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ। ਇਹ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿਭਿੰਨ ਖੇਤਰਾਂ ਵਿੱਚ ਫੈਲੀਆਂ ਹੋਈਆਂ ਹਨ, ਜੋ ਇਸ ਤਕਨਾਲੋਜੀ ਦੀ ਬੁਨਿਆਦੀ ਪ੍ਰਕਿਰਤੀ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਹਨ। ਦੱਸੇ ਗਏ ਉਦਾਹਰਨਾਂ ਵਿੱਚ ਚਿੱਤਰ ਡਿਜ਼ਾਈਨ ਵਿੱਚ ਸਹਾਇਤਾ ਕਰਨਾ, ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵਿਜ਼ੂਅਲ ਸ਼ੈਲੀਆਂ ਨੂੰ ਸਮਝ ਕੇ ਜਾਂ ਚਿੱਤਰ ਪ੍ਰੋਂਪਟ ਦੇ ਅਧਾਰ ‘ਤੇ ਸੰਕਲਪ ਤਿਆਰ ਕਰਕੇ; ਵੀਡੀਓ ਸਕ੍ਰਿਪਟ ਬਣਾਉਣ ਦੀ ਸਹੂਲਤ, ਸ਼ਾਇਦ ਵਿਜ਼ੂਅਲ ਕ੍ਰਮਾਂ ਜਾਂ ਮੂਡਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਕੇ; ਅਤੇ ਆਧੁਨਿਕ ਭੂਮਿਕਾ-ਨਿਭਾਉਣ ਵਾਲੇ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣਾ ਜਿੱਥੇ ਵਿਜ਼ੂਅਲ ਸੰਦਰਭ ਨੂੰ ਸ਼ਾਮਲ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
QVQ-Max ਦਾ ਵਾਅਦਾ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਅਤੇ ਕਾਰਜ ਨੂੰ ਲਾਗੂ ਕਰਨ ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਡੇਟਾ ਨੂੰ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਏਕੀਕ੍ਰਿਤ ਕਰਨ ਦੀ ਇਸਦੀ ਸੰਭਾਵਨਾ ਵਿੱਚ ਹੈ। ਕੰਮ, ਸਿੱਖਿਆ ਅਤੇ ਨਿੱਜੀ ਜੀਵਨ ਵਿੱਚ ਟੈਕਸਟ ਅਤੇ ਡੇਟਾ ਵਿੱਚ ਜੜ੍ਹਾਂ ਵਾਲੇ ਕਾਰਜਾਂ ਲਈ ਰਵਾਇਤੀ AI ਚੈਟਬੋਟਸ ਦੀ ਮਦਦਗਾਰਤਾ ਨੂੰ ਬਰਕਰਾਰ ਰੱਖਦੇ ਹੋਏ, ਇਸਦਾ ਵਿਜ਼ੂਅਲ ਪਹਿਲੂ ਸਮਰੱਥਾ ਦੀਆਂ ਪਰਤਾਂ ਜੋੜਦਾ ਹੈ। ਇਸਦਾ ਉਦੇਸ਼ ਉਹਨਾਂ ਸਮੱਸਿਆਵਾਂ ਨਾਲ ਨਜਿੱਠਣਾ ਹੈ ਜਿੱਥੇ ਵਿਜ਼ੂਅਲ ਸੰਦਰਭ ਸਿਰਫ਼ ਪੂਰਕ ਹੀ ਨਹੀਂ ਬਲਕਿ ਜ਼ਰੂਰੀ ਹੈ।
ਵਿਹਾਰਕ ਐਪਲੀਕੇਸ਼ਨਾਂ: ਜਿੱਥੇ ਵਿਜ਼ੂਅਲ ਤਰਕ ਇੱਕ ਫਰਕ ਲਿਆਉਂਦਾ ਹੈ
ਕਿਸੇ ਵੀ ਤਕਨੀਕੀ ਤਰੱਕੀ ਦਾ ਅਸਲ ਮਾਪ ਇਸਦੀ ਵਿਹਾਰਕ ਉਪਯੋਗਤਾ ਵਿੱਚ ਹੈ। ਇੱਕ AI ਜੋ ‘ਦੇਖ’ ਅਤੇ ‘ਤਰਕ’ ਕਰ ਸਕਦਾ ਹੈ, ਠੋਸ ਲਾਭਾਂ ਵਿੱਚ ਕਿਵੇਂ ਬਦਲਦਾ ਹੈ? Alibaba ਕਈ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਖੇਤਰਾਂ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਜਿੱਥੇ QVQ-Max ਦੀ ਵਿਜ਼ੂਅਲ ਸ਼ਕਤੀ ਪਰਿਵਰਤਨਸ਼ੀਲ ਹੋ ਸਕਦੀ ਹੈ।
ਪੇਸ਼ੇਵਰ ਵਰਕਫਲੋਜ਼ ਨੂੰ ਵਧਾਉਣਾ
ਕੰਮ ਵਾਲੀ ਥਾਂ ‘ਤੇ, ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਸਰਵ ਵਿਆਪਕ ਹੈ। ਸੰਭਾਵੀ ਪ੍ਰਭਾਵ ‘ਤੇ ਗੌਰ ਕਰੋ:
- ਡੇਟਾ ਵਿਜ਼ੂਅਲਾਈਜ਼ੇਸ਼ਨ ਵਿਸ਼ਲੇਸ਼ਣ: ਸਿਰਫ਼ ਕੱਚੇ ਡੇਟਾ ਟੇਬਲ ਦੀ ਪ੍ਰੋਸੈਸਿੰਗ ਕਰਨ ਦੀ ਬਜਾਏ, QVQ-Max ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਚਾਰਟਾਂ ਅਤੇ ਗ੍ਰਾਫਾਂ ਦਾ ਸਿੱਧਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ, ਰੁਝਾਨਾਂ, ਵਿਗਾੜਾਂ, ਜਾਂ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਪੇਸ਼ ਕੀਤੇ ਗਏ ਮੁੱਖ ਉਪਾਵਾਂ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਰਿਪੋਰਟ ਵਿਸ਼ਲੇਸ਼ਣ ਅਤੇ ਵਪਾਰਕ ਖੁਫੀਆ ਕਾਰਜਾਂ ਨੂੰ ਬਹੁਤ ਤੇਜ਼ ਕਰ ਸਕਦਾ ਹੈ।
- ਤਕਨੀਕੀ ਡਾਇਗ੍ਰਾਮ ਵਿਆਖਿਆ: ਇੰਜੀਨੀਅਰ, ਆਰਕੀਟੈਕਟ, ਅਤੇ ਤਕਨੀਸ਼ੀਅਨ ਅਕਸਰ ਗੁੰਝਲਦਾਰ ਡਾਇਗ੍ਰਾਮਾਂ, ਬਲੂਪ੍ਰਿੰਟਾਂ, ਜਾਂ ਸਕੀਮੈਟਿਕਸ ‘ਤੇ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਇੱਕ ਵਿਜ਼ੂਅਲ ਤਰਕ AI ਇਹਨਾਂ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦਾ ਹੈ, ਸ਼ਾਇਦ ਭਾਗਾਂ ਦੀ ਪਛਾਣ ਕਰਨਾ, ਕਨੈਕਸ਼ਨਾਂ ਦਾ ਪਤਾ ਲਗਾਉਣਾ, ਜਾਂ ਵਿਜ਼ੂਅਲ ਪੈਟਰਨਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਸੰਭਾਵੀ ਡਿਜ਼ਾਈਨ ਖਾਮੀਆਂ ਨੂੰ ਫਲੈਗ ਕਰਨਾ।
- ਡਿਜ਼ਾਈਨ ਅਤੇ ਰਚਨਾਤਮਕ ਸਹਾਇਤਾ: ਗ੍ਰਾਫਿਕ ਡਿਜ਼ਾਈਨਰਾਂ ਜਾਂ ਚਿੱਤਰਕਾਰਾਂ ਲਈ, ਮਾਡਲ ਰੰਗ ਪੈਲੇਟਸ, ਲੇਆਉਟ ਢਾਂਚੇ, ਜਾਂ ਸ਼ੈਲੀਗਤ ਤੱਤਾਂ ਦਾ ਸੁਝਾਅ ਦੇਣ ਲਈ ਮੂਡ ਬੋਰਡਾਂ ਜਾਂ ਪ੍ਰੇਰਨਾ ਚਿੱਤਰਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵਿਜ਼ੂਅਲ ਵਰਣਨ ਜਾਂ ਮੌਜੂਦਾ ਚਿੱਤਰਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਡਰਾਫਟ ਚਿੱਤਰ ਵੀ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਇੱਕ ਆਧੁਨਿਕ ਰਚਨਾਤਮਕ ਸਾਥੀ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ।
- ਪ੍ਰਸਤੁਤੀ ਉਤਪਤੀ: ਕਲਪਨਾ ਕਰੋ ਕਿ AI ਨੂੰ ਇੱਕ ਪ੍ਰੋਜੈਕਟ ਨਾਲ ਸਬੰਧਤ ਚਿੱਤਰਾਂ ਦਾ ਇੱਕ ਸੈੱਟ ਫੀਡ ਕੀਤਾ ਜਾ ਰਿਹਾ ਹੈ; ਇਹ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਇੱਕ ਪੇਸ਼ਕਾਰੀ ਦਾ ਢਾਂਚਾ ਬਣਾ ਸਕਦਾ ਹੈ, ਸੰਬੰਧਿਤ ਸੁਰਖੀਆਂ ਤਿਆਰ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਵਿਜ਼ੂਅਲ ਇਕਸਾਰਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾ ਸਕਦਾ ਹੈ, ਬਣਾਉਣ ਦੀ ਪ੍ਰਕਿਰਿਆ ਨੂੰ ਸੁਚਾਰੂ ਬਣਾਉਂਦਾ ਹੈ।
ਸਿੱਖਿਆ ਅਤੇ ਸਿਖਲਾਈ ਵਿੱਚ ਕ੍ਰਾਂਤੀ ਲਿਆਉਣਾ
ਵਿਦਿਅਕ ਖੇਤਰ AI ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਲਾਭ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਖੜ੍ਹਾ ਹੈ ਜੋ ਵਿਜ਼ੂਅਲ ਜਾਣਕਾਰੀ ਨੂੰ ਸਮਝਦਾ ਹੈ:
- STEM ਸਮੱਸਿਆ ਹੱਲ ਕਰਨਾ: ਗਣਿਤ ਅਤੇ ਭੌਤਿਕ ਵਿਗਿਆਨ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦੇ ਨਾਲ ਡਾਇਗ੍ਰਾਮਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਯੋਗਤਾ ਇੱਕ ਪ੍ਰਮੁੱਖ ਉਦਾਹਰਨ ਹੈ। QVQ-Max ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਜਿਓਮੈਟ੍ਰਿਕ ਅੰਕੜਿਆਂ, ਫੋਰਸ ਡਾਇਗ੍ਰਾਮਾਂ, ਜਾਂ ਸਰਕਟ ਸਕੀਮੈਟਿਕਸ ਦੀ ਵਿਆਖਿਆ ਕਰ ਸਕਦਾ ਹੈ, ਕਦਮ-ਦਰ-ਕਦਮ ਮਾਰਗਦਰਸ਼ਨ ਜਾਂ ਸਪੱਸ਼ਟੀਕਰਨ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਨ ਲਈ ਟੈਕਸਟ ਸਮੱਸਿਆ ਦੇ ਵਰਣਨ ਨਾਲ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾ ਨੂੰ ਸਬੰਧਤ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਉਹਨਾਂ ਸੰਕਲਪਾਂ ਨੂੰ ਸਮਝਣ ਦਾ ਇੱਕ ਮਾਰਗ ਪੇਸ਼ ਕਰਦਾ ਹੈ ਜੋ ਅੰਦਰੂਨੀ ਤੌਰ ‘ਤੇ ਵਿਜ਼ੂਅਲ ਹਨ।
- ਵਿਜ਼ੂਅਲ ਵਿਸ਼ਾ ਟਿਊਸ਼ਨ: ਜੀਵ ਵਿਗਿਆਨ (ਸੈਲੂਲਰ ਬਣਤਰ, ਸਰੀਰ ਵਿਗਿਆਨ), ਰਸਾਇਣ ਵਿਗਿਆਨ (ਅਣੂ ਮਾਡਲ), ਭੂਗੋਲ (ਨਕਸ਼ੇ, ਭੂ-ਵਿਗਿਆਨਕ ਬਣਤਰ), ਅਤੇ ਕਲਾ ਇਤਿਹਾਸ ਵਰਗੇ ਵਿਸ਼ੇ ਵਿਜ਼ੂਅਲ ਸਮਝ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੇ ਹਨ। ਇੱਕ ਵਿਜ਼ੂਅਲ ਤਰਕ AI ਇੱਕ ਇੰਟਰਐਕਟਿਵ ਟਿਊਟਰ ਵਜੋਂ ਕੰਮ ਕਰ ਸਕਦਾ ਹੈ, ਚਿੱਤਰਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਸੰਕਲਪਾਂ ਦੀ ਵਿਆਖਿਆ ਕਰ ਸਕਦਾ ਹੈ, ਵਿਦਿਆਰਥੀਆਂ ਨੂੰ ਵਿਜ਼ੂਅਲ ਪਛਾਣ ‘ਤੇ ਪੁੱਛਗਿੱਛ ਕਰ ਸਕਦਾ ਹੈ, ਜਾਂ ਇਤਿਹਾਸਕ ਕਲਾਕ੍ਰਿਤੀਆਂ ਲਈ ਸੰਦਰਭ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ।
- ਇੰਟਰਐਕਟਿਵ ਲਰਨਿੰਗ ਸਮੱਗਰੀ: ਵਿਦਿਅਕ ਸਮੱਗਰੀ ਨਿਰਮਾਤਾ ਵਧੇਰੇ ਗਤੀਸ਼ੀਲ ਅਤੇ ਜਵਾਬਦੇਹ ਸਿਖਲਾਈ ਮਾਡਿਊਲ ਬਣਾਉਣ ਲਈ ਅਜਿਹੀ ਤਕਨਾਲੋਜੀ ਦਾ ਲਾਭ ਉਠਾ ਸਕਦੇ ਹਨ ਜਿੱਥੇ ਵਿਦਿਆਰਥੀ ਵਿਜ਼ੂਅਲ ਤੱਤਾਂ ਨਾਲ ਗੱਲਬਾਤ ਕਰਦੇ ਹਨ, ਅਤੇ AI ਵਿਜ਼ੂਅਲ ਦੀ ਆਪਣੀ ਸਮਝ ਦੇ ਅਧਾਰ ‘ਤੇ ਫੀਡਬੈਕ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।
ਨਿੱਜੀ ਜੀਵਨ ਅਤੇ ਸ਼ੌਕ ਨੂੰ ਸਰਲ ਬਣਾਉਣਾ
ਕੰਮ ਅਤੇ ਅਧਿਐਨ ਤੋਂ ਪਰੇ, ਵਿਜ਼ੂਅਲ ਤਰਕ AI ਰੋਜ਼ਾਨਾ ਦੇ ਕੰਮਾਂ ਅਤੇ ਮਨੋਰੰਜਨ ਲਈ ਦਿਲਚਸਪ ਸੰਭਾਵਨਾਵਾਂ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰਦਾ ਹੈ:
- ਰਸੋਈ ਮਾਰਗਦਰਸ਼ਨ: ਵਿਅੰਜਨ ਚਿੱਤਰਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਉਪਭੋਗਤਾ ਨੂੰ ਖਾਣਾ ਪਕਾਉਣ ਲਈ ਮਾਰਗਦਰਸ਼ਨ ਕਰਨ ਦੀ ਉਦਾਹਰਨ ਇਸ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ। AI ਸਿਰਫ਼ ਕਦਮਾਂ ਨੂੰ ਨਹੀਂ ਪੜ੍ਹੇਗਾ; ਇਹ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਉਪਭੋਗਤਾ ਦੀ ਤਰੱਕੀ ਦੀਆਂ ਫੋਟੋਆਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰ ਸਕਦਾ ਹੈ, ਉਹਨਾਂ ਦੀ ਵਿਅੰਜਨ ਚਿੱਤਰਾਂ ਵਿੱਚ ਉਮੀਦ ਕੀਤੇ ਨਤੀਜੇ ਨਾਲ ਤੁਲਨਾ ਕਰ ਸਕਦਾ ਹੈ, ਅਤੇ ਸੁਧਾਰਾਤਮਕ ਸਲਾਹ ਦੀ ਪੇਸ਼ਕਸ਼ ਕਰ ਸਕਦਾ ਹੈ (“ਇਸ ਤਸਵੀਰ ਦੀ ਤੁਲਨਾ ਵਿੱਚ ਤੁਹਾਡੀ ਚਟਣੀ ਨੂੰ ਹੋਰ ਗਾੜ੍ਹਾ ਕਰਨ ਦੀ ਲੋੜ ਹੈ”)।
- DIY ਅਤੇ ਮੁਰੰਮਤ ਸਹਾਇਤਾ: ਫਰਨੀਚਰ ਨੂੰ ਇਕੱਠਾ ਕਰਨ ਜਾਂ ਕਿਸੇ ਉਪਕਰਣ ਨੂੰ ਠੀਕ ਕਰਨ ਵਿੱਚ ਫਸ ਗਏ ਹੋ? ਆਪਣੇ ਕੈਮਰੇ ਨੂੰ ਸਮੱਸਿਆ ਵਾਲੇ ਖੇਤਰ ਜਾਂ ਹਦਾਇਤ ਮੈਨੂਅਲ ਦੇ ਡਾਇਗ੍ਰਾਮ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਨ ਨਾਲ AI ਨੂੰ ਭਾਗਾਂ ਦੀ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਪਛਾਣ ਕਰਨ, ਅਸੈਂਬਲੀ ਦੇ ਕਦਮ ਨੂੰ ਸਮਝਣ, ਅਤੇ ਨਿਸ਼ਾਨਾ ਮਾਰਗਦਰਸ਼ਨ ਪ੍ਰਦਾਨ ਕਰਨ ਦੀ ਆਗਿਆ ਮਿਲ ਸਕਦੀ ਹੈ।
- ਕੁਦਰਤ ਦੀ ਪਛਾਣ: ਫੋਟੋਆਂ ਤੋਂ ਪੌਦਿਆਂ, ਕੀੜਿਆਂ, ਜਾਂ ਪੰਛੀਆਂ ਦੀ ਪਛਾਣ ਕਰਨਾ ਵਧੇਰੇ ਆਧੁਨਿਕ ਬਣ ਸਕਦਾ ਹੈ, AI ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਸਿਰਫ਼ ਪਛਾਣ ‘ਤੇ ਹੀ ਨਹੀਂ ਬਲਕਿ ਵਿਜ਼ੂਅਲ ਸੰਦਰਭ ਦੇ ਅਧਾਰ ‘ਤੇ ਵਿਸਤ੍ਰਿਤ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ (ਉਦਾਹਰਨ ਲਈ, ਇੱਕ ਪੌਦੇ ਦੀ ਪਛਾਣ ਕਰਨਾ ਅਤੇ ਚਿੱਤਰ ਵਿੱਚ ਦਿਖਾਈ ਦੇਣ ਵਾਲੀ ਬਿਮਾਰੀ ਦੇ ਲੱਛਣਾਂ ਨੂੰ ਨੋਟ ਕਰਨਾ)।
- ਵਧਿਆ ਹੋਇਆ ਰੋਲ-ਪਲੇਇੰਗ: ਭੂਮਿਕਾ ਨਿਭਾਉਣ ਵਾਲੀਆਂ ਖੇਡਾਂ ਵਿੱਚ ਵਿਜ਼ੂਅਲ ਤੱਤਾਂ ਨੂੰ ਏਕੀਕ੍ਰਿਤ ਕਰਨਾ ਕਿਤੇ ਜ਼ਿਆਦਾ ਡੁੱਬਣ ਵਾਲੇ ਅਨੁਭਵ ਪੈਦਾ ਕਰ ਸਕਦਾ ਹੈ। AI ਦ੍ਰਿਸ਼ਾਂ ਜਾਂ ਪਾਤਰਾਂ ਨੂੰ ਦਰਸਾਉਂਦੀਆਂ ਤਸਵੀਰਾਂ ‘ਤੇ ਪ੍ਰਤੀਕਿਰਿਆ ਕਰ ਸਕਦਾ ਹੈ, ਉਹਨਾਂ ਨੂੰ ਗਤੀਸ਼ੀਲ ਤੌਰ ‘ਤੇ ਬਿਰਤਾਂਤ ਵਿੱਚ ਬੁਣ ਸਕਦਾ ਹੈ।
ਅੱਗੇ ਦਾ ਰਾਹ: QVQ-Max ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਸੁਧਾਰਨਾ ਅਤੇ ਵਧਾਉਣਾ
Alibaba ਆਸਾਨੀ ਨਾਲ ਸਵੀਕਾਰ ਕਰਦਾ ਹੈ ਕਿ QVQ-Max, ਇਸਦੇ ਮੌਜੂਦਾ ਰੂਪ ਵਿੱਚ, ਵਿਜ਼ੂਅਲ ਤਰਕ AI ਲਈ ਉਹਨਾਂ ਦੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਦੀ ਸਿਰਫ਼ ਸ਼ੁਰੂਆਤੀ ਦੁਹਰਾਓ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਉਹਨਾਂ ਨੇ ਭਵਿੱਖ ਦੇ ਸੁਧਾਰਾਂ ਲਈ ਇੱਕ ਸਪਸ਼ਟ ਰੋਡਮੈਪ ਤਿਆਰ ਕੀਤਾ ਹੈ, ਮਾਡਲ ਦੀ ਸੂਝ ਅਤੇ ਉਪਯੋਗਤਾ ਨੂੰ ਵਧਾਉਣ ਲਈ ਤਿੰਨ ਮੁੱਖ ਖੇਤਰਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ ਹੈ।
1. ਚਿੱਤਰ ਪਛਾਣ ਦੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਮਜ਼ਬੂਤ ਕਰਨਾ: ਵਿਜ਼ੂਅਲ ਤਰਕ ਦੀ ਨੀਂਹ ਸਹੀ ਧਾਰਨਾ ਹੈ। Alibaba QVQ-Max ਦੀ ਇਹ ਸਹੀ ਢੰਗ ਨਾਲ ਵਿਆਖਿਆ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਿਹਾ ਹੈ ਕਿ ਇਹ ਕੀ ‘ਦੇਖਦਾ’ ਹੈ। ਇਸ ਵਿੱਚ ਗਰਾਉਂਡਿੰਗ ਤਕਨੀਕਾਂ ਨੂੰ ਲਾਗੂ ਕਰਨਾ ਸ਼ਾਮਲ ਹੈ। AI ਵਿੱਚ, ਗਰਾਉਂਡਿੰਗ ਆਮ ਤੌਰ ‘ਤੇ ਅਮੂਰਤ ਚਿੰਨ੍ਹਾਂ ਜਾਂ ਭਾਸ਼ਾ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ (ਜਿਵੇਂ ਕਿ ਮਾਡਲ ਦੁਆਰਾ ਤਿਆਰ ਕੀਤਾ ਟੈਕਸਟ) ਨੂੰ ਠੋਸ, ਅਸਲ-ਸੰਸਾਰ ਸੰਦਰਭਾਂ ਨਾਲ ਜੋੜਨ ਦਾ ਹਵਾਲਾ ਦਿੰਦਾ ਹੈ - ਇਸ ਕੇਸ ਵਿੱਚ, ਇੱਕ ਚਿੱਤਰ ਦੇ ਅੰਦਰ ਖਾਸ ਵੇਰਵੇ। ਅਸਲ ਚਿੱਤਰ ਡੇਟਾ ਦੇ ਵਿਰੁੱਧ ਇਸਦੇ ਵਿਜ਼ੂਅਲ ਨਿਰੀਖਣਾਂ ਨੂੰ ਵਧੇਰੇ ਸਖਤੀ ਨਾਲ ਪ੍ਰਮਾਣਿਤ ਕਰਕੇ, ਉਦੇਸ਼ ਗਲਤੀਆਂ, ਗਲਤ ਵਿਆਖਿਆਵਾਂ, ਅਤੇ AI ‘ਭਰਮਾਂ’ ਨੂੰ ਘਟਾਉਣਾ ਹੈ ਜੋ ਜਨਰੇਟਿਵ ਮਾਡਲਾਂ ਨੂੰ ਪਰੇਸ਼ਾਨ ਕਰ ਸਕਦੇ ਹਨ। ਉੱਚ ਵਫ਼ਾਦਾਰੀ ਵਿਜ਼ੂਅਲ ਸਮਝ ਦੀ ਇਹ ਖੋਜ ਭਰੋਸੇਯੋਗ ਤਰਕ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ।
2. ਜਟਿਲਤਾ ਅਤੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਨਾਲ ਨਜਿੱਠਣਾ: ਦੂਜਾ ਵੱਡਾ ਜ਼ੋਰ ਮਾਡਲ ਨੂੰ ਵਧੇਰੇ ਗੁੰਝਲਦਾਰ ਕਾਰਜਾਂ ਨੂੰ ਸੰਭਾਲਣ ਦੇ ਯੋਗ ਬਣਾਉਣਾ ਹੈ ਜੋ ਕਈ ਕਦਮਾਂ ਵਿੱਚ ਪ੍ਰਗਟ ਹੁੰਦੇ ਹਨ ਜਾਂ ਗੁੰਝਲਦਾਰ ਸਮੱਸਿਆ-ਹੱਲ ਕਰਨ ਵਾਲੇ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਦੇ ਹਨ। ਇਹ ਅਭਿਲਾਸ਼ਾ ਪੈਸਿਵ ਵਿਸ਼ਲੇਸ਼ਣ ਤੋਂ ਪਰੇ ਸਰਗਰਮ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਤੱਕ ਫੈਲੀ ਹੋਈ ਹੈ। ਜ਼ਿਕਰ ਕੀਤਾ ਗਿਆ ਟੀਚਾ - AI ਨੂੰ ਫੋਨ ਅਤੇ ਕੰਪਿਊਟਰ ਚਲਾਉਣ ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ ਗੇਮਾਂ ਖੇਡਣ ਦੇ ਯੋਗ ਬਣਾਉਣਾ - ਖਾਸ ਤੌਰ ‘ਤੇ ਕਮਾਲ ਦਾ ਹੈ। ਇਸਦਾ ਅਰਥ ਹੈ AI ਏਜੰਟਾਂ ਵੱਲ ਇੱਕ ਵਿਕਾਸ ਜੋ ਗ੍ਰਾਫਿਕਲ ਯੂਜ਼ਰ ਇੰਟਰਫੇਸ (GUIs) ਨੂੰ ਸਮਝਣ, ਗਤੀਸ਼ੀਲ ਵਿਜ਼ੂਅਲ ਫੀਡਬੈਕ ਦੀ ਵਿਆਖਿਆ ਕਰਨ (ਜਿਵੇਂ ਕਿ ਇੱਕ ਗੇਮ ਵਾਤਾਵਰਣ ਵਿੱਚ), ਅਤੇ ਵਿਜ਼ੂਅਲ ਇਨਪੁਟ ਦੇ ਅਧਾਰ ‘ਤੇ ਕਾਰਵਾਈਆਂ ਦੇ ਕ੍ਰਮ ਨੂੰ ਲਾਗੂ ਕਰਨ ਦੇ ਸਮਰੱਥ ਹਨ। ਇੱਥੇ ਸਫਲਤਾ ਵਧੇਰੇ ਖੁਦਮੁਖਤਿਆਰ ਅਤੇ ਸਮਰੱਥ AI ਸਹਾਇਕਾਂ ਵੱਲ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਛਾਲ ਨੂੰ ਦਰਸਾਏਗੀ ਜੋ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਡਿਜੀਟਲ ਦੁਨੀਆ ਨਾਲ ਗੱਲਬਾਤ ਕਰ ਸਕਦੇ ਹਨ, ਬਿਲਕੁਲ ਮਨੁੱਖਾਂ ਵਾਂਗ।
3. ਟੈਕਸਟ ਤੋਂ ਪਰੇ ਰੂਪਾਂ ਦਾ ਵਿਸਤਾਰ ਕਰਨਾ: ਅੰਤ ਵਿੱਚ, Alibaba QVQ-Max ਨੂੰ ਇਸਦੇ ਆਉਟਪੁੱਟ ਅਤੇ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਇਨਪੁਟ ਸੁਧਾਈ ਲਈ ਮੁੱਖ ਤੌਰ ‘ਤੇ ਟੈਕਸਟ-ਅਧਾਰਿਤ ਪਰਸਪਰ ਕ੍ਰਿਆਵਾਂ ‘ਤੇ ਇਸਦੀ ਮੌਜੂਦਾ ਨਿਰਭਰਤਾ ਤੋਂ ਪਰੇ ਧੱਕਣ ਦੀ ਯੋਜਨਾ ਬਣਾ ਰਿਹਾ ਹੈ। ਰੋਡਮੈਪ ਵਿੱਚ ਟੂਲ ਵੈਰੀਫਿਕੇਸ਼ਨ ਅਤੇ ਵਿਜ਼ੂਅਲ ਜਨਰੇਸ਼ਨ ਸ਼ਾਮਲ ਹਨ। ਟੂਲ ਵੈਰੀਫਿਕੇਸ਼ਨ ਦਾ ਮਤਲਬ ਇਹ ਹੋ ਸਕਦਾ ਹੈ ਕਿ AI ਸਕ੍ਰੀਨ ਤਬਦੀਲੀਆਂ ਜਾਂ ਆਉਟਪੁੱਟ ਚਿੱਤਰਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਕੇ ਦ੍ਰਿਸ਼ਟੀਗਤ ਤੌਰ ‘ਤੇ ਪੁਸ਼ਟੀ ਕਰਦਾ ਹੈ ਕਿ ਕਿਸੇ ਬਾਹਰੀ ਸੌਫਟਵੇਅਰ ਟੂਲ ਜਾਂ API ਤੋਂ ਬੇਨਤੀ ਕੀਤੀ ਗਈ ਕਾਰਵਾਈ ਸਫਲਤਾਪੂਰਵਕ ਪੂਰੀ ਹੋ ਗਈ ਸੀ। ਵਿਜ਼ੂਅਲ ਜਨਰੇਸ਼ਨ ਇੱਕ ਸੱਚਮੁੱਚ ਮਲਟੀਮੋਡਲ ਇਨਪੁਟ/ਆਉਟਪੁੱਟ ਸਿਸਟਮ ਵੱਲ ਵਧਣ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਜਿੱਥੇ AI ਨਾ ਸਿਰਫ਼ ਚਿੱਤਰਾਂ ਨੂੰ ਸਮਝ ਸਕਦਾ ਹੈ ਬਲਕਿ ਇਸਦੇ ਤਰਕ ਅਤੇ ਚੱਲ ਰਹੇ ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਦੇ ਅਧਾਰ ‘ਤੇ ਨਵੀਂ ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਵੀ ਬਣਾ ਸਕਦਾ ਹੈ। ਇਸ ਵਿੱਚ ਡਾਇਗ੍ਰਾਮ ਤਿਆਰ ਕਰਨਾ, ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਚਿੱਤਰਾਂ ਨੂੰ ਸੋਧਣਾ, ਜਾਂ ਇਸਦੀ ਤਰਕ ਪ੍ਰਕਿਰਿਆ ਦੇ ਵਿਜ਼ੂਅਲ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਬਣਾਉਣਾ ਸ਼ਾਮਲ ਹੋ ਸਕਦਾ ਹੈ।
ਇਹ ਅਗਾਂਹਵਧੂ ਏਜੰਡਾ ਵਿਜ਼ੂਅਲ ਤਰਕ AI ਲਈ ਕਲਪਨਾ ਕੀਤੀ ਗਈ ਲੰਬੀ-ਮਿਆਦ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ - ਸਿਸਟਮ ਜੋ ਨਾ ਸਿਰਫ਼ ਸਮਝਦਾਰ ਅਤੇ ਵਿਚਾਰਸ਼ੀਲ ਹਨ ਬਲਕਿ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਅਮੀਰ ਵਾਤਾਵਰਣਾਂ ਦੇ ਅੰਦਰ ਗੁੰਝਲਦਾਰ, ਬਹੁ-ਪੜਾਵੀ ਕਾਰਜਾਂ ਦੇ ਵੱਧ ਤੋਂ ਵੱਧ ਪਰਸਪਰ ਪ੍ਰਭਾਵੀ ਅਤੇ ਸਮਰੱਥ ਵੀ ਹਨ।
ਵਿਜ਼ੂਅਲ ਮਾਈਂਡ ਤੱਕ ਪਹੁੰਚਣਾ: QVQ-Max ਨਾਲ ਜੁੜਨਾ
ਉਹਨਾਂ ਲਈ ਜੋ ਇਸ ਨਵੇਂ ਵਿਜ਼ੂਅਲ ਤਰਕ ਮਾਡਲ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਖੁਦ ਖੋਜਣ ਲਈ ਉਤਸੁਕ ਹਨ, Alibaba ਨੇ QVQ-Max ਨੂੰ ਇਸਦੇ ਮੌਜੂਦਾ AI ਚੈਟ ਇੰਟਰਫੇਸ ਦੁਆਰਾ ਪਹੁੰਚਯੋਗ ਬਣਾਇਆ ਹੈ। ਉਪਭੋਗਤਾ chat.qwen.ai ਪਲੇਟਫਾਰਮ ‘ਤੇ ਨੈਵੀਗੇਟ ਕਰ ਸਕਦੇ ਹਨ। ਇੰਟਰਫੇਸ ਦੇ ਅੰਦਰ, ਆਮ ਤੌਰ ‘ਤੇ ਉੱਪਰ-ਖੱਬੇ ਕੋਨੇ ਵਿੱਚ ਸਥਿਤ, ਵੱਖ-ਵੱਖ AI ਮਾਡਲਾਂ ਦੀ ਚੋਣ ਕਰਨ ਲਈ ਇੱਕ ਡ੍ਰੌਪਡਾਉਨ ਮੀਨੂ ਹੁੰਦਾ ਹੈ। ‘ਹੋਰ ਮਾਡਲ ਫੈਲਾਓ’ ਵਿਕਲਪ ਦੀ ਚੋਣ ਕਰਕੇ, ਉਪਭੋਗਤਾ QVQ-Max ਨੂੰ ਲੱਭ ਅਤੇ ਚੁਣ ਸਕਦੇ ਹਨ। ਇੱਕ ਵਾਰ ਮਾਡਲ ਕਿਰਿਆਸ਼ੀਲ ਹੋ ਜਾਣ ਤੋਂ ਬਾਅਦ, ਪਰਸਪਰ ਪ੍ਰਭਾਵ ਮਿਆਰੀ ਚੈਟ ਬਾਕਸ ਦੁਆਰਾ ਅੱਗੇ ਵਧਦਾ ਹੈ, ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ - ਚਿੱਤਰ ਜਾਂ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਵੀਡੀਓ ਕਲਿੱਪ - ਨੂੰ ਇਸਦੀਆਂ ਵਿਲੱਖਣ ਤਰਕ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਅਨਲੌਕ ਕਰਨ ਲਈ ਨੱਥੀ ਕਰਨ ਦੇ ਮਹੱਤਵਪੂਰਨ ਜੋੜ ਦੇ ਨਾਲ। ਇਸ ਪਹਿਲੀ-ਪੀੜ੍ਹੀ ਦੇ ਵਿਜ਼ੂਅਲ ਤਰਕ ਟੂਲ ਦੇ ਵਿਹਾਰਕ ਦਾਇਰੇ ਅਤੇ ਸੀਮਾਵਾਂ ਨੂੰ ਸਮਝਣ ਲਈ ਵੱਖ-ਵੱਖ ਵਿਜ਼ੂਅਲ ਇਨਪੁਟਸ ਨਾਲ ਪ੍ਰਯੋਗ ਕਰਨਾ ਮੁੱਖ ਹੈ।