ਮੁਲਾਂਕਣ ਵਿਧੀ: ਇੱਕ ਬਹੁਪੱਖੀ ਪਹੁੰਚ
HKU Business School ਖੋਜ ਟੀਮ ਦੁਆਰਾ ਵਰਤੀ ਗਈ ਮੁਲਾਂਕਣ ਵਿਧੀ ਨੂੰ AI ਮਾਡਲਾਂ ਦੀਆਂ ਚਿੱਤਰ ਉਤਪਾਦਨ ਸਮਰੱਥਾਵਾਂ ਦਾ ਸੰਪੂਰਨ ਅਤੇ ਉਦੇਸ਼ਪੂਰਨ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਵਿਸ਼ਲੇਸ਼ਣ ਦੋ ਮੁੱਖ ਕਾਰਜਾਂ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ:
- ਨਵੀਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ: ਮਾਡਲਾਂ ਦੀ ਟੈਕਸਟੁਅਲ ਪ੍ਰੋਂਪਟ ਤੋਂ ਚਿੱਤਰ ਬਣਾਉਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ।
- ਚਿੱਤਰ ਸੰਸ਼ੋਧਨ: ਖਾਸ ਹਦਾਇਤਾਂ ਦੇ ਅਧਾਰ ਤੇ ਮੌਜੂਦਾ ਚਿੱਤਰਾਂ ਨੂੰ ਸੋਧਣ ਦੀ ਮਾਡਲਾਂ ਦੀ ਸਮਰੱਥਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ।
ਨਵੇਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ ਕਾਰਜ ਲਈ, ਮੁਲਾਂਕਣ ਵਿੱਚ ਦੋ ਮਹੱਤਵਪੂਰਨ ਪਹਿਲੂ ਸ਼ਾਮਲ ਹਨ:
ਚਿੱਤਰ ਸਮੱਗਰੀ ਗੁਣਵੱਤਾ
ਇਹ ਪਹਿਲੂ ਉਤਪੰਨ ਚਿੱਤਰਾਂ ਦੀ ਵਿਜ਼ੂਅਲ ਫਿਡੇਲਿਟੀ ਅਤੇ ਸੁਹਜਾਤਮਕ ਅਪੀਲ ਵਿੱਚ ਸ਼ਾਮਲ ਹੈ। ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਤਿੰਨ ਮੁੱਖ ਮਾਪਦੰਡ ਵਰਤੇ ਗਏ ਸਨ:
ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਅਲਾਈਨਮੈਂਟ: ਇਹ ਮਾਪਦੰਡ ਉਸ ਸ਼ੁੱਧਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ ਜਿਸ ਨਾਲ ਉਤਪੰਨ ਚਿੱਤਰ ਟੈਕਸਟੁਅਲ ਪ੍ਰੋਂਪਟ ਵਿੱਚ ਵਰਣਿਤ ਵਸਤੂਆਂ, ਦ੍ਰਿਸ਼ਾਂ ਅਤੇ ਸੰਕਲਪਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਚਿੱਤਰ ਜਿੰਨਾ ਜ਼ਿਆਦਾ ਪ੍ਰੋਂਪਟ ਦੇ ਇਰਾਦੇ ਨਾਲ ਮੇਲ ਖਾਂਦਾ ਹੈ, ਸਕੋਰ ਓਨਾ ਹੀ ਉੱਚਾ ਹੁੰਦਾ ਹੈ।
ਚਿੱਤਰ ਦੀ ਇਕਸਾਰਤਾ: ਇਹ ਪਹਿਲੂ ਉਤਪੰਨ ਚਿੱਤਰ ਦੀ ਤੱਥਾਤਮਕ ਸ਼ੁੱਧਤਾ ਅਤੇ ਭਰੋਸੇਯੋਗਤਾ ‘ਤੇ ਕੇਂਦ੍ਰਿਤ ਹੈ। ਇਸਨੇ ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕੀਤਾ ਕਿ ਚਿੱਤਰ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਸਿਧਾਂਤਾਂ ਦੀ ਪਾਲਣਾ ਕਰਦਾ ਹੈ ਅਤੇ ਬੇਹੂਦਾ ਜਾਂ ਸਰੀਰਕ ਤੌਰ ‘ਤੇ ਅਸੰਭਵ ਦ੍ਰਿਸ਼ਾਂ ਨੂੰ ਉਤਪੰਨ ਕਰਨ ਤੋਂ ਪਰਹੇਜ਼ ਕਰਦਾ ਹੈ।
ਚਿੱਤਰ ਸੁਹਜ ਸ਼ਾਸਤਰ: ਇਸ ਮਾਪਦੰਡ ਨੇ ਉਤਪੰਨ ਚਿੱਤਰ ਦੀ ਕਲਾਤਮਕ ਗੁਣਵੱਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ਰਚਨਾ, ਰੰਗ ਦੀ ਇਕਸੁਰਤਾ, ਸਪੱਸ਼ਟਤਾ ਅਤੇ ਸਮੁੱਚੀ ਰਚਨਾਤਮਕਤਾ ਵਰਗੇ ਕਾਰਕਾਂ ‘ਤੇ ਵਿਚਾਰ ਕੀਤਾ ਗਿਆ। ਮਜ਼ਬੂਤ ਵਿਜ਼ੂਅਲ ਅਪੀਲ ਅਤੇ ਕਲਾਤਮਕ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਚਿੱਤਰਾਂ ਨੂੰ ਉੱਚ ਸਕੋਰ ਪ੍ਰਾਪਤ ਹੋਏ।
ਵਿਗਿਆਨਕ ਕਠੋਰਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਮਾਹਰਾਂ ਨੇ ਮਾਡਲਾਂ ਵਿਚਕਾਰ ਜੋੜੀਦਾਰ ਤੁਲਨਾਵਾਂ ਕੀਤੀਆਂ, ਅਤੇ ਅੰਤਮ ਦਰਜਾਬੰਦੀ Elo ਰੇਟਿੰਗ ਸਿਸਟਮ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਨਿਰਧਾਰਤ ਕੀਤੀ ਗਈ। ਇਸ ਪਹੁੰਚ ਨੇ ਹਰੇਕ ਮਾਡਲ ਦੇ ਅਨੁਸਾਰੀ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਇੱਕ ਸੂਖਮ ਅਤੇ ਉਦੇਸ਼ਪੂਰਨ ਮੁਲਾਂਕਣ ਦੀ ਆਗਿਆ ਦਿੱਤੀ।
ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ
ਵਿਜ਼ੂਅਲ ਪਹਿਲੂਆਂ ਤੋਂ ਇਲਾਵਾ, ਮੁਲਾਂਕਣ ਨੇ AI-ਉਤਪੰਨ ਚਿੱਤਰਾਂ ਦੇ ਨੈਤਿਕ ਅਤੇ ਸਮਾਜਿਕ ਪ੍ਰਭਾਵਾਂ ਨੂੰ ਵੀ ਤਰਜੀਹ ਦਿੱਤੀ। ਇਸ ਪਹਿਲੂ ਨੇ ਸੁਰੱਖਿਆ ਨਿਯਮਾਂ ਦੇ ਨਾਲ ਮਾਡਲਾਂ ਦੀ ਪਾਲਣਾ ਅਤੇ ਸਮਾਜਿਕ ਜ਼ਿੰਮੇਵਾਰੀ ਬਾਰੇ ਉਹਨਾਂ ਦੀ ਜਾਗਰੂਕਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ। ਟੈਸਟ ਪ੍ਰੋਂਪਟਾਂ ਨੂੰ ਧਿਆਨ ਨਾਲ ਸੰਵੇਦਨਸ਼ੀਲ ਸ਼੍ਰੇਣੀਆਂ ਦੀ ਇੱਕ ਸ਼੍ਰੇਣੀ ਨੂੰ ਕਵਰ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ:
ਪੱਖਪਾਤ ਅਤੇ ਵਿਤਕਰਾ: ਇਹ ਮੁਲਾਂਕਣ ਕਰਨਾ ਕਿ ਕੀ ਮਾਡਲ ਨੇ ਅਜਿਹੇ ਚਿੱਤਰ ਉਤਪੰਨ ਕੀਤੇ ਹਨ ਜੋ ਨਸਲ, ਲਿੰਗ, ਧਰਮ, ਜਾਂ ਹੋਰ ਸੁਰੱਖਿਅਤ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਦੇ ਅਧਾਰ ‘ਤੇ ਨੁਕਸਾਨਦੇਹ ਰੂੜ੍ਹੀਵਾਦੀ ਧਾਰਨਾਵਾਂ ਨੂੰ ਕਾਇਮ ਰੱਖਦੇ ਹਨ ਜਾਂ ਪੱਖਪਾਤ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ।
ਅਪਰਾਧ ਅਤੇ ਗੈਰ-ਕਾਨੂੰਨੀ ਗਤੀਵਿਧੀਆਂ: ਇਹ ਮੁਲਾਂਕਣ ਕਰਨਾ ਕਿ ਕੀ ਮਾਡਲ ਨੂੰ ਗੈਰ-ਕਾਨੂੰਨੀ ਕੰਮਾਂ, ਹਿੰਸਾ ਜਾਂ ਹੋਰ ਨੁਕਸਾਨਦੇਹ ਸਮੱਗਰੀ ਨੂੰ ਦਰਸਾਉਂਦੇ ਚਿੱਤਰ ਉਤਪੰਨ ਕਰਨ ਲਈ ਪ੍ਰੇਰਿਤ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।
ਖਤਰਨਾਕ ਵਿਸ਼ੇ: ਖਤਰਨਾਕ ਸਮੱਗਰੀ, ਸਵੈ-ਨੁਕਸਾਨ, ਜਾਂ ਹੋਰ ਸੰਭਾਵੀ ਤੌਰ ‘ਤੇ ਖਤਰਨਾਕ ਵਿਸ਼ਿਆਂ ਨਾਲ ਸਬੰਧਤ ਪ੍ਰੋਂਪਟਾਂ ਪ੍ਰਤੀ ਮਾਡਲ ਦੇ ਜਵਾਬ ਦੀ ਜਾਂਚ ਕਰਨਾ।
ਨੈਤਿਕਤਾ ਅਤੇ ਨੈਤਿਕਤਾ: ਨੈਤਿਕ ਸਿਧਾਂਤਾਂ ਪ੍ਰਤੀ ਮਾਡਲ ਦੀ ਪਾਲਣਾ ਅਤੇ ਨੈਤਿਕ ਤੌਰ ‘ਤੇ ਇਤਰਾਜ਼ਯੋਗ ਜਾਂ ਅਪਮਾਨਜਨਕ ਚਿੱਤਰਾਂ ਨੂੰ ਉਤਪੰਨ ਕਰਨ ਤੋਂ ਬਚਣ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ।
ਕਾਪੀਰਾਈਟ ਉਲੰਘਣਾ: ਇਹ ਮੁਲਾਂਕਣ ਕਰਨਾ ਕਿ ਕੀ ਮਾਡਲ ਦੀ ਵਰਤੋਂ ਅਜਿਹੇ ਚਿੱਤਰ ਉਤਪੰਨ ਕਰਨ ਲਈ ਕੀਤੀ ਜਾ ਸਕਦੀ ਹੈ ਜੋ ਕਾਪੀਰਾਈਟ ਕਾਨੂੰਨਾਂ ਜਾਂ ਬੌਧਿਕ ਸੰਪਤੀ ਅਧਿਕਾਰਾਂ ਦੀ ਉਲੰਘਣਾ ਕਰਦੇ ਹਨ।
ਗੋਪਨੀਯਤਾ/ਪੋਰਟਰੇਟ ਅਧਿਕਾਰਾਂ ਦੀ ਉਲੰਘਣਾ: ਨਿੱਜੀ ਗੋਪਨੀਯਤਾ ਦੀ ਰੱਖਿਆ ਕਰਨ ਅਤੇ ਵਿਅਕਤੀਆਂ ਦੇ ਪੋਰਟਰੇਟ ਅਧਿਕਾਰਾਂ ਦੀ ਉਲੰਘਣਾ ਕਰਨ ਵਾਲੇ ਚਿੱਤਰਾਂ ਨੂੰ ਉਤਪੰਨ ਕਰਨ ਤੋਂ ਬਚਣ ਦੀ ਮਾਡਲ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਨਾ।
ਇਹਨਾਂ ਵਿਭਿੰਨ ਸ਼੍ਰੇਣੀਆਂ ਨੂੰ ਸ਼ਾਮਲ ਕਰਕੇ, ਮੁਲਾਂਕਣ ਦਾ ਉਦੇਸ਼ ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਪ੍ਰਤੀ ਮਾਡਲਾਂ ਦੀ ਵਚਨਬੱਧਤਾ ਦਾ ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ।
ਚਿੱਤਰ ਸੰਸ਼ੋਧਨ ਕਾਰਜ ਲਈ, ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਉਹਨਾਂ ਦੀਆਂ ਹਦਾਇਤਾਂ ਦੇ ਅਧਾਰ ਤੇ, ਇੱਕ ਸੰਦਰਭ ਚਿੱਤਰ ਦੀ ਸ਼ੈਲੀ ਜਾਂ ਸਮੱਗਰੀ ਨੂੰ ਸੋਧਣ ਦੀ ਯੋਗਤਾ ‘ਤੇ ਕੀਤਾ ਗਿਆ ਸੀ। ਸੰਸ਼ੋਧਿਤ ਚਿੱਤਰਾਂ ਦਾ ਮੁਲਾਂਕਣ ਨਵੇਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ ਵਿੱਚ ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਵਾਂਗ ਹੀ ਤਿੰਨ ਪਹਿਲੂਆਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਗਿਆ ਸੀ: ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਅਲਾਈਨਮੈਂਟ, ਚਿੱਤਰ ਦੀ ਇਕਸਾਰਤਾ, ਅਤੇ ਚਿੱਤਰ ਸੁਹਜ ਸ਼ਾਸਤਰ।
ਦਰਜਾਬੰਦੀ: ਲੀਡਰਾਂ ਅਤੇ ਪਛੜਿਆਂ ਦਾ ਪਰਦਾਫਾਸ਼
ਮੁਲਾਂਕਣ ਨੇ ਵੱਖ-ਵੱਖ ਕਾਰਜਾਂ ਅਤੇ ਪਹਿਲੂਆਂ ਵਿੱਚ ਸੂਝਵਾਨ ਦਰਜਾਬੰਦੀ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਜਿਸ ਵਿੱਚ ਵੱਖ-ਵੱਖ AI ਮਾਡਲਾਂ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਅਤੇ ਕਮਜ਼ੋਰੀਆਂ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ ਗਿਆ।
ਨਵੇਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ ਵਿੱਚ ਚਿੱਤਰ ਸਮੱਗਰੀ ਗੁਣਵੱਤਾ
ਨਵੇਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ ਲਈ ਚਿੱਤਰ ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਦੇ ਖੇਤਰ ਵਿੱਚ, ByteDance ਦਾ Dreamina 1,123 ਦੇ ਸਭ ਤੋਂ ਵੱਧ ਸਕੋਰ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕਰਦੇ ਹੋਏ, ਚੋਟੀ ਦੇ ਪ੍ਰਦਰਸ਼ਨਕਾਰ ਵਜੋਂ ਉਭਰਿਆ। ਇਹ Dreamina ਦੀ ਬੇਮਿਸਾਲ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਉਹ ਅਜਿਹੇ ਚਿੱਤਰ ਉਤਪੰਨ ਕਰਦਾ ਹੈ ਜੋ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਅਤੇ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਟੈਕਸਟੁਅਲ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਨੇੜਿਓਂ ਜੁੜੇ ਹੋਏ ਹਨ। Baidu ਦਾ ERNIE Bot V3.2.0 ਨੇੜਿਓਂ ਪਿੱਛੇ ਰਿਹਾ, ਇਸ ਖੇਤਰ ਵਿੱਚ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। Midjourney v6.1 ਅਤੇ Doubao ਨੇ ਵੀ ਚੋਟੀ ਦੇ ਅਹੁਦਿਆਂ ਨੂੰ ਸੁਰੱਖਿਅਤ ਕੀਤਾ, ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਚਿੱਤਰਾਂ ਨੂੰ ਉਤਪੰਨ ਕਰਨ ਵਿੱਚ ਆਪਣੀ ਮੁਹਾਰਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
ਇਹਨਾਂ ਮਾਡਲਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ AI ਦੀ ਟੈਕਸਟੁਅਲ ਵਰਣਨ ਨੂੰ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਮਜਬੂਰ ਕਰਨ ਵਾਲੇ ਅਤੇ ਸਹੀ ਪ੍ਰਤੀਨਿਧਤਾਵਾਂ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਵੱਧ ਰਹੀ ਸੂਝ-ਬੂਝ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ। ਇਹਨਾਂ ਚੋਟੀ ਦੇ ਪ੍ਰਦਰਸ਼ਨਕਾਰਾਂ ਵਿਚਕਾਰ ਮੁਕਾਬਲਾ ਖੇਤਰ ਵਿੱਚ ਕੀਤੀਆਂ ਜਾ ਰਹੀਆਂ ਤੇਜ਼ ਤਰੱਕੀਆਂ ਦਾ ਸੂਚਕ ਹੈ।
ਨਵੇਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ
ਜਦੋਂ ਨਵੇਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ ਕਾਰਜ ਵਿੱਚ ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਦੀ ਗੱਲ ਆਈ, ਤਾਂ ਮਾਡਲਾਂ ਦੇ ਇੱਕ ਵੱਖਰੇ ਸਮੂਹ ਨੇ ਅਗਵਾਈ ਕੀਤੀ। OpenAI ਦੇ GPT-4o ਨੇ 6.04 ਦਾ ਸਭ ਤੋਂ ਵੱਧ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਜੋ ਨੈਤਿਕ ਵਿਚਾਰਾਂ ਅਤੇ ਸੁਰੱਖਿਆ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਪ੍ਰਤੀ ਇਸਦੀ ਵਚਨਬੱਧਤਾ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ। Qwen V2.5.0 ਅਤੇ Google ਦੇ Gemini 1.5 Pro ਨੇ ਕ੍ਰਮਵਾਰ 5.49 ਅਤੇ 5.23 ਦੇ ਸਕੋਰਾਂ ਨਾਲ ਦੂਜਾ ਅਤੇ ਤੀਜਾ ਸਥਾਨ ਹਾਸਲ ਕੀਤਾ। ਇਹ ਨਤੀਜੇ ਉਸ ਜ਼ੋਰ ਨੂੰ ਉਜਾਗਰ ਕਰਦੇ ਹਨ ਜੋ ਕੁਝ ਡਿਵੈਲਪਰ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ‘ਤੇ ਦੇ ਰਹੇ ਹਨ ਕਿ ਉਹਨਾਂ ਦੇ AI ਮਾਡਲ ਜ਼ਿੰਮੇਵਾਰੀ ਨਾਲ ਕੰਮ ਕਰਦੇ ਹਨ ਅਤੇ ਨੁਕਸਾਨਦੇਹ ਜਾਂ ਅਣਉਚਿਤ ਸਮੱਗਰੀ ਨੂੰ ਉਤਪੰਨ ਕਰਨ ਤੋਂ ਬਚਦੇ ਹਨ।
ਖਾਸ ਤੌਰ ‘ਤੇ, DeepSeek ਦੁਆਰਾ ਹਾਲ ਹੀ ਵਿੱਚ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲ, Janus-Pro, ਨੇ ਨਾ ਤਾਂ ਚਿੱਤਰ ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਨਾ ਹੀ ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਹ ਖੋਜ ਉਹਨਾਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦੀ ਹੈ ਜਿਹਨਾਂ ਦਾ ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਵਿਜ਼ੂਅਲ ਫਿਡੇਲਿਟੀ ਦੀ ਪ੍ਰਾਪਤੀ ਨੂੰ ਨੈਤਿਕ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰ AI ਵਿਕਾਸ ਦੀ ਜ਼ਰੂਰਤ ਨਾਲ ਸੰਤੁਲਿਤ ਕਰਨ ਵਿੱਚ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈਂਦਾ ਹੈ। ਨਤੀਜਿਆਂ ਨੇ ਇੱਕ ਚਿੰਤਾਜਨਕ ਰੁਝਾਨ ਦਾ ਵੀ ਖੁਲਾਸਾ ਕੀਤਾ: ਕੁਝ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਜਿਨ੍ਹਾਂ ਨੇ ਚਿੱਤਰ ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਵਿੱਚ ਉੱਤਮਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਨੇ ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਲਈ ਮਹੱਤਵਪੂਰਨ ਕਮੀ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਹ ਅੰਤਰ ਖੇਤਰ ਵਿੱਚ ਇੱਕ ਨਾਜ਼ੁਕ ਮੁੱਦੇ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ – ਉੱਚ-ਗੁਣਵੱਤਾ ਵਾਲੇ ਚਿੱਤਰ ਉਤਪਾਦਨ ਦੀ ਸੰਭਾਵਨਾ ਨਾਕਾਫ਼ੀ AI ਗਾਰਡਰੇਲਾਂ ਦੇ ਨਾਲ ਜੋੜੀ ਜਾਣ ਦੀ, ਜਿਸ ਨਾਲ ਸੰਭਾਵੀ ਸਮਾਜਿਕ ਜੋਖਮ ਪੈਦਾ ਹੁੰਦੇ ਹਨ।
ਚਿੱਤਰ ਸੰਸ਼ੋਧਨ ਕਾਰਜ
ਚਿੱਤਰ ਸੰਸ਼ੋਧਨ ਕਾਰਜ ਵਿੱਚ, ਜਿਸਨੇ ਮੌਜੂਦਾ ਚਿੱਤਰਾਂ ਨੂੰ ਸੋਧਣ ਦੀ ਮਾਡਲਾਂ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ, Doubao, Dreamina, ਅਤੇ ERNIE Bot V3.2.0 ਨੇ ਸ਼ਾਨਦਾਰ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਇਹ ਉਹਨਾਂ ਦੀ ਬਹੁਪੱਖੀਤਾ ਅਤੇ ਨਾ ਸਿਰਫ਼ ਨਵੇਂ ਚਿੱਤਰ ਉਤਪੰਨ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਸਗੋਂ ਮੌਜੂਦਾ ਵਿਜ਼ੂਅਲ ਸਮੱਗਰੀ ਨੂੰ ਸੁਧਾਰਨ ਅਤੇ ਅਨੁਕੂਲ ਬਣਾਉਣ ਦੀ ਵੀ। GPT-4o ਅਤੇ Gemini 1.5 Pro ਨੇ ਵੀ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਇਸ ਖੇਤਰ ਵਿੱਚ ਆਪਣੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।
ਦਿਲਚਸਪ ਗੱਲ ਇਹ ਹੈ ਕਿ, Baidu ਦਾ ਇੱਕ ਹੋਰ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲ, WenXinYiGe 2, ਨੇ ਨਵੇਂ-ਚਿੱਤਰ ਉਤਪਾਦਨ ਕਾਰਜਾਂ ਅਤੇ ਚਿੱਤਰ ਸੰਸ਼ੋਧਨ ਦੋਵਾਂ ਵਿੱਚ ਚਿੱਤਰ ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਵਿੱਚ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਆਪਣੇ ਸਾਥੀ, ERNIE Bot V3.2.0 ਤੋਂ ਘੱਟ ਰਿਹਾ। ਇਹ ਅੰਤਰ ਇੱਕੋ ਕੰਪਨੀ ਦੁਆਰਾ ਵਿਕਸਤ ਕੀਤੇ ਗਏ ਮਾਡਲਾਂ ਵਿੱਚ ਵੀ ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਪਰਿਵਰਤਨਸ਼ੀਲਤਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਵੱਖ-ਵੱਖ ਆਰਕੀਟੈਕਚਰ ਅਤੇ ਸਿਖਲਾਈ ਪਹੁੰਚਾਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਖਰੇ ਨਤੀਜੇ ਦੇ ਸਕਦੀਆਂ ਹਨ।
ਮਲਟੀਮੋਡਲ LLMs: ਇੱਕ ਚੰਗੀ ਤਰ੍ਹਾਂ ਨਾਲ ਗੋਲ ਫਾਇਦਾ
ਮੁਲਾਂਕਣ ਤੋਂ ਇੱਕ ਮੁੱਖ ਨਤੀਜਾ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਮਲਟੀਮੋਡਲ LLMs ਦਾ ਸਮੁੱਚਾ ਮਜ਼ਬੂਤ ਪ੍ਰਦਰਸ਼ਨ ਸੀ। ਉਹਨਾਂ ਦੀ ਚਿੱਤਰ ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ ਸਮਰਪਿਤ ਟੈਕਸਟ-ਟੂ-ਇਮੇਜ ਮਾਡਲਾਂ ਦੇ ਮੁਕਾਬਲੇ ਪਾਈ ਗਈ, ਜੋ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਆਕਰਸ਼ਕ ਚਿੱਤਰ ਉਤਪੰਨ ਕਰਨ ਦੀ ਉਹਨਾਂ ਦੀ ਯੋਗਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੀ ਹੈ। ਹਾਲਾਂਕਿ, ਮਲਟੀਮੋਡਲ LLMs ਨੇ ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਦੇ ਮਿਆਰਾਂ ਦੀ ਪਾਲਣਾ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਫਾਇਦਾ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ। ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਮਲਟੀਮੋਡਲ LLMs ਵਿੱਚ ਮੌਜੂਦ ਵਿਆਪਕ ਸੰਦਰਭ ਅਤੇ ਸਮਝ ਉਹਨਾਂ ਦੀ ਅਜਿਹੀ ਸਮੱਗਰੀ ਨੂੰ ਉਤਪੰਨ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾ ਸਕਦੀ ਹੈ ਜੋ ਨੈਤਿਕ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਅਤੇ ਸਮਾਜਿਕ ਨਿਯਮਾਂ ਨਾਲ ਵਧੇਰੇ ਅਨੁਕੂਲ ਹੈ।
ਇਸ ਤੋਂ ਇਲਾਵਾ, ਮਲਟੀਮੋਡਲ LLMs ਨੇ ਉਪਯੋਗਤਾ ਅਤੇ ਵਿਭਿੰਨ ਦ੍ਰਿਸ਼ਾਂ ਲਈ ਸਮਰਥਨ ਵਿੱਚ ਉੱਤਮਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ, ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਇੱਕ ਵਧੇਰੇ ਸਹਿਜ ਅਤੇ ਵਿਆਪਕ ਅਨੁਭਵ ਪ੍ਰਦਾਨ ਕੀਤਾ। ਇਹ ਬਹੁਪੱਖੀਤਾ ਉਹਨਾਂ ਨੂੰ ਐਪਲੀਕੇਸ਼ਨਾਂ ਦੀ ਇੱਕ ਵਿਸ਼ਾਲ ਸ਼੍ਰੇਣੀ ਲਈ ਅਨੁਕੂਲ ਬਣਾਉਂਦੀ ਹੈ, ਕਿਉਂਕਿ ਉਹ ਨਾ ਸਿਰਫ਼ ਚਿੱਤਰ ਉਤਪਾਦਨ ਨੂੰ ਸੰਭਾਲ ਸਕਦੇ ਹਨ, ਸਗੋਂ ਹੋਰ ਕਾਰਜਾਂ ਨੂੰ ਵੀ ਸੰਭਾਲ ਸਕਦੇ ਹਨ ਜਿਹਨਾਂ ਲਈ ਭਾਸ਼ਾ ਦੀ ਸਮਝ ਅਤੇ ਉਤਪਾਦਨ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ।
ਪ੍ਰੋਫੈਸਰ ਜ਼ੇਨਹੁਈ ਜੈਕ ਜਿਆਂਗ, ਇਨੋਵੇਸ਼ਨ ਐਂਡ ਇਨਫਰਮੇਸ਼ਨ ਮੈਨੇਜਮੈਂਟ ਦੇ ਪ੍ਰੋਫੈਸਰ ਅਤੇ ਰਣਨੀਤਕ ਸੂਚਨਾ ਪ੍ਰਬੰਧਨ ਵਿੱਚ ਪਦਮਾ ਅਤੇ ਹਰੀ ਹਰੀਲੇਲਾ ਪ੍ਰੋਫੈਸਰ, ਨੇ ਚੀਨ ਵਿੱਚ AI ਤਕਨਾਲੋਜੀ ਦੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਾਸਸ਼ੀਲ ਲੈਂਡਸਕੇਪ ਵਿੱਚ ਨਵੀਨਤਾ ਨੂੰ ਨੈਤਿਕ ਵਿਚਾਰਾਂ ਨਾਲ ਸੰਤੁਲਿਤ ਕਰਨ ਦੀ ਨਾਜ਼ੁਕ ਲੋੜ ‘ਤੇ ਜ਼ੋਰ ਦਿੱਤਾ। ਉਹਨਾਂ ਨੇ ਕਿਹਾ, “ਚੀਨ ਵਿੱਚ ਤੇਜ਼ ਤਕਨੀਕੀ ਤਰੱਕੀ ਦੇ ਵਿਚਕਾਰ, ਸਾਨੂੰ ਨਵੀਨਤਾ, ਸਮੱਗਰੀ ਦੀ ਗੁਣਵੱਤਾ, ਸੁਰੱਖਿਆ ਅਤੇ ਜ਼ਿੰਮੇਵਾਰੀ ਦੇ ਵਿਚਾਰਾਂ ਵਿਚਕਾਰ ਸੰਤੁਲਨ ਬਣਾਉਣਾ ਚਾਹੀਦਾ ਹੈ। ਇਹ ਮਲਟੀਮੋਡਲ ਮੁਲਾਂਕਣ ਪ੍ਰਣਾਲੀ ਉਤਪਾਦਕ AI ਤਕਨਾਲੋਜੀ ਦੇ ਵਿਕਾਸ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਨੀਂਹ ਰੱਖੇਗੀ ਅਤੇ ਇੱਕ ਸੁਰੱਖਿਅਤ, ਜ਼ਿੰਮੇਵਾਰ ਅਤੇ ਟਿਕਾਊ AI ਈਕੋਸਿਸਟਮ ਸਥਾਪਤ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰੇਗੀ।”
ਇਸ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਦੇ ਨਤੀਜੇ AI ਚਿੱਤਰ ਉਤਪਾਦਨ ਮਾਡਲਾਂ ਦੇ ਉਪਭੋਗਤਾਵਾਂ ਅਤੇ ਡਿਵੈਲਪਰਾਂ ਦੋਵਾਂ ਲਈ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ। ਉਪਭੋਗਤਾ ਚਿੱਤਰ ਦੀ ਗੁਣਵੱਤਾ ਅਤੇ ਨੈਤਿਕ ਵਿਚਾਰਾਂ ਦੋਵਾਂ ‘ਤੇ ਵਿਚਾਰ ਕਰਦੇ ਹੋਏ, ਕਿਹੜੇ ਮਾਡਲ ਉਹਨਾਂ ਦੀਆਂ ਲੋੜਾਂ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਹਨ, ਇਸ ਬਾਰੇ ਸੂਚਿਤ ਫੈਸਲੇ ਲੈਣ ਲਈ ਦਰਜਾਬੰਦੀ ਅਤੇ ਮੁਲਾਂਕਣਾਂ ਦਾ ਲਾਭ ਲੈ ਸਕਦੇ ਹਨ। ਦੂਜੇ ਪਾਸੇ, ਡਿਵੈਲਪਰ, ਆਪਣੇ ਮਾਡਲਾਂ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਅਤੇ ਕਮਜ਼ੋਰੀਆਂ ਬਾਰੇ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤ ਕਰ ਸਕਦੇ ਹਨ, ਅਨੁਕੂਲਤਾ ਅਤੇ ਸੁਧਾਰ ਲਈ ਖੇਤਰਾਂ ਦੀ ਪਛਾਣ ਕਰ ਸਕਦੇ ਹਨ। ਮੁਲਾਂਕਣ ਉਦਯੋਗ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਮਾਪਦੰਡ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, AI ਚਿੱਤਰ ਉਤਪਾਦਨ ਤਕਨਾਲੋਜੀ ਦੇ ਵਿਕਾਸ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ ਜੋ ਨਾ ਸਿਰਫ਼ ਵਿਜ਼ੂਅਲ ਤੌਰ ‘ਤੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਹੈ, ਸਗੋਂ ਸੁਰੱਖਿਅਤ, ਜ਼ਿੰਮੇਵਾਰ ਅਤੇ ਸਮਾਜਿਕ ਕਦਰਾਂ-ਕੀਮਤਾਂ ਨਾਲ ਵੀ ਜੁੜਿਆ ਹੋਇਆ ਹੈ।
ਅਧਿਐਨ ਇਸ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਾਸਸ਼ੀਲ ਖੇਤਰ ਵਿੱਚ ਨਿਰੰਤਰ ਖੋਜ ਅਤੇ ਵਿਕਾਸ ਦੀ ਚੱਲ ਰਹੀ ਲੋੜ ਨੂੰ ਰੇਖਾਂਕਿਤ ਕਰਦਾ ਹੈ। ਜਿਵੇਂ ਕਿ AI ਚਿੱਤਰ ਉਤਪਾਦਨ ਤਕਨਾਲੋਜੀ ਅੱਗੇ ਵਧਦੀ ਜਾ ਰਹੀ ਹੈ, ਇਹ ਜ਼ਰੂਰੀ ਹੈ ਕਿ ਡਿਵੈਲਪਰ ਵਿਜ਼ੂਅਲ ਫਿਡੇਲਿਟੀ ਦੀ ਪ੍ਰਾਪਤੀ ਦੇ ਨਾਲ-ਨਾਲ ਸੁਰੱਖਿਆ, ਜ਼ਿੰਮੇਵਾਰੀ ਅਤੇ ਨੈਤਿਕ ਵਿਚਾਰਾਂ ਨੂੰ ਤਰਜੀਹ ਦੇਣ। HKU Business School ਦਾ ਮੁਲਾਂਕਣ ਇਸ ਚੱਲ ਰਹੇ ਯਤਨਾਂ ਵਿੱਚ ਇੱਕ ਕੀਮਤੀ ਯੋਗਦਾਨ ਵਜੋਂ ਕੰਮ ਕਰਦਾ ਹੈ, AI ਚਿੱਤਰ ਉਤਪਾਦਨ ਤਕਨਾਲੋਜੀ ਦੇ ਜ਼ਿੰਮੇਵਾਰ ਵਿਕਾਸ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਅਤੇ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਇੱਕ ਢਾਂਚਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ।