ਏ.ਆਈ. ਬੈਂਚਮਾਰਕਸ 'ਤੇ ਮੁੜ ਵਿਚਾਰ: ਅਰਥਪੂਰਨ ਮਾਪ ਦੀ ਭਾਲ

ਏ.ਆਈ. (AI) ਵਿੱਚ ਉੱਤਮਤਾ ਦੀ ਭਾਲ ਅਕਸਰ ਬੈਂਚਮਾਰਕ ਸਕੋਰਾਂ ਦੁਆਰਾ ਹੁੰਦੀ ਹੈ, ਪਰ ਕੀ ਇਹ ਸਕੋਰ ਅਸਲ ਵਿੱਚ ਅਸਲ-ਸੰਸਾਰ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੇ ਸੂਚਕ ਹਨ? ਏ.ਆਈ. ਕਮਿਊਨਿਟੀ ਇਸ ਸਵਾਲ ਨਾਲ ਜੂਝ ਰਹੀ ਹੈ ਕਿਉਂਕਿ ਰਵਾਇਤੀ ਬੈਂਚਮਾਰਕ ਵੱਧ ਰਹੀ ਜਾਂਚ ਦਾ ਸਾਹਮਣਾ ਕਰ ਰਹੇ ਹਨ।

SWE-Bench, ਜੋ ਕਿ ਨਵੰਬਰ 2024 ਵਿੱਚ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ, ਨੇ ਇੱਕ ਏ.ਆਈ. ਮਾਡਲ ਦੀ ਕੋਡਿੰਗ ਕਾਬਲੀਅਤ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਪ੍ਰਸਿੱਧ ਟੂਲ ਵਜੋਂ ਤੇਜ਼ੀ ਨਾਲ ਖਿੱਚ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਹ ਇੱਕ ਦਰਜਨ ਪਾਈਥਨ-ਅਧਾਰਤ ਪ੍ਰੋਜੈਕਟਾਂ ਵਿੱਚ ਜਨਤਕ GitHub ਰਿਪੋਜ਼ਟਰੀਆਂ ਤੋਂ ਕੱਢੀਆਂ ਗਈਆਂ 2,000 ਤੋਂ ਵੱਧ ਪ੍ਰਮਾਣਿਕ ਪ੍ਰੋਗਰਾਮਿੰਗ ਚੁਣੌਤੀਆਂ ਦਾ ਲਾਭ ਲੈਂਦਾ ਹੈ। ਇੱਕ ਮਜ਼ਬੂਤ SWE-Bench ਸਕੋਰ ਇੱਕ ਲੋੜੀਂਦਾ ਬੈਜ ਬਣ ਗਿਆ ਹੈ, ਜੋ ਕਿ ਪ੍ਰਮੁੱਖ ਏ.ਆਈ. ਡਿਵੈਲਪਰਾਂ ਜਿਵੇਂ ਕਿ OpenAI, Anthropic, ਅਤੇ Google ਤੋਂ ਪ੍ਰਮੁੱਖ ਮਾਡਲ ਰੀਲੀਜ਼ਾਂ ਵਿੱਚ ਪ੍ਰਮੁੱਖਤਾ ਨਾਲ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਇਨ੍ਹਾਂ ਦਿੱਗਜਾਂ ਤੋਂ ਇਲਾਵਾ, ਫਾਈਨ-ਟਿਊਨਿੰਗ ਵਿੱਚ ਮੁਹਾਰਤ ਰੱਖਣ ਵਾਲੀਆਂ ਏ.ਆਈ. ਫਰਮਾਂ ਲਗਾਤਾਰ SWE-Bench ਲੀਡਰਬੋਰਡ ‘ਤੇ ਸਰਵਉੱਚਤਾ ਲਈ ਮੁਕਾਬਲਾ ਕਰਦੀਆਂ ਹਨ।

ਹਾਲਾਂਕਿ, ਇਹਨਾਂ ਬੈਂਚਮਾਰਕਾਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਦਾ ਜੋਸ਼ ਗੁੰਮਰਾਹਕੁੰਨ ਹੋ ਸਕਦਾ ਹੈ। ਪ੍ਰਿੰਸਟਨ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਇੱਕ ਖੋਜਕਰਤਾ ਜੌਨ ਯਾਂਗ, ਜੋ SWE-Bench ਦੇ ਵਿਕਾਸ ਵਿੱਚ ਸ਼ਾਮਲ ਹਨ, ਨੋਟ ਕਰਦੇ ਹਨ ਕਿ ਸਿਖਰਲੇ ਸਥਾਨ ਲਈ ਤੀਬਰ ਮੁਕਾਬਲੇ ਨੇ ਸਿਸਟਮ ਦੀ "ਗੇਮਿੰਗ" ਨੂੰ ਜਨਮ ਦਿੱਤਾ ਹੈ। ਇਹ ਚਿੰਤਾਵਾਂ ਪੈਦਾ ਕਰਦਾ ਹੈ ਕਿ ਕੀ ਇਹ ਬੈਂਚਮਾਰਕ ਸੱਚੀ ਏ.ਆਈ. ਪ੍ਰਾਪਤੀ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਦਰਸਾਉਂਦੇ ਹਨ।

ਮੁੱਦਾ ਜ਼ਰੂਰੀ ਤੌਰ ‘ਤੇ ਖੁੱਲ੍ਹੀ ਧੋਖਾਧੜੀ ਨਹੀਂ ਹੈ, ਪਰ ਉਨ੍ਹਾਂ ਰਣਨੀਤੀਆਂ ਦਾ ਵਿਕਾਸ ਹੈ ਜੋ ਵਿਸ਼ੇਸ਼ ਤੌਰ ‘ਤੇ ਬੈਂਚਮਾਰਕ ਦੀਆਂ ਸੀਮਾਵਾਂ ਦਾ ਸ਼ੋਸ਼ਣ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀਆਂ ਗਈਆਂ ਹਨ। ਉਦਾਹਰਨ ਲਈ, ਸ਼ੁਰੂਆਤੀ SWE-Bench ਨੇ ਸਿਰਫ਼ ਪਾਈਥਨ ਕੋਡ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ, ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਆਪਣੇ ਮਾਡਲਾਂ ਨੂੰ ਸਿਰਫ਼ ਪਾਈਥਨ ‘ਤੇ ਸਿਖਲਾਈ ਦੇਣ ਲਈ ਉਤਸ਼ਾਹਿਤ ਕੀਤਾ। ਯਾਂਗ ਨੇ ਦੇਖਿਆ ਕਿ ਇਹ ਉੱਚ-ਸਕੋਰਿੰਗ ਮਾਡਲ ਅਕਸਰ ਵੱਖ-ਵੱਖ ਪ੍ਰੋਗਰਾਮਿੰਗ ਭਾਸ਼ਾਵਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨ ‘ਤੇ ਡਗਮਗਾ ਜਾਂਦੇ ਹਨ, ਇੱਕ ਉਪਰਲੇ ਗਿਆਨ ਦਾ ਪਰਦਾਫਾਸ਼ ਕਰਦੇ ਹਨ ਜਿਸਨੂੰ ਉਹ "ਗਿਲਡਡ" ਦੱਸਦਾ ਹੈ।

"ਇਹ ਪਹਿਲੀ ਨਜ਼ਰ ਵਿੱਚ ਵਧੀਆ ਅਤੇ ਚਮਕਦਾਰ ਲੱਗਦਾ ਹੈ, ਪਰ ਫਿਰ ਤੁਸੀਂ ਇਸਨੂੰ ਕਿਸੇ ਵੱਖਰੀ ਭਾਸ਼ਾ ‘ਤੇ ਚਲਾਉਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰਦੇ ਹੋ ਅਤੇ ਇਹ ਸਭ ਕੁਝ ਖਿੰਡ ਜਾਂਦਾ ਹੈ," ਯਾਂਗ ਦੱਸਦਾ ਹੈ। "ਉਸ ਸਮੇਂ, ਤੁਸੀਂ ਇੱਕ ਸੌਫਟਵੇਅਰ ਇੰਜੀਨੀਅਰਿੰਗ ਏਜੰਟ ਨਹੀਂ ਬਣਾ ਰਹੇ ਹੋ। ਤੁਸੀਂ ਇੱਕ SWE-Bench ਏਜੰਟ ਬਣਾਉਣ ਲਈ ਡਿਜ਼ਾਈਨ ਕਰ ਰਹੇ ਹੋ, ਜੋ ਕਿ ਬਹੁਤ ਘੱਟ ਦਿਲਚਸਪ ਹੈ।”

ਇਹ "SWE-Bench ਮੁੱਦਾ" ਏ.ਆਈ. ਮੁਲਾਂਕਣ ਵਿੱਚ ਇੱਕ ਵਿਆਪਕ ਚੁਣੌਤੀ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਬੈਂਚਮਾਰਕ, ਜਿਨ੍ਹਾਂ ਨੂੰ ਇੱਕ ਵਾਰ ਤਰੱਕੀ ਦੇ ਭਰੋਸੇਯੋਗ ਸੂਚਕ ਮੰਨਿਆ ਜਾਂਦਾ ਸੀ, ਅਸਲ-ਸੰਸਾਰ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਤੋਂ ਵੱਧ ਤੋਂ ਵੱਧ ਵੱਖ ਹੋ ਰਹੇ ਹਨ। ਸਮੱਸਿਆ ਨੂੰ ਵਧਾਉਂਦੇ ਹੋਏ, ਪਾਰਦਰਸ਼ਤਾ ਬਾਰੇ ਚਿੰਤਾਵਾਂ ਸਾਹਮਣੇ ਆਈਆਂ ਹਨ, ਜਿਸ ਨਾਲ ਇਨ੍ਹਾਂ ਮੈਟ੍ਰਿਕਸ ਵਿੱਚ ਵਿਸ਼ਵਾਸ ਹੋਰ ਘੱਟ ਗਿਆ ਹੈ। ਇਨ੍ਹਾਂ ਮੁੱਦਿਆਂ ਦੇ ਬਾਵਜੂਦ, ਬੈਂਚਮਾਰਕ ਮਾਡਲ ਵਿਕਾਸ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾਉਂਦੇ ਰਹਿੰਦੇ ਹਨ, ਭਾਵੇਂ ਕਿ ਬਹੁਤ ਸਾਰੇ ਮਾਹਰ ਉਨ੍ਹਾਂ ਦੇ ਅੰਦਰੂਨੀ ਮੁੱਲ ‘ਤੇ ਸਵਾਲ ਕਰਦੇ ਹਨ। OpenAI ਦੇ ਸਹਿ-ਸੰਸਥਾਪਕ ਆਂਦਰੇਜ ਕਾਰਪਾਥੀ ਨੇ ਮੌਜੂਦਾ ਸਥਿਤੀ ਨੂੰ ਇੱਕ "ਮੁਲਾਂਕਣ ਸੰਕਟ" ਵੀ ਕਿਹਾ ਹੈ, ਏ.ਆਈ. ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਣ ਦੇ ਭਰੋਸੇਯੋਗ ਤਰੀਕਿਆਂ ਦੀ ਘਾਟ ਅਤੇ ਅੱਗੇ ਵਧਣ ਲਈ ਇੱਕ ਸਪੱਸ਼ਟ ਮਾਰਗ ਦੀ ਅਣਹੋਂਦ ‘ਤੇ ਸੋਗ ਕੀਤਾ ਹੈ।

ਸਟੈਨਫੋਰਡ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਇੰਸਟੀਚਿਊਟ ਫਾਰ ਹਿਊਮਨ-ਸੈਂਟਰਡ ਏ.ਆਈ. ਦੇ ਖੋਜ ਨਿਰਦੇਸ਼ਕ ਵੈਨੇਸਾ ਪਾਰਲੀ ਪੁੱਛਦੀ ਹੈ, "ਇਤਿਹਾਸਕ ਤੌਰ ‘ਤੇ, ਬੈਂਚਮਾਰਕ ਏ.ਆਈ. ਪ੍ਰਣਾਲੀਆਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦਾ ਤਰੀਕਾ ਸੀ। ਕੀ ਇਹ ਉਹ ਤਰੀਕਾ ਹੈ ਜਿਸ ਨਾਲ ਅਸੀਂ ਭਵਿੱਖ ਵਿੱਚ ਪ੍ਰਣਾਲੀਆਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਚਾਹੁੰਦੇ ਹਾਂ? ਅਤੇ ਜੇ ਇਹ ਨਹੀਂ ਹੈ, ਤਾਂ ਕੀ ਤਰੀਕਾ ਹੈ?"

ਵਿਦਵਾਨਾਂ ਅਤੇ ਏ.ਆਈ. ਖੋਜਕਰਤਾਵਾਂ ਦਾ ਇੱਕ ਵਧ ਰਿਹਾ ਦਲ ਸਮਾਜਿਕ ਵਿਗਿਆਨਾਂ ਤੋਂ ਪ੍ਰੇਰਨਾ ਲੈਂਦਿਆਂ ਇੱਕ ਵਧੇਰੇ ਫੋਕਸਡ ਪਹੁੰਚ ਦੀ ਵਕਾਲਤ ਕਰਦਾ ਹੈ। ਉਹ "ਵੈਧਤਾ" ਨੂੰ ਤਰਜੀਹ ਦੇਣ ਦਾ ਪ੍ਰਸਤਾਵ ਕਰਦੇ ਹਨ, ਜੋ ਕਿ ਗਿਣਾਤਮਕ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਦਾ ਇੱਕ ਕੇਂਦਰੀ ਸੰਕਲਪ ਹੈ, ਜੋ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ ਕਿ ਇੱਕ ਮਾਪਨ ਟੂਲ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਇੱਛਤ ਨਿਰਮਾਣ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਹਾਸਲ ਕਰਦਾ ਹੈ। ਵੈਧਤਾ ‘ਤੇ ਇਹ ਜ਼ੋਰ ਉਨ੍ਹਾਂ ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਚੁਣੌਤੀ ਦੇ ਸਕਦਾ ਹੈ ਜੋ ਅਸਪਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਸੰਕਲਪਾਂ ਜਿਵੇਂ ਕਿ "ਤਾਰਕਿਕਤਾ" ਜਾਂ "ਵਿਗਿਆਨਕ ਗਿਆਨ" ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੇ ਹਨ। ਹਾਲਾਂਕਿ ਇਹ ਨਕਲੀ ਆਮ ਬੁੱਧੀ (AGI) ਦੀ ਭਾਲ ਨੂੰ ਘੱਟ ਕਰ ਸਕਦਾ ਹੈ, ਪਰ ਇਹ ਵਿਅਕਤੀਗਤ ਮਾਡਲਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਵਧੇਰੇ ਠੋਸ ਬੁਨਿਆਦ ਪ੍ਰਦਾਨ ਕਰੇਗਾ।

ਮਿਸ਼ੀਗਨ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਇੱਕ ਪ੍ਰੋਫੈਸਰ ਅਤੇ ਵੈਧਤਾ ਲਈ ਜ਼ੋਰ ਦੇਣ ਵਿੱਚ ਇੱਕ ਪ੍ਰਮੁੱਖ ਆਵਾਜ਼ ਅਬੀਗੈਲ ਜੈਕਬਸ ਦਾ ਕਹਿਣਾ ਹੈ, "ਵੈਧਤਾ ਨੂੰ ਗੰਭੀਰਤਾ ਨਾਲ ਲੈਣ ਦਾ ਮਤਲਬ ਹੈ ਅਕਾਦਮੀਆਂ, ਉਦਯੋਗ, ਜਾਂ ਕਿਤੇ ਵੀ ਲੋਕਾਂ ਨੂੰ ਇਹ ਦਿਖਾਉਣ ਲਈ ਕਹਿਣਾ ਕਿ ਉਨ੍ਹਾਂ ਦੀ ਪ੍ਰਣਾਲੀ ਉਹ ਕਰਦੀ ਹੈ ਜੋ ਉਹ ਕਹਿੰਦੇ ਹਨ ਕਿ ਉਹ ਕਰਦੀ ਹੈ। ਮੈਨੂੰ ਲੱਗਦਾ ਹੈ ਕਿ ਇਹ ਏ.ਆਈ. ਜਗਤ ਵਿੱਚ ਇੱਕ ਕਮਜ਼ੋਰੀ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦਾ ਹੈ ਜੇ ਉਹ ਇਹ ਦਿਖਾਉਣ ਤੋਂ ਪਿੱਛੇ ਹਟਣਾ ਚਾਹੁੰਦੇ ਹਨ ਕਿ ਉਹ ਆਪਣੇ ਦਾਅਵੇ ਦਾ ਸਮਰਥਨ ਕਰ ਸਕਦੇ ਹਨ।”

ਰਵਾਇਤੀ ਟੈਸਟਿੰਗ ਦੀਆਂ ਸੀਮਾਵਾਂ

ਏ.ਆਈ. ਉਦਯੋਗ ਦੀ ਬੈਂਚਮਾਰਕਾਂ ‘ਤੇ ਨਿਰਭਰਤਾ ਉਨ੍ਹਾਂ ਦੀਆਂ ਪਿਛਲੀਆਂ ਸਫਲਤਾਵਾਂ ਤੋਂ ਪੈਦਾ ਹੁੰਦੀ ਹੈ, ਖਾਸ ਕਰਕੇ ਚੁਣੌਤੀਆਂ ਜਿਵੇਂ ਕਿ ImageNet।

ImageNet, 2010 ਵਿੱਚ ਲਾਂਚ ਕੀਤਾ ਗਿਆ, ਨੇ ਖੋਜਕਰਤਾਵਾਂ ਨੂੰ 1,000 ਵੱਖ-ਵੱਖ ਸ਼੍ਰੇਣੀਆਂ ਵਿੱਚ ਸ਼੍ਰੇਣੀਬੱਧ 3 ਮਿਲੀਅਨ ਤੋਂ ਵੱਧ ਤਸਵੀਰਾਂ ਦੇ ਇੱਕ ਡੇਟਾਬੇਸ ਨਾਲ ਪੇਸ਼ ਕੀਤਾ। ਚੁਣੌਤੀ ਵਿਧੀ-ਅਗਨੋਸਟਿਕ ਸੀ, ਜਿਸ ਨਾਲ ਕਿਸੇ ਵੀ ਸਫਲ ਐਲਗੋਰਿਦਮ ਨੂੰ ਆਪਣੀ ਅੰਤਰੀਵ ਪਹੁੰਚ ਦੀ ਪਰਵਾਹ ਕੀਤੇ ਬਿਨਾਂ ਭਰੋਸੇਯੋਗਤਾ ਹਾਸਲ ਕਰਨ ਦੀ ਇਜਾਜ਼ਤ ਦਿੱਤੀ ਗਈ। 2012 ਵਿੱਚ AlexNet ਦੀ ਸਫਲਤਾ, ਜਿਸਨੇ GPU ਸਿਖਲਾਈ ਦੇ ਇੱਕ ਗੈਰ-ਰਵਾਇਤੀ ਰੂਪ ਦੀ ਵਰਤੋਂ ਕੀਤੀ, ਆਧੁਨਿਕ ਏ.ਆਈ. ਦਾ ਇੱਕ ਨੀਂਹ ਪੱਥਰ ਬਣ ਗਈ। ਹਾਲਾਂਕਿ ਕੁਝ ਲੋਕਾਂ ਨੇ ਇਹ ਭਵਿੱਖਬਾਣੀ ਕੀਤੀ ਹੋਵੇਗੀ ਕਿ AlexNet ਦੇ ਕਨਵਲਿਊਸ਼ਨਲ ਨਿਊਰਲ ਨੈੱਟਵਰਕ ਚਿੱਤਰ ਪਛਾਣ ਨੂੰ ਅਨਲੌਕ ਕਰਨਗੇ, ਪਰ ਇਸਦੇ ਉੱਚ ਸਕੋਰ ਨੇ ਕਿਸੇ ਵੀ ਸ਼ੱਕ ਨੂੰ ਖਤਮ ਕਰ ਦਿੱਤਾ। (ਖਾਸ ਤੌਰ ‘ਤੇ, AlexNet ਦੇ ਡਿਵੈਲਪਰਾਂ ਵਿੱਚੋਂ ਇੱਕ OpenAI ਦਾ ਸਹਿ-ਸੰਸਥਾਪਕ ਬਣ ਗਿਆ।)

ImageNet ਦੀ ਪ੍ਰਭਾਵਸ਼ੀਲਤਾ ਚੁਣੌਤੀ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਦੇ ਚਿੱਤਰ ਪਛਾਣ ਕਾਰਜਾਂ ਵਿਚਕਾਰ ਨੇੜਲੇ ਇਕਸਾਰਤਾ ਤੋਂ ਪੈਦਾ ਹੋਈ। ਵਿਧੀਆਂ ਬਾਰੇ ਬਹਿਸਾਂ ਦੇ ਨਾਲ ਵੀ, ਸਭ ਤੋਂ ਵੱਧ ਸਕੋਰ ਵਾਲੇ ਮਾਡਲ ਨੇ ਹਮੇਸ਼ਾ ਵਿਹਾਰਕ ਐਪਲੀਕੇਸ਼ਨਾਂ ਵਿੱਚ ਉੱਤਮ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।

ਹਾਲਾਂਕਿ, ਉਦੋਂ ਤੋਂ ਲੈ ਕੇ ਸਾਲਾਂ ਵਿੱਚ, ਏ.ਆਈ. ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਇਸੇ ਵਿਧੀ-ਅਗਨੋਸਟਿਕ ਪਹੁੰਚ ਨੂੰ ਵੱਧ ਤੋਂ ਵੱਧ ਆਮ ਕਾਰਜਾਂ ‘ਤੇ ਲਾਗੂ ਕੀਤਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, SWE-Bench, ਨੂੰ ਅਕਸਰ ਵਿਆਪਕ ਕੋਡਿੰਗ ਯੋਗਤਾ ਲਈ ਇੱਕ ਪ੍ਰੌਕਸੀ ਵਜੋਂ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ, ਜਦੋਂ ਕਿ ਹੋਰ ਪ੍ਰੀਖਿਆ-ਸ਼ੈਲੀ ਦੇ ਬੈਂਚਮਾਰਕਸ ਨੂੰ ਤਰਕ ਕਰਨ ਦੀ ਯੋਗਤਾ ਨੂੰ ਮਾਪਣ ਲਈ ਵਰਤਿਆ ਜਾਂਦਾ ਹੈ। ਇਹ ਵਿਆਪਕ ਸਕੋਪ ਇਸ ਗੱਲ ਨੂੰ ਸਖਤੀ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਾ ਮੁਸ਼ਕਲ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਇੱਕ ਖਾਸ ਬੈਂਚਮਾਰਕ ਕੀ ਮਾਪਦਾ ਹੈ, ਜਿਸ ਨਾਲ ਖੋਜਾਂ ਦੀ ਜ਼ਿੰਮੇਵਾਰ ਵਿਆਖਿਆ ਵਿੱਚ ਰੁਕਾਵਟ ਆਉਂਦੀ ਹੈ।

ਚੀਜ਼ਾਂ ਕਿੱਥੇ ਟੁੱਟਦੀਆਂ ਹਨ

ਸਟੈਨਫੋਰਡ ਵਿੱਚ ਇੱਕ ਪੀਐਚਡੀ ਵਿਦਿਆਰਥੀ ਅੰਕਾ ਰਿਊਲ ਦਾ ਤਰਕ ਹੈ ਕਿ ਆਮ ਵੱਲ ਧੱਕਾ ਮੁਲਾਂਕਣ ਸਮੱਸਿਆ ਦੀ ਜੜ੍ਹ ਹੈ। "ਅਸੀਂ ਟਾਸਕ-ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਤੋਂ ਲੈ ਕੇ ਆਮ-ਉਦੇਸ਼ ਮਾਡਲਾਂ ਤੱਕ ਚਲੇ ਗਏ ਹਾਂ," ਰਿਊਲ ਕਹਿੰਦਾ ਹੈ। "ਇਹ ਹੁਣ ਇੱਕ ਸਿੰਗਲ ਟਾਸਕ ਬਾਰੇ ਨਹੀਂ ਹੈ, ਸਗੋਂ ਟਾਸਕਾਂ ਦੇ ਪੂਰੇ ਸਮੂਹ ਬਾਰੇ ਹੈ, ਇਸ ਲਈ ਮੁਲਾਂਕਣ ਔਖਾ ਹੋ ਜਾਂਦਾ ਹੈ।”

ਜੈਕਬਸ ਦੀ ਤਰ੍ਹਾਂ, ਰਿਊਲ ਦਾ ਮੰਨਣਾ ਹੈ ਕਿ "ਬੈਂਚਮਾਰਕਸ ਨਾਲ ਮੁੱਖ ਮੁੱਦਾ ਵੈਧਤਾ ਹੈ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਵਿਹਾਰਕ ਲਾਗੂ ਕਰਨ ਨਾਲੋਂ ਵੀ ਵੱਧ," ਨੋਟ ਕਰਦੇ ਹੋਏ: "ਇਹ ਉਹ ਥਾਂ ਹੈ ਜਿੱਥੇ ਬਹੁਤ ਸਾਰੀਆਂ ਚੀਜ਼ਾਂ ਟੁੱਟ ਜਾਂਦੀਆਂ ਹਨ।” ਕੋਡਿੰਗ ਵਰਗੇ ਗੁੰਝਲਦਾਰ ਕਾਰਜਾਂ ਲਈ, ਸਮੱਸਿਆ ਸੈੱਟ ਵਿੱਚ ਹਰ ਸੰਭਵ ਦ੍ਰਿਸ਼ ਨੂੰ ਸ਼ਾਮਲ ਕਰਨਾ ਲਗਭਗ ਅਸੰਭਵ ਹੈ। ਨਤੀਜੇ ਵਜੋਂ, ਇਹ ਸਮਝਣਾ ਮੁਸ਼ਕਲ ਹੋ ਜਾਂਦਾ ਹੈ ਕਿ ਕੀ ਇੱਕ ਮਾਡਲ ਦਾ ਉੱਚ ਸਕੋਰ ਸੱਚੀ ਕੋਡਿੰਗ ਹੁਨਰ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜਾਂ ਸਮੱਸਿਆ ਸੈੱਟ ਦੀ ਸਿਰਫ਼ ਚਲਾਕੀ ਨਾਲ ਹੇਰਾਫੇਰੀ ਕਰਨਾ। ਰਿਕਾਰਡ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕਰਨ ਲਈ ਤੀਬਰ ਦਬਾਅ ਹੋਰ ਸ਼ਾਰਟਕੱਟਾਂ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਦਾ ਹੈ।

ਡਿਵੈਲਪਰਾਂ ਨੂੰ ਉਮੀਦ ਹੈ ਕਿ ਵਿਸ਼ੇਸ਼ ਬੈਂਚਮਾਰਕਸ ਦੀ ਇੱਕ ਵੱਡੀ ਗਿਣਤੀ ਵਿੱਚ ਸਫਲਤਾ ਇੱਕ ਆਮ ਤੌਰ ‘ਤੇ ਸਮਰੱਥ ਮਾਡਲ ਵਿੱਚ ਅਨੁਵਾਦ ਕਰੇਗੀ। ਹਾਲਾਂਕਿ, ਏਜੰਟਿਕ ਏ.ਆਈ. ਦਾ ਉਭਾਰ, ਜਿੱਥੇ ਇੱਕ ਸਿੰਗਲ ਪ੍ਰਣਾਲੀ ਮਾਡਲਾਂ ਦੀ ਇੱਕ ਗੁੰਝਲਦਾਰ ਲੜੀ ਨੂੰ ਸ਼ਾਮਲ ਕਰ ਸਕਦੀ ਹੈ, ਇਹ ਮੁਲਾਂਕਣ ਕਰਨਾ ਮੁਸ਼ਕਲ ਬਣਾਉਂਦਾ ਹੈ ਕਿ ਕੀ ਵਿਸ਼ੇਸ਼ ਕਾਰਜਾਂ ਵਿੱਚ ਸੁਧਾਰ ਆਮ ਹੋਣਗੇ। ਪ੍ਰਿੰਸਟਨ ਵਿੱਚ ਇੱਕ ਕੰਪਿਊਟਰ ਵਿਗਿਆਨੀ ਅਤੇ ਏ.ਆਈ. ਉਦਯੋਗ ਵਿੱਚ ਮਾੜੀਆਂ ਪ੍ਰਥਾਵਾਂ ਦੇ ਆਲੋਚਕ ਸਯਾਸ਼ ਕਪੂਰ ਦਾ ਕਹਿਣਾ ਹੈ, "ਇੱਥੇ ਸਿਰਫ਼ ਬਹੁਤ ਸਾਰੀਆਂ ਨੌਬਾਂ ਹਨ ਜਿਨ੍ਹਾਂ ਨੂੰ ਤੁਸੀਂ ਘੁੰਮਾ ਸਕਦੇ ਹੋ।” "ਜਦੋਂ ਏਜੰਟਾਂ ਦੀ ਗੱਲ ਆਉਂਦੀ ਹੈ, ਤਾਂ ਉਨ੍ਹਾਂ ਨੇ ਮੁਲਾਂਕਣ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਅਭਿਆਸਾਂ ਨੂੰ ਛੱਡ ਦਿੱਤਾ ਹੈ।”

ਪਿਛਲੇ ਜੁਲਾਈ ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਇੱਕ ਪੇਪਰ ਵਿੱਚ, ਕਪੂਰ ਨੇ ਏ.ਆਈ. ਮਾਡਲਾਂ ਦੁਆਰਾ 2024 ਵਿੱਚ ਵੈਬਏਰੇਨਾ ਬੈਂਚਮਾਰਕ ਤੱਕ ਪਹੁੰਚਣ ਦੇ ਖਾਸ ਮੁੱਦਿਆਂ ਨੂੰ ਉਜਾਗਰ ਕੀਤਾ, ਜੋ ਕਿ ਇੱਕ ਏ.ਆਈ. ਏਜੰਟ ਦੀ ਵੈੱਬ ‘ਤੇ ਨੈਵੀਗੇਟ ਕਰਨ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ। ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਕਲੋਨ ਕੀਤੀਆਂ ਵੈੱਬਸਾਈਟਾਂ ‘ਤੇ ਕੀਤੇ ਗਏ 800 ਤੋਂ ਵੱਧ ਟਾਸਕ ਸ਼ਾਮਲ ਹਨ ਜੋ Reddit, Wikipedia, ਅਤੇ ਹੋਰਾਂ ਦੀ ਨਕਲ ਕਰਦੇ ਹਨ। ਕਪੂਰ ਅਤੇ ਉਸਦੀ ਟੀਮ ਨੇ ਖੋਜ ਕੀਤੀ ਕਿ ਜੇਤੂ ਮਾਡਲ, STeP, ਨੇ Reddit URL ਦੀ ਬਣਤਰ ਦਾ ਸ਼ੋਸ਼ਣ ਸਿੱਧੇ ਤੌਰ ‘ਤੇ ਉਪਭੋਗਤਾ ਪ੍ਰੋਫਾਈਲ ਪੰਨਿਆਂ ਤੱਕ ਪਹੁੰਚਣ ਲਈ ਕੀਤਾ, ਜੋ ਕਿ WebArena ਟਾਸਕਾਂ ਵਿੱਚ ਇੱਕ ਅਕਸਰ ਲੋੜ ਹੁੰਦੀ ਹੈ।

ਹਾਲਾਂਕਿ ਇਹ ਸਿੱਧੀ ਧੋਖਾਧੜੀ ਨਹੀਂ ਹੈ, ਕਪੂਰ ਇਸਨੂੰ "ਇਸ ਗੱਲ ਦਾ ਗੰਭੀਰ ਗਲਤ ਪ੍ਰਤੀਨਿਧ ਮੰਨਦਾ ਹੈ ਕਿ ਏਜੰਟ ਕਿੰਨੀ ਚੰਗੀ ਤਰ੍ਹਾਂ ਕੰਮ ਕਰੇਗਾ ਜੇਕਰ ਉਸਨੇ ਪਹਿਲੀ ਵਾਰ WebArena ਵਿੱਚ ਟਾਸਕ ਦੇਖੇ ਹੁੰਦੇ।” ਇਸਦੇ ਬਾਵਜੂਦ, OpenAI ਦੇ ਵੈੱਬ ਏਜੰਟ, ਓਪਰੇਟਰ, ਨੇ ਉਦੋਂ ਤੋਂ ਇੱਕ ਸਮਾਨ ਨੀਤੀ ਅਪਣਾਈ ਹੈ।

ਏ.ਆਈ. ਬੈਂਚਮਾਰਕਸ ਨਾਲ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੋਰ ਦਰਸਾਉਂਦੇ ਹੋਏ, ਕਪੂਰ ਅਤੇ ਖੋਜਕਰਤਾਵਾਂ ਦੀ ਇੱਕ ਟੀਮ ਨੇ ਹਾਲ ਹੀ ਵਿੱਚ ਚੈਟਬੋਟ ਏਰੇਨਾ, ਇੱਕ ਪ੍ਰਸਿੱਧ ਕ੍ਰਾਊਡਸੋਰਸਡ ਮੁਲਾਂਕਣ ਪ੍ਰਣਾਲੀ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਮੁੱਦਿਆਂ ਦਾ ਖੁਲਾਸਾ ਕਰਦੇ ਹੋਏ ਇੱਕ ਪੇਪਰ ਪ੍ਰਕਾਸ਼ਿਤ ਕੀਤਾ। ਉਨ੍ਹਾਂ ਦੀਆਂ ਖੋਜਾਂ ਨੇ ਸੰਕੇਤ ਦਿੱਤਾ ਕਿ ਲੀਡਰਬੋਰਡ ਨਾਲ ਹੇਰਾਫੇਰੀ ਕੀਤੀ ਜਾ ਰਹੀ ਸੀ, ਕੁਝ ਚੋਟੀ ਦੇ ਫਾਊਂਡੇਸ਼ਨ ਮਾਡਲ ਬਿਨਾਂ ਦੱਸੇ ਨਿੱਜੀ ਟੈਸਟਿੰਗ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋ ਰਹੇ ਸਨ ਅਤੇ ਚੋਣਵੇਂ ਤੌਰ ‘ਤੇ ਆਪਣੇ ਸਕੋਰ ਜਾਰੀ ਕਰ ਰਹੇ ਸਨ।

ਇੱਥੋਂ ਤੱਕ ਕਿ ImageNet, ਜਿਸ ਬੈਂਚਮਾਰਕ ਨੇ ਇਹ ਸਭ ਸ਼ੁਰੂ ਕੀਤਾ ਸੀ, ਨੂੰ ਵੀ ਹੁਣ ਵੈਧਤਾ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਦਾ ਸਾਹਮਣਾ ਕਰਨਾ ਪੈ ਰਿਹਾ ਹੈ। ਵਾਸ਼ਿੰਗਟਨ ਯੂਨੀਵਰਸਿਟੀ ਅਤੇ ਗੂਗਲ ਰਿਸਰਚ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ 2023 ਦੇ ਇੱਕ ਅਧਿਐਨ ਵਿੱਚ ਪਾਇਆ ਗਿਆ ਕਿ ImageNet-ਜੇਤੂ ਐਲਗੋਰਿਦਮ ਨੇ ਛੇ ਅਸਲ-ਸੰਸਾਰ ਡੇਟਾਸੈੱਟਾਂ ‘ਤੇ ਲਾਗੂ ਕੀਤੇ ਜਾਣ ‘ਤੇ "ਥੋੜ੍ਹੀ ਤੋਂ ਲੈ ਕੇ ਕੋਈ ਤਰੱਕੀ ਨਹੀਂ" ਦਿਖਾਈ, ਇਹ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ ਕਿ ਟੈਸਟ ਦੀ ਬਾਹਰੀ ਵੈਧਤਾ ਆਪਣੀ ਸੀਮਾ ‘ਤੇ ਪਹੁੰਚ ਗਈ ਹੈ।

ਛੋਟਾ ਜਾਣਾ

ਵੈਧਤਾ ਦੀ ਸਮੱਸਿਆ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ, ਕੁਝ ਖੋਜਕਰਤਾ ਬੈਂਚਮਾਰਕਸ ਨੂੰ ਵਿਸ਼ੇਸ਼ ਕਾਰਜਾਂ ਨਾਲ ਦੁਬਾਰਾ ਜੋੜਨ ਦਾ ਪ੍ਰਸਤਾਵ ਕਰਦੇ ਹਨ। ਜਿਵੇਂ ਕਿ ਰਿਊਲ ਨੇ ਕਿਹਾ, ਏ.ਆਈ. ਡਿਵੈਲਪਰਾਂ ਨੂੰ "ਇਹਨਾਂ ਉੱਚ-ਪੱਧਰੀ ਬੈਂਚਮਾਰਕਸ ਦਾ ਸਹਾਰਾ ਲੈਣਾ ਪੈਂਦਾ ਹੈ ਜੋ ਡਾਊਨਸਟ੍ਰੀਮ ਖਪਤਕਾਰਾਂ ਲਈ ਲਗਭਗ ਬੇਮਤਲਬ ਹਨ, ਕਿਉਂਕਿ ਬੈਂਚਮਾਰਕ ਡਿਵੈਲਪਰ ਹੁਣ ਡਾਊਨਸਟ੍ਰੀਮ ਟਾਸਕ ਦਾ ਅੰਦਾਜ਼ਾ ਨਹੀਂ ਲਗਾ ਸਕਦੇ।”

ਨਵੰਬਰ 2024 ਵਿੱਚ, ਰਿਊਲ ਨੇ BetterBench ਲਾਂਚ ਕੀਤਾ, ਇੱਕ ਜਨਤਕ ਦਰਜਾਬੰਦੀ ਪ੍ਰੋਜੈਕਟ ਜੋ ਵੱਖ-ਵੱਖ ਮਾਪਦੰਡਾਂ ਦੇ ਆਧਾਰ ‘ਤੇ ਬੈਂਚਮਾਰਕਸ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਜਿਸ ਵਿੱਚ ਕੋਡ ਦਸਤਾਵੇਜ਼ਾਂ ਦੀ ਸਪੱਸ਼ਟਤਾ ਅਤੇ, ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ, ਇਸਦੀ ਦੱਸੀ ਗਈ ਸਮਰੱਥਾ ਨੂੰ ਮਾਪਣ ਵਿੱਚ ਬੈਂਚਮਾਰਕ ਦੀ ਵੈਧਤਾ ਸ਼ਾਮਲ ਹੈ। BetterBench ਡਿਜ਼ਾਈਨਰਾਂ ਨੂੰ ਇਹ ਸਪੱਸ਼ਟ ਤੌਰ ‘ਤੇ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਲਈ ਚੁਣੌਤੀ ਦਿੰਦਾ ਹੈ ਕਿ ਉਨ੍ਹਾਂ ਦਾ ਬੈਂਚਮਾਰਕ ਕੀ ਟੈਸਟ ਕਰਦਾ ਹੈ ਅਤੇ ਇਹ ਬੈਂਚਮਾਰਕ ਵਿੱਚ ਸ਼ਾਮਲ ਟਾਸਕਾਂ ਨਾਲ ਕਿਵੇਂ ਸਬੰਧਤ ਹੈ।

"ਤੁਹਾਨੂੰ ਸਮਰੱਥਾਵਾਂ ਦਾ ਇੱਕ ਢਾਂਚਾਗਤ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਦੀ ਲੋੜ ਹੈ," ਰਿਊਲ ਕਹਿੰਦਾ ਹੈ। "ਅਸਲ ਵਿੱਚ ਤੁਸੀਂ ਕਿਹੜੇ ਹੁਨਰਾਂ ਦੀ ਪਰਵਾਹ ਕਰਦੇ ਹੋ, ਅਤੇ ਤੁਸੀਂ ਉਨ੍ਹਾਂ ਨੂੰ ਅਜਿਹੀ ਚੀਜ਼ ਵਿੱਚ ਕਿਵੇਂ ਚਲਾਉਂਦੇ ਹੋ ਜਿਸਨੂੰ ਅਸੀਂ ਮਾਪ ਸਕਦੇ ਹਾਂ?"

ਨਤੀਜੇ ਸਾਹਮਣੇ ਆ ਰਹੇ ਹਨ। ਆਰਕੇਡ ਲਰਨਿੰਗ ਇਨਵਾਇਰਨਮੈਂਟ (ALE), ਜੋ ਕਿ 2013 ਵਿੱਚ ਸਥਾਪਿਤ ਕੀਤਾ ਗਿਆ ਸੀ ਤਾਂ ਜੋ ਮਾਡਲਾਂ ਦੀ Atari 2600 ਗੇਮਾਂ ਨੂੰ ਖੇਡਣਾ ਸਿੱਖਣ ਦੀ ਯੋਗਤਾ ਦੀ ਜਾਂਚ ਕੀਤੀ ਜਾ ਸਕੇ, ਇੱਕ ਉੱਚ-ਸਕੋਰਿੰਗ ਬੈਂਚਮਾਰਕਸ ਵਿੱਚੋਂ ਇੱਕ ਵਜੋਂ ਉਭਰਦਾ ਹੈ। ਇਸਦੇ ਉਲਟ, ਮੈਸਿਵ ਮਲਟੀਟਾਸਕ ਲੈਂਗੂਏਜ ਅੰਡਰਸਟੈਂਡਿੰਗ (MMLU) ਬੈਂਚਮਾਰਕ, ਆਮ ਭਾਸ਼ਾ ਦੇ ਹੁਨਰਾਂ ਲਈ ਇੱਕ ਵਿਆਪਕ ਤੌਰ ‘ਤੇ ਵਰਤਿਆ ਜਾਣ ਵਾਲਾ ਟੈਸਟ, ਸਵਾਲਾਂ ਅਤੇ ਅੰਤਰੀਵ ਹੁਨਰ ਦੇ ਵਿਚਕਾਰ ਇੱਕ ਮਾੜੇ ਪਰਿਭਾਸ਼ਿਤ ਸਬੰਧ ਦੇ ਕਾਰਨ ਸਭ ਤੋਂ ਘੱਟ ਸਕੋਰਾਂ ਵਿੱਚੋਂ ਇੱਕ ਪ੍ਰਾਪਤ ਕਰਦਾ ਹੈ।

ਹਾਲਾਂਕਿ BetterBench ਨੇ ਅਜੇ ਤੱਕ ਵਿਸ਼ੇਸ਼ ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਸਾਖ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ਨਹੀਂ ਪਾਇਆ ਹੈ, ਪਰ ਇਸਨੇ ਸਫਲਤਾਪੂਰਵਕ ਵੈਧਤਾ ਨੂੰ ਇਸ ਬਾਰੇ ਵਿਚਾਰਾਂ ਦੇ ਅਗਲੇ ਹਿੱਸੇ ਵਿੱਚ ਲਿਆਂਦਾ ਹੈ ਕਿ ਏ.ਆਈ. ਬੈਂਚਮਾਰਕਾਂ ਨੂੰ ਕਿਵੇਂ ਸੁਧਾਰਿਆ ਜਾਵੇ। ਰਿਊਲ ਹੱਗਿੰਗ ਫੇਸ, ਐਡਿਨਬਰਗ ਯੂਨੀਵਰਸਿਟੀ, ਅਤੇ EleutherAI ਦੁਆਰਾ ਆਯੋਜਿਤ ਇੱਕ ਨਵੇਂ ਖੋਜ ਸਮੂਹ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋ ਗਿਆ ਹੈ, ਜਿੱਥੇ ਉਹ ਵੈਧਤਾ ਅਤੇ ਏ.ਆਈ. ਮਾਡਲ ਮੁਲਾਂਕਣ ਬਾਰੇ ਆਪਣੇ ਵਿਚਾਰਾਂ ਨੂੰ ਹੋਰ ਵਿਕਸਤ ਕਰੇਗੀ।

ਹੱਗਿੰਗ ਫੇਸ ਦੀ ਗਲੋਬਲ ਨੀਤੀ ਦੀ ਮੁਖੀ ਆਇਰੀਨ ਸੋਲੈਮਨ ਦਾ ਕਹਿਣਾ ਹੈ ਕਿ ਸਮੂਹ ਦਾ ਧਿਆਨ ਵੈਧ ਬੈਂਚਮਾਰਕ ਬਣਾਉਣ ‘ਤੇ ਹੋਵੇਗਾ ਜੋ ਸਿੱਧੀਆਂ ਸਮਰੱਥਾਵਾਂ ਨੂੰ ਮਾਪਣ ਤੋਂ ਪਰੇ ਹੋਣਗੇ। ਸੋਲੈਮਨ ਦਾ ਕਹਿਣਾ ਹੈ, "ਇੱਕ ਚੰਗੇ ਬੈਂਚਮਾਰਕ ਦੀ ਬਹੁਤ ਭੁੱਖ ਹੈ ਜੋ ਪਹਿਲਾਂ ਤੋਂ ਹੀ ਕੰਮ ਕਰਦਾ ਹੈ।” "ਬਹੁਤ ਸਾਰੇ ਮੁਲਾਂਕਣ ਬਹੁਤ ਕੁਝ ਕਰਨ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਨ।”

ਵਿਆਪਕ ਉਦਯੋਗ ਇਸ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ‘ਤੇ ਇਕੱਠੇ ਹੁੰਦੇ ਜਾਪਦੇ ਹਨ। ਮਾਰਚ ਵਿੱਚ ਪ੍ਰਕਾਸ਼ਿਤ ਇੱਕ ਪੇਪਰ ਵਿੱਚ, ਗੂਗਲ, ਮਾਈਕ੍ਰੋਸਾਫਟ, ਐਂਥਰੋਪਿਕ, ਅਤੇ ਹੋਰਾਂ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਮੁਲਾਂਕਣਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਇੱਕ ਨਵਾਂ ਢਾਂਚਾ ਦੱਸਿਆ, ਜਿਸ ਵਿੱਚ ਵੈਧਤਾ ਇੱਕ ਨੀਂਹ ਪੱਥਰ ਹੈ।

ਖੋਜਕਰਤਾਵਾਂ ਦਾ ਤਰਕ ਹੈ ਕਿ "ਏ.ਆਈ. ਮੁਲਾਂਕਣ ਵਿਗਿਆਨ ਨੂੰ ‘ਆਮ ਬੁੱਧੀ’ ਦੇ ਮੋਟੇ ਦਾਅਵਿਆਂ ਤੋਂ ਅੱਗੇ ਵਧ ਕੇ ਤਰੱਕੀ ਦੇ ਵਧੇਰੇ ਕਾਰਜ-ਵਿਸ਼ੇਸ਼ ਅਤੇ ਅਸਲ-ਸੰਸਾਰ ਸੰਬੰਧਿਤ ਉਪਾਵਾਂ ਵੱਲ ਵਧਣਾ ਚਾਹੀਦਾ ਹੈ।”

“ਸਕਵਿਸ਼ੀ” ਚੀਜ਼ਾਂ ਨੂੰ ਮਾਪਣਾ

ਇਸ ਤਬਦੀਲੀ ਨੂੰ ਸੁਵਿਧਾਜਨਕ ਬਣਾਉਣ ਲਈ, ਕੁਝ ਖੋਜਕਰਤਾ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਦੇ ਸਾਧਨਾਂ ਵੱਲ ਮੁੜ ਰਹੇ ਹਨ। ਇੱਕ ਫਰਵਰੀ ਸਥਿਤੀ ਪੇਪਰ ਵਿੱਚ ਦਲੀਲ ਦਿੱਤੀ ਗਈ ਕਿ "GenAI ਪ੍ਰਣਾਲੀਆਂ ਦਾ ਮੁਲਾਂਕਣ ਇੱਕ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਮਾਪਨ ਚੁਣੌਤੀ ਹੈ," ਖਾਸ ਤੌਰ ‘ਤੇ ਇਹ ਖੋਜ ਕਰਨਾ ਕਿ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਵੈਧਤਾ ਪ੍ਰਣਾਲੀਆਂ ਨੂੰ ਏ.ਆਈ. ਬੈਂਚਮਾਰਕਿੰਗ ‘ਤੇ ਕਿਵੇਂ ਲਾਗੂ ਕੀਤਾ ਜਾ ਸਕਦਾ ਹੈ।

ਲੇਖਕ, ਮੁੱਖ ਤੌਰ ‘ਤੇ ਮਾਈਕ੍ਰੋਸਾਫਟ ਦੀ ਖੋਜ ਸ਼ਾਖਾ ਤੋਂ ਹਨ, ਪਰ ਸਟੈਨਫੋਰਡ ਅਤੇ ਮਿਸ਼ੀਗਨ ਯੂਨੀਵਰਸਿਟੀ ਦੇ ਅਕਾਦਮਿਕ ਵੀ ਸ਼ਾਮਲ ਹਨ, ਉਨ੍ਹਾਂ ਮਾਪਦੰਡਾਂ ਵੱਲ ਇਸ਼ਾਰਾ ਕਰਦੇ ਹਨ ਜੋ ਸਮਾਜਿਕ ਵਿਗਿਆਨੀ ਵਿਚਾਰੇ ਸੰਕਲਪਾਂ ਜਿਵੇਂ ਕਿ ਵਿਚਾਰਧਾਰਾ, ਲੋਕਤੰਤਰ, ਅਤੇ ਮੀਡੀਆ ਪੱਖਪਾਤ ਨੂੰ ਮਾਪਣ ਲਈ ਵਰਤਦੇ ਹਨ। ਏ.ਆਈ. ਬੈਂਚਮਾਰਕਸ ‘ਤੇ ਲਾਗੂ ਕੀਤੇ ਗਏ, ਇਹਨਾਂ ਸਮਾਨ ਪ੍ਰਕਿਰਿਆਵਾਂ ਸੰਕਲਪਾਂ ਜਿਵੇਂ ਕਿ "ਤਾਰਕਿਕਤਾ" ਅਤੇ "ਗਣਿਤ ਦੀ ਮੁਹਾਰਤ" ਨੂੰ ਧੁੰਦਲੀਆਂ ਆਮਤਾਵਾਂ ਦਾ ਸਹਾਰਾ ਲਏ ਬਿਨਾਂ ਮਾਪਣ ਦਾ ਇੱਕ ਤਰੀਕਾ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੀਆਂ ਹਨ।

ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਸਾਹਿਤ ਮਾਪੇ ਜਾ ਰਹੇ ਸੰਕਲਪ ਨੂੰ ਸਖਤੀ ਨਾਲ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨ ਦੀ ਮਹੱਤਤਾ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦਾ ਹੈ। ਉਦਾਹਰਨ ਲਈ, ਕਿਸੇ ਸਮਾਜ ਵਿੱਚ ਲੋਕਤੰਤਰ ਦੇ ਪੱਧਰ ਨੂੰ ਮਾਪਣ ਲਈ ਤਿਆਰ ਕੀਤੇ ਗਏ ਇੱਕ ਟੈਸਟ ਨੂੰ ਪਹਿਲਾਂ ਇੱਕ "ਜਮਹੂਰੀ ਸਮਾਜ" ਦੀ ਇੱਕ ਸਪੱਸ਼ਟ ਪਰਿਭਾਸ਼ਾ ਸਥਾਪਤ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ ਅਤੇ ਫਿਰ ਉਸ ਪਰਿਭਾਸ਼ਾ ਨਾਲ ਸੰਬੰਧਿਤ ਸਵਾਲ ਤਿਆਰ ਕਰਨੇ ਚਾਹੀਦੇ ਹਨ।

ਇਸਨੂੰ SWE-Bench ਵਰਗੇ ਬੈਂਚਮਾਰਕ ‘ਤੇ ਲਾਗੂ ਕਰਨ ਲਈ, ਡਿਜ਼ਾਈਨਰਾਂ ਨੂੰ GitHub ਤੋਂ ਪ੍ਰੋਗਰਾਮਿੰਗ ਸਮੱਸਿਆਵਾਂ ਇਕੱਠੀਆਂ ਕਰਨ ਅਤੇ ਜਵਾਬਾਂ ਨੂੰ ਪ੍ਰਮਾਣਿਤ ਕਰਨ ਲਈ ਇੱਕ ਸਕੀਮ ਬਣਾਉਣ ਦੀ ਰਵਾਇਤੀ ਮਸ਼ੀਨ ਸਿਖਲਾਈ ਪਹੁੰਚ ਨੂੰ ਛੱਡਣ ਦੀ ਲੋੜ ਹੋਵੇਗੀ। ਇਸ ਦੀ ਬਜਾਏ, ਉਹ ਪਹਿਲਾਂ ਇਹ ਪਰਿਭਾਸ਼ਿਤ ਕਰਨਗੇ ਕਿ ਬੈਂਚਮਾਰਕ ਦਾ ਉਦੇਸ਼ ਕੀ ਮਾਪਣਾ ਹੈ (ਉਦਾਹਰਨ ਲਈ, "ਸੌਫਟਵੇਅਰ ਵਿੱਚ ਫਲੈਗ ਕੀਤੇ ਮੁੱਦਿਆਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀ ਯੋਗਤਾ"), ਇਸਨੂੰ ਉਪ-ਹੁਨਰਾਂ ਵਿੱਚ ਵੰਡੋ (ਉਦਾਹਰਨ ਲਈ, ਵੱਖ-ਵੱਖ ਕਿਸਮਾਂ ਦੀਆਂ ਸਮੱਸਿਆਵਾਂ ਜਾਂ ਪ੍ਰੋਗਰਾਮ ਢਾਂਚੇ), ਅਤੇ ਫਿਰ ਸਵਾਲ ਤਿਆਰ ਕਰੋ ਜੋ ਉਹਨਾਂ ਉਪ-ਹੁਨਰਾਂ ਨੂੰ ਸਹੀ ਢੰਗ ਨਾਲ ਕਵਰ ਕਰਦੇ ਹਨ।

ਜੈਕਬਸ ਵਰਗੇ ਖੋਜਕਰਤਾਵਾਂ ਲਈ, ਏ.ਆਈ. ਖੋਜਕਰਤਾ ਆਮ ਤੌਰ ‘ਤੇ ਬੈਂਚਮਾਰਕਿੰਗ ਤੱਕ ਕਿਵੇਂ ਪਹੁੰਚਦੇ ਹਨ, ਇਸ ਤੋਂ ਇਹ ਡੂੰਘੀ ਤਬਦੀਲੀ ਬਿਲਕੁਲ ਬਿੰਦੂ ਹੈ। ਉਹ ਕਹਿੰਦੀ ਹੈ, "ਤਕਨੀਕੀ ਉਦਯੋਗ ਵਿੱਚ ਕੀ ਹੋ ਰਿਹਾ ਹੈ ਅਤੇ ਸਮਾਜਿਕ ਵਿਗਿਆਨ ਦੇ ਇਹਨਾਂ ਸਾਧਨਾਂ ਵਿੱਚ ਇੱਕ ਮੇਲ ਨਹੀਂ ਹੈ।” "ਸਾਡੇ ਕੋਲ ਦਹਾਕਿਆਂ ਅਤੇ ਦਹਾਕਿਆਂ ਤੋਂ ਇਹ ਸੋਚਣ ਦਾ ਤਰੀਕਾ ਹੈ ਕਿ ਅਸੀਂ ਮਨੁੱਖਾਂ ਬਾਰੇ ਇਹਨਾਂ ਸਕਵਿਸ਼ੀ ਚੀਜ਼ਾਂ ਨੂੰ ਕਿਵੇਂ ਮਾਪਣਾ ਚਾਹੁੰਦੇ ਹਾਂ।”

ਖੋਜ ਭਾਈਚਾਰੇ ਵਿੱਚ ਇਹਨਾਂ ਵਿਚਾਰਾਂ ਦੇ ਵੱਧ ਰਹੇ ਪ੍ਰਭਾਵ ਦੇ ਬਾਵਜੂਦ, ਏ.ਆਈ. ਕੰਪਨੀਆਂ ਅਸਲ ਵਿੱਚ ਬੈਂਚਮਾਰਕਾਂ ਦੀ ਵਰਤੋਂ ਕਿਵੇਂ ਕਰਦੀਆਂ ਹਨ, ਇਸ ਉੱਤੇ ਉਨ੍ਹਾਂ ਦਾ ਪ੍ਰਭਾਵ ਹੌਲੀ ਰਿਹਾ ਹੈ।

OpenAI, Anthropic, Google, ਅਤੇ Meta ਤੋਂ ਹਾਲੀਆ ਮਾਡਲ ਰੀਲੀਜ਼ਾਂ MMLU ਵਰਗੇ ਮਲਟੀਪਲ-ਚੁਆਇਸ ਗਿਆਨ ਬੈਂਚਮਾਰਕ ‘ਤੇ ਬਹੁਤ ਜ਼ਿਆਦਾ ਨਿਰਭਰ ਕਰਦੀਆਂ ਹਨ, ਇਹ ਉਹੀ ਪਹੁੰਚ ਹੈ ਜਿਸ ਤੋਂ ਵੈਧਤਾ ਖੋਜਕਰਤਾ ਅੱਗੇ ਵਧਣ ਦੀ ਕੋਸ਼ਿਸ਼ ਕਰ ਰਹੇ ਹਨ। ਮਾਡਲ ਰੀਲੀਜ਼ਾਂ, ਜ਼ਿਆਦਾਤਰ ਹਿੱਸੇ ਲਈ, ਅਜੇ ਵੀ ਆਮ ਬੁੱਧੀ ਵਿੱਚ ਵਾਧਾ ਦਿਖਾਉਣ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੀਆਂ ਹਨ,ਅਤੇ ਇਹਨਾਂ ਦਾਅਵਿਆਂ ਦਾ ਸਮਰਥਨ ਕਰਨ ਲਈ ਵਿਆਪਕ ਬੈਂਚਮਾਰਕ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਜਾਂਦੀ ਹੈ।

ਕੁਝ ਨਿਰੀਖਕਾਂ ਨੂੰ ਇਹ ਤਸੱਲੀਬਖਸ਼ ਲੱਗਦਾ ਹੈ। ਵਾਰਟਨ ਦੇ ਪ੍ਰੋਫੈਸਰ ਈਥਨ ਮੋਲਿਕ ਦਾ ਸੁਝਾਅ ਹੈ ਕਿ ਬੈਂਚਮਾਰਕ, "ਚੀਜ਼ਾਂ ਦੇ ਮਾੜੇ ਉਪਾਅ ਹੋਣ ਦੇ ਬਾਵਜੂਦ, ਉਹ ਵੀ ਹਨ ਜੋ ਸਾਡੇ ਕੋਲ ਹਨ।” ਉਹ ਅੱਗੇ ਕਹਿੰਦੇ ਹਨ, "ਇਸਦੇ ਨਾਲ ਹੀ, ਮਾਡਲ ਬਿਹਤਰ ਹੋ ਰਹੇ ਹਨ। ਤੇਜ਼ ਤਰੱਕੀ ਦੁਆਰਾ ਬਹੁਤ ਸਾਰੇ ਪਾਪ ਮਾਫ਼ ਕੀਤੇ ਜਾਂਦੇ ਹਨ।”

ਫਿਲਹਾਲ, ਉਦਯੋਗ ਦਾ ਨਕਲੀ ਆਮ ਬੁੱਧੀ ‘ਤੇ ਲੰਬੇ ਸਮੇਂ ਤੋਂ ਚੱਲ ਰਿਹਾ ਧਿਆਨ ਵਧੇਰੇ ਕੇਂਦਰਿਤ, ਵੈਧਤਾ-ਅਧਾਰਤ ਪਹੁੰਚ ਨੂੰ ਢੱਕਦਾ ਜਾਪਦਾ ਹੈ। ਜਦੋਂ ਤੱਕ ਏ.ਆਈ. ਮਾਡਲ ਆਮ ਬੁੱਧੀ ਵਿੱਚ ਅੱਗੇ ਵਧਦੇ ਰਹਿੰਦੇ ਹਨ, ਖਾਸ ਐਪਲੀਕੇਸ਼ਨਾਂ ਘੱਟ ਮਜਬੂਰ ਕਰਨ ਵਾਲੀਆਂ ਲੱਗਦੀਆਂ ਹਨ, ਭਾਵੇਂ ਕਿ ਪ੍ਰੈਕਟੀਸ਼ਨਰ ਉਹਨਾਂ ਸਾਧਨਾਂ ਦੀ ਵਰਤੋਂ ਕਰ ਰਹੇ ਹਨ ਜਿਨ੍ਹਾਂ ‘ਤੇ ਉਹ ਹੁਣ ਪੂਰੀ ਤਰ੍ਹਾਂ ਭਰੋਸਾ ਨਹੀਂ ਕਰਦੇ ਹਨ।

ਹੱਗਿੰਗ ਫੇਸ ਦੇ ਸੋਲੈਮਨ ਦਾ ਕਹਿਣਾ ਹੈ, "ਇਹ ਉਹ ਤਣਾਅ ਹੈ ਜਿਸ ‘ਤੇ ਅਸੀਂ ਚੱਲ ਰਹੇ ਹਾਂ।” "ਸਿਸਟਮ ਨੂੰ ਬਾਹਰ ਸੁੱਟਣਾ ਬਹੁਤ ਆਸਾਨ ਹੈ, ਪਰ ਮੁਲਾਂਕਣ ਸਾਡੇ ਮਾਡਲਾਂ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਸੱਚਮੁੱਚ ਮਦਦਗਾਰ ਹੁੰਦੇ ਹਨ, ਭਾਵੇਂ ਇਹਨਾਂ ਸੀਮਾਵਾਂ ਦੇ ਨਾਲ ਵੀ।”