ਸਟੈਨਫੋਰਡ-ਸਟੱਡੀ-ਚੈਟਜੀਪੀਟੀ-ਪ੍ਰਦਰਸ਼ਨ-ਤਜਰਬਾ-ਘਟਿਆ
ਸਟੈਨਫੋਰਡ ਅਤੇ ਯੂਸੀ ਬਰਕਲੇ ਦੇ ਖੋਜਕਰਤਾਵਾਂ ਦੁਆਰਾ ਕੀਤੀ ਗਈ ਇੱਕ ਤਾਜ਼ਾ ਖੋਜ ਵਿੱਚ, GPT-3.5 ਅਤੇ GPT-4 ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਤਿੰਨ ਮਹੀਨਿਆਂ ਦੇ ਅੰਦਰ ਕਾਫ਼ੀ ਉਤਰਾਅ-ਚੜ੍ਹਾਅ ਦੇਖੇ ਗਏ ਹਨ। ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਜਾਂਚ ਸੱਤ ਕੰਮਾਂ ਵਿੱਚ ਕੀਤੀ ਗਈ, ਜਿਸ ਵਿੱਚ ਗਣਿਤਿਕ ਸਮੱਸਿਆਵਾਂ, ਕੋਡ ਜਨਰੇਸ਼ਨ, ਬਹੁ-ਪੜਾਵੀ ਗਿਆਨ-ਅਧਾਰਿਤ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ, ਯੂਐਸ ਮੈਡੀਕਲ ਲਾਇਸੈਂਸਿੰਗ ਪ੍ਰੀਖਿਆ, ਅਤੇ ਮਲਟੀ-ਹੌਪ ਗਿਆਨ-ਅਧਾਰਿਤ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਸ਼ਾਮਲ ਸਨ।ਖੋਜ ਨੇ ਦਿਖਾਇਆ ਕਿ GPT-4 ਦੀ ਪ੍ਰਾਇਮ ਬਨਾਮ ਸੰਯੁਕਤ ਸੰਖਿਆਵਾਂ ਦੀ ਪਛਾਣ ਕਰਨ ਦੀ ਸ਼ੁੱਧਤਾ ਮਾਰਚ ਵਿੱਚ 84% ਤੋਂ ਘਟ ਕੇ ਜੂਨ ਵਿੱਚ 51% ਹੋ ਗਈ। ਇਸ ਦੌਰਾਨ, GPT-3.5 ਨੇ ਇਸ ਕੰਮ ਵਿੱਚ ਸੁਧਾਰ ਦਿਖਾਇਆ। GPT-4 ਜੂਨ ਵਿੱਚ ਸੰਵੇਦਨਸ਼ੀਲ ਸਵਾਲਾਂ ਅਤੇ ਰਾਏ ਸਰਵੇਖਣਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ ਘੱਟ ਤਿਆਰ ਸੀ। GPT-4 ਨੇ ਬਹੁ-ਪੜਾਵੀ ਤਰਕ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਸੁਧਾਰ ਕੀਤਾ, ਜਦੋਂ ਕਿ GPT-3.5 ਨੇ ਅਜਿਹੇ ਕੰਮਾਂ ਵਿੱਚ ਗਿਰਾਵਟ ਦਰਸਾਈ। ਦੋਵਾਂ ਮਾਡਲਾਂ ਲਈ ਕੋਡ ਜਨਰੇਸ਼ਨ ਵਿੱਚ ਫਾਰਮੈਟਿੰਗ ਦੀਆਂ ਗਲਤੀਆਂ ਵਿੱਚ ਵਾਧਾ ਹੋਇਆ। GPT-4 ਦੀ ਉਪਭੋਗਤਾ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਦੀ ਯੋਗਤਾ ਵਿੱਚ ਗਿਰਾਵਟ ਆਈ ਹੈ। ਮਾਡਲਾਂ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ, ਖੋਜਕਰਤਾਵਾਂ ਨੇ ਚਾਰ ਕਿਸਮਾਂ ਦੇ ਆਮ ਨਿਰਦੇਸ਼ਾਂ 'ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕੀਤਾ, ਜਿਵੇਂ ਕਿ ਜਵਾਬ ਕੱਢਣਾ, ਮੁਆਫੀ ਮੰਗਣਾ ਬੰਦ ਕਰਨਾ, ਖਾਸ ਸ਼ਬਦਾਂ ਤੋਂ ਬਚਣਾ, ਅਤੇ ਸਮੱਗਰੀ ਫਿਲਟਰਿੰਗ। ਮਾਰਚ ਵਿੱਚ GPT-4 ਨੇ ਜ਼ਿਆਦਾਤਰ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕੀਤੀ, ਪਰ ਜੂਨ ਤੱਕ ਇਸਨੇ ਉਹਨਾਂ ਨੂੰ ਨਜ਼ਰਅੰਦਾਜ਼ ਕਰਨਾ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤਾ। ਉਦਾਹਰਣ ਵਜੋਂ, ਜਵਾਬ ਕੱਢਣ ਦੇ ਨਿਰਦੇਸ਼ਾਂ ਲਈ ਪਾਲਣਾ ਦਰ 99.5% ਤੋਂ ਘਟ ਕੇ ਲਗਭਗ ਜ਼ੀਰੋ ਹੋ ਗਈ, ਅਤੇ ਸਮੱਗਰੀ ਫਿਲਟਰਿੰਗ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਵਫ਼ਾਦਾਰੀ ਵੀ 74.0% ਤੋਂ ਘਟ ਕੇ 19.0% ਹੋ ਗਈ। ਇਹ ਖੋਜ ChatGPT ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਗਿਰਾਵਟ ਅਤੇ ਨਿਰਦੇਸ਼ਾਂ ਦੀ ਪਾਲਣਾ ਕਰਨ ਵਿੱਚ ਆਉਣ ਵਾਲੀਆਂ ਚੁਣੌਤੀਆਂ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀ ਹੈ।