ਡਾਕਟਰੀ ਸਿੱਖਿਆ 'ਚ AI ਦੀ ਭੂਮਿਕਾ

ਜਾਣ-ਪਛਾਣ

ਹਾਲ ਹੀ ਦੇ ਸਾਲਾਂ ਵਿੱਚ, ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਅਤੇ ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLM) ਵਰਗੀਆਂ ਤਕਨੀਕੀ ਤਰੱਕੀਆਂ ਨੇ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਅਤੇ ਗਿਆਨ ਮੁਲਾਂਕਣ ਦੇ ਤਰੀਕਿਆਂ ਵਿੱਚ ਸੰਭਾਵੀ ਤਬਦੀਲੀਆਂ ਲਿਆਂਦੀਆਂ ਹਨ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਇਹ ਵਿਕਾਸ ਡਾਕਟਰੀ ਜਾਣਕਾਰੀ ਨੂੰ ਵਧੇਰੇ ਪਹੁੰਚਯੋਗ ਬਣਾ ਸਕਦੇ ਹਨ ਅਤੇ ਮੁਲਾਂਕਣ ਨੂੰ ਵਧੇਰੇ ਇੰਟਰਐਕਟਿਵ ਬਣਾ ਸਕਦੇ ਹਨ।

ਪਿਛਲੇ ਅਧਿਐਨਾਂ ਨੇ ਯੂ.ਐੱਸ.ਐੱਮ.ਐੱਲ.ਈ. (USMLE) ਅਤੇ ਜੇ.ਐੱਮ.ਐੱਲ.ਈ. (JMLE) ਵਰਗੀਆਂ ਵੱਖ-ਵੱਖ ਡਾਕਟਰੀ ਲਾਇਸੈਂਸ ਪ੍ਰੀਖਿਆਵਾਂ ਵਿੱਚ ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਪੜਚੋਲ ਕੀਤੀ ਹੈ, ਪਰ ਇਹ ਪ੍ਰੀਖਿਆਵਾਂ ਢਾਂਚੇ ਅਤੇ ਸਮੱਗਰੀ ਦੇ ਰੂਪ ਵਿੱਚ ਟੀ.ਯੂ.ਐੱਸ. (TUS) ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਖਰੀਆਂ ਹਨ। ਟੀ.ਯੂ.ਐੱਸ. (TUS) ਬੁਨਿਆਦੀ ਵਿਗਿਆਨ ਅਤੇ ਕਲੀਨਿਕਲ ਵਿਗਿਆਨ ‘ਤੇ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ, ਅਤੇ ਖਾਸ ਤੌਰ ‘ਤੇ ਤੁਰਕੀ ਦੇ ਡਾਕਟਰੀ ਸੰਦਰਭ ‘ਤੇ ਧਿਆਨ ਦਿੰਦਾ ਹੈ, ਜੋ ਕਿ ਇੱਕ ਵਿਲੱਖਣ ਮੁਲਾਂਕਣ ਵਾਤਾਵਰਣ ਵਿੱਚ ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਦਾ ਇੱਕ ਵਿਲੱਖਣ ਮੌਕਾ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਇਸ ਅਧਿਐਨ ਦਾ ਉਦੇਸ਼ ਟੀ.ਯੂ.ਐੱਸ. (TUS) ਵਿੱਚ ਚਾਰ ਪ੍ਰਮੁੱਖ ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਕੇ ਇਸ ਪਾੜੇ ਨੂੰ ਭਰਨਾ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਇਹ ਅਧਿਐਨ ਪਾਠਕ੍ਰਮ ਡਿਜ਼ਾਈਨ, ਏ.ਆਈ. (AI) ਸਹਾਇਤਾ ਪ੍ਰਾਪਤ ਡਾਕਟਰੀ ਸਿਖਲਾਈ, ਅਤੇ ਤੁਰਕੀ ਵਿੱਚ ਡਾਕਟਰੀ ਮੁਲਾਂਕਣ ਦੇ ਭਵਿੱਖ ‘ਤੇ ਇਹਨਾਂ ਖੋਜਾਂ ਦੇ ਸੰਭਾਵੀ ਪ੍ਰਭਾਵਾਂ ਦੀ ਪੜਚੋਲ ਕਰਦਾ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਅਸੀਂ ਜਾਂਚ ਕਰਦੇ ਹਾਂ ਕਿ ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਤੁਰਕੀ ਦੇ ਡਾਕਟਰੀ ਪਾਠਕ੍ਰਮ ਦੇ ਅਨੁਸਾਰ ਵਧੇਰੇ ਪ੍ਰਭਾਵਸ਼ਾਲੀ, ਅਨੁਕੂਲਿਤ ਵਿਦਿਅਕ ਸਰੋਤਾਂ ਅਤੇ ਮੁਲਾਂਕਣ ਰਣਨੀਤੀਆਂ ਨੂੰ ਵਿਕਸਤ ਕਰਨ ਲਈ ਕਿਵੇਂ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦਾ ਹੈ। ਇਹ ਜਾਂਚ ਨਾ ਸਿਰਫ ਖਾਸ ਭਾਸ਼ਾਈ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਸਮਝਣ ਵਿੱਚ ਯੋਗਦਾਨ ਪਾਉਂਦੀ ਹੈ, ਬਲਕਿ ਵਿਸ਼ਵਵਿਆਪੀ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਅਤੇ ਮੁਲਾਂਕਣ ਵਿੱਚ ਏ.ਆਈ. (AI) ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਕਿਵੇਂ ਜੋੜਿਆ ਜਾ ਸਕਦਾ ਹੈ ਇਸ ਬਾਰੇ ਵਿਆਪਕ ਚਰਚਾ ਵਿੱਚ ਵੀ ਯੋਗਦਾਨ ਪਾਉਂਦੀ ਹੈ।

ਇਹਨਾਂ ਅਧਿਐਨਾਂ ਦੇ ਨਤੀਜੇ ਦੱਸਦੇ ਹਨ ਕਿ ChatGPT ਅਤੇ ਸਮਾਨ LLM ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਅਤੇ ਗਿਆਨ ਮੁਲਾਂਕਣ ਪ੍ਰਕਿਰਿਆਵਾਂ ਵਿੱਚ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਭੂਮਿਕਾ ਨਿਭਾ ਸਕਦੇ ਹਨ। ਡਾਕਟਰੀ ਜਾਣਕਾਰੀ ਪ੍ਰਾਪਤੀ ਅਤੇ ਮੁਲਾਂਕਣ ਦੇ ਤਰੀਕਿਆਂ ਵਿੱਚ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ ਅਤੇ LLM ਨਵੀਨਤਾਕਾਰੀ ਤਰੀਕਿਆਂ ਅਤੇ ਸਿੱਖਣ ਦੇ ਤਰੀਕਿਆਂ ਦੇ ਵਿਕਾਸ ਨੂੰ ਸਮਰੱਥ ਬਣਾ ਸਕਦੇ ਹਨ, ਖਾਸ ਤੌਰ ‘ਤੇ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਵਿੱਚ। ਇਸ ਅਧਿਐਨ ਦਾ ਉਦੇਸ਼ ਤੁਰਕੀ ਦੀ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਦਾਖਲਾ ਪ੍ਰੀਖਿਆ ਵਿੱਚ ChatGPT 4, Gemini 1.5 Pro ਅਤੇ Cohere-Command R+ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਕੇ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਅਤੇ ਗਿਆਨ ਮੁਲਾਂਕਣ ‘ਤੇ LLM ਦੇ ਪ੍ਰਭਾਵ ਦੀ ਅੱਗੇ ਜਾਂਚ ਕਰਨਾ ਹੈ।

ਇਹ ਅਧਿਐਨ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਅਤੇ ਮੁਲਾਂਕਣ ਵਿੱਚ ਉੱਨਤ ਆਰਟੀਫੀਸ਼ੀਅਲ ਇੰਟੈਲੀਜੈਂਸ (AI) ਮਾਡਲਾਂ, ਖਾਸ ਤੌਰ ‘ਤੇ ChatGPT 4, Gemini 1.5 Pro, Command R+ ਅਤੇ Llama 3 70B ਦੀ ਵਰਤੋਂ ਦੀ ਪੜਚੋਲ ਕਰਦਾ ਹੈ, ਅਤੇ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਪ੍ਰੀਖਿਆ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਉਹਨਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦਾ ਹੈ। ਇਹ ਅਧਿਐਨ ਤੁਰਕੀ ਦੀ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਦਾਖਲਾ ਪ੍ਰੀਖਿਆ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਇੱਕ ਵਿਆਪਕ ਅਤੇ ਯੋਜਨਾਬੱਧ ਵਿਸ਼ਲੇਸ਼ਣ ਕਰਨ ਲਈ ਇਹਨਾਂ ਮਾਡਲਾਂ ਦੀ ਯੋਗਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦਾ ਹੈ, ਅਤੇ ਵਿਆਖਿਆਤਮਕ ਸਮਰੱਥਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਵਰਗੇ ਕਾਰਕਾਂ ‘ਤੇ ਵਿਚਾਰ ਕਰਦੇ ਹੋਏ ਦਵਾਈ ਵਿੱਚ AI ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। ਨਤੀਜੇ ਦੱਸਦੇ ਹਨ ਕਿ AI ਮਾਡਲ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਅਤੇ ਮੁਲਾਂਕਣ ਪ੍ਰਕਿਰਿਆਵਾਂ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਯੋਗਦਾਨ ਪਾ ਸਕਦੇ ਹਨ, ਨਵੇਂ ਐਪਲੀਕੇਸ਼ਨਾਂ ਅਤੇ ਖੋਜ ਦੇ ਖੇਤਰਾਂ ਲਈ ਰਾਹ ਖੋਲ੍ਹਦੇ ਹਨ। ਇਸ ਲੇਖ ਦਾ ਮੁੱਖ ਉਦੇਸ਼ AI ਤਕਨਾਲੋਜੀ ਵਿੱਚ ਤੇਜ਼ੀ ਨਾਲ ਹੋ ਰਹੇ ਵਿਕਾਸ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਅਤੇ ਵੱਖ-ਵੱਖ AI ਮਾਡਲਾਂ ਦੀ ਜਵਾਬਦੇਹੀ ਦੀ ਤੁਲਨਾ ਕਰਨਾ ਹੈ। ਅਧਿਐਨ ਵਿੱਚ ChatGPT 4, Gemini 1.5 Pro, Command R+ ਅਤੇ Llama 3 70B ਦਾ ਤੁਲਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ ਕੀਤਾ ਗਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ 2021 ਵਿੱਚ ਤੁਰਕੀ ਦੀ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਦਾਖਲਾ ਪ੍ਰੀਖਿਆ ਦੇ ਪਹਿਲੇ ਸਮੈਸਟਰ ਵਿੱਚ 240 ਪ੍ਰਸ਼ਨਾਂ ਵਿੱਚ ਉਹਨਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਕੀਤਾ ਗਿਆ ਹੈ।

ਇਹ ਤੁਲਨਾ AI ਤਕਨਾਲੋਜੀ ਦੇ ਵਿਕਾਸ ਅਤੇ ਅੰਤਰਾਂ ਨੂੰ ਸਪੱਸ਼ਟ ਕਰਨ ਲਈ ਤਿਆਰ ਕੀਤੀ ਗਈ ਹੈ, ਖਾਸ ਕਰਕੇ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਅਤੇ ਪ੍ਰੀਖਿਆ ਦੀ ਤਿਆਰੀ ਵਰਗੇ ਵਿਸ਼ੇਸ਼ ਖੇਤਰਾਂ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਉਪਯੋਗਤਾ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕਰਦੇ ਹੋਏ। ਅੰਤਮ ਟੀਚਾ ਉਹਨਾਂ ਸੂਝਾਂ ਨੂੰ ਪ੍ਰਦਾਨ ਕਰਨਾ ਹੈ ਜੋ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸਿੱਖਣ ਦੇ ਸਾਧਨਾਂ ਦੀ ਚੋਣ ਕਰਨ ਵਿੱਚ ਮਦਦ ਕਰ ਸਕਦੀਆਂ ਹਨ ਜੋ ਉਹਨਾਂ ਦੀਆਂ ਖਾਸ ਲੋੜਾਂ ਲਈ ਸਭ ਤੋਂ ਵਧੀਆ ਅਨੁਕੂਲ ਹਨ।

ਵਿਧੀ

ਇਹ ਸਵਾਲ ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਨੂੰ ਤੁਰਕੀ ਭਾਸ਼ਾ ਵਿੱਚ ਪੁੱਛੇ ਗਏ ਸਨ। ਇਹ ਸਵਾਲ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੀ ਅਧਿਕਾਰਤ ਵੈੱਬਸਾਈਟ ਤੋਂ ਪ੍ਰਾਪਤ ਕੀਤੇ ਗਏ ਸਨ, ਅਤੇ ਇਹ ਬਹੁ-ਚੋਣ ਵਾਲੇ ਪ੍ਰਸ਼ਨਾਂ ਦੇ ਰੂਪ ਵਿੱਚ ਸਨ (A ਤੋਂ E ਤੱਕ ਪੰਜ ਵਿਕਲਪਾਂ ਦੇ ਨਾਲ), ਜਿਸ ਵਿੱਚ ਸਿਰਫ਼ ਇੱਕ ਸਭ ਤੋਂ ਵਧੀਆ ਜਵਾਬ ਸੀ। ਜਵਾਬ ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਦੁਆਰਾ ਤੁਰਕੀ ਭਾਸ਼ਾ ਵਿੱਚ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਸਨ।

ਮੁਲਾਂਕਣ ਪ੍ਰਕਿਰਿਆ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਤ ਕੀਤੇ ਗਏ ਸਹੀ ਜਵਾਬਾਂ ‘ਤੇ ਅਧਾਰਤ ਸੀ। ਲੇਖ ਵਿੱਚ ਦੱਸਿਆ ਗਿਆ ਹੈ: ‘AI ਮਾਡਲ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ‘ਸਹੀ’ ਜਵਾਬ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਤ ਕੀਤੇ ਗਏ ਜਵਾਬਾਂ ਦੇ ਅਨੁਸਾਰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤੇ ਗਏ ਹਨ। ਸਿਰਫ਼ ਉਹੀ ਜਵਾਬ ਜਿਨ੍ਹਾਂ ਨੂੰ ਪ੍ਰਸ਼ਨ ਟੈਕਸਟ ਵਿੱਚ ਦਿੱਤੀਆਂ ਹਦਾਇਤਾਂ ਦੇ ਅਨੁਸਾਰ ਸਹੀ ਹੋਣ ਦਾ ਪਤਾ ਲਗਾਇਆ ਗਿਆ ਸੀ, ਨੂੰ ‘ਸਹੀ’ ਵਜੋਂ ਸਵੀਕਾਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਕਿਉਂਕਿ ਪ੍ਰਸ਼ਨ ਅਤੇ ਜਵਾਬ ਦੋਵੇਂ ਹੀ ਤੁਰਕੀ ਭਾਸ਼ਾ ਵਿੱਚ ਸਨ, ਇਸ ਲਈ ਮੁਲਾਂਕਣ ਪ੍ਰਕਿਰਿਆ ਵਿੱਚ ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਦੇ ਤੁਰਕੀ ਭਾਸ਼ਾ ਦੇ ਜਵਾਬਾਂ ਦੀ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੀ ਗਈ ਅਧਿਕਾਰਤ ਤੁਰਕੀ ਭਾਸ਼ਾ ਜਵਾਬ ਕੁੰਜੀ ਨਾਲ ਤੁਲਨਾ ਕਰਨਾ ਸ਼ਾਮਲ ਸੀ।

ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਡੇਟਾਸੈੱਟ

ਇਸ ਅਧਿਐਨ ਵਿੱਚ AI ਮਾਡਲਾਂ ਦੀ ਡਾਕਟਰੀ ਗਿਆਨ ਅਤੇ ਕੇਸ ਮੁਲਾਂਕਣ ਵਿੱਚ ਸਮਰੱਥਾ ਦੀ ਜਾਂਚ ਕਰਨ ਲਈ ChatGPT 4, Gemini 1.5 Pro, Command R+ ਅਤੇ Llama 3 70B ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਹੈ। ਇਹ ਅਧਿਐਨ 21 ਮਾਰਚ, 2021 ਨੂੰ ਆਯੋਜਿਤ ਤੁਰਕੀ ਦੀ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਦਾਖਲਾ ਪ੍ਰੀਖਿਆ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ‘ਤੇ ਕੀਤਾ ਗਿਆ ਸੀ। ਤੁਰਕੀ ਦੀ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਦਾਖਲਾ ਪ੍ਰੀਖਿਆ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੁਆਰਾ ਆਯੋਜਿਤ ਇੱਕ ਪ੍ਰੀਖਿਆ ਹੈ, ਜਿਸ ਵਿੱਚ 240 ਸਵਾਲ ਹੁੰਦੇ ਹਨ। ਪਹਿਲੀ ਸ਼੍ਰੇਣੀ ਵਿੱਚ ਬੁਨਿਆਦੀ ਗਿਆਨ ਦੇ ਸਵਾਲ ਡਾਕਟਰੀ ਸਿੱਖਿਆ ਨੂੰ ਪੂਰਾ ਕਰਨ ਲਈ ਲੋੜੀਂਦੇ ਗਿਆਨ ਅਤੇ ਨੈਤਿਕਤਾ ਦੀ ਜਾਂਚ ਕਰਦੇ ਹਨ। ਦੂਜੀ ਸ਼੍ਰੇਣੀ ਕੇਸਾਂ ਦੇ ਸਵਾਲਾਂ ਦੀ ਹੈ, ਜਿਸ ਵਿੱਚ ਬਹੁਤ ਸਾਰੀਆਂ ਬਿਮਾਰੀਆਂ ਸ਼ਾਮਲ ਹਨ ਜੋ ਵਿਸ਼ਲੇਸ਼ਣਾਤਮਕ ਸੋਚ ਅਤੇ ਤਰਕ ਦੀਆਂ ਯੋਗਤਾਵਾਂ ਨੂੰ ਮਾਪਦੀਆਂ ਹਨ।

ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਵਰਗੀਕਰਨ

ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਦਾ ਪੱਧਰ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਤ ਕੀਤੇ ਗਏ ਅਧਿਕਾਰਤ ਉਮੀਦਵਾਰਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੇ ਅੰਕੜਿਆਂ ਦੇ ਅਧਾਰ ਤੇ ਵਰਗੀਕ੍ਰਿਤ ਕੀਤਾ ਗਿਆ ਹੈ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਕੇਂਦਰ ਦੁਆਰਾ ਦੱਸੀ ਗਈ ਹਰੇਕ ਸਵਾਲ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ ਦੀ ਵਰਤੋਂ ਸਵਾਲਾਂ ਨੂੰ ਮੁਸ਼ਕਲਤਾ ਦੇ ਪੰਜ ਪੱਧਰਾਂ ਵਿੱਚ ਵੰਡਣ ਲਈ ਕੀਤੀ ਗਈ ਸੀ:

  • ਪੱਧਰ 1 (ਸਭ ਤੋਂ ਆਸਾਨ): ਉਹ ਸਵਾਲ ਜਿਨ੍ਹਾਂ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ 80% ਜਾਂ ਇਸ ਤੋਂ ਵੱਧ ਸੀ।
  • ਪੱਧਰ 2: ਉਹ ਸਵਾਲ ਜਿਨ੍ਹਾਂ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ 60% ਤੋਂ 79.9% ਦੇ ਵਿਚਕਾਰ ਸੀ।
  • ਪੱਧਰ 3 (ਮੱਧਮ): ਉਹ ਸਵਾਲ ਜਿਨ੍ਹਾਂ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ 40% ਤੋਂ 59.9% ਦੇ ਵਿਚਕਾਰ ਸੀ।
  • ਪੱਧਰ 4: ਉਹ ਸਵਾਲ ਜਿਨ੍ਹਾਂ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ 20% ਤੋਂ 39.9% ਦੇ ਵਿਚਕਾਰ ਸੀ।
  • ਪੱਧਰ 5 (ਸਭ ਤੋਂ ਮੁਸ਼ਕਲ): ਉਹ ਸਵਾਲ ਜਿਨ੍ਹਾਂ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ 19.9% ਜਾਂ ਇਸ ਤੋਂ ਘੱਟ ਸੀ।

AI ਮਾਡਲ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਲਈ ‘ਸਹੀ’ ਜਵਾਬ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਤ ਕੀਤੇ ਗਏ ਜਵਾਬਾਂ ਦੇ ਅਨੁਸਾਰ ਪਰਿਭਾਸ਼ਿਤ ਕੀਤੇ ਗਏ ਹਨ। ਸਿਰਫ਼ ਉਹੀ ਜਵਾਬ ਜਿਨ੍ਹਾਂ ਨੂੰ ਪ੍ਰਸ਼ਨ ਟੈਕਸਟ ਵਿੱਚ ਦਿੱਤੀਆਂ ਹਦਾਇਤਾਂ ਦੇ ਅਨੁਸਾਰ ਸਹੀ ਹੋਣ ਦਾ ਪਤਾ ਲਗਾਇਆ ਗਿਆ ਸੀ, ਨੂੰ ‘ਸਹੀ’ ਵਜੋਂ ਸਵੀਕਾਰ ਕੀਤਾ ਗਿਆ ਸੀ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਹਰੇਕ ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਦਾ ਪੱਧਰ ਵਿਦਿਆਰਥੀ ਚੋਣ ਅਤੇ ਪਲੇਸਮੈਂਟ ਕੇਂਦਰ ਦੁਆਰਾ ਪ੍ਰਕਾਸ਼ਤ ਕੀਤੀ ਗਈ ਸਹੀ ਜਵਾਬ ਦਰ ਦੇ ਅਧਾਰ ਤੇ 1 ਤੋਂ 5 ਤੱਕ ਦਰਜਾ ਦਿੱਤਾ ਗਿਆ ਸੀ। 80% ਅਤੇ ਇਸ ਤੋਂ ਵੱਧ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ ਵਾਲੇ ਸਵਾਲਾਂ ਨੂੰ ਸਭ ਤੋਂ ਆਸਾਨ (ਪੱਧਰ 1) ਮੰਨਿਆ ਗਿਆ ਸੀ, ਜਦੋਂ ਕਿ 19.9% ਅਤੇ ਇਸ ਤੋਂ ਘੱਟ ਦੀ ਸਹੀ ਜਵਾਬ ਦਰ ਵਾਲੇ ਸਵਾਲਾਂ ਨੂੰ ਸਭ ਤੋਂ ਮੁਸ਼ਕਲ (ਪੱਧਰ 5) ਮੰਨਿਆ ਗਿਆ ਸੀ।

ਗਿਆਨ ਅਤੇ ਕੇਸ ਖੇਤਰ

ਤੁਰਕੀ ਦੀ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਦਾਖਲਾ ਪ੍ਰੀਖਿਆ ਤੁਰਕੀ ਦੇ ਡਾਕਟਰੀ ਗ੍ਰੈਜੂਏਟਾਂ ਦੇ ਵਿਸ਼ੇਸ਼ ਹੋਣ ਲਈ ਇੱਕ ਮਹੱਤਵਪੂਰਨ ਕਦਮ ਹੈ, ਅਤੇ ਇਹ ਦੋ ਮੁੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਉਮੀਦਵਾਰਾਂ ਦੇ ਗਿਆਨ ਅਤੇ ਕੇਸ ਖੇਤਰਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਦੀ ਹੈ। ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਅੰਤਰ ਨੂੰ ਸਮਝਣਾ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਲ ਤਿਆਰੀ ਕਰਨ ਲਈ ਜ਼ਰੂਰੀ ਹੈ। ਗਿਆਨ ਖੇਤਰ ਉਮੀਦਵਾਰਾਂ ਦੀ ਚੁਣੀ ਹੋਈ ਡਾਕਟਰੀ ਖੇਤਰ ਵਿੱਚ ਥਿਊਰੀਕਲ ਸਮਝ ਅਤੇ ਤੱਥਾਂ ਦੇ ਗਿਆਨ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ‘ਤੇ ਧਿਆਨ ਕੇਂਦ੍ਰਤ ਕਰਦਾ ਹੈ। ਇਹ ਬੁਨਿਆਦੀ ਧਾਰਨਾਵਾਂ ਅਤੇ ਸਿਧਾਂਤਾਂ ‘ਤੇ ਮੁਹਾਰਤ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ, ਅਤੇ ਵਿਸ਼ੇਸ਼ਤਾ ਨਾਲ ਸਬੰਧਤ ਡਾਕਟਰੀ ਜਾਣਕਾਰੀ ਸਥਾਪਤ ਕਰਦਾ ਹੈ। ਇਹ ਉਹਨਾਂ ਖਾਸ ਡਾਕਟਰੀ ਗਿਆਨ ਦੇ ਖੇਤਰਾਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਦੀ ਜਾਂਚ ਕੀਤੀ ਜਾ ਰਹੀ ਹੈ, ਜਿਵੇਂ ਕਿ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ (ਸਰੀਰ ਵਿਗਿਆਨ, ਬਾਇਓਕੈਮਿਸਟਰੀ, ਸਰੀਰਕ ਵਿਗਿਆਨ, ਆਦਿ) ਅਤੇ ਕਲੀਨਿਕਲ ਵਿਗਿਆਨ (ਅੰਦਰੂਨੀ ਦਵਾਈ, ਸਰਜਰੀ, ਬਾਲ ਰੋਗ, ਆਦਿ) ਦੂਜੇ ਪਾਸੇ, ਕੇਸ ਖੇਤਰ ਅਸਲ ਦੁਨੀਆ ਦੇ ਦ੍ਰਿਸ਼ਾਂ ਜਾਂ ਸਥਿਤੀਆਂ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਗਿਆਨ ਨੂੰ ਲਾਗੂ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਜਿਵੇਂ ਕਿ ਸਮੱਸਿਆਵਾਂ ਨੂੰ ਹੱਲ ਕਰਨਾ, ਵਿਸ਼ਲੇਸ਼ਣਾਤਮਕ ਸੋਚ, ਆਲੋਚਨਾਤਮਕ ਸੋਚ, ਫੈਸਲੇ ਲੈਣਾ ਅਤੇ ਧਾਰਨਾਵਾਂ ਨੂੰ ਅਸਲ ਸਥਿਤੀਆਂ ਵਿੱਚ ਲਾਗੂ ਕਰਨਾ।

ਪਰੋਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ

ਪਰੋਂਪਟ ਇੰਜੀਨੀਅਰਿੰਗ ਕੁਦਰਤੀ ਭਾਸ਼ਾ ਪਰੋਂਪਟਾਂ ਨੂੰ ਡਿਜ਼ਾਈਨ ਅਤੇ ਵਧੀਆ ਬਣਾਉਣਾ ਹੈ ਤਾਂ ਜੋ ਭਾਸ਼ਾ ਮਾਡਲ ਜਾਂ AI ਸਿਸਟਮ ਤੋਂ ਖਾਸ ਜਵਾਬ ਪ੍ਰਾਪਤ ਕੀਤੇ ਜਾ ਸਕਣ। ਅਪ੍ਰੈਲ 2024 ਵਿੱਚ, ਅਸੀਂ ਜਵਾਬ ਇਕੱਠੇ ਕਰਨ ਲਈ ਉਹਨਾਂ ਦੇ ਸੰਬੰਧਿਤ ਵੈੱਬ ਇੰਟਰਫੇਸ ਦੁਆਰਾ ਸਿੱਧੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ ਤੋਂ ਪੁੱਛਗਿੱਛ ਕੀਤੀ।

ਹਰੇਕ ਮਾਡਲ ਦੀ ਮੂਲ ਸਮਰੱਥਾ ਦਾ ਨਿਰਪੱਖ ਮੁਲਾਂਕਣ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ, ਐੱਲ.ਐੱਲ.ਐੱਮ. (LLM) ਨੂੰ ਸਵਾਲ ਪੇਸ਼ ਕਰਨ ਦੇ ਤਰੀਕੇ ਵਿੱਚ ਸਖਤ ਵਿਧੀਗਤ ਨਿਯੰਤਰਣ ਲਾਗੂ ਕੀਤੇ ਗਏ ਸਨ। ਹਰੇਕ ਸਵਾਲ ਨੂੰ ਵੱਖਰੇ ਤੌਰ ‘ਤੇ ਇਨਪੁਟ ਕੀਤਾ ਗਿਆ ਸੀ, ਅਤੇ ਨਵਾਂ ਸਵਾਲ ਪੁੱਛਣ ਤੋਂ ਪਹਿਲਾਂ ਸੈਸ਼ਨ ਨੂੰ ਰੀਸੈਟ ਕੀਤਾ ਗਿਆ ਸੀ, ਤਾਂ ਜੋ ਮਾਡਲ ਨੂੰ ਪਿਛਲੇ ਆਪਸੀ ਤਾਲਮੇਲ ਦੇ ਅਧਾਰ ਤੇ ਸਿੱਖਣ ਜਾਂ ਅਨੁਕੂਲ ਹੋਣ ਤੋਂ ਰੋਕਿਆ ਜਾ ਸਕੇ।

ਡਾਟਾ ਵਿਸ਼ਲੇਸ਼ਣ

ਸਾਰੇ ਵਿਸ਼ਲੇਸ਼ਣ Microsoft Office Excel ਅਤੇ Python ਸੌਫਟਵੇਅਰ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤੇ ਗਏ ਸਨ। ਵੱਖ-ਵੱਖ ਸਵਾਲ ਮੁਸ਼ਕਲਤਾਵਾਂ ‘ਤੇ LLM ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਤੁਲਨਾ ਕਰਨ ਲਈ, ਗੈਰ-ਜੋੜੀ ਕਾਈ-ਵਰਗ ਟੈਸਟ ਕੀਤੇ ਗਏ ਸਨ। ਅੰਕੜਾਤਮਕ ਮਹੱਤਤਾ ਨਿਰਧਾਰਤ ਕਰਨ ਲਈ p < 0.05 ਦੇ p-ਮੁੱਲ ਥ੍ਰੈਸ਼ਹੋਲਡ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ। ਇਸ ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਮੁਲਾਂਕਣ ਕੀਤਾ ਕਿ ਕੀ ਮਾਡਲ ਦੀ ਸ਼ੁੱਧਤਾ ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਦੇ ਪੱਧਰ ਦੇ ਕਾਰਨ ਬਦਲਦੀ ਹੈ।

ਨੈਤਿਕ ਵਿਚਾਰ

ਇਸ ਅਧਿਐਨ ਵਿੱਚ ਸਿਰਫ਼ ਇੰਟਰਨੈੱਟ ‘ਤੇ ਪ੍ਰਕਾਸ਼ਤ ਜਾਣਕਾਰੀ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਹੈ, ਅਤੇ ਇਸ ਵਿੱਚ ਮਨੁੱਖੀ ਵਿਸ਼ੇ ਸ਼ਾਮਲ ਨਹੀਂ ਹਨ। ਇਸ ਲਈ, Baskent University ਦੀ ਨੈਤਿਕ ਕਮੇਟੀ ਤੋਂ ਪ੍ਰਵਾਨਗੀ ਦੀ ਲੋੜ ਨਹੀਂ ਸੀ।

ਨਤੀਜੇ

2021 ਦੀ ਤੁਰਕੀ ਦੀ ਡਾਕਟਰੀ ਵਿਸ਼ੇਸ਼ ਸਿਖਲਾਈ ਦਾਖਲਾ ਪ੍ਰੀਖਿਆ ਦੇ ਪਹਿਲੇ ਸਮੈਸਟਰ ਵਿੱਚ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਦੀ ਪ੍ਰੀਖਿਆ ਵਿੱਚ ਸ਼ਾਮਲ ਹੋਣ ਵਾਲੇ ਉਮੀਦਵਾਰਾਂ ਦੀ ਸਹੀ ਜਵਾਬਾਂ ਦੀ ਔਸਤ ਗਿਣਤੀ 51.63 ਸੀ। ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਦੀ ਪ੍ਰੀਖਿਆ ਲਈ ਸਹੀ ਜਵਾਬਾਂ ਦੀ ਔਸਤ ਗਿਣਤੀ 63.95 ਸੀ। ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਦੀ ਪ੍ਰੀਖਿਆ ਲਈ ਸਹੀ ਜਵਾਬਾਂ ਦੀ ਔਸਤ ਗਿਣਤੀ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਦੀ ਪ੍ਰੀਖਿਆ ਤੋਂ ਵੱਧ ਸੀ। ਇਸ ਸਥਿਤੀ ਦੇ ਸਮਾਨਾਂਤਰ, AI ਤਕਨਾਲੋਜੀ ਨੇ ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਦੀ ਪ੍ਰੀਖਿਆ ਦਾ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਵੀ ਵੱਧ ਸਫਲਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ।

AI ਪ੍ਰਦਰਸ਼ਨ

AI ਪਲੇਟਫਾਰਮਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਮਨੁੱਖੀ ਉਮੀਦਵਾਰਾਂ ਦੇ ਸਮਾਨ ਮਾਪਦੰਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਗਿਆ ਸੀ।

  • ChatGPT 4:

    ChatGPT 4 ਨੇ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 103 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਅਤੇ ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 110 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ 88.75% ਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਇਹ ਦੋਵੇਂ ਭਾਗਾਂ ਵਿੱਚ ਔਸਤ ਮਨੁੱਖੀ ਉਮੀਦਵਾਰਾਂ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਬਿਹਤਰ ਹੈ (p < 0.001)।

  • Llama 3 70B:

    Llama 3 70B ਨੇ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 95 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਅਤੇ ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 95 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ 79.17% ਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਇਹ ਵੀ ਔਸਤ ਮਨੁੱਖੀ ਪ੍ਰਦਰਸ਼ਨ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਧ ਹੈ (p < 0.01)।

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro ਨੇ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 94 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਅਤੇ ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 93 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ 78.13% ਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਇਹ ਔਸਤ ਮਨੁੱਖੀ ਪ੍ਰਦਰਸ਼ਨ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਧ ਹੈ (p < 0.01)।

  • Command R+:

    Command R+ ਨੇ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 60 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਅਤੇ ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ 60 ਸਹੀ ਜਵਾਬਾਂ ਦਾ ਔਸਤ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਇਹ 50% ਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ, ਅਤੇ ਇਹ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ ਔਸਤ ਮਨੁੱਖੀ ਪ੍ਰਦਰਸ਼ਨ ਤੋਂ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਵੱਖਰਾ ਨਹੀਂ ਹੈ (p = 0.12), ਪਰ ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਭਾਗ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਤੌਰ ‘ਤੇ ਘੱਟ ਹੈ (p < 0.05)।

AI ਪਲੇਟਫਾਰਮਾਂ ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ ਮਨੁੱਖੀ ਉਮੀਦਵਾਰਾਂ ਦੇ ਸਮਾਨ ਮਾਪਦੰਡਾਂ ਦੀ ਵਰਤੋਂ ਕਰਕੇ ਕੀਤਾ ਗਿਆ ਸੀ।

ਚਿੱਤਰ 3 ਵੱਖ-ਵੱਖ LLM ਦੀ ਸ਼ੁੱਧਤਾ ਦੀ ਸਵਾਲ ਮੁਸ਼ਕਲਤਾ ਦੇ ਅਨੁਸਾਰ ਤੁਲਨਾ ਕਰਦਾ ਹੈ - ChatGPT 4: ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ। ਜਿਵੇਂ ਕਿ ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਵਧਦੀ ਹੈ, ਸ਼ੁੱਧਤਾ ਵਧਦੀ ਹੈ, ਇੱਥੋਂ ਤੱਕ ਕਿ ਸਭ ਤੋਂ ਚੁਣੌਤੀਪੂਰਨ ਸਵਾਲਾਂ ‘ਤੇ ਵੀ ਲਗਭਗ 70% - Llama 3 70B: ਮੱਧਮ ਪ੍ਰਦਰਸ਼ਨ ਵਾਲਾ ਮਾਡਲ। ਜਿਵੇਂ ਕਿ ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਵਧਦੀ ਹੈ, ਸ਼ੁੱਧਤਾ ਪਹਿਲਾਂ ਵਧਦੀ ਹੈ ਅਤੇ ਫਿਰ ਘਟਦੀ ਹੈ। ਸਭ ਤੋਂ ਚੁਣੌਤੀਪੂਰਨ ਸਵਾਲਾਂ ‘ਤੇ ਇਸਦੀ ਸ਼ੁੱਧਤਾ ਲਗਭਗ 25% ਹੈ। Gemini 1.5 70B: ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ Llama 3 70B ਦੇ ਸਮਾਨ ਹੈ। ਜਿਵੇਂ ਕਿ ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਵਧਦੀ ਹੈ, ਸ਼ੁੱਧਤਾ ਪਹਿਲਾਂ ਵਧਦੀ ਹੈ ਅਤੇ ਫਿਰ ਘਟਦੀ ਹੈ। ਸਭ ਤੋਂ ਚੁਣੌਤੀਪੂਰਨ ਸਵਾਲਾਂ ‘ਤੇ ਇਸਦੀ ਸ਼ੁੱਧਤਾ ਲਗਭਗ 20% ਹੈ। Command R+: ਸਭ ਤੋਂ ਘੱਟ ਪ੍ਰਦਰਸ਼ਨ ਵਾਲਾ ਮਾਡਲ। ਇਸਦੀ ਸ਼ੁੱਧਤਾ ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਦੇ ਨਾਲ ਘਟਦੀ ਹੈ, ਅਤੇ ਸਭ ਤੋਂ ਚੁਣੌਤੀਪੂਰਨ ਸਵਾਲਾਂ ‘ਤੇ ਲਗਭਗ 15% ‘ਤੇ ਰਹਿੰਦੀ ਹੈ

ਸੰਖੇਪ ਵਿੱਚ, ChatGPT 4 ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਤੋਂ ਸਭ ਤੋਂ ਘੱਟ ਪ੍ਰਭਾਵਿਤ ਮਾਡਲ ਹੈ, ਅਤੇ ਇਸਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਸਭ ਤੋਂ ਵੱਧ ਹੈ। Llama 3 70B ਅਤੇ Gemini 1.5 Pro ਮੱਧਮ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦੇ ਹਨ, ਜਦੋਂ ਕਿ Command R+ ਦੀ ਸਫਲਤਾ ਦਰ ਦੂਜੇ ਮਾਡਲਾਂ ਨਾਲੋਂ ਘੱਟ ਹੈ। ਜਿਵੇਂ ਕਿ ਸਵਾਲ ਦੀ ਮੁਸ਼ਕਲਤਾ ਵਧਦੀ ਹੈ, ਮਾਡਲਾਂ ਦੀ ਸ਼ੁੱਧਤਾ ਘਟਦੀ ਹੈ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ LLM ਨੂੰ ਗੁੰਝਲਦਾਰ ਸਵਾਲਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਸਹੀ ਢੰਗ ਨਾਲ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਅਜੇ ਵੀ ਸੁਧਾਰ ਦੀ ਲੋੜ ਹੈ

ਸਾਰਣੀ 1 ਵਿੱਚ, ChatGPT 4 ਮਾਡਲ 88.75% ਦੀ ਸਫਲਤਾ ਦਰ ਨਾਲ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਮਾਡਲ ਵਜੋਂ ਉੱਭਰਦਾ ਹੈ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਇਸ ਵਿੱਚ ਸਵਾਲਾਂ ਨੂੰ ਸਮਝਣ ਅਤੇ ਸਹੀ ਢੰਗ ਨਾਲ ਜਵਾਬ ਦੇਣ ਦੀ ਠੋਸ ਸਮਰੱਥਾ ਹੈ। Llama 3 70B ਮਾਡਲ 79.17% ਦੀ ਸਫਲਤਾ ਦਰ ਨਾਲ ਦੂਜੇ ਸਥਾਨ ‘ਤੇ ਹੈ। ਹਾਲਾਂਕਿ ਇਹ ChatGPT 4 ਮਾਡਲ ਤੋਂ ਪਿੱਛੇ ਹੈ, ਫਿਰ ਵੀ ਇਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਉੱਚ ਪੱਧਰੀ ਮੁਹਾਰਤ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। Gemini 1.5 Pro ਮਾਡਲ 78.13% ਦੀ ਸਫਲਤਾ ਦਰ ਨਾਲ ਇਸ ਤੋਂ ਬਾਅਦ ਆਉਂਦਾ ਹੈ। ਇਸਦਾ ਪ੍ਰਦਰਸ਼ਨ Llama 3 70B ਮਾਡਲ ਦੇ ਸਮਾਨ ਹੈ, ਅਤੇ ਇਹ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਮਜ਼ਬੂਤ ਸਮਰੱਥਾ ਨੂੰ ਦਰਸਾਉਂਦਾ ਹੈ। ਦੂਜੇ ਪਾਸੇ, Command R+ ਮਾਡਲ ਦੂਜੇ ਮਾਡਲਾਂ ਤੋਂ ਪਿੱਛੇ ਹੈ, ਅਤੇ ਇਸਦੀ ਸਫਲਤਾ ਦਰ 50% ਹੈ। ਇਹ ਦਰਸਾਉਂਦਾ ਹੈ ਕਿ ਇਸਨੂੰ ਖਾਸ ਸਵਾਲਾਂ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆ ਸਕਦੀ ਹੈ, ਜਾਂ ਇਸਦੇ ਪ੍ਰਦਰਸ਼ਨ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਲਈ ਇਸਨੂੰ ਅੱਗੇ ਵਧਾਉਣ ਦੀ ਲੋੜ ਹੈ। ਸਹੀ ਜਵਾਬ ਵੱਖ-ਵੱਖ ਮੁਸ਼ਕਲਤਾ ਪੱਧਰਾਂ ‘ਤੇ ਵੰਡੇ ਗਏ ਹਨ। ਉਦਾਹਰਣ ਵਜੋਂ, ਸਾਰੇ ਮਾਡਲਾਂ ਨੇ ਆਸਾਨ ਸਵਾਲਾਂ (ਮੁਸ਼ਕਲਤਾ ਪੱਧਰ 1) ‘ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਿਸ ਵਿੱਚ ChatGPT 4 ਮਾਡਲ ਨੇ ਸੰਪੂਰਨ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ। ਮੱਧਮ ਮੁਸ਼ਕਲਤਾ ਵਾਲੇ ਸਵਾਲਾਂ (ਪੱਧਰ 2 ਅਤੇ 3) ‘ਤੇ, ChatGPT 4 ਅਤੇ Llama 3 70B ਮਾਡਲਾਂ ਨੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਜਾਰੀ ਰੱਖਿਆ।

ਇਸਦੇ ਉਲਟ, Gemini 1.5 Pro ਮਾਡਲ ਨੇ ਕੁਝ ਕਮਜ਼ੋਰੀਆਂ ਦਿਖਾਉਣੀਆਂ ਸ਼ੁਰੂ ਕਰ ਦਿੱਤੀਆਂ ਸਨ। ਮੁਸ਼ਕਲ ਸਵਾਲਾਂ (ਪੱਧਰ 4 ਅਤੇ 5) ‘ਤੇ, ਸਾਰੇ ਮਾਡਲਾਂ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਘਟ ਗਿਆ, ਜਿਸ ਵਿੱਚ Command R+ ਮਾਡਲ ਨੂੰ ਸਭ ਤੋਂ ਵੱਧ ਮੁਸ਼ਕਲ ਆਈ। ਕੁਲ ਮਿਲਾ ਕੇ, ਇਹ ਨਤੀਜੇ ਹਰੇਕ AI ਮਾਡਲ ਦੀਆਂ ਮਜ਼ਬੂਤੀਆਂ ਅਤੇ ਕਮਜ਼ੋਰੀਆਂ ਬਾਰੇ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਅਤੇ ਇਹ ਭਵਿੱਖੀ ਵਿਕਾਸ ਅਤੇ ਸੁਧਾਰ ਦੇ ਕੰਮਾਂ ਨੂੰ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ

ਸਾਰਣੀ 3 ਵਿੱਚ, ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਵਿੱਚ ਬਾਇਓਕੈਮਿਸਟਰੀ ਨੇ ChatGPT 4 ਲਈ ਸੰਪੂਰਨ ਸਕੋਰ ਪ੍ਰਾਪਤ ਕੀਤਾ, ਅਤੇ ਇਸ ਖੇਤਰ ਵਿੱਚ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਦੀ ਇਸਦੀ ਸ਼ਾਨਦਾਰ ਯੋਗਤਾ ਨੂੰ ਸਾਬਤ ਕੀਤਾ। Llama 3 70B ਅਤੇ Gemini 1.5 Pro ਨੇ ਵੀ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਪਰ Command R+ ਦੀ ਸ਼ੁੱਧਤਾ ਦਰ 50% ਸੀ, ਅਤੇ ਇਸਨੇ ਖਰਾਬ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਫਾਰਮਾਕੋਲੋਜੀ, ਪੈਥੋਲੋਜੀ ਅਤੇ ਮਾਈਕ੍ਰੋਬਾਇਓਲੋਜੀ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲੇ ਮਾਡਲਾਂ (ChatGPT 4 ਅਤੇ Llama 3 70B) ਨੇ ਜਾਣਕਾਰੀ ਦੀ ਮਜ਼ਬੂਤ ਇਕਸਾਰਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਅਤੇ ਇਸਦੀ ਸ਼ੁੱਧਤਾ ਦਰ 81% ਤੋਂ 90% ਦੇ ਵਿਚਕਾਰ ਸੀ। Gemini 1.5 Pro ਅਤੇ Command R+ ਪਿੱਛੇ ਰਹਿ ਗਏ, ਪਰ ਫਿਰ ਵੀ ਇਹਨਾਂ ਨੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਐਨਾਟੋਮੀ ਅਤੇ ਫਿਜ਼ੀਓਲੋਜੀ ਨੇ ਮਾਡਲਾਂ ਲਈ ਕੁਝ ਚੁਣੌਤੀਆਂ ਪੇਸ਼ ਕੀਤੀਆਂ। ChatGPT 4 ਅਤੇ Meta AI-Llama 3 70B ਨੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਜਦੋਂ ਕਿ Gemini 1.5 Pro ਅਤੇ Command R+ ਦੀ ਸ਼ੁੱਧਤਾ ਦਰ 70% ਤੋਂ ਘੱਟ ਸੀ, ਅਤੇ ਇਹਨਾਂ ਨੇ ਖਰਾਬ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ।

ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਵਿੱਚ ਬਾਲ ਰੋਗ ਸਾਰੇ ਮਾਡਲਾਂ ਲਈ ਬਹੁਤ ਮਹੱਤਵਪੂਰਨ ਸੀ, ਜਿਸ ਵਿੱਚ ChatGPT 4 ਨੇ ਸੰਪੂਰਨ ਸਕੋਰ (90%) ਦੇ ਨੇੜੇ ਪ੍ਰਾਪਤ ਕੀਤਾ। Llama 3 70B ਇਸ ਤੋਂ ਬਾਅਦ ਆਉਂਦਾ ਹੈ, ਅਤੇ ਇੱਥੋਂ ਤੱਕ ਕਿ Command R+ ਨੇ ਵੀ 43% ਦੀ ਸ਼ੁੱਧਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਅੰਦਰੂਨੀ ਦਵਾਈ ਅਤੇ ਆਮ ਸਰਜਰੀ ਨੇ ਸਭ ਤੋਂ ਵਧੀਆ ਮਾਡਲ ਨਾਲੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਅਤੇ ਇਸਦੀ ਸ਼ੁੱਧਤਾ ਦਰ 79% ਤੋਂ 90% ਦੇ ਵਿਚਕਾਰ ਸੀ। Gemini 1.5 Pro ਅਤੇ Command R+ ਪਿੱਛੇ ਰਹਿ ਗਏ, ਪਰ ਫਿਰ ਵੀ ਇਹਨਾਂ ਨੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਅਨੱਸਥੀਸੀਆ ਅਤੇ ਮੁੜ ਸੁਰਜੀਤੀ, ਐਮਰਜੈਂਸੀ ਮੈਡੀਸਨ, ਨਿਊਰੋਲੋਜੀ ਅਤੇ ਚਮੜੀ ਵਿਗਿਆਨ ਵਰਗੀਆਂ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੇ ਘੱਟ ਸਵਾਲ ਪੇਸ਼ ਕੀਤੇ, ਪਰ ਮਾਡਲਾਂ ਨੇ ਸਮੁੱਚੇ ਤੌਰ ‘ਤੇ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ChatGPT 4 ਅਤੇ Llama 3 70B ਨੇ ਇਹਨਾਂ ਖੇਤਰਾਂ ਵਿੱਚ ਸ਼ਾਨਦਾਰ ਸ਼ੁੱਧਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ

ਮਾਡਲ ਤੁਲਨਾ ਦੇ ਸੰਬੰਧ ਵਿੱਚ, ChatGPT 4 ਜ਼ਿਆਦਾਤਰ ਖੇਤਰਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕਰਨ ਵਾਲਾ ਮਾਡਲ ਹੈ, ਅਤੇ ਇਸਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਦਰ 88.75% ਹੈ। ਇਸਦੀ ਤਾਕਤ ਬੁਨਿਆਦੀ ਡਾਕਟਰੀ ਅਤੇ ਕਲੀਨਿਕਲ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਦੇ ਸਵਾਲਾਂ ਦੇ ਸਹੀ ਢੰਗ ਨਾਲ ਜਵਾਬ ਦੇਣ ਦੀ ਇਸਦੀ ਯੋਗਤਾ ਵਿੱਚ ਹੈ। Llama 3 70B ਇਸ ਤੋਂ ਬਾਅਦ ਆਉਂਦਾ ਹੈ, ਅਤੇ ਇਸਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਦਰ 79.17% ਹੈ। ਹਾਲਾਂਕਿ ਇਹ ChatGPT 4 ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦੀ ਪੂਰੀ ਤਰ੍ਹਾਂ ਨਾਲ ਬਰਾਬਰੀ ਨਹੀਂ ਕਰ ਸਕਦਾ ਹੈ, ਫਿਰ ਵੀ ਇਹ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਜਾਣਕਾਰੀ ਦੀ ਮਜ਼ਬੂਤ ਇਕਸਾਰਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। Gemini 1.5 Pro ਅਤੇ Command R+ ਪਿੱਛੇ ਰਹਿ ਗਏ, ਅਤੇ ਇਹਨਾਂ ਦੀ ਸਮੁੱਚੀ ਸ਼ੁੱਧਤਾ ਦਰ ਕ੍ਰਮਵਾਰ 78.13% ਅਤੇ 50% ਹੈ। ਹਾਲਾਂਕਿ ਇਹਨਾਂ ਨੇ ਕੁਝ ਖੇਤਰਾਂ ਵਿੱਚ ਉਮੀਦਾਂ ਦਿਖਾਈਆਂ, ਪਰ ਇਹਨਾਂ ਨੂੰ ਸਾਰੇ ਖੇਤਰਾਂ ਵਿੱਚ ਇਕਸਾਰਤਾ ਬਣਾਈ ਰੱਖਣ ਵਿੱਚ ਮੁਸ਼ਕਲ ਆਈ

ਸੰਖੇਪ ਵਿੱਚ, ChatGPT 4 ਵਰਤਮਾਨ ਵਿੱਚ ਵੱਖ-ਵੱਖ ਖੇਤਰਾਂ ਵਿੱਚ ਡਾਕਟਰੀ ਵਿਗਿਆਨ ਦੇ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਲਈ ਸਭ ਤੋਂ ਢੁਕਵਾਂ ਮਾਡਲ ਹੈ। Gemini 1.5 Pro ਅਤੇ Command R+ ਸੰਭਾਵਨਾਵਾਂ ਦਿਖਾਉਂਦੇ ਹਨ, ਪਰ ਸਭ ਤੋਂ ਵਧੀਆ