ਕਾਰਡੀਓਵੈਸਕੁਲਰ ਰੋਕਥਾਮ: ਭਾਸ਼ਾ ਮਾਡਲ ਮੁਕਾਬਲਾ

ਕਾਰਡੀਓਵੈਸਕੁਲਰ ਰੋਕਥਾਮ ਦੀ ਨੈਵੀਗੇਸ਼ਨ: ਭਾਸ਼ਾ ਮਾਡਲ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਇੱਕ ਤੁਲਨਾਤਮਕ ਵਿਸ਼ਲੇਸ਼ਣ

ਵੱਡੇ ਭਾਸ਼ਾ ਮਾਡਲਾਂ (LLMs) ਦਾ ਵਾਧਾ ਕਾਰਡੀਓਵੈਸਕੁਲਰ ਰੋਗ (ਸੀ.ਵੀ.ਡੀ.) ਦੀ ਰੋਕਥਾਮ ਬਾਰੇ ਜਨਤਕ ਪੁੱਛਗਿੱਛਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਲਈ ਦਿਲਚਸਪ ਸੰਭਾਵਨਾਵਾਂ ਪੇਸ਼ ਕਰਦਾ ਹੈ। ਇਹ ਮਾਡਲ, ਜਿਨ੍ਹਾਂ ਵਿੱਚ ਮਨੁੱਖ ਵਰਗੇ ਢੰਗ ਨਾਲ ਸਮਝਣ ਅਤੇ ਜਵਾਬ ਦੇਣ ਦੀ ਸਮਰੱਥਾ ਹੈ, ਦੀ ਵਰਤੋਂ ਮੈਡੀਕਲ ਜਾਣਕਾਰੀ ਦੇ ਸਰੋਤਾਂ ਵਜੋਂ ਵੱਧ ਰਹੀ ਹੈ। ਹਾਲਾਂਕਿ, ਉਹਨਾਂ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੀ ਗਈ ਜਾਣਕਾਰੀ ਦੀ ਭਰੋਸੇਯੋਗਤਾ ਅਤੇ ਸ਼ੁੱਧਤਾ ਬਾਰੇ ਸਵਾਲ ਬਣੇ ਹੋਏ ਹਨ, ਖਾਸ ਤੌਰ ‘ਤੇ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ। ਇਹ ਵਿਸ਼ਲੇਸ਼ਣ ਕਈ ਪ੍ਰਮੁੱਖ ਐਲ.ਐਲ.ਐਮ.ਜ਼ ਦੇ ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਵਿੱਚ ਸ਼ਾਮਲ ਹੈ, ਖਾਸ ਤੌਰ ‘ਤੇ ਅੰਗਰੇਜ਼ੀ ਅਤੇ ਚੀਨੀ ਦੋਵਾਂ ਵਿੱਚ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਸਵਾਲਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਵਿੱਚ ਉਹਨਾਂ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਦੀ ਜਾਂਚ ਕਰਦਾ ਹੈ।

LLM ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਮੁਲਾਂਕਣ: ਸ਼ੁੱਧਤਾ ਅਤੇ ਇਕਸਾਰਤਾ

ਸਾਡਾ ਮੁੱਖ ਉਦੇਸ਼ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਨਾਲ ਸਬੰਧਤ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦਿੰਦੇ ਸਮੇਂ ਪ੍ਰਮੁੱਖ ਐਲ.ਐਲ.ਐਮ.ਜ਼ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੇ ਜਵਾਬਾਂ ਦੀ ਸ਼ੁੱਧਤਾ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨਾ ਸੀ। ਅਸੀਂ BARD (ਗੂਗਲ ਦਾ ਭਾਸ਼ਾ ਮਾਡਲ), ChatGPT-3.5 ਅਤੇ ChatGPT-4.0 (OpenAI ਦੇ ਮਾਡਲ), ਅਤੇ ERNIE (Baidu ਦਾ ਮਾਡਲ) ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ। ਹਰੇਕ ਐਲ.ਐਲ.ਐਮ. ਨੂੰ 75 ਸੂਝ-ਬੂਝ ਨਾਲ ਤਿਆਰ ਕੀਤੇ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਪ੍ਰਸ਼ਨਾਂ ਦਾ ਇੱਕ ਸਮੂਹ ਪੇਸ਼ ਕੀਤਾ ਗਿਆ ਸੀ, ਜਿਸਦੇ ਜਵਾਬਾਂ ਦਾ ਮੁਲਾਂਕਣ ਉਨ੍ਹਾਂ ਦੀ ਉਚਿਤਤਾ ਦੇ ਅਧਾਰ ਤੇ ਕੀਤਾ ਗਿਆ ਸੀ (ਉਚਿਤ, ਸਰਹੱਦੀ, ਜਾਂ ਅਣਉਚਿਤ ਵਜੋਂ ਸ਼੍ਰੇਣੀਬੱਧ)।

ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ

ਅੰਗਰੇਜ਼ੀ ਭਾਸ਼ਾ ਵਿੱਚ, ਐਲ.ਐਲ.ਐਮ.ਜ਼ ਨੇ ਧਿਆਨ ਦੇਣ ਯੋਗ ਸ਼ੁੱਧਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। BARD ਨੇ 88.0% ਦੀ ਇੱਕ “ਉਚਿਤ” ਰੇਟਿੰਗ ਪ੍ਰਾਪਤ ਕੀਤੀ, ChatGPT-3.5 ਨੇ 92.0% ਅਤੇ ChatGPT-4.0 ਨੇ 97.3% ਰੇਟਿੰਗ ਨਾਲ ਉੱਤਮਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਹ ਨਤੀਜੇ ਦੱਸਦੇ ਹਨ ਕਿ ਐਲ.ਐਲ.ਐਮਜ਼ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਬਾਰੇ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਮੰਗ ਕਰਨ ਵਾਲੇ ਅੰਗਰੇਜ਼ੀ ਬੋਲਣ ਵਾਲੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ।

ਚੀਨੀ ਭਾਸ਼ਾ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ

ਵਿਸ਼ਲੇਸ਼ਣ ਚੀਨੀ ਭਾਸ਼ਾ ਦੇ ਪ੍ਰਸ਼ਨਾਂ ਤੱਕ ਫੈਲਿਆ ਹੋਇਆ ਹੈ, ਜਿੱਥੇ ਐਲ.ਐਲ.ਐਮਜ਼ ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ ਵੱਖਰੀ ਹੈ। ERNIE ਨੇ 84.0% ਦੀ ਇੱਕ “ਉਚਿਤ” ਰੇਟਿੰਗ ਪ੍ਰਾਪਤ ਕੀਤੀ, ChatGPT-3.5 ਨੇ 88.0% ਅਤੇ ChatGPT-4.0 ਨੇ 85.3% ਤੱਕ ਪਹੁੰਚ ਕੀਤੀ। ਹਾਲਾਂਕਿ ਨਤੀਜੇ ਆਮ ਤੌਰ ‘ਤੇ ਸਕਾਰਾਤਮਕ ਸਨ, ਉਨ੍ਹਾਂ ਨੇ ਅੰਗਰੇਜ਼ੀ ਦੇ ਮੁਕਾਬਲੇ ਕਾਰਗੁਜ਼ਾਰੀ ਵਿੱਚ ਥੋੜ੍ਹਾ ਜਿਹਾ ਡੁੱਬਣ ਦਾ ਸੰਕੇਤ ਦਿੱਤਾ, ਜੋ ਕਿ ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਸੰਭਾਵੀ ਭਾਸ਼ਾ ਪੱਖਪਾਤ ਦਾ ਸੁਝਾਅ ਦਿੰਦਾ ਹੈ।

ਅਸਥਾਈ ਸੁਧਾਰ ਅਤੇ ਸਵੈ-ਜਾਗਰੂਕਤਾ

ਸ਼ੁਰੂਆਤੀ ਸ਼ੁੱਧਤਾ ਤੋਂ ਇਲਾਵਾ, ਅਸੀਂ ਸਮੇਂ ਦੇ ਨਾਲ ਆਪਣੇ ਜਵਾਬਾਂ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਦੀ ਐਲ.ਐਲ.ਐਮਜ਼ ਦੀ ਯੋਗਤਾ ਅਤੇ ਸਹੀ ਹੋਣ ਦੀ ਉਨ੍ਹਾਂ ਦੀ ਸਵੈ-ਜਾਗਰੂਕਤਾ ਦੀ ਜਾਂਚ ਕੀਤੀ। ਇਸ ਵਿੱਚ ਸ਼ੁਰੂ ਵਿੱਚ ਪ੍ਰਦਾਨ ਕੀਤੇ ਗਏ ਘਟੀਆ ਜਵਾਬਾਂ ‘ਤੇ ਮਾਡਲਾਂ ਨੇ ਕਿਵੇਂ ਪ੍ਰਤੀਕਿਰਿਆ ਕੀਤੀ ਅਤੇ ਕੀ ਉਹ ਪਛਾਣ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਗਲਤੀਆਂ ਨੂੰ ਸੁਧਾਰ ਸਕਦੇ ਹਨ ਜਦੋਂ ਕਿਹਾ ਗਿਆ।

ਸਮੇਂ ਦੇ ਨਾਲ ਵਧੇ ਹੋਏ ਜਵਾਬ

ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਐਲ.ਐਲ.ਐਮਜ਼ ਅਸਥਾਈ ਸੁਧਾਰ ਪ੍ਰਦਰਸ਼ਿਤ ਕਰਦੇ ਹਨ। ਜਦੋਂ ਸ਼ੁਰੂ ਵਿੱਚ ਘਟੀਆ ਜਵਾਬਾਂ ਨਾਲ ਪੇਸ਼ ਕੀਤਾ ਜਾਂਦਾ ਹੈ, ਤਾਂ BARD ਅਤੇ ChatGPT-3.5 ਵਿੱਚ 67% (ਕ੍ਰਮਵਾਰ 6/9 ਅਤੇ 4/6) ਦਾ ਸੁਧਾਰ ਹੋਇਆ, ਜਦੋਂ ਕਿ ChatGPT-4.0 ਨੇ ਇੱਕ ਸੰਪੂਰਨ 100% ਸੁਧਾਰ ਦਰ (2/2) ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਸ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ਐਲ.ਐਲ.ਐਮਜ਼ ਉਪਭੋਗਤਾ ਦੇ ਆਪਸੀ ਤਾਲਮੇਲ ਅਤੇ ਫੀਡਬੈਕ ਤੋਂ ਸਿੱਖਦੇ ਹਨ, ਜਿਸ ਨਾਲ ਸਮੇਂ ਦੇ ਨਾਲ ਵਧੇਰੇ ਸਹੀ ਅਤੇ ਭਰੋਸੇਮੰਦ ਜਾਣਕਾਰੀ ਮਿਲਦੀ ਹੈ।

ਸਹੀ ਹੋਣ ਦੀ ਸਵੈ-ਜਾਗਰੂਕਤਾ

ਅਸੀਂ ਆਪਣੇ ਜਵਾਬਾਂ ਦੀ ਸਹੀਤਾ ਨੂੰ ਪਛਾਣਨ ਦੀ ਐਲ.ਐਲ.ਐਮਜ਼ ਦੀ ਯੋਗਤਾ ਦੀ ਵੀ ਜਾਂਚ ਕੀਤੀ। BARD ਅਤੇ ChatGPT-4.0 ਨੇ ਇਸ ਖੇਤਰ ਵਿੱਚ ChatGPT-3.5 ਨੂੰ ਪਛਾੜ ਦਿੱਤਾ, ਜੋ ਉਹਨਾਂ ਦੁਆਰਾ ਪ੍ਰਦਾਨ ਕੀਤੀ ਗਈ ਜਾਣਕਾਰੀ ਦੀ ਸ਼ੁੱਧਤਾ ਦੀ ਬਿਹਤਰ ਸਵੈ-ਜਾਗਰੂਕਤਾ ਦਾ ਪ੍ਰਦਰਸ਼ਨ ਕਰਦਾ ਹੈ। ਇਹ ਵਿਸ਼ੇਸ਼ਤਾ ਮੈਡੀਕਲ ਸੰਦਰਭਾਂ ਵਿੱਚ ਖਾਸ ਤੌਰ ‘ਤੇ ਕੀਮਤੀ ਹੈ, ਜਿੱਥੇ ਗਲਤ ਜਾਣਕਾਰੀ ਦੇ ਗੰਭੀਰ ਨਤੀਜੇ ਹੋ ਸਕਦੇ ਹਨ।

ਚੀਨੀ ਵਿੱਚ ERNIE ਦੀ ਕਾਰਗੁਜ਼ਾਰੀ

ਚੀਨੀ ਪ੍ਰੋਂਪਟਾਂ ਦੇ ਵਿਸ਼ਲੇਸ਼ਣ ਤੋਂ ਪਤਾ ਲੱਗਾ ਹੈ ਕਿ ERNIE ਨੇ ਅਸਥਾਈ ਸੁਧਾਰ ਅਤੇ ਸਹੀ ਹੋਣ ਦੀ ਸਵੈ-ਜਾਗਰੂਕਤਾ ਵਿੱਚ ਉੱਤਮਤਾ ਪ੍ਰਾਪਤ ਕੀਤੀ। ਇਸ ਤੋਂ ਪਤਾ ਲੱਗਦਾ ਹੈ ਕਿ ERNIE ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਮੰਗ ਕਰਨ ਵਾਲੇ ਚੀਨੀ ਬੋਲਣ ਵਾਲੇ ਉਪਭੋਗਤਾਵਾਂ ਨੂੰ ਸਹੀ ਅਤੇ ਭਰੋਸੇਯੋਗ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਨ ਲਈ ਢੁਕਵਾਂ ਹੈ।

LLM ਚੈਟਬੋਟਸ ਦਾ ਵਿਆਪਕ ਮੁਲਾਂਕਣ

ਇੱਕ ਵਿਆਪਕ ਮੁਲਾਂਕਣ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਜਿਸ ਵਿੱਚ ਆਮ ਅਤੇ ਪ੍ਰਸਿੱਧ ਐਲ.ਐਲ.ਐਮ.-ਚੈਟਬੋਟਸ ਸ਼ਾਮਲ ਹਨ, ਇਸ ਅਧਿਐਨ ਵਿੱਚ ਚਾਰ ਪ੍ਰਮੁੱਖ ਮਾਡਲ ਸ਼ਾਮਲ ਕੀਤੇ ਗਏ ਹਨ: OpenAI ਦੁਆਰਾ ChatGPT-3.5 ਅਤੇ ChatGPT-4.0, Google ਦੁਆਰਾ BARD, ਅਤੇ Baidu ਦੁਆਰਾ ERNIE। ਅੰਗਰੇਜ਼ੀ ਪ੍ਰੋਂਪਟਾਂ ਦੇ ਮੁਲਾਂਕਣ ਵਿੱਚ ChatGPT 3.5, ChatGPT 4, ਅਤੇ BARD ਸ਼ਾਮਲ ਸਨ; ਚੀਨੀ ਪ੍ਰੋਂਪਟਾਂ ਲਈ, ਮੁਲਾਂਕਣ ਵਿੱਚ ChatGPT 3.5, ChatGPT 4, ਅਤੇ ERNIE ਸ਼ਾਮਲ ਸਨ। ਮਾਡਲਾਂ ਨੂੰ ਉਹਨਾਂ ਦੇ ਡਿਫਾਲਟ ਕੌਂਫਿਗਰੇਸ਼ਨਾਂ ਅਤੇ ਤਾਪਮਾਨ ਸੈਟਿੰਗਾਂ ਨਾਲ ਵਰਤਿਆ ਗਿਆ ਸੀ, ਬਿਨਾਂ ਵਿਸ਼ਲੇਸ਼ਣ ਦੌਰਾਨ ਇਹਨਾਂ ਮਾਪਦੰਡਾਂ ਵਿੱਚ ਕੋਈ ਵੀ ਵਿਵਸਥਾ ਕੀਤੇ।

ਸਵਾਲ ਜਨਰੇਸ਼ਨ ਅਤੇ ਚੈਟਬੋਟ ਜਵਾਬ ਮੁਲਾਂਕਣ

ਅਮਰੀਕੀ ਕਾਲਜ ਆਫ਼ ਕਾਰਡੀਓਲੋਜੀ ਅਤੇ ਅਮਰੀਕੀ ਹਾਰਟ ਐਸੋਸੀਏਸ਼ਨ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਲਈ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ ਅਤੇ ਸਿਫ਼ਾਰਸ਼ਾਂ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਜਿਸ ਵਿੱਚ ਜੋਖਮ ਦੇ ਕਾਰਕਾਂ, ਡਾਇਗਨੌਸਟਿਕ ਟੈਸਟਾਂ, ਅਤੇ ਇਲਾਜ ਵਿਕਲਪਾਂ ਦੇ ਨਾਲ-ਨਾਲ ਮਰੀਜ਼ ਸਿੱਖਿਆ ਅਤੇ ਸਵੈ-ਪ੍ਰਬੰਧਨ ਰਣਨੀਤੀਆਂ ਬਾਰੇ ਜਾਣਕਾਰੀ ਸ਼ਾਮਲ ਹੈ। ਦੋ ਤਜਰਬੇਕਾਰ ਕਾਰਡੀਓਲੋਜਿਸਟਾਂ ਨੇ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਨਾਲ ਸਬੰਧਤ ਸਵਾਲ ਪੈਦਾ ਕੀਤੇ, ਉਹਨਾਂ ਨੂੰ ਉਸੇ ਤਰ੍ਹਾਂ ਤਿਆਰ ਕੀਤਾ ਜਿਵੇਂ ਮਰੀਜ਼ ਡਾਕਟਰਾਂ ਨਾਲ ਪੁੱਛਗਿੱਛ ਕਰਦੇ ਹਨ ਤਾਂ ਜੋ ਮਰੀਜ਼ ਦੇ ਦ੍ਰਿਸ਼ਟੀਕੋਣ ਤੋਂ ਪ੍ਰਸੰਗਿਕਤਾ ਅਤੇ ਸਮਝਣਯੋਗਤਾ ਨੂੰ ਯਕੀਨੀ ਬਣਾਇਆ ਜਾ ਸਕੇ। ਇਸ ਮਰੀਜ਼-ਕੇਂਦ੍ਰਿਤ ਅਤੇ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼-ਅਧਾਰਤ ਪਹੁੰਚ ਨੇ ਵੱਖ-ਵੱਖ ਡੋਮੇਨਾਂ ਨੂੰ ਕਵਰ ਕਰਦੇ ਹੋਏ 300 ਸਵਾਲਾਂ ਦਾ ਇੱਕ ਅੰਤਮ ਸੈੱਟ ਤਿਆਰ ਕੀਤਾ। ਇਹਨਾਂ ਸਵਾਲਾਂ ਦਾ ਫਿਰ ਚੀਨੀ ਵਿੱਚ ਅਨੁਵਾਦ ਕੀਤਾ ਗਿਆ, ਜੋ ਕਿ ਰਵਾਇਤੀ ਅਤੇ ਅੰਤਰਰਾਸ਼ਟਰੀ ਇਕਾਈਆਂ ਦੀ ਉਚਿਤ ਵਰਤੋਂ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਂਦਾ ਹੈ।

ਅੰਨ੍ਹਾ ਕਰਨਾ ਅਤੇ ਬੇਤਰਤੀਬੇ ਕ੍ਰਮ ਵਿੱਚ ਮੁਲਾਂਕਣ

ਇਹ ਸੁਨਿਸ਼ਚਿਤ ਕਰਨ ਲਈ ਕਿ ਗ੍ਰੇਡਰ ਵੱਖ-ਵੱਖ ਐਲ.ਐਲ.ਐਮ. ਚੈਟਬੋਟਸ ਵਿੱਚ ਜਵਾਬ ਦੀ ਸ਼ੁਰੂਆਤ ਨੂੰ ਵੱਖਰਾ ਕਰਨ ਵਿੱਚ ਅਸਮਰੱਥ ਸਨ, ਕਿਸੇ ਵੀ ਚੈਟਬੋਟ-ਵਿਸ਼ੇਸ਼ ਵਿਸ਼ੇਸ਼ਤਾਵਾਂ ਨੂੰ ਹੱਥੀਂ ਲੁਕਾਇਆ ਗਿਆ ਸੀ। ਮੁਲਾਂਕਣ ਇੱਕ ਅੰਨ੍ਹੇ ਅਤੇ ਬੇਤਰਤੀਬੇ ਕ੍ਰਮ ਵਿੱਚ ਕੀਤਾ ਗਿਆ ਸੀ, ਤਿੰਨ ਚੈਟਬੋਟਸ ਦੇ ਜਵਾਬਾਂ ਨੂੰ ਪ੍ਰਸ਼ਨ ਸਮੂਹ ਦੇ ਅੰਦਰ ਬੇਤਰਤੀਬੇ ਢੰਗ ਨਾਲ ਸ਼ਫਲ ਕੀਤਾ ਗਿਆ ਸੀ। ਤਿੰਨ ਚੈਟਬੋਟਸ ਤੋਂ ਜਵਾਬਾਂ ਨੂੰ 3 ਗੇੜਾਂ ਵਿੱਚ ਬੇਤਰਤੀਬੇ ਢੰਗ ਨਾਲ ਨਿਰਧਾਰਤ ਕੀਤਾ ਗਿਆ ਸੀ, 1:1:1 ਦੇ ਅਨੁਪਾਤ ਵਿੱਚ, ਤਿੰਨ ਕਾਰਡੀਓਲੋਜਿਸਟਾਂ ਦੁਆਰਾ ਅੰਨ੍ਹੇ ਮੁਲਾਂਕਣ ਲਈ, ਹਾਲੀਆ ਪੱਖਪਾਤ ਨੂੰ ਘਟਾਉਣ ਲਈ ਗੇੜਾਂ ਦੇ ਵਿਚਕਾਰ 48 ਘੰਟਿਆਂ ਦੇ ਵਾਸ਼-ਆਊਟ ਅੰਤਰਾਲ ਦੇ ਨਾਲ।

ਸ਼ੁੱਧਤਾ ਮੁਲਾਂਕਣ ਵਿਧੀ

ਮੁੱਖ ਨਤੀਜਾ ਸੀ.ਵੀ.ਡੀ. ਦੀ ਰੋਕਥਾਮ ਦੇ ਮੁੱਖ ਸਵਾਲਾਂ ਦੇ ਜਵਾਬ ਦੇਣ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ ਸੀ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਜਵਾਬਾਂ ਦਾ ਮੁਲਾਂਕਣ ਕਰਨ ਲਈ ਇੱਕ ਦੋ-ਪੜਾਵੀ ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ। ਪਹਿਲੇ ਪੜਾਅ ਵਿੱਚ, ਕਾਰਡੀਓਲੋਜਿਸਟਾਂ ਦੇ ਇੱਕ ਪੈਨਲ ਨੇ ਸਾਰੇ ਐਲ.ਐਲ.ਐਮ. ਚੈਟਬੋਟ ਦੁਆਰਾ ਤਿਆਰ ਜਵਾਬਾਂ ਦੀ ਸਮੀਖਿਆ ਕੀਤੀ ਅਤੇ ਉਹਨਾਂ ਨੂੰ ਮਾਹਰ ਸਹਿਮਤੀ ਅਤੇ ਦਿਸ਼ਾ-ਨਿਰਦੇਸ਼ਾਂ ਦੇ ਸਬੰਧ ਵਿੱਚ ਜਾਂ ਤਾਂ “ਉਚਿਤ,” “ਸਰਹੱਦੀ,” ਜਾਂ “ਅਣਉਚਿਤ” ਵਜੋਂ ਗ੍ਰੇਡ ਕੀਤਾ। ਦੂਜੇ ਪੜਾਅ ਵਿੱਚ, ਇੱਕ ਬਹੁਮਤ ਸਹਿਮਤੀ ਪਹੁੰਚ ਦੀ ਵਰਤੋਂ ਕੀਤੀ ਗਈ ਸੀ, ਜਿਸ ਵਿੱਚ ਹਰੇਕ ਚੈਟਬੋਟ ਜਵਾਬ ਲਈ ਅੰਤਿਮ ਰੇਟਿੰਗ ਤਿੰਨ ਗ੍ਰੇਡਰਾਂ ਵਿੱਚ ਸਭ ਤੋਂ ਆਮ ਰੇਟਿੰਗ ਦੇ ਅਧਾਰ ਤੇ ਸੀ। ਉਹਨਾਂ ਦ੍ਰਿਸ਼ਾਂ ਵਿੱਚ ਜਿੱਥੇ ਤਿੰਨ ਗ੍ਰੇਡਰਾਂ ਵਿੱਚ ਬਹੁਮਤ ਸਹਿਮਤੀ ਪ੍ਰਾਪਤ ਨਹੀਂ ਕੀਤੀ ਜਾ ਸਕਦੀ ਸੀ, ਇੱਕ ਸੀਨੀਅਰ ਕਾਰਡੀਓਲੋਜਿਸਟ ਨਾਲ ਸਲਾਹ ਕੀਤੀ ਗਈ ਸੀ ਤਾਂ ਜੋ ਰੇਟਿੰਗ ਨੂੰ ਅੰਤਿਮ ਰੂਪ ਦਿੱਤਾ ਜਾ ਸਕੇ।

ਮੁੱਖ ਖੋਜਾਂ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ

ਡੇਟਾ ਨੇ ਖੁਲਾਸਾ ਕੀਤਾ ਕਿ ਐਲ.ਐਲ.ਐਮ.-ਚੈਟਬੋਟ ਨੇ ਚੀਨੀ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲੋਂ ਅੰਗਰੇਜ਼ੀ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਆਮ ਤੌਰ ‘ਤੇ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ। ਖਾਸ ਤੌਰ ‘ਤੇ, ਅੰਗਰੇਜ਼ੀ ਪ੍ਰੋਂਪਟਾਂ ਲਈ, BARD, ChatGPT-3.5, ਅਤੇ ChatGPT-4.0 ਨੇ ਸਮਾਨ ਜੋੜ ਸਕੋਰ ਪ੍ਰਦਰਸ਼ਿਤ ਕੀਤੇ। ਜਦੋਂ ‘ਉਚਿਤ’ ਰੇਟਿੰਗ ਦੇ ਅਨੁਪਾਤਾਂ ਦੀ ਤੁਲਨਾ ਕੀਤੀ ਜਾਂਦੀ ਹੈ, ਤਾਂ ChatGPT-4.0 ਦਾ ChatGPT-3.5 ਅਤੇ Google Bard ਦੇ ਮੁਕਾਬਲੇ ਕਾਫ਼ੀ ਜ਼ਿਆਦਾ ਪ੍ਰਤੀਸ਼ਤ ਸੀ। ਚੀਨੀ ਪ੍ਰੋਂਪਟਾਂ ਲਈ, ChatGPT3.5 ਦਾ ਜੋੜ ਸਕੋਰ ਵੱਧ ਸੀ, ਉਸ ਤੋਂ ਬਾਅਦ ChatGPT-4.0 ਅਤੇ Ernie। ਹਾਲਾਂਕਿ, ਅੰਤਰ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਨਹੀਂ ਸਨ। ਇਸੇ ਤਰ੍ਹਾਂ, ChatGPT-3.5 ਵਿੱਚ ChatGPT-4.0 ਅਤੇ ERNIE ਦੇ ਮੁਕਾਬਲੇ ਚੀਨੀ ਪ੍ਰੋਂਪਟਾਂ ਲਈ ‘ਉਚਿਤ ਰੇਟਿੰਗ’ ਦਾ ਇੱਕ ਵੱਡਾ ਅਨੁਪਾਤ ਸੀ, ਪਰ ਅੰਤਰ ਅੰਕੜਾਤਮਕ ਤੌਰ ‘ਤੇ ਮਹੱਤਵਪੂਰਨ ਨਹੀਂ ਸਨ।

ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਡੋਮੇਨਾਂ ਵਿੱਚ ਪ੍ਰਦਰਸ਼ਨ

ਵਿਸ਼ਲੇਸ਼ਣ ਨੇ ਵੱਖ-ਵੱਖ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਡੋਮੇਨਾਂ ਵਿੱਚ “ਉਚਿਤ” ਰੇਟਿੰਗਾਂ ‘ਤੇ ਧਿਆਨ ਕੇਂਦਰਿਤ ਕੀਤਾ। ਕਮਾਲ ਦੀ ਗੱਲ ਹੈ ਕਿ ChatGPT-4.0 ਨੇ ਲਗਾਤਾਰ ਜ਼ਿਆਦਾਤਰ ਡੋਮੇਨਾਂ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਖਾਸ ਤੌਰ ‘ਤੇ “ਡਿਸਲੀਪੀਡੇਮੀਆ,” “ਜੀਵਨ ਸ਼ੈਲੀ,” “ਬਾਇਓਮਾਰਕਰ ਅਤੇ ਸੋਜਸ਼,” ਅਤੇ “ਡੀ.ਐਮ. ਅਤੇ ਸੀ.ਕੇ.ਡੀ.” ਡੋਮੇਨਾਂ ਵਿੱਚ ਉੱਚ ਰੇਟਿੰਗਾਂ ਦੇ ਨਾਲ। ਹਾਲਾਂਕਿ, BARD ਨੇ ChatGPT4.0 ਅਤੇ ChatGPT-3.5 ਦੇ ਮੁਕਾਬਲੇ ਘਟੀਆ ਪ੍ਰਦਰਸ਼ਨ ਦਿਖਾਇਆ, ਖਾਸ ਤੌਰ ‘ਤੇ “ਜੀਵਨ ਸ਼ੈਲੀ” ਡੋਮੇਨ ਵਿੱਚ। ਖੋਜਾਂ ਨੇ ਉਜਾਗਰ ਕੀਤਾ ਕਿ ਸਾਰੇ ਤਿੰਨ LLM-ਚੈਟਬੋਟਸ ਨੇ “ਜੀਵਨ ਸ਼ੈਲੀ” ਡੋਮੇਨ ਵਿੱਚ ਵਧੀਆ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, 100% “ਉਚਿਤ” ਰੇਟਿੰਗਾਂ ਨਾਲ (ਪੂਰਕ ਸਾਰਣੀ S6)। ਹਾਲਾਂਕਿ, ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਭਿੰਨਤਾਵਾਂ ਹੋਰ ਡੋਮੇਨਾਂ ਵਿੱਚ ਦੇਖੀਆਂ ਗਈਆਂ, ਕੁਝ ਮਾਡਲਾਂ ਨੇ ਖਾਸ ਰੋਕਥਾਮ ਡੋਮੇਨਾਂ ਵਿੱਚ ਵਧੇਰੇ ਪ੍ਰਭਾਵ ਦਿਖਾਇਆ।

ਸਿਹਤ ਸਾਖਰਤਾ ਲਈ ਪ੍ਰਭਾਵ

ਅਧਿਐਨ ਦੇ ਤਾਜ਼ਾ ਨਤੀਜਿਆਂ ਵਿੱਚ ਕਾਰਡੀਓਵੈਸਕੁਲਰ ਸਿਹਤ ਸਾਖਰਤਾ ਨੂੰ ਬਿਹਤਰ ਬਣਾਉਣ ਦੇ ਯਤਨਾਂ ਲਈ ਮਹੱਤਵਪੂਰਨ ਪ੍ਰਭਾਵ ਹਨ। ਜਿਵੇਂ ਕਿ ਵਿਅਕਤੀ ਡਾਕਟਰੀ ਜਾਣਕਾਰੀ ਲਈ ਵੱਧ ਤੋਂ ਵੱਧ ਔਨਲਾਈਨ ਸਰੋਤਾਂ ਵੱਲ ਮੁੜਦੇ ਹਨ, ਐਲ.ਐਲ.ਐਮਜ਼ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਦੀ ਸਮਝ ਨੂੰ ਵਧਾਉਣ ਲਈ ਕੀਮਤੀ ਸਾਧਨਾਂ ਵਜੋਂ ਸੇਵਾ ਕਰਨ ਦੀ ਸੰਭਾਵਨਾ ਰੱਖਦੇ ਹਨ। ਸਹੀ ਅਤੇ ਪਹੁੰਚਯੋਗ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਕੇ, ਐਲ.ਐਲ.ਐਮਜ਼ ਗਿਆਨ ਵਿੱਚ ਅੰਤਰ ਨੂੰ ਪੂਰਾ ਕਰ ਸਕਦੇ ਹਨ ਅਤੇ ਵਿਅਕਤੀਆਂ ਨੂੰ ਆਪਣੀ ਸਿਹਤ ਬਾਰੇ ਸੂਚਿਤ ਫੈਸਲੇ ਲੈਣ ਲਈ ਸ਼ਕਤੀ ਪ੍ਰਦਾਨ ਕਰ ਸਕਦੇ ਹਨ।

ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਅਸਮਾਨਤਾਵਾਂ

ਅਧਿਐਨ ਨੇ ਵੱਖ-ਵੱਖ ਭਾਸ਼ਾਵਾਂ ਵਿੱਚ ਐਲ.ਐਲ.ਐਮ. ਪ੍ਰਦਰਸ਼ਨ ਵਿੱਚ ਮਹੱਤਵਪੂਰਨ ਅਸਮਾਨਤਾਵਾਂ ਵੀ ਦਰਸਾਈਆਂ। ਇਹ ਖੋਜ ਕਿ ਐਲ.ਐਲ.ਐਮਜ਼ ਨੇ ਆਮ ਤੌਰ ‘ਤੇ ਚੀਨੀ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲੋਂ ਅੰਗਰੇਜ਼ੀ ਪ੍ਰੋਂਪਟਾਂ ਨਾਲ ਬਿਹਤਰ ਪ੍ਰਦਰਸ਼ਨ ਕੀਤਾ, ਇਨ੍ਹਾਂ ਮਾਡਲਾਂ ਵਿੱਚ ਭਾਸ਼ਾਈ ਪੱਖਪਾਤ ਦੀ ਸੰਭਾਵਨਾ ਨੂੰ ਉਜਾਗਰ ਕਰਦਾ ਹੈ। ਇਸ ਮੁੱਦੇ ਨੂੰ ਹੱਲ ਕਰਨਾ ਇਹ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਮਹੱਤਵਪੂਰਨ ਹੈ ਕਿ ਐਲਐਲਐਮਜ਼ ਸਾਰੇ ਵਿਅਕਤੀਆਂ ਲਈ ਸਟੀਕ ਡਾਕਟਰੀ ਜਾਣਕਾਰੀ ਤੱਕ ਬਰਾਬਰ ਪਹੁੰਚ ਪ੍ਰਦਾਨ ਕਰਦੇ ਹਨ, ਭਾਵੇਂ ਉਨ੍ਹਾਂ ਦੀ ਮੂਲ ਭਾਸ਼ਾ ਕੋਈ ਵੀ ਹੋਵੇ।

ਭਾਸ਼ਾ-ਵਿਸ਼ੇਸ਼ ਮਾਡਲਾਂ ਦੀ ਭੂਮਿਕਾ

ਚੀਨੀ ਵਿੱਚ ERNIE ਦੇ ਪ੍ਰਦਰਸ਼ਨ ਦਾ ਵਿਸ਼ਲੇਸ਼ਣ ਭਾਸ਼ਾ-ਵਿਸ਼ੇਸ਼ ਐਲ.ਐਲ.ਐਮਜ਼ ਦੀ ਭੂਮਿਕਾ ਵਿੱਚ ਕੀਮਤੀ ਸਮਝ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ। ਅਸਥਾਈ ਸੁਧਾਰ ਅਤੇ ਸਹੀ ਹੋਣ ਦੀ ਸਵੈ-ਜਾਗਰੂਕਤਾ ਵਿੱਚ ERNIE ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਤੋਂ ਪਤਾ ਚੱਲਦਾ ਹੈ ਕਿ ਖਾਸ ਭਾਸ਼ਾਵਾਂ ਲਈ ਤਿਆਰ ਕੀਤੇ ਮਾਡਲ ਭਾਸ਼ਾਈ ਸੂਖਮਤਾਵਾਂ ਅਤੇ ਸੱਭਿਆਚਾਰਕ ਸੰਦਰਭਾਂ ਨੂੰ ਪ੍ਰਭਾਵਸ਼ਾਲੀ ਢੰਗ ਨਾਲ ਹੱਲ ਕਰ ਸਕਦੇ ਹਨ। ਵਿਭਿੰਨ ਆਬਾਦੀਆਂ ਨੂੰ ਡਾਕਟਰੀ ਜਾਣਕਾਰੀ ਦੀ ਸਪੁਰਦਗੀ ਨੂੰ ਅਨੁਕੂਲ ਬਣਾਉਣ ਲਈ ਭਾਸ਼ਾ-ਵਿਸ਼ੇਸ਼ ਐਲ.ਐਲ.ਐਮਜ਼ ਦਾ ਹੋਰ ਵਿਕਾਸ ਅਤੇ ਸੁਧਾਈ ਜ਼ਰੂਰੀ ਹੋ ਸਕਦੀ ਹੈ।

ਸੀਮਾਵਾਂ ਅਤੇ ਭਵਿੱਖ ਦੀਆਂ ਦਿਸ਼ਾਵਾਂ

ਹਾਲਾਂਕਿ ਇਹ ਅਧਿਐਨ ਐਲ.ਐਲ.ਐਮਜ਼ ਦੀਆਂ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਪ੍ਰਸ਼ਨਾਂ ਨੂੰ ਹੱਲ ਕਰਨ ਦੀਆਂ ਸਮਰੱਥਾਵਾਂ ਬਾਰੇ ਕੀਮਤੀ ਜਾਣਕਾਰੀ ਪ੍ਰਦਾਨ ਕਰਦਾ ਹੈ, ਕੁਝ ਸੀਮਾਵਾਂ ਨੂੰ ਸਵੀਕਾਰ ਕਰਨਾ ਜ਼ਰੂਰੀ ਹੈ। ਵਰਤੇ ਗਏ ਸਵਾਲਾਂ ਨੇ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਦੇ ਮਾਮਲੇ ਵਿੱਚ ਸਵਾਲਾਂ ਦਾ ਇੱਕ ਛੋਟਾ ਜਿਹਾ ਹਿੱਸਾ ਪੇਸ਼ ਕੀਤਾ। ਖੋਜਾਂ ਦੀ ਆਮਤਾ ਬੇਤਰਤੀਬੇ ਜਵਾਬਾਂ ਦੇ ਪ੍ਰਭਾਵ ਦੇ ਅਧੀਨ ਹੈ। ਇਸ ਤੋਂ ਇਲਾਵਾ, ਐਲ.ਐਲ.ਐਮਜ਼ ਦੇ ਤੇਜ਼ੀ ਨਾਲ ਵਿਕਾਸ ਲਈ ਅਪਡੇਟ ਕੀਤੇ ਦੁਹਰਾਨਾਂ ਅਤੇ ਉੱਭਰ ਰਹੇ ਮਾਡਲਾਂ ਨੂੰ ਅਨੁਕੂਲ ਕਰਨ ਲਈ ਚੱਲ ਰਹੇ ਖੋਜ ਦੀ ਲੋੜ ਹੁੰਦੀ ਹੈ। ਭਵਿੱਖ ਦੇ ਅਧਿਐਨਾਂ ਨੂੰ ਸਵਾਲਾਂ ਦੇ ਖੇਤਰ ਦਾ ਵਿਸਤਾਰ ਕਰਨਾ ਚਾਹੀਦਾ ਹੈ, ਐਲ.ਐਲ.ਐਮਜ਼ ਨਾਲ ਵੱਖ-ਵੱਖ ਆਪਸੀ ਤਾਲਮੇਲ ਪੈਟਰਨਾਂ ਦੇ ਪ੍ਰਭਾਵ ਦੀ ਪੜਚੋਲ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ, ਅਤੇ ਡਾਕਟਰੀ ਸੰਦਰਭਾਂ ਵਿੱਚ ਉਹਨਾਂ ਦੀ ਵਰਤੋਂ ਦੇ ਆਲੇ ਦੁਆਲੇ ਨੈਤਿਕ ਵਿਚਾਰਾਂ ਦੀ ਜਾਂਚ ਕਰਨੀ ਚਾਹੀਦੀ ਹੈ।

ਸਿੱਟਾ

ਸਿੱਟੇ ਵਜੋਂ, ਇਹ ਖੋਜਾਂ ਕਾਰਡੀਓਵੈਸਕੁਲਰ ਸਿਹਤ ਦੀ ਜਨਤਕ ਸਮਝ ਨੂੰ ਵਧਾਉਣ ਲਈ ਐਲ.ਐਲ.ਐਮਜ਼ ਦੇ ਵਾਅਦੇ ਨੂੰ ਉਜਾਗਰ ਕਰਦੀਆਂ ਹਨ, ਨਾਲ ਹੀ ਸਹੀਤਾ, ਨਿਰਪੱਖਤਾ ਅਤੇ ਡਾਕਟਰੀ ਜਾਣਕਾਰੀ ਦੇ ਜ਼ਿੰਮੇਵਾਰ ਪ੍ਰਸਾਰ ਨੂੰ ਯਕੀਨੀ ਬਣਾਉਣ ਲਈ ਧਿਆਨ ਨਾਲ ਮੁਲਾਂਕਣ ਅਤੇ ਚੱਲ ਰਹੇ ਸੁਧਾਈ ਦੀ ਲੋੜ ‘ਤੇ ਜ਼ੋਰ ਦਿੰਦੀਆਂ ਹਨ। ਅੱਗੇ ਵਧਣ ਦੇ ਰਸਤੇ ਵਿੱਚ ਨਿਰੰਤਰ ਤੁਲਨਾਤਮਕ ਮੁਲਾਂਕਣ, ਭਾਸ਼ਾਈ ਪੱਖਪਾਤਾਂ ਨੂੰ ਹੱਲ ਕਰਨਾ, ਅਤੇ ਸਟੀਕ ਅਤੇ ਭਰੋਸੇਮੰਦ ਸੀ.ਵੀ.ਡੀ. ਰੋਕਥਾਮ ਮਾਰਗਦਰਸ਼ਨ ਦੀ ਬਰਾਬਰ ਪਹੁੰਚ ਨੂੰ ਉਤਸ਼ਾਹਿਤ ਕਰਨ ਲਈ ਭਾਸ਼ਾ-ਵੱਖਰੇ ਮਾਡਲਾਂ ਦੀਆਂ ਸ਼ਕਤੀਆਂ ਦਾ ਲਾਭ ਉਠਾਉਣਾ ਸ਼ਾਮਲ ਹੈ।