Pengenalan
Kemajuan teknologi seperti kecerdasan buatan (AI) dan model bahasa besar (LLM) telah membawa kepada potensi perubahan dalam pendidikan perubatan dan kaedah penilaian pengetahuan. Khususnya, perkembangan ini boleh menjadikan maklumat perubatan lebih mudah diakses dan menjadikan penilaian lebih interaktif.
Kajian terdahulu telah meneroka prestasi LLM dalam pelbagai peperiksaan pelesenan perubatan seperti Peperiksaan Pelesenan Perubatan Amerika Syarikat (USMLE) dan Peperiksaan Pelesenan Perubatan Jepun (JMLE), tetapi peperiksaan ini berbeza dengan ketara daripada TUS dari segi struktur dan kandungan. TUS memberi tumpuan kepada sains asas dan sains klinikal, dengan penekanan khusus pada konteks perubatan Turki, yang memberikan peluang unik untuk menilai keupayaan LLM dalam persekitaran penilaian yang unik. Kajian ini bertujuan untuk mengisi jurang ini dengan menilai prestasi empat LLM terkemuka dalam TUS. Tambahan pula, kajian ini meneroka potensi implikasi penemuan ini untuk reka bentuk kurikulum, latihan perubatan bantuan AI dan masa depan penilaian perubatan di Turki. Khususnya, kami menyiasat bagaimana prestasi LLM boleh memaklumkan pembangunan sumber pendidikan dan strategi penilaian yang lebih berkesan dan disesuaikan dengan kurikulum perubatan Turki. Penemuan ini bukan sahaja menyumbang kepada pemahaman prestasi bahasa tertentu tetapi juga kepada perbincangan yang lebih luas tentang cara menyepadukan AI secara berkesan ke dalam pendidikan dan penilaian perubatan global.
Keputusan kajian ini menunjukkan bahawa ChatGPT dan LLM yang serupa boleh memainkan peranan penting dalam pendidikan perubatan dan proses penilaian pengetahuan. AI dan LLM dalam perolehan maklumat perubatan dan kaedah penilaian boleh membolehkan pembangunan pendekatan inovatif dan kaedah pembelajaran, terutamanya dalam pendidikan perubatan. Kajian ini bertujuan untuk menyiasat lebih lanjut kesan LLM terhadap pendidikan perubatan dan penilaian pengetahuan dengan menilai prestasi ChatGPT 4, Gemini 1.5 Pro dan Cohere-Command R+ dalam Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki.
Kajian ini meneroka aplikasi model kecerdasan buatan (AI) lanjutan, khususnya ChatGPT 4, Gemini 1.5 Pro, Command R+ dan Llama 3 70B dalam pendidikan dan penilaian perubatan, dengan tumpuan pada prestasi mereka dalam menyelesaikan masalah peperiksaan khusus perubatan. Kajian ini menilai keupayaan model ini untuk analisis komprehensif dan sistematik soalan Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki, menekankan potensi AI dalam bidang perubatan apabila mempertimbangkan faktor seperti keupayaan tafsiran dan ketepatan. Hasil kajian menunjukkan bahawa model AI boleh memudahkan proses pendidikan dan penilaian perubatan dengan ketara, membuka jalan kepada aplikasi dan bidang penyelidikan baharu. Tujuan utama artikel ini adalah untuk menilai kemajuan pesat dalam teknologi AI dan membandingkan keupayaan tindak balas model AI yang berbeza. Kajian ini menjalankan analisis perbandingan ChatGPT 4, Gemini 1.5 Pro, Command R+ dan Llama 3 70B, menilai prestasi mereka dalam 240 soalan daripada sesi pertama Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki 2021.
Perbandingan ini bertujuan untuk menjelaskan trajektori dan perbezaan teknologi AI, dengan tumpuan pada kegunaannya dalam bidang khusus seperti pendidikan perubatan dan persediaan peperiksaan. Matlamat akhirnya adalah untuk memberikan pandangan yang membantu pengguna memilih alat pembelajaran yang paling sesuai untuk keperluan khusus mereka.
Kaedah
Soalan-soalan ini ditanya kepada LLM dalam bahasa Turki. Soalan-soalan ini diperolehi daripada laman web rasmi Pusat Pemilihan dan Penempatan Pelajar, menggunakan format soalan aneka pilihan (dengan lima pilihan daripada A hingga E) dengan hanya satu jawapan terbaik. Jawapan diberikan oleh LLM dalam bahasa Turki.
Proses penilaian adalah berdasarkan jawapan yang betul yang diterbitkan oleh Pusat Pemilihan dan Penempatan Pelajar. Artikel ini menyebut: ‘“Jawapan ‘betul’ untuk soalan model kecerdasan buatan ditakrifkan berdasarkan jawapan yang diterbitkan oleh Pusat Pemilihan dan Penempatan Pelajar. Hanya jawapan yang ditentukan sebagai betul berdasarkan arahan dalam teks soalan diterima sebagai ‘betul’.” Oleh kerana soalan dan jawapan dalam bahasa Turki, proses penilaian melibatkan perbandingan jawapan bahasa Turki LLM dengan kunci jawapan bahasa Turki rasmi yang disediakan oleh Pusat Pemilihan dan Penempatan Pelajar.
Set Data Pendidikan Perubatan
Kajian ini menggunakan ChatGPT 4, Gemini 1.5 Pro, Command R+ dan Llama 3 70B untuk menguji keupayaan model kecerdasan buatan dalam pengetahuan dan penilaian kes perubatan. Kajian ini adalah mengenai soalan-soalan Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki yang diadakan pada 21 Mac 2021. Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki ialah peperiksaan yang dianjurkan oleh Pusat Pemilihan dan Penempatan Pelajar, dan ia terdiri daripada 240 soalan. Soalan pengetahuan asas dalam kategori pertama menguji pengetahuan dan etika yang diperlukan untuk melengkapkan pendidikan perubatan. Kategori kedua ialah soalan kes, yang meliputi banyak penyakit yang mengukur pemikiran dan penaakulan analitikal.
Klasifikasi Kesukaran Soalan
Tahap kesukaran soalan diklasifikasikan berdasarkan data prestasi calon rasmi yang diterbitkan oleh Pusat Pemilihan dan Penempatan Pelajar. Khususnya, kadar jawapan yang betul yang dilaporkan oleh pusat untuk setiap soalan digunakan untuk mengklasifikasikan soalan kepada lima tahap kesukaran:
- Tahap 1 (Paling Mudah): Soalan dengan kadar jawapan yang betul 80% atau lebih.
- Tahap 2: Soalan dengan kadar jawapan yang betul antara 60% dan 79.9%.
- Tahap 3 (Sederhana): Soalan dengan kadar jawapan yang betul antara 40% dan 59.9%.
- Tahap 4: Soalan dengan kadar jawapan yang betul antara 20% dan 39.9%.
- Tahap 5 (Paling Sukar): Soalan dengan kadar jawapan yang betul 19.9% atau kurang.
Jawapan ‘“betul”‘ untuk soalan model kecerdasan buatan ditakrifkan berdasarkan jawapan yang diterbitkan oleh Pusat Pemilihan dan Penempatan Pelajar. Hanya jawapan yang ditentukan sebagai betul berdasarkan arahan dalam teks soalan diterima sebagai ‘“betul”‘. Selain itu, tahap kesukaran setiap soalan dibahagikan kepada tahap 1 hingga 5 berdasarkan kadar jawapan yang betul yang diterbitkan oleh Pusat Pemilihan dan Penempatan Pelajar. Soalan dengan kadar jawapan yang betul 80% dan ke atas dianggap paling mudah (Tahap 1), manakala soalan dengan kadar jawapan yang betul 19.9% dan ke bawah dianggap paling sukar (Tahap 5).
Domain Pengetahuan dan Kes
Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki ialah langkah kritikal untuk graduan perubatan Turki dalam pengkhususan, dan ia menilai calon dalam dua domain utama, iaitu domain pengetahuan dan kes. Memahami perbezaan antara domain ini adalah penting untuk persediaan yang mencukupi. Domain pengetahuan memberi tumpuan kepada penilaian pemahaman teori dan pengetahuan faktual calon dalam bidang perubatan pilihan mereka. Ia menguji penguasaan konsep dan prinsip asas dan membina maklumat perubatan yang berkaitan dengan kepakaran. Ia mewakili bidang pengetahuan perubatan tertentu yang sedang diuji, seperti sains perubatan asas (anatomi, biokimia, fisiologi, dsb.) dan sains klinikal (perubatan dalaman, pembedahan, pediatrik, dsb.) Domain kes, sebaliknya, mewakili senario atau situasi kehidupan sebenar di mana pengetahuan digunakan, seperti penyelesaian masalah, pemikiran analitikal, pemikiran kritis, membuat keputusan dan menggunakan konsep dalam situasi sebenar.
Kejuruteraan Prompt
Kejuruteraan prompt ialah reka bentuk dan penalaan halus bagi prompt bahasa semula jadi untuk mendapatkan respons tertentu daripada model bahasa atau sistem AI. Pada April 2024, kami mengumpul respons dengan menyoal model bahasa secara langsung melalui antara muka web masing-masing.
Untuk memastikan penilaian yang adil bagi keupayaan asal setiap model, kawalan metodologi yang ketat telah dilaksanakan dalam cara soalan dibentangkan kepada LLM. Setiap soalan dimasukkan secara individu, dan sesi ditetapkan semula sebelum soalan baharu dikemukakan untuk menghalang model daripada belajar atau menyesuaikan diri berdasarkan interaksi sebelumnya.
Analisis Data
Semua analisis dilakukan menggunakan perisian Microsoft Office Excel dan Python. Untuk membandingkan prestasi LLM merentas kesukaran soalan yang berbeza, ujian chi-kuasa dua yang tidak berpasangan telah dijalankan. Ambang nilai-p < 0.05 digunakan untuk menentukan kepentingan statistik. Analisis itu menilai sama ada ketepatan model berbeza mengikut tahap kesukaran soalan.
Pertimbangan Etika
Kajian ini hanya menggunakan maklumat yang diterbitkan di internet dan tidak melibatkan subjek manusia. Oleh itu, kelulusan daripada Jawatankuasa Etika Universiti Baskent tidak diperlukan.
Keputusan
Bilangan purata jawapan yang betul oleh calon yang mengambil peperiksaan sains perubatan asas sesi pertama Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki 2021 ialah 51.63. Bilangan purata jawapan yang betul untuk peperiksaan sains perubatan klinikal ialah 63.95. Bilangan purata jawapan yang betul untuk peperiksaan sains perubatan klinikal adalah lebih tinggi daripada peperiksaan sains perubatan asas. Selari dengan keadaan ini, teknologi kecerdasan buatan juga lebih berjaya menjawab peperiksaan sains perubatan klinikal.
Prestasi AI
Prestasi platform AI dinilai menggunakan metrik yang sama seperti calon manusia.
ChatGPT 4:
ChatGPT 4 mencapai skor purata 103 jawapan yang betul dalam bahagian sains perubatan asas dan skor purata 110 jawapan yang betul dalam bahagian sains perubatan klinikal. Ini mewakili ketepatan keseluruhan 88.75%, yang jauh lebih baik daripada purata calon manusia untuk kedua-dua bahagian (p < 0.001).
Llama 3 70B:
Llama 3 70B mencapai skor purata 95 jawapan yang betul dalam bahagian sains perubatan asas dan skor purata 95 jawapan yang betul dalam bahagian sains perubatan klinikal. Ini mewakili ketepatan keseluruhan 79.17%, yang juga jauh lebih tinggi daripada purata prestasi manusia (p < 0.01).
Gemini 1.5 Pro:
Gemini 1.5 Pro mencapai skor purata 94 jawapan yang betul dalam bahagian sains perubatan asas dan skor purata 93 jawapan yang betul dalam bahagian sains perubatan klinikal. Ini mewakili ketepatan keseluruhan 78.13%, yang jauh lebih tinggi daripada purata prestasi manusia (p < 0.01).
Command R+:
Command R+ mencapai skor purata 60 jawapan yang betul dalam bahagian sains perubatan asas dan skor purata 60 jawapan yang betul dalam bahagian sains perubatan klinikal. Ini mewakili ketepatan keseluruhan 50%, yang tidak berbeza dengan ketara daripada purata prestasi manusia untuk bahagian sains perubatan asas (p = 0.12), tetapi jauh lebih rendah untuk bahagian sains perubatan klinikal (p < 0.05).
Prestasi platform AI dinilai menggunakan metrik yang sama seperti calon manusia.
Rajah 3 membandingkan ketepatan LLM yang berbeza mengikut kesukaran soalan - ChatGPT 4: Model yang menunjukkan prestasi terbaik. Ketepatan meningkat apabila kesukaran soalan meningkat, menghampiri 70% walaupun pada soalan yang paling mencabar - Llama 3 70B: Model dengan prestasi sederhana. Ketepatan meningkat dahulu kemudian menurun apabila kesukaran soalan meningkat. Ketepatannya adalah kira-kira 25% pada soalan yang paling mencabar. Gemini 1.5 70B: Ia menunjukkan prestasi yang serupa dengan Llama 3 70B. Ketepatan meningkat dahulu kemudian menurun apabila kesukaran soalan meningkat. Ketepatannya adalah kira-kira 20% pada soalan yang paling mencabar. Command R+: Model dengan prestasi terburuk. Ketepatannya berkurangan apabila kesukaran soalan meningkat dan kekal sekitar 15% pada soalan yang paling mencabar
Ringkasnya, ChatGPT 4 ialah model yang paling tidak terjejas oleh kesukaran soalan dan mempunyai ketepatan keseluruhan tertinggi. Llama 3 70B dan Gemini 1.5 Pro menunjukkan prestasi yang sederhana, manakala Command R+ mempunyai kadar kejayaan yang lebih rendah daripada model lain. Ketepatan model menurun apabila kesukaran soalan meningkat. Ini menunjukkan bahawa LLM masih memerlukan penambahbaikan dalam memahami dan menjawab soalan kompleks dengan betul
Dalam Jadual 1, model ChatGPT 4 menonjol sebagai model berprestasi terbaik dengan kadar kejayaan 88.75%. Ini menunjukkan keupayaan yang mantap untuk memahami dan menjawab soalan dengan tepat. Model Llama 3 70B berada di kedudukan kedua dengan kadar kejayaan 79.17%. Walaupun ia ketinggalan di belakang model ChatGPT 4, ia masih menunjukkan tahap kecekapan yang tinggi dalam menjawab soalan. Model Gemini 1.5 Pro mengikuti rapat, dengan kadar kejayaan 78.13%. Prestasi itu setanding dengan model Llama 3 70B, menunjukkan keupayaan menjawab soalan yang teguh. Model Command R+, sebaliknya, ketinggalan di belakang model lain, dengan kadar kejayaan 50%. Ini menunjukkan bahawa ia mungkin mengalami kesukaran dengan soalan tertentu atau memerlukan penalaan halus selanjutnya untuk meningkatkan prestasi. Taburan jawapan yang betul merentas tahap kesukaran yang berbeza. Contohnya, semua model menunjukkan prestasi yang baik pada soalan mudah (tahap kesukaran 1), dengan model ChatGPT 4 mencapai skor yang sempurna. Pada soalan kesukaran sederhana (tahap 2 dan 3), model ChatGPT 4 dan Llama 3 70B terus menunjukkan prestasi yang baik.
Sebaliknya, model Gemini 1.5 Pro mula menunjukkan beberapa kelemahan. Pada soalan sukar (tahap 4 dan 5), prestasi semua model menurun, dengan model Command R+ bergelut paling banyak. Secara keseluruhannya, keputusan ini memberikan pandangan yang berharga tentang kekuatan dan kelemahan setiap model AI dan boleh memaklumkan pembangunan dan usaha penambahbaikan masa depan
Dalam Jadual 3, biokimia dalam sains perubatan asas memperoleh skor yang sempurna untuk ChatGPT 4, membuktikan keupayaannya yang luar biasa untuk menjawab soalan dalam domain ini. Llama 3 70B dan Gemini 1.5 Pro juga menunjukkan prestasi yang baik, tetapi Command R+ berprestasi buruk dengan ketepatan 50%. Model yang menunjukkan prestasi terbaik (ChatGPT 4 dan Llama 3 70B) dalam farmakologi, patologi dan mikrobiologi mempamerkan konsistensi maklumat yang kukuh, dengan ketepatan antara 81% dan 90%. Gemini 1.5 Pro dan Command R+ ketinggalan di belakang tetapi masih menunjukkan prestasi yang baik. Anatomi dan fisiologi menimbulkan beberapa cabaran kepada model. ChatGPT 4 dan Meta AI-Llama 3 70B menunjukkan prestasi yang baik, manakala Gemini 1.5 Pro dan Command R+ berprestasi buruk dengan ketepatan di bawah 70%.
Pediatrik dalam sains perubatan klinikal adalah penting untuk semua model, dengan ChatGPT 4 mencapai skor yang hampir sempurna (90%). Llama 3 70B mengikuti rapat, dan walaupun Command R+ mencapai ketepatan 43%. Perubatan dalaman dan pembedahan am berprestasi lebih baik daripada model terbaik, dengan ketepatan antara 79% dan 90%. Gemini 1.5 Pro dan Command R+ ketinggalan di belakang tetapi masih menunjukkan prestasi yang baik. Soalan yang dihantar dalam kepakaran seperti anestesia dan resusitasi, perubatan kecemasan, neurologi dan dermatologi adalah kurang, tetapi model secara amnya berprestasi baik. ChatGPT 4 dan Llama 3 70B mempamerkan ketepatan yang luar biasa dalam bidang ini
Mengenai perbandingan model, ChatGPT 4 ialah model berprestasi terbaik dalam kebanyakan domain, dengan ketepatan keseluruhan 88.75%. Kekuatannya terletak pada keupayaannya untuk menjawab soalan sains perubatan asas dan klinikal dengantepat. Llama 3 70B mengikuti rapat, dengan ketepatan keseluruhan 79.17%. Walaupun ia tidak dapat menandingi prestasi ChatGPT 4 sepenuhnya, ia masih mempamerkan konsistensi pengetahuan yang kukuh merentas pelbagai domain. Gemini 1.5 Pro dan Command R+ ketinggalan di belakang, dengan ketepatan keseluruhan masing-masing 78.13% dan 50%. Walaupun mereka menunjukkan janji dalam domain tertentu, mereka bergelut untuk mengekalkan konsistensi merentas semua domain
Ringkasnya, ChatGPT 4 ialah model yang paling sesuai untuk menjawab soalan dalam pelbagai domain sains perubatan pada masa ini. Gemini 1.5 Pro dan Command R+ menunjukkan potensi tetapi memerlukan penambahbaikan yang ketara untuk bersaing dengan model berprestasi terbaik
Dalam Jadual 4, mengenai domain pengetahuan, ChatGPT 4 mempunyai ketepatan 86.7% (85/98) dalam sains perubatan asas, mengatasi model lain. ChatGPT 4 sekali lagi menunjukkan prestasi terbaik, dengan ketepatan 89.7% (61/68) dalam sains perubatan klinikal. Mengenai domain kes, ChatGPT 4 mempunyai ketepatan 81.8% (18/22) dalam sains perubatan asas. Dalam sains perubatan klinikal, ChatGPT 4 menunjukkan prestasi yang serupa, dengan ketepatan 94.2% (49/52)
Perbandingan berpasangan model menunjukkan bahawa ChatGPT 4 jauh lebih baik daripada model lain dalam kedua-dua domain dan jenis soalan. Llama 3 70B dan Gemini 1.5 Pro menunjukkan prestasi yang serupa, manakala Command R+ ketinggalan di belakang. Berdasarkan analisis ini, kita boleh membuat kesimpulan bahawa ChatGPT 4 mempamerkan prestasi yang luar biasa dalam domain pengetahuan dan kes serta dalam sains perubatan asas dan klinikal.
Analisis Statistik
Prestasi LLM dianalisis menggunakan Microsoft Office Excel dan Python (versi 3.10.2). Untuk membandingkan prestasi model merentas tahap kesukaran soalan yang berbeza, ujian chi-kuasa dua yang tidak berpasangan telah dijalankan. Jadual kontingensi dibina untuk jawapan yang betul dan salah setiap model AI mengikut tahap kesukaran, dan ujian chi-kuasa dua digunakan untuk menentukan sama ada terdapat perbezaan statistik yang ketara dalam prestasi merentas tahap kesukaran. Ambang nilai-p < 0.05 digunakan untuk menentukan kepentingan statistik. Nilai-p untuk ChatGPT 4 ialah 0.00028 dan ketara pada p < 0.05, menunjukkan perbezaan ketara dalam prestasi merentas tahap kesukaran yang berbeza. Nilai-p untuk Gemini 1.5 Pro ialah 0.047 dan ketara pada p < 0.05, menunjukkan perbezaan ketara dalam prestasi merentas tahap kesukaran yang berbeza. Nilai-p untuk Command R+ ialah 0.197 dan tidak ketara pada p < 0.05, menunjukkan tiada perbezaan ketara dalam prestasi merentas tahap kesukaran yang berbeza. Nilai-p untuk Llama 3 70B: 0.118, nilai-p: 0.118, dan tidak ketara pada p < 0.05, menunjukkan tiada perbezaan ketara dalam prestasi merentas tahap kesukaran yang berbeza.
Ketepatan ChatGPT 4 dan Gemini 1.5 Pro merentas kesukaran soalan yang berbeza menunjukkan perbezaan statistik yang ketara, menunjukkan bahawa prestasi mereka berbeza dengan ketara apabila kesukaran soalan berubah. Command R+ dan Llama 3 70B tidak menunjukkan perbezaan prestasi yang ketara merentas tahap kesukaran, menunjukkan prestasi yang lebih konsisten tanpa mengira kesukaran soalan. Hasil ini mungkin menunjukkan bahawa model yang berbeza mempunyai kekuatan dan kelemahan yang berbeza dalam menangani kerumitan dan tema yang berkaitan dengan kesukaran yang berbeza.
Perbincangan
TUS ialah peperiksaan kebangsaan yang penting bagi graduan perubatan Turki yang mengikuti latihan pengkhususan. Peperiksaan ini terdiri daripada soalan aneka pilihan yang meliputi sains asas dan sains klinikal dan mempunyai sistem kedudukan berpusat yang menentukan kedudukan program pengkhususan
Apabila menilai prestasi model bahasa besar dalam TUS, GPT-4 ialah model yang menunjukkan prestasi terbaik. Begitu juga, ChatGPT ialah model AI yang berkuasa yang menunjukkan prestasi hampir atau melebihi tahap manusia dalam bidang pembedahan, menjawab dengan betul 71% dan 68% soalan aneka pilihan SCORE dan Data-B, masing-masing. Selain itu, ChatGPT menunjukkan prestasi cemerlang dalam peperiksaan kesihatan awam, melebihi kadar lulus semasa dan memberikan pandangan yang unik. Penemuan ini menyerlahkan prestasi luar biasa GPT-4 dan ChatGPT dalam penilaian perubatan, mempamerkan potensi mereka untuk meningkatkan pendidikan perubatan dan membantu diagnosis yang berpotensi.
Bagi pendidik dan pemeriksa perubatan, ketepatan LLM yang semakin meningkat menimbulkan soalan penting tentang reka bentuk peperiksaan dan penilaian. Jika model AI boleh menyelesaikan peperiksaan perubatan yang diseragamkan dengan ketepatan tinggi, penilaian masa depan mungkin perlu memasukkan soalan penaakulan dan pertimbangan klinikal peringkat tinggi yang melampaui hafalan mudah. Selain itu, institusi perubatan Turki boleh meneroka strategi pendidikan bantuan AI, seperti sistem pembelajaran adaptif yang menyesuaikan bahan pembelajaran dengan keperluan individu pelajar.
Dari perspektif negara, kajian ini menyerlahkan kepentingan AI yang semakin meningkat dalam pendidikan perubatan di Turki. Oleh kerana LLM ini berprestasi baik dalam soalan perubatan bahasa Turki, mereka boleh merapatkan jurang dalam akses kepada sumber pendidikan berkualiti tinggi untuk pelajar di kawasan yang kurang mendapat perkhidmatan. Selain itu, penggubal dasar harus mempertimbangkan cara untuk menyepadukan model AI ke dalam pendidikan perubatan berterusan dan program pembelajaran sepanjang hayat untuk profesional penjagaan kesihatan Turki.
Kesimpulannya, walaupun model AI seperti ChatGPT-4 mempamerkan ketepatan yang luar biasa, peranannya dalam pendidikan perubatan harus dinilai dengan teliti. Potensi manfaat pembelajaran bantuan AI adalah besar, tetapi pelaksanaan yang betul memerlukan memastikan bahawa alat ini digunakan dengan cara yang bertanggungjawab dan beretika dan digabungkan dengan kepakaran manusia.
Batasan
Kajian ini memberikan pandangan yang berharga tentang prestasi model bahasa besar (LLM) dalam Peperiksaan Kemasukan Latihan Pengkhususan Perubatan Turki (TUS), tetapi adalah penting untuk mengakui beberapa batasan penting untuk mengkontekstualkan penemuan dan membimbing penyelidikan masa depan. Pertama, tidak pasti sama ada data latihan model AI yang dinilai dalam kajian ini mengandungi soalan TUS. Oleh kerana soalan TUS lalu tersedia secara terbuka, soalan yang digunakan dalam kajian ini mungkin menjadi sebahagian daripada data latihan model. Ini menimbulkan kebimbangan tentang sama ada prestasi model mencerminkan pemahaman sebenar atau hanya keupayaan untuk menghafal soalan tertentu. Kajian masa depan harus membangunkan kaedah untuk menilai sama ada model AI menunjukkan keupayaan penaakulan sebenar atau bergantung pada maklumat yang dihafal.
Kedua, model AI berpotensi untuk menunjukkan bias yang timbul daripada data latihan mereka. Bias ini mungkin timbul daripada perwakilan yang tidak seimbang bagi keadaan perubatan, populasi atau perspektif tertentu dalam data latihan. Sebagai contoh, prestasi model dalam bahasa Turki mungkin berbeza daripada bahasa Inggeris kerana perbezaan dalam kuantiti dan kualiti data latihan yang tersedia dalam setiap bahasa. Tambahan pula, model ini mungkin kurang tepat dalam menjawab soalan yang memerlukan pemahaman tentang amalan perubatan tempatan Turki atau konteks budaya. Bias ini boleh mengehadkan keumuman penemuan dan menimbulkan kebimbangan etika tentang penggunaan AI dalam pendidikan dan amalan perubatan.
Batasan ketiga ialah kajian itu hanya memberi tumpuan kepada soalan aneka pilihan. Dalam amalan klinikal dunia sebenar, profesional penjagaan kesihatan perlu mempunyai kemahiran seperti penaakulan kes yang kompleks, mentafsir penemuan yang samar-samar dan membuat keputusan dalam keadaan ketidakpastian. Tambahan pula, keupayaan untuk menyampaikan diagnosis, pilihan rawatan dan risiko kepada pesakit dan rakan sekerja dengan cara yang jelas dan penuh belas kasihan adalah penting. Keupayaan model AI untuk melaksanakan tugas ini belum diuji, dan keupayaan mereka mungkin dihadkan oleh reka bentuk dan latihan semasa mereka. Kajian masa depan harus menilai model AI dalam tetapan yang lebih realistik, seperti simulasi kes klinikal dan penilaian terbuka.
Keempat, kajian itu tidak menyertakan soalan terbuka. Soalan terbuka adalah penting untuk menilai kemahiran kognitif peringkat tinggi seperti pemikiran kritis, sintesis maklumat dan penaakulan klinikal. Jenis soalan ini memerlukan keupayaan untuk menghasilkan respons yang koheren dan berkaitan konteks dan bukannya hanya memilih pilihan yang betul daripada senarai. Prestasi model AI pada tugas sedemikian mungkin berbeza dengan ketara daripada prestasi mereka pada soalan aneka pilihan, yang mewakili bidang penyelidikan yang penting untuk masa depan.
Batasan kelima ialah model AI tidak diuji di bawah tekanan masa. Calon manusia tertakluk kepada had masa yang ketat semasa peperiksaan, yang boleh menjejaskan prestasi mereka. Sebaliknya, model AI dalam kajian ini tidak tertakluk kepada tekanan masa, yang membolehkan mereka beroperasi tanpa tekanan persekitaran yang ditetapkan masa