AI dalam Pendidikan Kedokteran: Evaluasi LLM di TUS

Pendahuluan

Dalam beberapa tahun terakhir, kemajuan teknologi seperti kecerdasan buatan (AI) dan model bahasa besar (LLM) telah membawa potensi transformasi pada pendidikan kedokteran dan metode penilaian pengetahuan. Secara khusus, perkembangan ini dapat membuat informasi medis lebih mudah diakses dan membuat penilaian lebih interaktif.

Penelitian sebelumnya telah mengeksplorasi kinerja LLM dalam berbagai ujian lisensi medis seperti Ujian Lisensi Medis Amerika Serikat (USMLE) dan Ujian Lisensi Medis Jepang (JMLE), tetapi ujian ini berbeda secara signifikan dari TUS dalam struktur dan kontennya. TUS berfokus pada ilmu dasar dan ilmu klinis, dengan perhatian khusus pada konteks medis Turki, yang menawarkan kesempatan unik untuk mengevaluasi kemampuan LLM dalam lingkungan penilaian yang berbeda. Penelitian ini bertujuan untuk mengisi kesenjangan ini dengan mengevaluasi kinerja empat LLM terkemuka di TUS. Selain itu, penelitian ini mengeksplorasi potensi dampak dari temuan ini pada desain kurikulum, pelatihan medis yang dibantu AI, dan masa depan penilaian medis di Turki. Secara khusus, kami menyelidiki bagaimana kinerja LLM dapat menginformasikan pengembangan sumber daya pendidikan dan strategi penilaian yang lebih efektif yang disesuaikan dengan kurikulum medis Turki. Penyelidikan ini tidak hanya berkontribusi pada pemahaman tentang kinerja bahasa tertentu tetapi juga untuk diskusi yang lebih luas tentang bagaimana AI dapat diintegrasikan secara efektif ke dalam pendidikan dan penilaian medis global.

Hasil penelitian ini menunjukkan bahwa ChatGPT dan LLM serupa dapat memainkan peran penting dalam pendidikan kedokteran dan proses penilaian pengetahuan. AI dan LLM dalam pencarian informasi medis dan metode penilaian dapat memungkinkan pengembangan pendekatan inovatif dan metode pembelajaran, terutama dalam pendidikan kedokteran. Penelitian ini bertujuan untuk lebih menyelidiki dampak LLM pada pendidikan kedokteran dan penilaian pengetahuan dengan mengevaluasi kinerja ChatGPT 4, Gemini 1.5 Pro, dan Cohere-Command R+ pada Ujian Masuk Pelatihan Spesialisasi Kedokteran di Turki.

Penelitian ini mengeksplorasi penerapan model kecerdasan buatan (AI) tingkat lanjut - khususnya ChatGPT 4, Gemini 1.5 Pro, Command R+, dan Llama 3 70B - dalam pendidikan dan penilaian kedokteran, dengan fokus pada kinerja mereka dalam menyelesaikan soal ujian spesialisasi kedokteran. Penelitian ini menilai kemampuan model ini untuk analisis komprehensif dan sistematis soal ujian masuk pelatihan spesialisasi kedokteran Turki, menyoroti potensi AI dalam kedokteran ketika mempertimbangkan faktor-faktor seperti kemampuan interpretasi dan akurasi. Temuan menunjukkan bahwa model AI dapat secara signifikan memfasilitasi proses pendidikan dan penilaian kedokteran, membuka jalan bagi aplikasi dan bidang penelitian baru. Tujuan utama dari makalah ini adalah untuk mengevaluasi kemajuan pesat teknologi AI dan membandingkan kemampuan respons model AI yang berbeda. Studi ini melakukan analisis komparatif ChatGPT 4, Gemini 1.5 Pro, Command R+, dan Llama 3 70B dalam 240 soal dari Ujian Masuk Pelatihan Spesialisasi Kedokteran Turki semester pertama tahun 2021.

Perbandingan ini bertujuan untuk menjelaskan lintasan perkembangan dan perbedaan dalam teknologi AI, dengan fokus pada kegunaannya dalam bidang khusus seperti pendidikan kedokteran dan persiapan ujian. Tujuan utamanya adalah untuk memberikan wawasan yang membantu pengguna memilih alat bantu belajar yang paling sesuai dengan kebutuhan spesifik mereka.

Metode

Soal-soal ini diajukan ke LLM dalam bahasa Turki. Soal-soal tersebut diperoleh dari situs web resmi Pusat Seleksi dan Penempatan Mahasiswa, dalam bentuk soal pilihan ganda (dengan lima pilihan dari A hingga E) dengan hanya satu jawaban terbaik. Jawaban diberikan oleh LLM dalam bahasa Turki.

Proses evaluasi didasarkan pada jawaban yang benar yang diterbitkan oleh Pusat Seleksi dan Penempatan Mahasiswa. Artikel tersebut menyatakan: ‘Jawaban ‘benar’ untuk pertanyaan model kecerdasan buatan didefinisikan sesuai dengan jawaban yang diterbitkan oleh Pusat Seleksi dan Penempatan Mahasiswa. Hanya jawaban yang ditentukan benar sesuai dengan instruksi dalam teks pertanyaan yang diterima sebagai ‘benar’.’ Karena soal dan jawaban dalam bahasa Turki, proses evaluasi melibatkan perbandingan jawaban bahasa Turki dari LLM dengan kunci jawaban bahasa Turki resmi yang disediakan oleh Pusat Seleksi dan Penempatan Mahasiswa.

Dataset Pendidikan Kedokteran

Studi ini menggunakan ChatGPT 4, Gemini 1.5 Pro, Command R+, dan Llama 3 70B untuk menguji kemampuan model kecerdasan buatan dalam pengetahuan dan evaluasi kasus medis. Penelitian ini dilakukan pada pertanyaan dari Ujian Masuk Pelatihan Spesialisasi Kedokteran Turki yang diadakan pada 21 Maret 2021. Ujian Masuk Pelatihan Spesialisasi Kedokteran Turki adalah ujian yang diselenggarakan oleh Pusat Seleksi dan Penempatan Mahasiswa yang terdiri dari 240 soal. Soal-soal pengetahuan dasar dalam kategori pertama menguji pengetahuan dan etika yang diperlukan untuk menyelesaikan pendidikan kedokteran. Kategori kedua adalah soal-soal kasus yang mencakup banyak penyakit yang mengukur pemikiran analitis dan kemampuan penalaran.

Klasifikasi Kesulitan Soal

Tingkat kesulitan soal diklasifikasikan berdasarkan data kinerja peserta ujian resmi yang diterbitkan oleh Pusat Seleksi dan Penempatan Mahasiswa. Secara khusus, tingkat jawaban benar untuk setiap soal yang dilaporkan oleh pusat digunakan untuk mengkategorikan soal ke dalam lima tingkat kesulitan:

  • Tingkat 1 (Paling Mudah): Soal dengan tingkat jawaban benar 80% atau lebih.
  • Tingkat 2: Soal dengan tingkat jawaban benar antara 60% dan 79,9%.
  • Tingkat 3 (Sedang): Soal dengan tingkat jawaban benar antara 40% dan 59,9%.
  • Tingkat 4: Soal dengan tingkat jawaban benar antara 20% dan 39,9%.
  • Tingkat 5 (Paling Sulit): Soal dengan tingkat jawaban benar 19,9% atau kurang.

Jawaban ‘benar’ untuk pertanyaan model kecerdasan buatan didefinisikan sesuai dengan jawaban yang diterbitkan oleh Pusat Seleksi dan Penempatan Mahasiswa. Hanya jawaban yang ditentukan benar sesuai dengan instruksi dalam teks pertanyaan yang diterima sebagai ‘benar’. Selain itu, tingkat kesulitan setiap soal dibagi menjadi tingkat 1 hingga 5 berdasarkan tingkat jawaban benar yang diterbitkan oleh Pusat Seleksi dan Penempatan Mahasiswa. Soal dengan tingkat jawaban benar 80% atau lebih dianggap paling mudah (tingkat 1), sedangkan soal dengan tingkat jawaban benar 19,9% atau kurang dianggap paling sulit (tingkat 5).

Domain Pengetahuan dan Kasus

Ujian Masuk Pelatihan Spesialisasi Kedokteran Turki merupakan langkah penting bagi lulusan kedokteran Turki yang ingin berspesialisasi, dan mengevaluasi peserta ujian di dua domain penting, yaitu domain pengetahuan dan kasus. Memahami perbedaan antara domain-domain ini sangat penting untuk persiapan yang memadai. Domain pengetahuan berfokus pada penilaian pemahaman teoretis dan pengetahuan faktual peserta ujian dalam bidang kedokteran yang mereka pilih. Domain ini menguji penguasaan konsep dan prinsip dasar dan membangun informasi medis yang relevan dengan spesialisasi. Ini mewakili bidang pengetahuan medis tertentu yang sedang diuji, seperti ilmu kedokteran dasar (anatomi, biokimia, fisiologi, dll.) dan ilmu klinis (kedokteran internal, bedah, pediatri, dll.). Domain kasus, di sisi lain, mewakili skenario atau situasi kehidupan nyata di mana pengetahuan diterapkan, seperti pemecahan masalah, pemikiran analitis, pemikiran kritis, pengambilan keputusan, dan penerapan konsep pada situasi nyata.

Teknik Prompt

Teknik prompt adalah desain dan penyetelan prompt bahasa alami untuk mendapatkan respons tertentu dari model bahasa atau sistem AI. Pada April 2024, kami mengumpulkan respons dengan menanyai model bahasa secara langsung melalui antarmuka Web masing-masing.

Untuk memastikan evaluasi yang adil atas kemampuan asli setiap model, diterapkan kontrol metodologis yang ketat dalam cara soal-soal disajikan ke LLM. Setiap soal dimasukkan secara terpisah, dan sesi direset sebelum soal baru diajukan untuk mencegah model belajar atau beradaptasi berdasarkan interaksi sebelumnya.

Analisis Data

Semua analisis dilakukan menggunakan perangkat lunak Microsoft Office Excel dan Python. Untuk membandingkan kinerja LLM pada tingkat kesulitan soal yang berbeda, dilakukan uji chi-square yang tidak berpasangan. Ambang batas nilai-p < 0,05 digunakan untuk menentukan signifikansi statistik. Analisis ini mengevaluasi apakah akurasi model bervariasi berdasarkan tingkat kesulitan soal.

Pertimbangan Etis

Penelitian ini hanya menggunakan informasi yang dipublikasikan di Internet dan tidak melibatkan subjek manusia. Oleh karena itu, persetujuan dari Komite Etik Universitas Baskent tidak diperlukan.

Hasil

Jumlah jawaban benar rata-rata dari peserta ujian yang mengikuti ujian ilmu kedokteran dasar periode pertama Ujian Masuk Pelatihan Spesialisasi Kedokteran Turki tahun 2021 adalah 51,63. Jumlah jawaban benar rata-rata untuk ujian ilmu kedokteran klinis adalah 63,95. Jumlah jawaban benar rata-rata untuk ujian ilmu kedokteran klinis lebih tinggi daripada ujian ilmu kedokteran dasar. Sejalan dengan situasi ini, teknologi kecerdasan buatan juga lebih berhasil menjawab ujian ilmu kedokteran klinis.

Kinerja AI

Kinerja platform AI dievaluasi menggunakan metrik yang sama dengan peserta ujian manusia.

  • ChatGPT 4:

    ChatGPT 4 memperoleh skor rata-rata 103 jawaban benar di bagian ilmu kedokteran dasar dan 110 jawaban benar di bagian ilmu kedokteran klinis. Ini menunjukkan akurasi keseluruhan sebesar 88,75%, secara signifikan lebih unggul dari peserta ujian manusia rata-rata di kedua bagian (p < 0,001).

  • Llama 3 70B:

    Llama 3 70B memperoleh skor rata-rata 95 jawaban benar di bagian ilmu kedokteran dasar dan 95 jawaban benar di bagian ilmu kedokteran klinis. Ini menunjukkan akurasi keseluruhan sebesar 79,17%, yang juga secara signifikan lebih tinggi dari kinerja manusia rata-rata (p < 0,01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro memperoleh skor rata-rata 94 jawaban benar di bagian ilmu kedokteran dasar dan 93 jawaban benar di bagian ilmu kedokteran klinis. Ini menunjukkan akurasi keseluruhan sebesar 78,13%, yang secara signifikan lebih tinggi dari kinerja manusia rata-rata (p < 0,01).

  • Command R+:

    Command R+ memperoleh skor rata-rata 60 jawaban benar di bagian ilmu kedokteran dasar dan 60 jawaban benar di bagian ilmu kedokteran klinis. Ini menunjukkan akurasi keseluruhan sebesar 50%, yang tidak berbeda secara signifikan dari kinerja manusia rata-rata di bagian ilmu kedokteran dasar (p = 0,12) tetapi secara signifikan lebih rendah di bagian ilmu kedokteran klinis (p < 0,05).

Kinerja platform AI dievaluasi menggunakan metrik yang sama dengan peserta ujian manusia.

Gambar 3 membandingkan akurasi LLM yang berbeda berdasarkan kesulitan soal - ChatGPT 4: model dengan kinerja terbaik. Akurasi meningkat seiring dengan peningkatan kesulitan soal, bahkan mendekati 70% pada soal yang paling menantang - Llama 3 70B: model dengan kinerja sedang. Akurasi meningkat kemudian menurun seiring dengan peningkatan kesulitan soal. Akurasi sekitar 25% pada soal yang paling menantang. Gemini 1.5 70B: kinerjanya mirip dengan Llama 3 70B. Akurasi meningkat kemudian menurun seiring dengan peningkatan kesulitan soal. Akurasi sekitar 20% pada soal yang paling menantang. Command R+: model dengan kinerja terburuk. Akurasi menurun seiring dengan peningkatan kesulitan soal dan tetap sekitar 15% pada soal yang paling menantang

Singkatnya, ChatGPT 4 adalah model yang paling tidak terpengaruh oleh kesulitan soal dan memiliki akurasi keseluruhan tertinggi. Llama 3 70B dan Gemini 1.5 Pro menunjukkan kinerja sedang, sedangkan Command R+ memiliki tingkat keberhasilan yang lebih rendah daripada model lain. Akurasi model menurun seiring dengan peningkatan kesulitan soal. Ini menunjukkan bahwa LLM masih memerlukan peningkatan dalam memahami dan menjawab soal-soal kompleks dengan benar

Pada Tabel 1, model ChatGPT 4 menonjol sebagai model dengan kinerja terbaik dengan tingkat keberhasilan 88,75%. Ini menunjukkan bahwa ia memiliki kemampuan yang solid untuk memahami dan menjawab soal dengan akurat. Model Llama 3 70B berada di urutan kedua dengan tingkat keberhasilan 79,17%. Meskipun tertinggal dari model ChatGPT 4, ia masih menunjukkan tingkat kemahiran yang tinggi dalam menjawab soal. Model Gemini 1.5 Pro mengikuti dari dekat dengan tingkat keberhasilan 78,13%. Kinerjanya sebanding dengan model Llama 3 70B, menunjukkan kemampuannya yang kuat dalam menjawab soal. Di sisi lain, model Command R+ tertinggal dari model lain dengan tingkat keberhasilan 50%. Ini menunjukkan bahwa ia mungkin mengalami kesulitan pada soal-soal tertentu atau memerlukan penyetelan lebih lanjut untuk meningkatkan kinerjanya. Distribusi jawaban yang benar pada tingkat kesulitan yang berbeda. Misalnya, semua model berkinerja baik pada soal-soal mudah (tingkat kesulitan 1), dengan model ChatGPT 4 mencapai skor sempurna. Pada soal-soal dengan kesulitan sedang (tingkat 2 dan 3), model ChatGPT 4 dan Llama 3 70B terus berkinerja baik.

Sebaliknya, model Gemini 1.5 Pro mulai menunjukkan beberapa kelemahan. Pada soal-soal sulit (tingkat 4 dan 5), kinerja semua model menurun, dengan model Command R+ yang paling kesulitan. Secara keseluruhan, hasil ini memberikan wawasan berharga tentang kekuatan dan kelemahan masing-masing model AI dan dapat menginformasikan upaya pengembangan dan peningkatan di masa depan

Pada Tabel 3, biokimia dalam ilmu kedokteran dasar menerima skor sempurna dari ChatGPT 4, yang membuktikan kemampuan luar biasa untuk menjawab soal di bidang ini. Llama 3 70B dan Gemini 1.5 Pro juga berkinerja baik, tetapi Command R+ berkinerja buruk dengan akurasi 50%. Model dengan kinerja terbaik dalam farmakologi, patologi, dan mikrobiologi (ChatGPT 4 dan Llama 3 70B) menunjukkan konsistensi informasi yang kuat dengan akurasi antara 81% dan 90%. Gemini 1.5 Pro dan Command R+ tertinggal, tetapi masih berkinerja baik. Anatomi dan fisiologi memberikan beberapa tantangan bagi model. ChatGPT 4 dan Meta AI-Llama 3 70B berkinerja baik, sedangkan Gemini 1.5 Pro dan Command R+ berkinerja buruk dengan akurasi di bawah 70%.

Pediatri dalam ilmu kedokteran klinis sangat penting untuk semua model, dengan ChatGPT 4 mencapai skor mendekati sempurna (90%). Llama 3 70B mengikuti dari dekat, dan bahkan Command R+ mencapai akurasi 43%. Kedokteran internal dan bedah umum berkinerja lebih baik daripada model terbaik dengan akurasi antara 79% dan 90%. Gemini 1.5 Pro dan Command R+ tertinggal, tetapi masih berkinerja baik. Profesional seperti anestesi dan resusitasi, kedokteran darurat, neurologi, dan dermatologi mengirimkan lebih sedikit soal, tetapi model secara umum berkinerja baik. ChatGPT 4 dan Llama 3 70B menunjukkan akurasi luar biasa di bidang-bidang ini

Mengenai perbandingan model, ChatGPT 4 adalah model dengan kinerja terbaik di sebagian besar bidang dengan akurasi keseluruhan 88,75%. Kekuatannya terletak pada kemampuannya untuk menjawab soal ilmu kedokteran dasar dan klinis secara akurat. Llama 3 70B mengikuti dari dekat dengan akurasi keseluruhan 79,17%. Meskipun tidak dapat sepenuhnya menandingi kinerja ChatGPT 4, ia masih menunjukkan konsistensi pengetahuan yang kuat di berbagai bidang. Gemini 1.5 Pro dan Command R+ tertinggal dengan akurasi keseluruhan masing-masing 78,13% dan 50%. Meskipun mereka menunjukkan harapan di bidang tertentu, mereka kesulitan untuk mempertahankan konsistensi di semua bidang

Singkatnya, ChatGPT 4 saat ini adalah model yang paling cocok untuk menjawab soal ilmu kedokteran di berbagai bidang. Gemini 1.5 Pro dan Command R+ menunjukkan potensi tetapi memerlukan peningkatan yang signifikan untuk bersaing dengan model dengan kinerja terbaik

Pada Tabel 4, mengenai domain pengetahuan, ChatGPT 4 memiliki akurasi 86,7% (85/98) di bidang ilmu kedokteran dasar, mengungguli model lain. ChatGPT 4 sekali lagi berkinerja terbaik dengan akurasi 89,7% (61/68) di bidang ilmu kedokteran klinis. Mengenai domain kasus, ChatGPT 4 memiliki akurasi 81,8% (18/22) di bidang ilmu kedokteran dasar. Di bidang ilmu kedokteran klinis, ChatGPT 4 menunjukkan kinerja serupa dengan akurasi 94,2% (49/52)

Perbandingan berpasangan model menunjukkan bahwa ChatGPT 4 secara signifikan mengungguli model lain di kedua domain dan jenis soal. Llama 3 70B dan Gemini 1.5 Pro menunjukkan kinerja yang serupa, sedangkan Command R+ tertinggal. Berdasarkan analisis ini, dapat disimpulkan bahwa ChatGPT 4 menunjukkan kinerja luar biasa baik di domain pengetahuan maupun kasus, serta di bidang ilmu kedokteran dasar dan klinis.

Analisis Statistik

Kinerja LLM dianalisis menggunakan Microsoft Office Excel dan Python (versi 3.10.2). Untuk membandingkan kinerja model pada tingkat kesulitan soal yang berbeda, dilakukan uji chi-square yang tidak berpasangan. Tabel kontingensi dibangun untuk jawaban yang benar dan salah dari setiap model AI berdasarkan tingkat kesulitan, dan uji chi-square diterapkan untuk menentukan apakah ada perbedaan signifikan secara statistik dalam kinerja di berbagai tingkat kesulitan. Ambang batas nilai-p < 0,05 digunakan untuk menentukan signifikansi statistik. Nilai-p untuk ChatGPT 4 adalah 0,00028 dan signifikan pada p < 0,05, menunjukkan bahwa ada perbedaan signifikan dalam kinerja di berbagai tingkat kesulitan. Nilai-p untuk Gemini 1.5 Pro adalah 0,047 dan signifikan pada p < 0,05, menunjukkan bahwa ada perbedaan signifikan dalam kinerja di berbagai tingkat kesulitan. Nilai-p untuk Command R+ adalah 0,197 dan tidak signifikan pada p < 0,05, menunjukkan bahwa tidak ada perbedaan signifikan dalam kinerja di berbagai tingkat kesulitan. Nilai-p untuk Llama 3 70B: 0,118, nilai-p: 0,118, dan tidak signifikan pada p < 0,05, menunjukkan bahwa tidak ada perbedaan signifikan dalam kinerja di berbagai tingkat kesulitan.

Ketepatan ChatGPT 4 dan Gemini 1.5 Pro pada tingkat kesulitan soal yang berbeda menunjukkan perbedaan yang signifikan secara statistik, menunjukkan bahwa kinerja mereka bervariasi secara signifikan dengan kesulitan soal yang berbeda. Command R+ dan Llama 3 70B tidak menunjukkan perbedaan kinerja yang signifikan di berbagai tingkat kesulitan, menunjukkan bahwa kinerja lebih konsisten terlepas dari kesulitan soal. Hasil ini dapat menunjukkan bahwa model yang berbeda memiliki kekuatan dan kelemahan yang berbeda dalam menangani kompleksitas dan topik yang terkait dengan kesulitan yang berbeda.

Diskusi

TUS adalah ujian nasional penting bagi lulusan kedokteran Turki yang ingin mengejar pelatihan spesialisasi. Ujian ini terdiri dari soal pilihan ganda yang mencakup ilmu dasar dan klinis dan memiliki sistem peringkat terpusat yang menentukan peringkat program spesialisasi

Dalam mengevaluasi kinerja model bahasa besar pada TUS, GPT-4 adalah model dengan kinerja terbaik. Demikian pula, ChatGPT adalah model AI yang kuat yang menunjukkan kinerja mendekati atau di atas tingkat manusia di bidang bedah, menjawab dengan benar masing-masing 71% dan 68% soal pilihan ganda SCORE dan Data-B. Selain itu, ChatGPT berkinerja sangat baik dalam ujian kesehatan masyarakat, melampaui tingkat kelulusan saat ini dan memberikan wawasan unik. Temuan ini menyoroti kinerja luar biasa GPT-4 dan ChatGPT dalam penilaian medis, menunjukkan potensi mereka untuk meningkatkan pendidikan kedokteran dan bantuan diagnostik potensial.

Untuk pendidik dan penguji medis, akurasi LLM yang semakin meningkat menimbulkan pertanyaan penting tentang desain dan penilaianujian. Jika model AI dapat menyelesaikan ujian medis standar dengan akurasi tinggi, penilaian di masa depan mungkin perlu memasukkan soal penalaran dan penilaian klinis tingkat tinggi yang melampaui hafalan sederhana. Selain itu, lembaga medis Turki dapat mengeksplorasi strategi pendidikan yang dibantu AI, seperti sistem pembelajaran adaptif yang menyesuaikan materi pembelajaran dengan kebutuhan individu siswa.

Dari perspektif nasional, penelitian ini menyoroti semakin pentingnya AI dalam pendidikan kedokteran Turki. Karena LLM ini berkinerja baik dalam soal medis bahasa Turki, mereka dapat menjembatani kesenjangan dalam akses ke sumber daya pendidikan berkualitas tinggi bagi siswa di daerah yang kurang terlayani. Selain itu, pembuat kebijakan harus mempertimbangkan bagaimana mengintegrasikan model AI ke dalam pendidikan kedokteran berkelanjutan dan program pembelajaran seumur hidup untuk profesional perawatan kesehatan Turki.

Singkatnya, meskipun model AI seperti ChatGPT-4 menunjukkan akurasi yang luar biasa, peran mereka dalam pendidikan kedokteran harus dievaluasi dengan hati-hati. Manfaat potensial dari pembelajaran yang dibantu AI sangat besar, tetapi implementasi yang tepat mengharuskan memastikan bahwa alat ini digunakan secara bertanggung jawab, etis, dan dikombinasikan dengan keahlian manusia.

Keterbatasan

Penelitian ini memberikan wawasan berharga tentang kinerja model bahasa besar (LLM) pada Ujian Masuk Pelatihan Spesialisasi Kedokteran Turki (TUS), tetapi penting untuk mengakui beberapa keterbatasan penting untuk mengkontekstualisasikan temuan dan memandu penelitian di masa depan. Pertama, tidak pasti apakah data pelatihan model AI yang dievaluasi dalam penelitian ini mencakup soal TUS. Karena soal TUS masa lalu tersedia untuk umum, soal yang digunakan dalam penelitian ini mungkin merupakan bagian dari data pelatihan model. Ini menimbulkan kekhawatiran tentang apakah kinerja model mencerminkan pemahaman yang sebenarnya atau hanya kemampuan untuk menghafal soal-soal tertentu. Penelitian di masa depan harus mengembangkan metode untuk mengevaluasi apakah model AI menunjukkan kemampuan penalaran yang sebenarnya atau bergantung pada informasi yang dihafal.

Kedua, model AI berpotensi menunjukkan bias yang berasal dari data pelatihan mereka. Bias ini dapat timbul dari representasi yang tidak seimbang dari kondisi medis, populasi, atau perspektif tertentu dalam data pelatihan. Misalnya, kinerja model dalam bahasa Turki mungkin berbeda dari bahasa Inggris karena perbedaan jumlah dan kualitas data pelatihan yang tersedia di setiap bahasa. Selain itu, model ini mungkin kurang akurat dalam menjawab soal yang memerlukan pemahaman tentang praktik medis lokal atau konteks budaya Turki. Bias ini dapat membatasi generalisasi temuan dan menimbulkan kekhawatiran etis tentang penggunaan AI dalam pendidikan dan praktik kedokteran.

Keterbatasan ketiga adalah bahwa penelitian hanya berfokus pada soal pilihan ganda. Dalam praktik klinis dunia nyata, profesional perawatan kesehatan perlu memiliki keterampilan seperti penalaran kasus kompleks, menafsirkan temuan ambigu, dan membuat keputusan dalam ketidakpastian. Selain itu, kemampuan untuk mengkomunikasikan diagnosis, rencana perawatan, dan risiko secara jelas dan penuh kasih kepada pasien dan kolega sangat penting. Kemampuan model AI untuk melakukan tugas-tugas ini belum diuji, dan kemampuan mereka mungkin dibatasi oleh desain dan pelatihan mereka saat ini. Penelitian di masa depan harus mengevaluasi model AI dalam pengaturan yang lebih realistis, seperti simulasi kasus klinis dan penilaian terbuka.

Keempat, penelitian tidak memasukkan soal terbuka. Soal terbuka sangat penting untuk mengevaluasi keterampilan kognitif tingkat tinggi seperti pemikiran kritis, sintesis informasi, dan penalaran klinis. Jenis soal ini memerlukan kemampuan untuk menghasilkan respons yang koheren dan relevan dengan konteks, daripada hanya memilih opsi yang benar dari daftar. Kinerja model AI pada tugas-tugas tersebut mungkin sangat berbeda dari kinerja mereka pada soal pilihan ganda, yang mewakili bidang penting untuk penelitian di masa depan.

Keterbatasan kelima adalah bahwa model AI tidak diuji di bawah tekanan waktu. Peserta ujian manusia tunduk pada batasan waktu yang ketat selama ujian, yang dapat memengaruhi kinerja mereka. Sebaliknya, model AI dalam penelitian ini tidak tunduk pada tekanan waktu, yang memungkinkan mereka berfungsi tanpa tekanan lingkungan yang diberi waktu