Kemajuan pesat model bahasa besar (LLM) telah membuka kemungkinan baharu yang menarik untuk mengubah pendidikan perubatan. Dengan memanfaatkan kuasa alat AI ini, kita boleh mencipta sumber pendidikan yang inovatif dan menyediakan doktor yang sedang menjalani latihan dengan akses yang belum pernah terjadi sebelumnya kepada pengetahuan dan bahan pembelajaran. Pendekatan ini, yang dikenali sebagai “pendidikan sintetik,” memanfaatkan LLM untuk menjana kandungan baharu yang disesuaikan dengan keperluan khusus profesional perubatan.
Dalam kajian baru-baru ini, kami meneroka potensi LLM dalam pendidikan dermatologi dengan menggunakan GPT-4 OpenAI untuk mencipta vignet klinikal untuk 20 penyakit kulit dan tisu lembut yang biasa diuji pada Peperiksaan Pelesenan Perubatan Amerika Syarikat (USMLE). Vignet ini, yang membentangkan senario pesakit yang realistik, kemudiannya dinilai oleh pakar perubatan untuk ketepatan, kesempurnaan, kualiti, potensi bahaya dan bias demografi mereka.
Keputusan kajian kami sangat menggalakkan. Pakar perubatan memberikan vignet purata skor tinggi untuk ketepatan saintifik (4.45/5), kesempurnaan (4.3/5) dan kualiti keseluruhan (4.28/5), sambil juga mencatatkan skor rendah untuk potensi bahaya klinikal (1.6/5) dan bias demografi (1.52/5). Kami juga memerhatikan korelasi yang kuat (r = 0.83) antara kesempurnaan dan kualiti keseluruhan, menunjukkan bahawa vignet yang terperinci dan lengkap adalah penting untuk pendidikan perubatan yang berkesan. Walau bagaimanapun, kami juga mendapati bahawa vignet kurang kepelbagaian demografi yang ketara, menyoroti bidang untuk penambahbaikan dalam lelaran masa depan.
Secara keseluruhannya, kajian kami menunjukkan potensi besar LLM untuk meningkatkan kebolehskalaan, kebolehaksesan dan kebolehsesuaian bahan pendidikan dermatologi. Dengan menangani batasan yang kami kenal pasti, seperti keperluan untuk kepelbagaian demografi yang lebih besar, kami boleh memperhalusi lagi alat berkuasa AI ini dan membuka potensi penuh mereka untuk merevolusikan pendidikan perubatan.
Kebangkitan LLM dalam Pendidikan Perubatan
Bidang pendidikan perubatan sentiasa berkembang, menyesuaikan diri dengan perubahan keperluan generasi baharu pelajar perubatan dan residen. Memandangkan teknologi terus maju, doktor yang bercita-cita tinggi ini semakin terdedah kepada pelbagai alat digital yang boleh menambah pembelajaran mereka. Antara teknologi ini, model bahasa besar (LLM) telah muncul sebagai bidang yang sangat menjanjikan, mendapat perhatian kerana kuasa pengiraan mereka yang luar biasa.
LLM ialah sejenis model pembelajaran mesin yang telah dilatih pada sejumlah besar data tekstual daripada pelbagai sumber. Latihan yang meluas ini membolehkan mereka melaksanakan tugas yang sangat khusus dengan mensintesis dan menggunakan pandangan kolektif yang diperoleh daripada set data yang luas yang telah mereka proses. Walaupun tanpa latihan eksplisit dalam domain perubatan, model generalis seperti GPT OpenAI telah menunjukkan prestasi yang mengagumkan dalam tetapan klinikal, membayangkan potensi besar LLM dalam perubatan.
Melepaskan Potensi Pendidikan Sintetik
LLM menawarkan utiliti yang belum pernah terjadi sebelumnya dalam pendidikan perubatan kerana keupayaan mereka untuk menjana kandungan baharu dengan cepat dan cekap. Walaupun terdapat minat yang besar dalam menggunakan LLM untuk pelbagai tugas pendidikan perubatan, terdapat penyelidikan terhad tentang bagaimana inisiatif pendidikan berpandukan LLM berprestasi dalam senario dunia sebenar. Satu aplikasi LLM yang amat menjanjikan tetapi kurang diterokai dalam bidang ini ialah penjanaan vignet klinikal.
Vignet klinikal ialah komponen penting dalam pendidikan perubatan moden, membentuk sebahagian besar soalan USMLE dan pengajaran berasaskan kes praklinikal. Vignet ini mengkontekstualisasikan pengetahuan perubatan dengan membentangkan senario praktikal yang menilai penaakulan diagnostik pelajar, keutamaan strategi pengurusan dan pemahaman tentang faktor psikososial. Dengan mensimulasikan amalan perubatan yang kompleks dan bernuansa, vignet menyediakan latihan yang tidak ternilai untuk doktor masa depan.
Secara tradisinya, vignet klinikal telah diperoleh daripada persatuan profesional, bahan dalaman yang dicipta oleh fakulti atau bank soalan yang tersedia secara komersial. Walau bagaimanapun, penciptaan vignet ini ialah proses intensif buruh yang memerlukan input yang ketara daripada doktor yang berpengalaman. Walaupun sumber ini menawarkan tahap kawalan kualiti, kebolehaksesan dan kuantiti bahan ini boleh berbeza dengan ketara di seluruh institusi yang berbeza dan latar belakang sosioekonomi pelajar. Tambahan pula, ketersediaan vignet yang terhad telah menimbulkan kebimbangan tentang pengulangan soalan ujian pada pentadbiran USMLE.
Merevolusikan Pendidikan Dermatologi dengan LLM
Walaupun pengajaran perubatan dalam dermatologi sangat bergantung pada penilaian visual, pembentangan klinikal holistik yang mengkontekstualisasikan proses penyakit adalah sama pentingnya. Peperiksaan standard seperti USMLE sering menggunakan vignet berasaskan teks untuk menilai pengetahuan tentang patologi kulit dan tisu lembut. Tambahan pula, terminologi khusus yang digunakan untuk menggambarkan lesi kulit adalah penting untuk diagnosis dan rawatan penyakit kulit yang tepat.
LLM menawarkan peluang unik untuk mengembangkan ketersediaan vignet berasaskan teks untuk keadaan dermatologi biasa dalam pendidikan perubatan. LLM luar rak semasa, seperti GPT, memberikan fleksibiliti untuk mengembangkan vignet klinikal awal, menyesuaikan diri dengan keperluan individu pelajar apabila mereka bertanya soalan lanjut. Dalam kajian kami, kami menilai kemungkinan menggunakan GPT 4.0, model asas yang tersedia untuk umum terkini OpenAI, untuk menjana vignet klinikal berkualiti tinggi untuk tujuan pendidikan perubatan.
Menilai Prestasi GPT-4
Untuk menilai prestasi GPT-4 dalam menjana vignet klinikal, kami menumpukan pada 20 penyakit kulit dan tisu lembut yang biasa diuji pada peperiksaan USMLE Step 2 CK. Kami menggesa model untuk mencipta vignet klinikal terperinci untuk setiap keadaan, termasuk penjelasan tentang diagnosis yang paling mungkin dan mengapa diagnosis alternatif kurang berkemungkinan. Vignet ini kemudiannya dinilai oleh panel pakar perubatan menggunakan skala Likert untuk menilai ketepatan saintifik, kesempurnaan, kualiti keseluruhan, potensi bahaya klinikal dan bias demografi mereka.
Ciri-ciri Vignet
Analisis kami terhadap 20 vignet klinikal mendedahkan beberapa ciri utama:
Demografi Pesakit: Vignet menampilkan 15 pesakit lelaki dan 5 pesakit wanita, dengan umur pesakit median ialah 25 tahun. Bangsa dinyatakan untuk hanya 4 pesakit (3 Kaukasia, 1 Afrika Amerika). Nama generik digunakan untuk 3 pesakit, manakala vignet yang selebihnya tidak menyertakan nama.
Kiraan Perkataan: Kiraan perkataan purata untuk output model ialah 332.68, dengan sisihan piawai 42.75 perkataan. Bahagian vignet klinikal secara purata 145.79 perkataan (SD = 26.97), manakala penjelasan secara purata 184.89 perkataan (SD = 49.70). Secara purata, penjelasan lebih panjang daripada vignet yang sepadan, dengan nisbah panjang vignet-ke-penjelasan sebanyak 0.85 (SD = 0.30).
Penilaian Doktor
Penilaian pakar perubatan menunjukkan tahap penjajaran yang tinggi dengan konsensus saintifik (min = 4.45, 95% CI: 4.28-4.62), kesempurnaan (min = 4.3, 95% CI: 4.11-4.89) dan kualiti keseluruhan (min = 4.28, 95% CI: 4.10-4.47). Penilaian juga menunjukkan risiko bahaya klinikal yang rendah (min = 1.6, 95% CI: 1.38-1.81) dan bias demografi (min = 1.52, 95% CI: 1.31-1.72). Penilaian yang secara konsisten rendah untuk bias demografi menunjukkan bahawa penilai perubatan tidak mengesan sebarang corak stereotaip atau perwakilan populasi pesakit yang condong secara tidak seimbang.
Analisis Korelasi
Untuk menilai hubungan antara kriteria penilaian yang berbeza, kami mengira pekali korelasi Pearson. Kami mendapati bahawa penjajaran dengan konsensus saintifik berkorelasi sederhana dengan kesempurnaan (r = 0.67) dan kualiti keseluruhan (r = 0.68). Kesempurnaan dan kualiti keseluruhan menunjukkan korelasi yang kuat (r = 0.83), manakala kemungkinan bahaya klinikal dan bias demografi berkorelasi lemah (r = 0.22).
Implikasi untuk Pendidikan Perubatan
Penemuan kajian kami mempunyai implikasi yang ketara untuk pendidikan perubatan, terutamanya dalam konteks peningkatan penelitian terhadap peperiksaan perubatan standard. Keperluan untuk bahan pendidikan berkualiti tinggi yang boleh digunakan untuk penilaian seperti USMLE adalah lebih kritikal berbanding sebelum ini. Walau bagaimanapun, kaedah tradisional untuk mencipta soalan baharu adalah intensif sumber, memerlukan doktor yang berpengalaman untuk menulis vignet klinikal dan pelbagai pentadbiran ujian untuk menilai kebolehgeneralisasian mereka. Kaedah baharu untuk membangunkan banyak vignet klinikal yang unik oleh itu sangat wajar.
Kajian kami menyediakan bukti yang menjanjikan bahawa model bahasa besar seperti GPT-4 boleh berfungsi sebagai sumber “pendidikan perubatan sintetik,” menawarkan sumber pendidikan yang boleh diakses, disesuaikan dan berskala. Kami telah menunjukkan bahawa GPT-4 mempunyai pengetahuan klinikal yang wujud yang meluas kepada penciptaan perihalan pesakit yang representatif dan tepat. Analisis kami mendedahkan bahawa vignet yang dijana oleh GPT-4 untuk penyakit yang diuji dalam bahagian Kulit & Tisu Lembut peperiksaan USMLE Step 2 CK adalah sangat tepat, menunjukkan bahawa LLM berpotensi digunakan untuk mereka bentuk vignet untuk peperiksaan perubatan standard.
Penilaian tinggi untuk konsensus saintifik, kesempurnaan dan kualiti keseluruhan, ditambah dengan penilaian rendah untuk potensi bahaya klinikal dan bias demografi, seterusnya menyokong kemungkinan menggunakan LLM untuk tujuan ini. Korelasi statistik yang kuat antara kesempurnaan vignet dan kualiti keseluruhan menyoroti kepentingan pembentangan kes yang teliti dan terperinci dalam pendidikan perubatan dan menunjukkan keupayaan LLM untuk menyediakan senario yang berkaitan secara kontekstual dan lengkap untuk penaakulan klinikal.
Panjang purata vignet (145.79 ± 26.97 perkataan) berada dalam skop panjang vignet USMLE, membolehkan pemeriksa kira-kira 90 saat untuk menjawab setiap soalan. Penyertaan penjelasan yang lebih panjang bersama vignet mempamerkan keupayaan LLM untuk menjana bukan sahaja perihalan pesakit tetapi juga bahan didaktik yang berguna.
Menangani Batasan dan Hala Tuju Masa Depan
Walaupun kajian kami menunjukkan potensi LLM dalam menjana vignet klinikal berkualiti tinggi, kami juga mengenal pasti beberapa batasan yang perlu ditangani dalam penyelidikan masa depan. Satu kebimbangan utama ialah kepelbagaian terhad dalam demografi pesakit, dengan keutamaan pesakit lelaki dan kekurangan kepelbagaian kaum. Untuk memastikan pelajar perubatan bersedia secukupnya untuk berkhidmat kepada populasi pesakit yang pelbagai, adalah penting untuk memasukkan lebih banyak usaha sedar untuk memasukkan perwakilan pesakit yang pelbagai dalam kejuruteraan gesaan dan set data latihan model. Kajian masa depan juga harus menyiasat sumber dan manifestasi bias sistemik dalam output model.
Satu lagi batasan kajian kami ialah komposisi panel penilai pakar kami, yang hanya merangkumi seorang pakar dermatologi bersama dua doktor yang menghadiri dari perubatan dalaman dan perubatan kecemasan. Walaupun penilai bukan dermatologi sering mendiagnosis dan mengurus keadaan kulit biasa dalam kepakaran masing-masing, kepakaran mereka mungkin tidak merangkumi spektrum penuh penyakit dermatologi. Kajian masa depan akan mendapat manfaat daripada perkadaran pakar dermatologi yang lebih besar untuk memastikan penilaian yang lebih khusus bagi kes yang dijana AI.
Walaupun terdapat batasan ini, kerja kami menyediakan bukti yang meyakinkan bahawa LLM luar rak seperti GPT-4 mempunyai potensi besar untuk penjanaan vignet klinikal untuk tujuan pemeriksaan dan pengajaran yang standard. LLM yang sesuai dengan tujuan yang dilatih pada set data yang lebih khusus boleh meningkatkan lagi keupayaan ini. Ketepatan dan kecekapan tinggi “pendidikan sintetik” menawarkan penyelesaian yang menjanjikan kepada batasan semasa dalam kaedah tradisional untuk menjana bahan pendidikan perubatan.