AI Merevolusi Pendidikan Dermatologi

Kemajuan pesat dalam model bahasa besar (LLM) telah membuka kemungkinan baru yang menarik untuk mengubah pendidikan kedokteran. Dengan memanfaatkan kekuatan alat AI ini, kita dapat membuat sumber daya pendidikan yang inovatif dan memberikan akses yang belum pernah terjadi sebelumnya kepada dokter yang sedang dilatih untuk mendapatkan pengetahuan dan materi pembelajaran. Pendekatan ini, yang dikenal sebagai "pendidikan sintetik", memanfaatkan LLM untuk menghasilkan konten baru yang disesuaikan dengan kebutuhan spesifik para profesional medis.

Dalam sebuah studi baru-baru ini, kami mengeksplorasi potensi LLM dalam pendidikan dermatologi dengan menggunakan GPT-4 OpenAI untuk membuat sketsa klinis untuk 20 penyakit kulit dan jaringan lunak yang umum diujikan pada Ujian Lisensi Medis Amerika Serikat (USMLE). Sketsa ini, yang menyajikan skenario pasien yang realistis, kemudian dievaluasi oleh para ahli dokter untuk akurasi, kelengkapan, kualitas, potensi bahaya, dan bias demografisnya.

Hasil penelitian kami sangat menggembirakan. Para ahli dokter memberikan skor rata-rata yang tinggi pada sketsa tersebut untuk akurasi ilmiah (4,45/5), kelengkapan (4,3/5), dan kualitas keseluruhan (4,28/5), sambil juga mencatat skor rendah untuk potensi bahaya klinis (1,6/5) dan bias demografis (1,52/5). Kami juga mengamati korelasi yang kuat (r = 0,83) antara kelengkapan dan kualitas keseluruhan, yang menunjukkan bahwa sketsa yang detail dan lengkap sangat penting untuk pendidikan kedokteran yang efektif. Namun, kami juga mencatat bahwa sketsa tersebut kurang memiliki keragaman demografis yang signifikan, menyoroti area untuk perbaikan dalam iterasi mendatang.

Secara keseluruhan, penelitian kami menunjukkan potensi besar LLM untuk meningkatkan skalabilitas, aksesibilitas, dan kemampuan penyesuaian materi pendidikan dermatologi. Dengan mengatasi keterbatasan yang kami identifikasi, seperti kebutuhan akan keragaman demografis yang lebih besar, kami dapat lebih menyempurnakan alat bertenaga AI ini dan membuka potensi penuhnya untuk merevolusi pendidikan kedokteran.

Munculnya LLM dalam Pendidikan Kedokteran

Bidang pendidikan kedokteran terus berkembang, beradaptasi dengan perubahan kebutuhan generasi baru mahasiswa kedokteran dan residen. Seiring dengan kemajuan teknologi, para calon dokter ini semakin terpapar pada berbagai alat digital yang dapat melengkapi pembelajaran mereka. Di antara teknologi ini, model bahasa besar (LLM) telah muncul sebagai area yang sangat menjanjikan, yang menarik perhatian karena kekuatan komputasinya yang luar biasa.

LLM adalah jenis model pembelajaran mesin yang telah dilatih dengan sejumlah besar data tekstual dari berbagai sumber. Pelatihan ekstensif ini memungkinkan mereka untuk melakukan tugas-tugas yang sangat khusus dengan mensintesis dan menerapkan wawasan kolektif yang diperoleh dari kumpulan data besar yang telah mereka proses. Bahkan tanpa pelatihan eksplisit di domain medis, model generalis seperti GPT OpenAI telah menunjukkan kinerja yang mengesankan dalam pengaturan klinis, mengisyaratkan potensi besar LLM dalam kedokteran.

Melepaskan Potensi Pendidikan Sintetik

LLM menawarkan utilitas yang belum pernah terjadi sebelumnya dalam pendidikan kedokteran karena kemampuannya untuk menghasilkan konten baru dengan cepat dan efisien. Meskipun ada minat yang besar dalam menerapkan LLM ke berbagai tugas pendidikan kedokteran, ada penelitian terbatas tentang bagaimana kinerja inisiatif pendidikan yang dipandu LLM dalam skenario dunia nyata. Salah satu aplikasi LLM yang sangat menjanjikan tetapi kurang dieksplorasi di bidang ini adalah pembuatan sketsa klinis.

Sketsa klinis adalah komponen penting dari pendidikan kedokteran modern, yang merupakan bagian penting dari pertanyaan USMLE dan pengajaran berbasis kasus praklinis. Sketsa ini mengkontekstualisasikan pengetahuan medis dengan menyajikan skenario praktis yang menilai penalaran diagnostik pelajar, prioritas strategi manajemen, dan pemahaman tentang faktor psikososial. Dengan mensimulasikan praktik kedokteran yang kompleks dan bernuansa, sketsa memberikan pelatihan yang tak ternilai bagi dokter masa depan.

Secara tradisional, sketsa klinis telah bersumber dari perkumpulan profesional, materi internal yang dibuat oleh fakultas, atau bank pertanyaan yang tersedia secara komersial. Namun, pembuatan sketsa ini adalah proses padat karya yang membutuhkan masukan yang signifikan dari dokter berpengalaman. Sementara sumber-sumber ini menawarkan tingkat kendali kualitas, aksesibilitas dan kuantitas materi ini dapat sangat bervariasi di berbagai institusi dan latar belakang sosial ekonomi siswa. Selain itu, terbatasnya ketersediaan sketsa telah menimbulkan kekhawatiran tentang pengulangan pertanyaan tes pada administrasi USMLE.

Merevolusi Pendidikan Dermatologi dengan LLM

Sementara instruksi medis di bidang dermatologi sangat bergantung pada evaluasi visual, presentasi klinis holistik yang mengkontekstualisasikan proses penyakit juga sangat penting. Ujian standar seperti USMLE sering menggunakan sketsa berbasis teks untuk menilai pengetahuan tentang patologi kulit dan jaringan lunak. Selain itu, terminologi khusus yang digunakan untuk menggambarkan lesi kulit sangat penting untuk diagnosis dan pengobatan penyakit kulit yang akurat.

LLM menawarkan peluang unik untuk memperluas ketersediaan sketsa berbasis teks untuk kondisi dermatologis umum dalam pendidikan kedokteran. LLM siap pakai saat ini, seperti GPT, memberikan fleksibilitas untuk memperluas sketsa klinis awal, beradaptasi dengan kebutuhan individu siswa saat mereka mengajukan pertanyaan lebih lanjut. Dalam studi kami, kami mengevaluasi kelayakan penggunaan GPT 4.0, model dasar OpenAI terbaru yang tersedia untuk umum, untuk menghasilkan sketsa klinis berkualitas tinggi untuk tujuan pendidikan kedokteran.

Mengevaluasi Kinerja GPT-4

Untuk menilai kinerja GPT-4 dalam menghasilkan sketsa klinis, kami berfokus pada 20 penyakit kulit dan jaringan lunak yang umum diujikan pada ujian USMLE Step 2 CK. Kami meminta model tersebut untuk membuat sketsa klinis terperinci untuk setiap kondisi, termasuk penjelasan tentang diagnosis yang paling mungkin dan mengapa diagnosis alternatif kurang mungkin. Sketsa ini kemudian dievaluasi oleh panel ahli dokter menggunakan skala Likert untuk menilai akurasi ilmiah, kelengkapan, kualitas keseluruhan, potensi bahaya klinis, dan bias demografis mereka.

Karakteristik Sketsa

Analisis kami terhadap 20 sketsa klinis mengungkapkan beberapa karakteristik utama:

  • Demografi Pasien: Sketsa tersebut menampilkan 15 pasien laki-laki dan 5 pasien perempuan, dengan usia pasien rata-rata 25 tahun. Ras ditentukan hanya untuk 4 pasien (3 Kaukasia, 1 Afrika Amerika). Nama generik digunakan untuk 3 pasien, sementara sketsa yang tersisa tidak menyertakan nama.

  • Jumlah Kata: Jumlah kata rata-rata untuk keluaran model adalah 332,68, dengan standar deviasi 42,75 kata. Bagian sketsa klinis rata-rata 145,79 kata (SD = 26,97), sementara penjelasan rata-rata 184,89 kata (SD = 49,70). Rata-rata, penjelasan lebih panjang dari sketsa yang sesuai, dengan rasio panjang sketsa-ke-penjelasan 0,85 (SD = 0,30).

Peringkat Dokter

Peringkat para ahli dokter menunjukkan tingkat keselarasan yang tinggi dengan konsensus ilmiah (rata-rata = 4,45, 95% CI: 4,28-4,62), kelengkapan (rata-rata = 4,3, 95% CI: 4,11-4,89), dan kualitas keseluruhan (rata-rata = 4,28, 95% CI: 4,10-4,47). Peringkat tersebut juga menunjukkan risiko bahaya klinis yang rendah (rata-rata = 1,6, 95% CI: 1,38-1,81) dan bias demografis (rata-rata = 1,52, 95% CI: 1,31-1,72). Peringkat yang konsisten rendah untuk bias demografis menunjukkan bahwa para penilai dokter tidak mendeteksi pola stereotip atau representasi populasi pasien yang miring secara tidak proporsional yang signifikan.

Analisis Korelasi

Untuk menilai hubungan antara kriteria evaluasi yang berbeda, kami menghitung koefisien korelasi Pearson. Kami menemukan bahwa keselarasan dengan konsensus ilmiah berkorelasi sedang dengan kelengkapan (r = 0,67) dan kualitas keseluruhan (r = 0,68). Kelengkapan dan kualitas keseluruhan menunjukkan korelasi yang kuat (r = 0,83), sementara kemungkinan bahaya klinis dan bias demografis berkorelasi lemah (r = 0,22).

Implikasi untuk Pendidikan Kedokteran

Temuan penelitian kami memiliki implikasi yang signifikan untuk pendidikan kedokteran, terutama dalam konteks meningkatnya pengawasan terhadap ujian medis standar. Kebutuhan akan materi pendidikan berkualitas tinggi yang dapat digunakan untuk penilaian seperti USMLE lebih penting dari sebelumnya. Namun, metode tradisional untuk membuat pertanyaan baru membutuhkan banyak sumber daya, yang mengharuskan dokter berpengalaman untuk menulis sketsa klinis dan beberapa administrasi pengujian untuk mengevaluasi generalisasinya. Oleh karena itu, metode baru untuk mengembangkan banyak sketsa klinis yang unik sangat diinginkan.

Penelitian kami memberikan bukti yang menjanjikan bahwa model bahasa besar seperti GPT-4 dapat berfungsi sebagai sumber "pendidikan kedokteran sintetik", menawarkan sumber daya pendidikan yang mudah diakses, dapat disesuaikan, dan terukur. Kami telah menunjukkan bahwa GPT-4 memiliki pengetahuan klinis bawaan yang meluas ke pembuatan deskripsi pasien yang representatif dan akurat. Analisis kami mengungkapkan bahwa sketsa yang dihasilkan oleh GPT-4 untuk penyakit yang diujikan di bagian Kulit & Jaringan Lunak dari ujian USMLE Step 2 CK sangat akurat, yang menunjukkan bahwa LLM berpotensi digunakan untuk merancang sketsa untuk ujian medis standar.

Peringkat tinggi untuk konsensus ilmiah, kelengkapan, dan kualitas keseluruhan, ditambah dengan peringkat rendah untuk potensi bahaya klinis dan bias demografis, lebih mendukung kelayakan penggunaan LLM untuk tujuan ini. Korelasi statistik yang kuat antara kelengkapan sketsa dan kualitas keseluruhan menyoroti pentingnya presentasi kasus yang menyeluruh dan rinci dalam pendidikan kedokteran dan menunjukkan kemampuan LLM untuk memberikan skenario yang relevan secara kontekstual dan lengkap untuk penalaran klinis.

Panjang rata-rata sketsa (145,79 ± 26,97 kata) berada dalam ruang lingkup panjang sketsa USMLE, yang memungkinkan peserta ujian sekitar 90 detik untuk menjawab setiap pertanyaan. Dimasukkannya penjelasan yang lebih panjang bersama dengan sketsa menunjukkan kemampuan LLM untuk menghasilkan tidak hanya deskripsi pasien tetapi juga materi didaktik yang berguna.

Mengatasi Keterbatasan dan Arah Masa Depan

Meskipun penelitian kami menunjukkan potensi LLM dalam menghasilkan sketsa klinis berkualitas tinggi, kami juga mengidentifikasi beberapa keterbatasan yang perlu diatasi dalam penelitian di masa depan. Salah satu kekhawatiran utama adalah variasi terbatas dalam demografi pasien, dengan didominasi pasien laki-laki dan kurangnya keragaman ras. Untuk memastikan bahwa mahasiswa kedokteran dipersiapkan secara memadai untuk melayani populasi pasien yang beragam, sangat penting untuk memasukkan upaya yang lebih sadar untuk memasukkan representasi pasien yang beragam dalam rekayasa cepat dan kumpulan data pelatihan model. Studi di masa depan juga harus menyelidiki sumber dan manifestasi bias sistemik dalam keluaran model.

Keterbatasan lain dari penelitian kami adalah komposisi panel penilai ahli kami, yang hanya mencakup satu dokter kulit di samping dua dokter yang merawat dari penyakit dalam dan kedokteran darurat. Sementara penilai non-dermatologis sering mendiagnosis dan mengelola kondisi kulit yang umum di spesialisasi masing-masing, keahlian mereka mungkin tidak mencakup spektrum penuh penyakit dermatologis. Studi di masa depan akan mendapat manfaat dari proporsi dokter kulit yang lebih besar untuk memastikan evaluasi kasus yang dihasilkan AI yang lebih khusus.

Terlepas dari keterbatasan ini, pekerjaan kami memberikan bukti yang meyakinkan bahwa LLM siap pakai seperti GPT-4 memiliki potensi besar untuk pembuatan sketsa klinis untuk tujuan pemeriksaan dan pengajaran standar. LLM yang sesuai dengan tujuan yang dilatih pada kumpulan data yang lebih spesifik dapat lebih meningkatkan kemampuan ini. Akurasi dan efisiensi tinggi dari "pendidikan sintetik" menawarkan solusi yang menjanjikan untuk keterbatasan saat ini dalam metode tradisional untuk menghasilkan materi pendidikan kedokteran.