Navigasi Pencegahan Kardiovaskular: Analisis LLM

Evaluasi Kinerja LLM: Akurasi dan Konsistensi

Tujuan utama kami adalah menilai akurasi respons yang diberikan oleh LLM terkemuka ketika disajikan dengan pertanyaan terkait pencegahan CVD. Kami berfokus pada BARD (model bahasa Google), ChatGPT-3.5 dan ChatGPT-4.0 (model OpenAI), dan ERNIE (model Baidu). Serangkaian 75 pertanyaan pencegahan CVD yang dibuat dengan cermat diajukan ke setiap LLM, dengan respons yang dievaluasi berdasarkan kesesuaiannya (dikategorikan sebagai sesuai, borderline, atau tidak sesuai).

Kinerja Bahasa Inggris

Dalam bahasa Inggris, LLM menunjukkan akurasi yang luar biasa. BARD mencapai peringkat "sesuai" sebesar 88,0%, ChatGPT-3.5 mencetak 92,0%, dan ChatGPT-4.0 unggul dengan peringkat 97,3%. Hasil ini menunjukkan bahwa LLM dapat memberikan informasi yang berharga kepada pengguna berbahasa Inggris yang mencari panduan tentang pencegahan CVD.

Kinerja Bahasa Mandarin

Analisis diperluas ke kueri bahasa Mandarin, di mana kinerja LLM bervariasi. ERNIE mencapai peringkat "sesuai" sebesar 84,0%, ChatGPT-3.5 mencetak 88,0%, dan ChatGPT-4.0 mencapai 85,3%. Meskipun hasilnya umumnya positif, hasil ini juga menunjukkan sedikit penurunan kinerja dibandingkan dengan bahasa Inggris, yang menunjukkan potensi bias bahasa dalam model ini. Pemahaman konteks medis dan nuansa bahasa kemungkinan memainkan peran dalam perbedaan ini. Akurasi yang lebih tinggi dalam bahasa Inggris mungkin disebabkan oleh volume data pelatihan yang lebih besar dalam domain ini, yang memungkinkan model untuk mengembangkan pemahaman yang lebih mendalam tentang terminologi dan praktik medis. Selain itu, tantangan dalam menerjemahkan konsep medis secara akurat antara bahasa Inggris dan Mandarin dapat berkontribusi pada variasi kinerja.

Peningkatan Temporal dan Kesadaran Diri

Di luar akurasi awal, kami menyelidiki kemampuan LLM untuk meningkatkan respons mereka dari waktu ke waktu dan kesadaran diri mereka tentang kebenaran. Hal ini melibatkan penilaian bagaimana model menanggapi jawaban suboptimal yang awalnya diberikan dan apakah mereka dapat mengidentifikasi dan memperbaiki kesalahan ketika diminta.

Peningkatan Respons dari Waktu ke Waktu

Analisis mengungkapkan bahwa LLM menunjukkan peningkatan temporal. Ketika disajikan dengan respons suboptimal awalnya, BARD dan ChatGPT-3.5 meningkat sebesar 67% (masing-masing 6/9 dan 4/6), sementara ChatGPT-4.0 mencapai tingkat peningkatan 100% yang sempurna (2/2). Ini menunjukkan bahwa LLM belajar dari interaksi dan umpan balik pengguna, yang mengarah pada informasi yang lebih akurat dan andal dari waktu ke waktu. Mekanisme pembelajaran ini dapat melibatkan penyesuaian parameter internal model berdasarkan umpan balik eksternal, memungkinkan mereka untuk menangkap pola dan hubungan baru dalam data.

Kesadaran Diri tentang Kebenaran

Kami juga memeriksa kemampuan LLM untuk mengenali kebenaran respons mereka. BARD dan ChatGPT-4.0 mengungguli ChatGPT-3.5 dalam bidang ini, menunjukkan kesadaran diri yang lebih baik tentang akurasi informasi yang mereka berikan. Fitur ini sangat berharga dalam konteks medis, di mana informasi yang salah dapat memiliki konsekuensi serius. Kemampuan pemantauan diri ditingkatkan oleh mekanisme umpan balik internal yang memungkinkan model untuk menilai kepercayaan diri dan koherensi respons mereka.

Kinerja ERNIE dalam Bahasa Mandarin

Analisis petunjuk bahasa Mandarin mengungkapkan bahwa ERNIE unggul dalam peningkatan temporal dan kesadaran diri tentang kebenaran. Ini menunjukkan bahwa ERNIE sangat cocok untuk memberikan informasi yang akurat dan andal kepada pengguna berbahasa Mandarin yang mencari panduan pencegahan CVD. Peningkatan ERNIE dalam bahasa Mandarin dapat dikaitkan dengan pelatihan ekstensifnya pada data berbahasa Mandarin, yang memungkinkannya untuk memahami konteks linguistik dan budaya secara efektif.

Evaluasi Komprehensif Chatbot LLM

Untuk memastikan evaluasi komprehensif yang mencakup chatbot LLM umum dan populer, penelitian ini menyertakan empat model terkemuka: ChatGPT-3.5 dan ChatGPT-4.0 oleh OpenAI, BARD oleh Google, dan ERNIE oleh Baidu. Evaluasi petunjuk bahasa Inggris melibatkan ChatGPT 3.5, ChatGPT 4, dan BARD; untuk petunjuk bahasa Mandarin, evaluasi melibatkan ChatGPT 3.5, ChatGPT 4, dan ERNIE. Model-model tersebut digunakan dengan konfigurasi dan pengaturan suhu default mereka, tanpa penyesuaian pada parameter ini selama analisis. Pendekatan ini bertujuan untuk meniru interaksi dunia nyata dan menghindari bias eksperimen yang dapat timbul dari penyetelan halus atau optimasi model.

Pembuatan Pertanyaan dan Evaluasi Respons Chatbot

American College of Cardiology dan American Heart Association memberikan pedoman dan rekomendasi untuk pencegahan CVD, yang mencakup informasi tentang faktor risiko, tes diagnostik, dan pilihan pengobatan, serta pendidikan pasien dan strategi manajemen diri. Dua ahli jantung yang berpengalaman menghasilkan pertanyaan yang terkait dengan pencegahan CVD, membingkai mereka mirip dengan bagaimana pasien akan bertanya kepada dokter untuk memastikan relevansi dan pemahaman dari perspektif pasien. Pendekatan berbasis pasien dan berbasis pedoman ini menghasilkan serangkaian 300 pertanyaan akhir yang mencakup berbagai domain. Pertanyaan-pertanyaan ini kemudian diterjemahkan ke dalam bahasa Mandarin, memastikan penggunaan unit konvensional dan internasional yang sesuai.

Penyamaran dan Penilaian yang Diurutkan Secara Acak

Untuk memastikan bahwa para penilai tidak dapat membedakan asal respons di antara Chatbot LLM yang berbeda, setiap fitur khusus chatbot disembunyikan secara manual. Evaluasi dilakukan dengan cara yang disamarkan dan diurutkan secara acak, dengan respons dari tiga chatbot diacak secara acak dalam set pertanyaan. Respons dari tiga chatbot secara acak ditugaskan ke 3 putaran, dalam rasio 1:1:1, untuk penilaian yang disamarkan oleh tiga ahli jantung, dengan interval pencucian 48 jam di antara putaran untuk mengurangi bias resensi. Protokol yang ketat ini bertujuan untuk meminimalkan subjektivitas dan memastikan bahwa penilaian didasarkan pada kualitas respons daripada identitas model.

Metodologi Evaluasi Akurasi

Hasil utama adalah kinerja dalam menanggapi pertanyaan pencegahan CVD primer. Secara khusus, pendekatan dua langkah digunakan untuk mengevaluasi respons. Pada langkah pertama, panel ahli jantung meninjau semua respons yang dihasilkan Chatbot LLM dan menilainya sebagai "sesuai," "borderline," atau "tidak sesuai," dalam hubungannya dengan konsensus dan pedoman ahli. Pada langkah kedua, pendekatan konsensus mayoritas digunakan, di mana peringkat akhir untuk setiap respons chatbot didasarkan pada peringkat yang paling umum dinilai di antara ketiga penilai. Dalam skenario di mana konsensus mayoritas tidak dapat dicapai di antara ketiga penilai, seorang ahli jantung senior dikonsultasikan untuk menyelesaikan peringkat. Proses evaluasi yang berlapis-lapis dan didorong oleh konsensus ini meningkatkan keandalan dan validitas penilaian.

Analisis Temuan Kunci

Data mengungkapkan bahwa LLM-chatbot umumnya berkinerja lebih baik dengan petunjuk bahasa Inggris daripada dengan petunjuk bahasa Mandarin. Secara khusus, untuk petunjuk bahasa Inggris, BARD, ChatGPT-3.5, dan ChatGPT-4.0 menunjukkan skor jumlah yang serupa. Ketika membandingkan proporsi peringkat "sesuai", ChatGPT-4.0 memiliki persentase yang jauh lebih tinggi dibandingkan dengan ChatGPT-3.5 dan Google Bard. Untuk petunjuk bahasa Mandarin, ChatGPT3.5 memiliki skor jumlah yang lebih tinggi, diikuti oleh ChatGPT-4.0 dan Ernie. Namun, perbedaannya tidak signifikan secara statistik. Demikian pula, ChatGPT-3.5 memiliki proporsi "peringkat yang sesuai" yang lebih tinggi untuk petunjuk bahasa Mandarin, dibandingkan dengan ChatGPT-4.0 dan ERNIE, tetapi perbedaannya tidak signifikan secara statistik.

Kinerja di Seluruh Domain Pencegahan CVD

Analisis berfokus pada peringkat "sesuai" di seluruh domain pencegahan CVD yang berbeda. Hebatnya, ChatGPT-4.0 secara konsisten berkinerja baik di sebagian besar domain, dengan peringkat yang sangat tinggi di domain "dislipidemia," "gaya hidup," "biomarker dan peradangan," dan "DM dan CKD". Namun, BARD menunjukkan kinerja suboptimal dibandingkan dengan ChatGPT4.0 dan ChatGPT-3.5, terutama di domain "gaya hidup". Temuan-temuan tersebut menyoroti bahwa ketiga LLM-Chatbot berkinerja baik di domain "gaya hidup", dengan peringkat "sesuai" 100% (Tabel Tambahan S6). Namun, variasi kinerja diamati di seluruh domain lain, dengan beberapa model menunjukkan efikasi yang lebih besar dalam domain pencegahan tertentu. Misalnya, ChatGPT-4.0 mungkin unggul dalam memberikan informasi akurat tentang pengelolaan dislipidemia, sementara ERNIE mungkin lebih mahir dalam membahas seluk-beluk pencegahan CVD dalam konteks diabetes dan penyakit ginjal kronis.

Implikasi bagi Literasi Kesehatan

Temuan penelitian memegang implikasi penting bagi upaya meningkatkan literasi kesehatan kardiovaskular. Karena individu semakin beralih ke sumber daya online untuk informasi medis, LLM memiliki potensi untuk berfungsi sebagai alat yang berharga untuk meningkatkan pemahaman tentang pencegahan CVD. Dengan memberikan informasi yang akurat dan dapat diakses, LLM dapat menjembatani kesenjangan pengetahuan dan memberdayakan individu untuk membuat keputusan yang tepat tentang kesehatan mereka. Namun, sangat penting untuk menyadari keterbatasan dan potensi bias LLM, dan untuk mempromosikan penggunaan mereka secara bertanggung jawab dan bijaksana.

Kesenjangan dalam Kinerja

Studi ini juga mengungkapkan kesenjangan yang signifikan dalam kinerja LLM di berbagai bahasa. Temuan bahwa LLM umumnya berkinerja lebih baik dengan prompt bahasa Inggris daripada dengan prompt bahasa Mandarin menyoroti potensi bias bahasa dalam model ini. Mengatasi masalah ini sangat penting untuk memastikan bahwa LLM memberikan akses yang adil ke informasi medis yang akurat untuk semua individu, terlepas dari bahasa asli mereka. Upaya untuk mengurangi bias bahasa dapat melibatkan pengembangan teknik pelatihan yang lebih canggih, memasukkan dataset yang lebih beragam, dan menyesuaikan model untuk secara eksplisit memperhitungkan nuansa linguistik dan budaya.

Peran Model Khusus Bahasa

Analisis kinerja ERNIE dalam bahasa Mandarin memberikan wawasan berharga tentang peran LLM khusus bahasa. Kekuatan ERNIE dalam peningkatan temporal dan kesadaran diri tentang kebenaran menunjukkan bahwa model yang dirancang untuk bahasa tertentu dapat secara efektif mengatasi nuansa linguistik dan konteks budaya. Pengembangan dan penyempurnaan lebih lanjut LLM khusus bahasa mungkin penting untuk mengoptimalkan penyampaian informasi medis ke beragam populasi. Model-model ini dapat memanfaatkan data dan pengetahuan khusus bahasa untuk memberikan respons yang lebih akurat dan relevan, serta untuk memfasilitasi komunikasi yang lebih efektif dengan pengguna dari latar belakang budaya yang berbeda.

Keterbatasan dan Arah Masa Depan

Meskipun studi ini memberikan wawasan berharga tentang kemampuan LLM dalam menjawab pertanyaan pencegahan CVD, penting untuk mengakui keterbatasan tertentu. Pertanyaan yang digunakan mewakili sebagian kecil pertanyaan dalam hal pencegahan CVD. Generalisasi temuan tunduk pada dampak respons stokastik. Selain itu, evolusi LLM yang pesat membutuhkan penelitian berkelanjutan untuk mengakomodasi iterasi yang diperbarui dan model yang muncul. Studi masa depan harus memperluas cakupan pertanyaan, mengeksplorasi dampak pola interaksi yang berbeda dengan LLM, dan menyelidiki pertimbangan etis seputar penggunaannya dalam konteks medis. Penelitian tambahan juga dapat berfokus pada pengembangan kerangka kerja untuk mengevaluasi dan memantau akurasi dan keandalan LLM dari waktu ke waktu, serta untuk mengidentifikasi dan mengurangi potensi bias dan masalah etika.

Kesimpulan

Singkatnya, temuan ini menggarisbawahi janji LLM sebagai alat untuk meningkatkan pemahaman publik tentang kesehatan kardiovaskular, sementara juga menekankan perlunya evaluasi yang cermat dan penyempurnaan berkelanjutan untuk memastikan akurasi, keadilan, dan diseminasi informasi medis yang bertanggung jawab. Jalan ke depan melibatkan evaluasi komparatif berkelanjutan, mengatasi bias bahasa, dan memanfaatkan kekuatan model khusus bahasa untuk mempromosikan akses yang adil ke panduan pencegahan CVD yang tepat dan andal. Dengan secara proaktif mengatasi tantangan dan secara etis memanfaatkan potensi LLM, kita dapat memanfaatkan kekuatan transformatif mereka untuk meningkatkan hasil kesehatan dan memberdayakan individu untuk mengambil kendali atas kesejahteraan kardiovaskular mereka.