Navigasi Pencegahan Kardiovaskular: LLM Perbandingan

Menilai Prestasi LLM: Ketepatan dan Konsistensi

Objektif utama kami adalah untuk menilai ketepatan respons yang diberikan oleh LLM terkemuka apabila diajukan soalan berkaitan pencegahan CVD. Kami menumpukan pada BARD (model bahasa Google), ChatGPT-3.5 dan ChatGPT-4.0 (model OpenAI), dan ERNIE (model Baidu). Sejumlah 75 soalan pencegahan CVD yang direka dengan teliti telah diajukan kepada setiap LLM, dengan respons dinilai berdasarkan kesesuaiannya (dikategorikan sebagai sesuai, sempadan atau tidak sesuai).

Prestasi Bahasa Inggeris

Dalam bahasa Inggeris, LLM menunjukkan ketepatan yang ketara. BARD mencapai penarafan “sesuai” sebanyak 88.0%, ChatGPT-3.5 menjaringkan 92.0%, dan ChatGPT-4.0 cemerlang dengan penarafan 97.3%. Keputusan ini menunjukkan bahawa LLM boleh memberikan maklumat berharga kepada pengguna berbahasa Inggeris yang mencari panduan mengenai pencegahan CVD.

Prestasi Bahasa Cina

Analisis dilanjutkan kepada pertanyaan bahasa Cina, di mana prestasi LLM berbeza-beza. ERNIE mencapai penarafan “sesuai” sebanyak 84.0%, ChatGPT-3.5 menjaringkan 88.0%, dan ChatGPT-4.0 mencapai 85.3%. Walaupun hasilnya umumnya positif, ia juga menunjukkan sedikit penurunan dalam prestasi berbanding bahasa Inggeris, yang menunjukkan potensi berat sebelah bahasa dalam model ini.

Peningkatan Temporal dan Kesedaran Diri

Selain ketepatan awal, kami menyiasat keupayaan LLM untuk meningkatkan respons mereka dari masa ke masa dan kesedaran diri mereka tentang ketepatan. Ini melibatkan penilaian bagaimana model bertindak balas kepada jawapan suboptimum yang pada mulanya diberikan dan sama ada mereka boleh mengenal pasti dan membetulkan kesilapan apabila digesa.

Respons Dipertingkatkan dari Masa ke Masa

Analisis mendedahkan bahawa LLM mempamerkan peningkatan temporal. Apabila dibentangkan dengan respons suboptimum pada mulanya, BARD dan ChatGPT-3.5 bertambah baik sebanyak 67% (masing-masing 6/9 dan 4/6), manakala ChatGPT-4.0 mencapai kadar peningkatan 100% yang sempurna (2/2). Ini mencadangkan bahawa LLM belajar daripada interaksi dan maklum balas pengguna, yang membawa kepada maklumat yang lebih tepat dan boleh dipercayai dari masa ke masa.

Kesedaran Diri tentang Ketepatan

Kami juga mengkaji keupayaan LLM untuk mengenali ketepatan respons mereka. BARD dan ChatGPT-4.0 mengatasi ChatGPT-3.5 dalam bidang ini, menunjukkan kesedaran diri yang lebih baik tentang ketepatan maklumat yang mereka berikan. Ciri ini amat berharga dalam konteks perubatan, di mana maklumat yang salah boleh membawa akibat yang serius.

Prestasi ERNIE dalam Bahasa Cina

Analisis gesaan bahasa Cina mendedahkan bahawa ERNIE cemerlang dalam peningkatan temporal dan kesedaran diri tentang ketepatan. Ini mencadangkan bahawa ERNIE sesuai untuk memberikan maklumat yang tepat dan boleh dipercayai kepada pengguna berbahasa Cina yang mencari panduan pencegahan CVD.

Penilaian Komprehensif Chatbot LLM

Untuk memastikan penilaian komprehensif yang merangkumi chatbot LLM yang biasa dan popular, kajian ini menyertakan empat model terkemuka: ChatGPT-3.5 dan ChatGPT-4.0 oleh OpenAI, BARD oleh Google dan ERNIE oleh Baidu. Penilaian gesaan bahasa Inggeris melibatkan ChatGPT 3.5, ChatGPT 4 dan BARD; untuk gesaan bahasa Cina, penilaian melibatkan ChatGPT 3.5, ChatGPT 4 dan ERNIE. Model telah digunakandengan konfigurasi lalai dan tetapan suhu mereka, tanpa pelarasan kepada parameter ini semasa analisis.

Penjanaan Soalan dan Penilaian Respons Chatbot

American College of Cardiology dan American Heart Association menyediakan garis panduan dan cadangan untuk pencegahan CVD, yang merangkumi maklumat tentang faktor risiko, ujian diagnostik dan pilihan rawatan, serta pendidikan pesakit dan strategi pengurusan kendiri. Dua ahli kardiologi yang berpengalaman menjana soalan yang berkaitan dengan pencegahan CVD, membingkainya sama seperti bagaimana pesakit akan bertanya dengan doktor untuk memastikan kerelevanan dan kebolehfahaman dari perspektif pesakit. Pendekatan berpusatkan pesakit dan berasaskan garis panduan ini menghasilkan set akhir 300 soalan yang meliputi pelbagai domain. Soalan-soalan ini kemudiannya diterjemahkan ke dalam bahasa Cina, memastikan penggunaan unit konvensional dan antarabangsa yang sesuai.

Pembutaan dan Penilaian Diperintah Secara Rawak

Untuk memastikan penilai tidak dapat membezakan asal respons antara Chatbot LLM yang berbeza, sebarang ciri khusus chatbot telah disembunyikan secara manual. Penilaian telah dijalankan secara buta dan diperintah secara rawak, dengan respons daripada tiga chatbot disusun secara rawak dalam set soalan. Respons daripada tiga chatbot telah ditugaskan secara rawak kepada 3 pusingan, dalam nisbah 1:1:1, untuk penilaian buta oleh tiga ahli kardiologi, dengan selang masa 48 jam di antara pusingan untuk mengurangkan berat sebelah baru-baru ini.

Metodologi Penilaian Ketepatan

Hasil utama ialah prestasi dalam menjawab soalan pencegahan CVD utama. Khususnya, pendekatan dua langkah telah digunakan untuk menilai respons. Dalam langkah pertama, panel ahli kardiologi menyemak semua respons yang dihasilkan oleh Chatbot LLM dan mengredkannya sama ada "sesuai," "sempadan," atau "tidak sesuai," berhubung dengan konsensus dan garis panduan pakar. Dalam langkah kedua, pendekatan konsensus majoriti telah digunakan, di mana penarafan akhir untuk setiap respons chatbot adalah berdasarkan penarafan paling biasa yang digredkan antara tiga penilai. Dalam senario di mana konsensus majoriti tidak dapat dicapai antara tiga penilai, seorang ahli kardiologi kanan telah dirujuk untuk memuktamadkan penarafan.

Analisis Penemuan Utama

Data mendedahkan bahawa LLM-chatbot secara amnya berprestasi lebih baik dengan gesaan bahasa Inggeris daripada dengan gesaan bahasa Cina. Khususnya, untuk gesaan bahasa Inggeris, BARD, ChatGPT-3.5 dan ChatGPT-4.0 menunjukkan jumlah markah yang serupa. Apabila membandingkan perkadaran penarafan ‘sesuai’, ChatGPT-4.0 mempunyai peratusan yang jauh lebih tinggi berbanding ChatGPT-3.5 dan Google Bard. Untuk gesaan bahasa Cina, ChatGPT3.5 mempunyai jumlah markah yang lebih tinggi, diikuti oleh ChatGPT-4.0 dan Ernie. Walau bagaimanapun, perbezaannya tidak signifikan secara statistik. Begitu juga, ChatGPT-3.5 mempunyai perkadaran ‘penarafan sesuai’ yang lebih tinggi untuk gesaan bahasa Cina, berbanding ChatGPT-4.0 dan ERNIE, tetapi perbezaannya tidak signifikan secara statistik.

Prestasi Merentas Domain Pencegahan CVD

Analisis menumpukan pada penarafan "sesuai" merentas domain pencegahan CVD yang berbeza. Hebatnya, ChatGPT-4.0 secara konsisten berprestasi baik dalam kebanyakan domain, dengan penarafan yang sangat tinggi dalam domain "dislipidemia," "gaya hidup," "biomarker dan keradangan," dan "DM dan CKD." Walau bagaimanapun, BARD menunjukkan prestasi suboptimum berbanding ChatGPT4.0 dan ChatGPT-3.5, terutamanya dalam domain "gaya hidup". Penemuan itu menekankan bahawa ketiga-tiga LLM-Chatbot berprestasi baik dalam domain “gaya hidup”, dengan 100% penarafan “sesuai” (Jadual Tambahan S6). Walau bagaimanapun, variasi dalam prestasi diperhatikan merentas domain lain, dengan beberapa model menunjukkan keberkesanan yang lebih besar dalam domain pencegahan tertentu.

Implikasi untuk Literasi Kesihatan

Penemuan kajian ini memegang implikasi penting untuk usaha meningkatkan literasi kesihatan kardiovaskular. Memandangkan individu semakin beralih kepada sumber dalam talian untuk maklumat perubatan, LLM berpotensi untuk berkhidmat sebagai alat yang berharga untuk meningkatkan pemahaman tentang pencegahan CVD. Dengan menyediakan maklumat yang tepat dan mudah diakses, LLM boleh merapatkan jurang dalam pengetahuan dan memperkasakan individu untuk membuat keputusan termaklum tentang kesihatan mereka.

Perbezaan dalam Prestasi

Kajian itu juga mendedahkan perbezaan ketara dalam prestasi LLM merentas bahasa yang berbeza. Penemuan bahawa LLM secara amnya berprestasi lebih baik dengan gesaan bahasa Inggeris daripada dengan gesaan bahasa Cina menyoroti potensi berat sebelah bahasa dalam model ini. Menangani isu ini adalah penting untuk memastikan bahawa LLM menyediakan akses saksama kepada maklumat perubatan yang tepat untuk semua individu, tanpa mengira bahasa ibunda mereka.

Peranan Model Khusus Bahasa

Analisis prestasi ERNIE dalam bahasa Cina memberikan pandangan berharga tentang peranan LLM khusus bahasa. Kekuatan ERNIE dalam peningkatan temporal dan kesedaran diri tentang ketepatan mencadangkan bahawa model yang disesuaikan untuk bahasa tertentu boleh menangani nuansa linguistik dan konteks budaya dengan berkesan. Pembangunan dan penghalusan LLM khusus bahasa selanjutnya mungkin penting untuk mengoptimumkan penyampaian maklumat perubatan kepada populasi yang pelbagai.

Batasan dan Hala Tuju Masa Depan

Walaupun kajian ini memberikan pandangan berharga tentang keupayaan LLM dalam menangani pertanyaan pencegahan CVD, adalah penting untuk mengakui batasan tertentu. Soalan-soalan yang digunakan mewakili bahagian kecil soalan dari segi pencegahan CVD. Keupayaan untuk umum penemuan tertakluk kepada impak respons stokastik. Selain itu, evolusi pantas LLM memerlukan penyelidikan berterusan untuk menampung lelaran yang dikemas kini dan model yang muncul. Kajian masa depan harus memperluas skop soalan, meneroka impak corak interaksi yang berbeza dengan LLM dan menyiasat pertimbangan etika sekitar penggunaannya dalam konteks perubatan.

Dalam beberapa tahun kebelakangan ini, penggunaan telefon pintar telah berkembang dengan ketara. Menurut laporan terkini, lebih daripada enam bilion orang di seluruh dunia memiliki telefon pintar, yang menunjukkan peningkatan yang luar biasa dalam akses dan penggunaan peranti mudah alih. Pertumbuhan ini sebahagian besarnya didorong oleh peningkatan ketersediaan telefon pintar yang berpatutan dan penembusan rangkaian mudah alih yang semakin meluas. Walaupun trend ini membentangkan peluang yang besar untuk pelbagai sektor, terutamanya perniagaan dan pemasaran, adalah penting untuk mempertimbangkan potensi implikasi alam sekitar yang berkaitan dengan pengeluaran, penggunaan, dan pelupusan peranti elektronik.

Salah satu faktor utama yang menyumbang kepada pecutan pendigitalan adalah meluasnya sambungan internet. Pertumbuhan global penembusan internet berterusan pada kadar yang luar biasa, dengan lebih daripada lima bilion orang kini mempunyai akses kepada internet. Angka yang menggalakkan ini membuka jalan baru untuk komunikasi, pendidikan dan perdagangan melintasi sempadan geografi. Walau bagaimanapun, perlu diingat bahawa peningkatan penggunaan internet juga menimbulkan cabaran seperti risiko keselamatan siber, isu privasi dan jurang digital antara wilayah dan populasi yang berbeza.

Media sosial telah muncul sebagai kuasa yang dominan dalam membentuk komunikasi, hiburan dan interaksi sosial manusia. Platform seperti Facebook, Instagram dan Twitter telah mengumpulkan berbilion pengguna di seluruh dunia, mewujudkan rangkaian maya yang saling berkaitan yang melampaui batasan fizikal. Pada tahun 2023, pengguna media sosial global dianggarkan melebihi 4.8 bilion, menekankan pengaruh yang kuat dari media sosial dalam kehidupan kontemporari kita. Walaupun media sosial menawarkan kelebihan yang tidak dapat dinafikan, seperti memudahkan sambungan dan menyediakan platform untuk ekspresi diri, ia juga penting untuk membongkar potensi akibat negatifnya, termasuk penyebaran maklumat yang salah, gangguan siber dan kesan buruk ke atas kesihatan mental.

Perdagangan elektronik, atau e-dagang, telah merevolusikan cara kami membeli-belah dan menjalankan perniagaan. Dengan kemudahan dan kebolehcapaian platform dalam talian, pengguna kini boleh membeli pelbagai jenis produk dan perkhidmatan dari keselesaan rumah mereka. Pasaran e-dagang global menyaksikan pertumbuhan yang luar biasa dalam beberapa tahun kebelakangan ini, dengan jualan runcit e-dagang di seluruh dunia diunjurkan mencapai lebih daripada 6.5 trilion dolar AS pada tahun 2023. Pertumbuhan yang ketara ini telah membuka jalan baru untuk perniagaan, membolehkan mereka mencapai pangkalan pelanggan yang lebih luas dan memperkemas operasi mereka. Walau bagaimanapun, adalah penting untuk menangani cabaran yang berkaitan dengan e-dagang, seperti perlindungan data, keselamatan pembayaran dan pengurusan rantaian bekalan, untuk memastikan ekosistem yang mampan dan terpusat pelanggan.

Era automasi dan kecerdasan buatan (AI) mencetuskan transformasi dalam pelbagai industri. Daripada pembuatan dan pengangkutan kepada penjagaan kesihatan dan kewangan, teknologi automasi dan AI membentuk semula proses kerja dan meningkatkan kecekapan. Kecerdasan Buatan (AI) menyaksikan peningkatan yang luar biasa dalam beberapa tahun kebelakangan ini, dengan aplikasi yang luas dalam pelbagai bidang, daripada pembantu maya dan kereta pandu sendiri kepada diagnosis perubatan dan analisis kewangan. Kecerdasan buatan (AI) telah menjadi pemacu di sebalik inovasi merentas pelbagai sektor, membolehkan perniagaan mengautomasikan tugas, membuat keputusan termaklum dan meningkatkan pengalaman pelanggan. Walau bagaimanapun, adalah penting untuk menangani implikasi etika dan sosial automasi dan AI, termasuk anjakan pekerjaan, berat sebelah algoritma dan keperluan untuk pembangunan semula kemahiran.

Analitis data dan data besar telah muncul sebagai alat yang berkuasa untuk mendapatkan pandangan, membuat keputusan termaklum, dan memacu inovasi. Dengan jumlah data yang dihasilkan pada kadar yang belum pernah terjadi sebelumnya, organisasi boleh memanfaatkan analitis data dan teknologi data besar untuk menemui corak yang berharga, arah aliran dan korelasi. Dengan menganalisis jumlah data yang besar, organisasi boleh memperoleh cerapan yang lebih mendalam ke dalam tingkah laku pelanggan, trend pasaran dan keberkesanan operasi. Ini membolehkan mereka membuat keputusan berdasarkan data, mengoptimumkan proses dan memperibadikan pengalaman pelanggan. Walau bagaimanapun, adalah penting untuk memastikan amalan pengendalian data yang bertanggungjawab, menangani kebimbangan privasi dan melaksanakan langkah keselamatan yang kukuh untuk melindungi maklumat sensitif.

Awan pengkomputeran telah mengubah landskap IT, membolehkan perniagaan mengakses sumber dan perkhidmatan pengkomputeran atas permintaan. Awan pengkomputeran menawarkan skalabiliti, fleksibiliti dan keberkesanan kos, menjadikannya pilihan yang menarik untuk organisasi dari semua saiz. Pengambilan teknologi awan terus berkembang, dengan perbelanjaan global untuk perkhidmatan awan awam diunjurkan mencecah lebih daripada 480 bilion dolar AS pada tahun 2023. Awan pengkomputeran (atau cloud) membolehkan organisasi memindahkan infrastruktur mereka ke awan, mengurangkan keperluan untuk pelaburan perkakasan dan penyelenggaraan yang mahal. Walau bagaimanapun, adalah penting untuk menangani kebimbangan keselamatan dan mematuhi peraturan untuk memastikan perlindungan data sensitif yang disimpan di awan.

Teknologi blockchain, yang paling terkenal dengan peranannya dalam mata wang kripto seperti Bitcoin, telah muncul sebagai teknologi transformatif dengan aplikasi yang melangkaui kewangan. Blockchain menyediakan buku besar yang terdesentralisasi dan tidak berubah bagi transaksi, memastikan ketelusan, keselamatan dan kepercayaan. Teknologi blockchain telah menarik perhatian yang ketara kerana potensi penggangguannya merentas pelbagai industri. Blockchain membolehkan transaksi yang selamat dan telus, mengurangkan keperluan untuk perantara dan meningkatkan kecekapan. Walau bagaimanapun, adalah penting untuk menangani cabaran seperti skalabiliti, kecekapan tenaga dan kepastian peraturan untuk menerima pakai blokchain secara meluas.

Internet of Things (IoT) merujuk kepada rangkaian peranti fizikal, kenderaan, peralatan rumah dan objek lain yang tertanam dengan penderia, perisian dan teknologi lain yang membolehkan mereka mengumpul dan menukar data. IoT telah membolehkan sambungan dan automasi yang belum pernah terjadi sebelumnya merentas pelbagai domain. Internet benda (IoT) telah menyaksikan pertumbuhan yang luar biasa dalam beberapa tahun kebelakangan ini, dengan berbilion-bilion peranti yang disambungkan dijangka digunakan di seluruh dunia. Alat dengar VR/MR dan teknologi kecerdasan buatan (AI) dijangka menjadi peranan baharu untuk meningkatkan aplikasi peranti ini dalam masa hadapan. IoT membolehkan organisasi mengumpul dan menganalisis data dalam masa nyata, membolehkan mereka mengoptimumkan operasi, meningkatkan pengalaman pelanggan dan membangunkan produk dan perkhidmatan yang inovatif. Walau bagaimanapun, adalah penting untuk menangani kebimbangan keselamatan dan privasi yang berkaitan dengan peranti IoT untuk memastikan perlindungan data sensitif.

Realiti maya (VR) dan realiti tambahan (AR) mengubah pengalaman kami dengan dunia digital dan fizikal. VR membenamkan pengguna dalam persekitaran yang disimulasikan, manakala AR menindih maklumat digital pada dunia sebenar. Virtual Reality (VR) dan Augmented Reality (AR) telah mendapat momentum yang ketara, menawarkan pengalaman yang mengasyikkan dan interaktif merentas pelbagai aplikasi. Daripada permainan dan hiburan kepada pendidikan dan latihan, VR dan AR memberikan cara baharu untuk berinteraksi dengan kandungan digital dan dunia fizikal. Walau bagaimanapun, adalah penting untuk menangani kebimbangan tentang potensi kesihatan dan kesan sosial teknologi VR dan AR sebelum ia diterima pakai secara meluas.

Kesimpulan

Kesimpulannya, penemuan ini menggariskan janji LLM sebagai alat untuk meningkatkan pemahaman awam tentang kesihatan kardiovaskular, sambil turut menekankan keperluan untuk penilaian berhati-hati dan penghalusan berterusan untuk memastikan ketepatan, keadilan dan penyebaran maklumat perubatan yang bertanggungjawab. Jalan ke hadapan melibatkan penilaian perbandingan berterusan, menangani berat sebelah bahasa dan memanfaatkan kekuatan model khusus bahasa untuk menggalakkan akses saksama kepada panduan pencegahan CVD yang tepat dan boleh dipercayai.