วิเคราะห์เปรียบเทียบประสิทธิภาพของ LLM ในการป้องกันโรค CVD

การประเมินประสิทธิภาพของ LLM: ความแม่นยำและความสอดคล้อง

เป้าหมายหลักของเราคือการประเมินความถูกต้องของคำตอบที่ได้รับจาก LLM ชั้นนำเมื่อได้รับการนำเสนอด้วยคำถามที่เกี่ยวข้องกับการป้องกัน CVD เรามุ่งเน้นไปที่ BARD (Language model ของ Google), ChatGPT-3.5 และ ChatGPT-4.0 (Model ของ OpenAI) และ ERNIE (Model ของ Baidu) คำถามเกี่ยวกับการป้องกัน CVD ที่สร้างขึ้นอย่างพิถีพิถัน 75 ข้อถูกถามกับ LLM แต่ละตัว โดยมีการประเมินคำตอบตามความเหมาะสม (จัดอยู่ในประเภท เหมาะสม, เส้นเขตแดน หรือ ไม่เหมาะสม)

ประสิทธิภาพในภาษาอังกฤษ

ในภาษาอังกฤษ LLM แสดงให้เห็นถึงความแม่นยำที่น่าสังเกต BARD ได้รับคะแนน "เหมาะสม" ที่ 88.0%, ChatGPT-3.5 ได้ 92.0% และ ChatGPT-4.0 ทำได้ดีเป็นพิเศษด้วยคะแนน 97.3% ผลลัพธ์เหล่านี้บ่งชี้ว่า LLM สามารถให้ข้อมูลที่เป็นประโยชน์แก่ผู้ใช้ที่พูดภาษาอังกฤษซึ่งกำลังมองหาคำแนะนำเกี่ยวกับการป้องกัน CVD

ประสิทธิภาพในภาษาจีน

การวิเคราะห์ขยายไปถึงคำถามในภาษาจีน ซึ่งประสิทธิภาพของ LLM แตกต่างกัน ERNIE ได้รับคะแนน "เหมาะสม" ที่ 84.0%, ChatGPT-3.5 ได้ 88.0% และ ChatGPT-4.0 ได้ 85.3% ในขณะที่ผลลัพธ์โดยทั่วไปเป็นบวก พวกเขายังบ่งชี้ถึงการลดลงเล็กน้อยของประสิทธิภาพเมื่อเทียบกับภาษาอังกฤษ ซึ่งบ่งบอกถึงอคติทางภาษาที่อาจเกิดขึ้นในโมเดลเหล่านี้

การปรับปรุงตามเวลาและการรับรู้ตนเอง

นอกเหนือจากความถูกต้องเริ่มต้น เราได้ตรวจสอบความสามารถของ LLM ในการปรับปรุงการตอบสนองเมื่อเวลาผ่านไปและการรับรู้ตนเองถึงความถูกต้อง ซึ่งเกี่ยวข้องกับการประเมินว่าโมเดลตอบสนองต่อคำตอบที่ไม่เหมาะสมที่ให้ไว้ในตอนแรกอย่างไร และพวกเขาสามารถระบุและแก้ไขข้อผิดพลาดเมื่อได้รับแจ้งหรือไม่

การตอบสนองที่ดีขึ้นเมื่อเวลาผ่านไป

การวิเคราะห์พบว่า LLM แสดงให้เห็นถึงการปรับปรุงตามเวลา เมื่อนำเสนอด้วยการตอบสนองที่ไม่เหมาะสมในตอนแรก BARD และ ChatGPT-3.5 ปรับปรุงขึ้น 67% (6/9 และ 4/6 ตามลำดับ) ในขณะที่ ChatGPT-4.0 ทำได้ดีอย่างสมบูรณ์แบบ 100% (2/2) สิ่งนี้ชี้ให้เห็นว่า LLM เรียนรู้จากการโต้ตอบและข้อเสนอแนะของผู้ใช้ ซึ่งนำไปสู่ข้อมูลที่ถูกต้องและน่าเชื่อถือมากขึ้นเมื่อเวลาผ่านไป

การรับรู้ตนเองถึงความถูกต้อง

เรายังตรวจสอบความสามารถของ LLM ในการรับรู้ถึงความถูกต้องของการตอบสนองของพวกเขา BARD และ ChatGPT-4.0 มีประสิทธิภาพเหนือกว่า ChatGPT-3.5 ในด้านนี้ โดยแสดงให้เห็นถึงการรับรู้ตนเองที่ดีขึ้นเกี่ยวกับความถูกต้องของข้อมูลที่พวกเขาให้ คุณสมบัตินี้มีค่าอย่างยิ่งในบริบททางการแพทย์ ซึ่งข้อมูลที่ไม่ถูกต้องอาจมีผลร้ายแรง

ประสิทธิภาพของ ERNIE ในภาษาจีน

การวิเคราะห์ข้อความแจ้งภาษาจีนเผยให้เห็นว่า ERNIE มีความโดดเด่นในการปรับปรุงตามเวลาและการรับรู้ตนเองถึงความถูกต้อง สิ่งนี้บ่งชี้ว่า ERNIE เหมาะสมอย่างยิ่งสำหรับการให้ข้อมูลที่ถูกต้องและเชื่อถือได้แก่ผู้ใช้ที่พูดภาษาจีนซึ่งกำลังมองหาคำแนะนำในการป้องกัน CVD

การประเมิน Chatbot LLM ที่ครอบคลุม

เพื่อให้มั่นใจถึงการประเมินที่ครอบคลุมซึ่งรวมถึง LLM-chatbots ทั่วไปและเป็นที่นิยม การศึกษาครั้งนี้จึงรวมถึงโมเดลที่โดดเด่นสี่รุ่น: ChatGPT-3.5 และ ChatGPT-4.0 โดย OpenAI, BARD โดย Google และ ERNIE โดย Baidu การประเมินข้อความแจ้งภาษาอังกฤษเกี่ยวข้องกับ ChatGPT 3.5, ChatGPT 4 และ BARD สำหรับข้อความแจ้งภาษาจีน การประเมินเกี่ยวข้องกับ ChatGPT 3.5, ChatGPT 4 และ ERNIE โมเดลเหล่านี้ถูกใช้กับการกำหนดค่าเริ่มต้นและการตั้งค่าอุณหภูมิ โดยไม่มีการปรับพารามิเตอร์เหล่านี้ระหว่างการวิเคราะห์

การสร้างคำถามและการประเมินการตอบสนองของ Chatbot

American College of Cardiology และ American Heart Association ให้แนวทางและคำแนะนำสำหรับการป้องกัน CVD ซึ่งครอบคลุมข้อมูลเกี่ยวกับปัจจัยเสี่ยง การทดสอบวินิจฉัย และตัวเลือกการรักษา ตลอดจนการให้ความรู้แก่ผู้ป่วยและกลยุทธ์การดูแลตนเอง นักหัวใจวิทยาที่มีประสบการณ์สองคนสร้างคำถามที่เกี่ยวข้องกับการป้องกัน CVD โดยจัดกรอบคำถามในลักษณะเดียวกับที่ผู้ป่วยจะสอบถามกับแพทย์เพื่อให้มั่นใจถึงความเกี่ยวข้องและความเข้าใจจากมุมมองของผู้ป่วย แนวทางที่เน้นผู้ป่วยเป็นศูนย์กลางและอิงตามแนวทางนี้ให้ชุดคำถามสุดท้าย 300 ข้อที่ครอบคลุมโดเมนต่างๆ จากนั้นคำถามเหล่านี้ถูกแปลเป็นภาษาจีน ทำให้มั่นใจได้ว่ามีการใช้หน่วยวัดตามธรรมเนียมและหน่วยวัดสากลอย่างเหมาะสม

การปกปิดและการประเมินตามลำดับแบบสุ่ม

เพื่อให้แน่ใจว่าผู้ให้คะแนนไม่สามารถแยกแยะแหล่งที่มาของการตอบสนองระหว่าง LLM Chatbot ที่แตกต่างกัน คุณสมบัติเฉพาะของ chatbot ใดๆ ถูกปกปิดด้วยตนเอง การประเมินดำเนินการในลักษณะที่ปกปิดและเรียงตามลำดับแบบสุ่ม โดยมีการสลับคำตอบจาก chatbot สามตัวแบบสุ่มภายในชุดคำถาม คำตอบจาก chatbot สามตัวถูกสุ่มกำหนดให้กับ 3 รอบ ในอัตราส่วน 1:1:1 สำหรับการประเมินแบบปกปิดโดยนักหัวใจวิทยาสามคน โดยมีช่วงพัก 48 ชั่วโมงระหว่างรอบต่างๆ เพื่อลดอคติของ Recency

วิธีการประเมินความถูกต้อง

ผลลัพธ์หลักคือประสิทธิภาพในการตอบคำถามการป้องกัน CVD ขั้นต้น โดยเฉพาะอย่างยิ่ง วิธีการสองขั้นตอนถูกใช้เพื่อประเมินการตอบสนอง ในขั้นตอนแรก คณะนักหัวใจวิทยาทบทวนการตอบสนองที่สร้างโดย LLM Chatbot ทั้งหมดและให้คะแนนว่าเป็น "เหมาะสม" "เส้นเขตแดน" หรือ "ไม่เหมาะสม" ซึ่งสัมพันธ์กับฉันทามติและแนวทางของผู้เชี่ยวชาญ ในขั้นตอนที่สอง วิธีการฉันทามติส่วนใหญ่ถูกนำมาใช้ โดยที่การให้คะแนนขั้นสุดท้ายสำหรับการตอบสนองของ chatbot แต่ละครั้งขึ้นอยู่กับการให้คะแนนที่พบบ่อยที่สุดในบรรดาผู้ให้คะแนนทั้งสาม ในสถานการณ์ที่ไม่สามารถบรรลุฉันทามติส่วนใหญ่ระหว่างผู้ให้คะแนนทั้งสามได้ นักหัวใจวิทยาอาวุโสจะได้รับการปรึกษาเพื่อให้การให้คะแนนเสร็จสมบูรณ์

การวิเคราะห์ข้อค้นพบหลัก

ข้อมูลเผยให้เห็นว่า LLM-chatbot โดยทั่วไปทำงานได้ดีกว่าด้วยข้อความแจ้งภาษาอังกฤษมากกว่าข้อความแจ้งภาษาจีน โดยเฉพาะอย่างยิ่ง สำหรับข้อความแจ้งภาษาอังกฤษ BARD, ChatGPT-3.5 และ ChatGPT-4.0 แสดงให้เห็นถึงคะแนนรวมที่คล้ายกัน เมื่อเปรียบเทียบสัดส่วนของการให้คะแนน 'เหมาะสม' ChatGPT-4.0 มีเปอร์เซ็นต์ที่สูงกว่าอย่างเห็นได้ชัดเมื่อเทียบกับ ChatGPT-3.5 และ Google Bard สำหรับข้อความแจ้งภาษาจีน ChatGPT3.5 มีคะแนนรวมที่สูงกว่า ตามด้วย ChatGPT-4.0 และ Ernie อย่างไรก็ตาม ความแตกต่างไม่มีนัยสำคัญทางสถิติ ในทำนองเดียวกัน ChatGPT-3.5 มีสัดส่วน 'การให้คะแนนที่เหมาะสม' ที่สูงกว่าสำหรับข้อความแจ้งภาษาจีน เมื่อเทียบกับ ChatGPT-4.0 และ ERNIE แต่ความแตกต่างไม่มีนัยสำคัญทางสถิติ

ประสิทธิภาพในโดเมนการป้องกัน CVD

การวิเคราะห์มุ่งเน้นไปที่การให้คะแนน "เหมาะสม" ในโดเมนการป้องกัน CVD ที่แตกต่างกัน เป็นที่น่าสังเกตว่า ChatGPT-4.0 ทำงานได้ดีอย่างสม่ำเสมอในเกือบทุกโดเมน โดยมีการให้คะแนนสูงเป็นพิเศษในโดเมน "Dyslipidemia" "ไลฟ์สไตล์" "Biomarker และการอักเสบ" และ "DM และ CKD" อย่างไรก็ตาม BARD แสดงให้เห็นถึงประสิทธิภาพที่ไม่เหมาะสมเมื่อเทียบกับ ChatGPT4.0 และ ChatGPT-3.5 โดยเฉพาะอย่างยิ่งในโดเมน "ไลฟ์สไตล์" ข้อค้นพบเน้นย้ำว่า LLM-Chatbot ทั้งสามตัวทำงานได้ดีในโดเมน "ไลฟ์สไตล์" โดยมีการให้คะแนน "เหมาะสม" 100% (ตารางเสริม S6) อย่างไรก็ตาม พบความผันแปรในประสิทธิภาพในโดเมนอื่นๆ โดยที่บางรุ่นแสดงให้เห็นถึงประสิทธิภาพที่มากขึ้นในโดเมนการป้องกันเฉพาะ

ผลกระทบต่อความรู้ด้านสุขภาพ

ข้อค้นพบของการศึกษามีผลกระทบที่สำคัญต่อความพยายามในการปรับปรุงความรู้ด้านสุขภาพหัวใจและหลอดเลือด ในขณะที่บุคคลหันไปใช้แหล่งข้อมูลออนไลน์เพื่อรับข้อมูลทางการแพทย์ LLM มากขึ้น มีศักยภาพในการเป็นเครื่องมือที่มีค่าสำหรับการเพิ่มความเข้าใจในการป้องกัน CVD การให้ข้อมูลที่ถูกต้องและเข้าถึงได้ LLM สามารถเชื่อมช่องว่างในความรู้และช่วยให้บุคคลตัดสินใจอย่างมีข้อมูลเกี่ยวกับสุขภาพของตนเอง

ความเหลื่อมล้ำในประสิทธิภาพ

การศึกษายังเผยให้เห็นถึงความเหลื่อมล้ำที่สำคัญในประสิทธิภาพของ LLM ในภาษาที่แตกต่างกัน ข้อค้นพบที่ว่า LLM โดยทั่วไปทำงานได้ดีกว่าด้วยข้อความแจ้งภาษาอังกฤษมากกว่าข้อความแจ้งภาษาจีนเน้นถึงศักยภาพสำหรับอคติทางภาษาในโมเดลเหล่านี้ การแก้ไขปัญหานี้เป็นสิ่งสำคัญเพื่อให้แน่ใจว่า LLM ให้การเข้าถึงข้อมูลทางการแพทย์ที่ถูกต้องอย่างเท่าเทียมกันสำหรับทุกคน โดยไม่คำนึงถึงภาษาแม่ของพวกเขา

บทบาทของ Model เฉพาะภาษา

การวิเคราะห์ประสิทธิภาพของ ERNIE ในภาษาจีนให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับบทบาทของ LLM เฉพาะภาษา จุดแข็งของ ERNIE ในการปรับปรุงตามเวลาและการรับรู้ตนเองถึงความถูกต้องชี้ให้เห็นว่า Model ที่ปรับให้เหมาะกับภาษาเฉพาะสามารถแก้ไขความแตกต่างทางภาษาและบริบททางวัฒนธรรมได้อย่างมีประสิทธิภาพ การพัฒนาและการปรับแต่ง LLM เฉพาะภาษาเพิ่มเติมอาจมีความสำคัญต่อการเพิ่มประสิทธิภาพการส่งข้อมูลทางการแพทย์ไปยังประชากรที่หลากหลาย

ข้อจำกัดและทิศทางในอนาคต

ในขณะที่การศึกษาครั้งนี้ให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับความสามารถของ LLM ในการแก้ไขข้อสงสัยเกี่ยวกับการป้องกัน CVD สิ่งสำคัญคือต้องรับทราบข้อจำกัดบางประการ คำถามที่ใช้แสดงถึงส่วนเล็กๆ ของคำถามในแง่ของการป้องกัน CVD ความสามารถในการสรุปผลเป็นไปตามผลกระทบของการตอบสนองแบบสุ่ม นอกจากนี้ วิวัฒนาการอย่างรวดเร็วของ LLM ต้องการการวิจัยอย่างต่อเนื่องเพื่อรองรับการวนซ้ำที่อัปเดตและ Model ที่เกิดขึ้นใหม่ การศึกษาในอนาคตควรขยายขอบเขตของคำถาม สำรวจผลกระทบของรูปแบบการโต้ตอบที่แตกต่างกันกับ LLM และตรวจสอบข้อพิจารณาด้านจริยธรรมที่เกี่ยวข้องกับการใช้งานในบริบททางการแพทย์

สรุป

โดยสรุป ข้อค้นพบเหล่านี้ตอกย้ำถึงสัญญาของ LLM ในฐานะเครื่องมือสำหรับการเพิ่มความเข้าใจของสาธารณชนเกี่ยวกับสุขภาพหัวใจและหลอดเลือด ในขณะเดียวกันก็เน้นย้ำถึงความจำเป็นในการประเมินอย่างรอบคอบและการปรับปรุงอย่างต่อเนื่องเพื่อให้มั่นใจถึงความถูกต้อง ความเป็นธรรม และการเผยแพร่ข้อมูลทางการแพทย์อย่างมีความรับผิดชอบ เส้นทางข้างหน้าเกี่ยวข้องกับการประเมินเปรียบเทียบอย่างต่อเนื่อง การแก้ไขอคติทางภาษา และการใช้ประโยชน์จากจุดแข็งของ Model เฉพาะภาษาเพื่อส่งเสริมการเข้าถึงอย่างเท่าเทียมกันเพื่อแนวทางการป้องกัน