AI กับการศึกษาแพทย์: ประเมิน LLM ใน TUS

บทนำ

ความก้าวหน้าทางเทคโนโลยี เช่น ปัญญาประดิษฐ์ (AI) และแบบจำลองภาษาขนาดใหญ่ (LLM) ได้นำมาซึ่งการเปลี่ยนแปลงที่มีศักยภาพในการศึกษาทางการแพทย์และวิธีการประเมินความรู้ โดยเฉพาะอย่างยิ่ง ความก้าวหน้าเหล่านี้สามารถทำให้ข้อมูลทางการแพทย์เข้าถึงได้ง่ายขึ้น และทำให้การประเมินมีความโต้ตอบมากขึ้น

งานวิจัยก่อนหน้านี้ได้สำรวจประสิทธิภาพของ LLM ในการสอบใบอนุญาตทางการแพทย์ต่างๆ เช่น USMLE และ JMLE แต่การสอบเหล่านี้มีความแตกต่างอย่างมีนัยสำคัญจาก TUS ในด้านโครงสร้างและเนื้อหา TUS มุ่งเน้นไปที่วิทยาศาสตร์พื้นฐานและวิทยาศาสตร์คลินิก โดยให้ความสนใจเป็นพิเศษกับบริบททางการแพทย์ของตุรกี ซึ่งเป็นโอกาสพิเศษในการประเมินความสามารถของ LLM ในสภาพแวดล้อมการประเมินที่ไม่เหมือนใคร การศึกษาครั้งนี้มีเป้าหมายเพื่อเติมเต็มช่องว่างนี้โดยการประเมินประสิทธิภาพของ LLM ชั้นนำสี่รายการใน TUS นอกจากนี้ การศึกษาครั้งนี้ยังสำรวจผลกระทบที่อาจเกิดขึ้นจากผลการวิจัยเหล่านี้ต่อการออกแบบหลักสูตร การฝึกอบรมทางการแพทย์โดยใช้ AI และอนาคตของการประเมินทางการแพทย์ในตุรกี โดยเฉพาะอย่างยิ่ง เราตรวจสอบว่าประสิทธิภาพของ LLM สามารถให้ข้อมูลในการพัฒนาทรัพยากรทางการศึกษาและกลยุทธ์การประเมินที่มีประสิทธิภาพมากขึ้นซึ่งปรับให้เหมาะกับหลักสูตรทางการแพทย์ของตุรกีได้อย่างไร การตรวจสอบนี้ไม่เพียงแต่ช่วยให้เข้าใจประสิทธิภาพของภาษาเฉพาะเท่านั้น แต่ยังมีส่วนช่วยในการอภิปรายในวงกว้างเกี่ยวกับวิธีการบูรณาการ AI เข้ากับการศึกษาและการประเมินทางการแพทย์ทั่วโลกอย่างมีประสิทธิภาพ

ผลการวิจัยเหล่านี้บ่งชี้ว่า ChatGPT และ LLM ที่คล้ายกันสามารถมีบทบาทสำคัญในการศึกษาทางการแพทย์และกระบวนการประเมินความรู้ AI และ LLM ในการสืบค้นข้อมูลทางการแพทย์และวิธีการประเมินสามารถทำให้เกิดวิธีการที่เป็นนวัตกรรมและวิธีการเรียนรู้ โดยเฉพาะอย่างยิ่งในการศึกษาทางการแพทย์ การศึกษาครั้งนี้มีจุดมุ่งหมายเพื่อตรวจสอบเพิ่มเติมเกี่ยวกับผลกระทบของ LLM ต่อการศึกษาทางการแพทย์และการประเมินความรู้โดยการประเมินประสิทธิภาพของ ChatGPT 4, Gemini 1.5 Pro และ Cohere-Command R+ ในการสอบเข้าฝึกอบรมเฉพาะทางทางการแพทย์ของตุรกี

การศึกษาครั้งนี้สำรวจการประยุกต์ใช้แบบจำลองปัญญาประดิษฐ์ (AI) ขั้นสูง โดยเฉพาะอย่างยิ่ง ChatGPT 4, Gemini 1.5 Pro, Command R+ และ Llama 3 70B ในการศึกษาและการประเมินทางการแพทย์ โดยมุ่งเน้นที่ประสิทธิภาพในการแก้ปัญหาการสอบเฉพาะทางทางการแพทย์ การศึกษาประเมินความสามารถของแบบจำลองเหล่านี้ในการวิเคราะห์ปัญหาการสอบเข้าฝึกอบรมเฉพาะทางทางการแพทย์ของตุรกีอย่างครอบคลุมและเป็นระบบ โดยเน้นย้ำถึงศักยภาพของ AI ในทางการแพทย์เมื่อพิจารณาถึงปัจจัยต่างๆ เช่น ความสามารถในการตีความและความถูกต้อง ผลการวิจัยบ่งชี้ว่าแบบจำลอง AI สามารถส่งเสริมกระบวนการศึกษาและการประเมินทางการแพทย์ได้อย่างมีนัยสำคัญ เปิดทางให้กับการใช้งานใหม่และขอบเขตการวิจัย วัตถุประสงค์หลักของบทความนี้คือการประเมินความก้าวหน้าอย่างรวดเร็วของเทคโนโลยี AI และเปรียบเทียบความสามารถในการตอบสนองของแบบจำลอง AI ที่แตกต่างกัน การศึกษาได้ดำเนินการวิเคราะห์เปรียบเทียบ ChatGPT 4, Gemini 1.5 Pro, Command R+ และ Llama 3 70B โดยประเมินประสิทธิภาพในการตอบคำถาม 240 ข้อจากการสอบเข้าฝึกอบรมเฉพาะทางทางการแพทย์ของตุรกีภาคการศึกษาที่ 1 ปี 2021

การเปรียบเทียบนี้มีจุดมุ่งหมายเพื่อชี้ให้เห็นถึงวิถีการพัฒนาและความแตกต่างของเทคโนโลยี AI โดยเน้นที่ประโยชน์ใช้สอยในด้านเฉพาะทาง เช่น การศึกษาทางการแพทย์และการเตรียมสอบ เป้าหมายสูงสุดคือการให้ข้อมูลเชิงลึกเพื่อช่วยให้ผู้ใช้เลือกเครื่องมือการเรียนรู้ที่เหมาะสมที่สุดสำหรับความต้องการเฉพาะของตน

วิธีการ

คำถามเหล่านี้ถูกถามเป็นภาษาตุรกีไปยัง LLM คำถามเหล่านี้ได้มาจากเว็บไซต์ทางการของศูนย์คัดเลือกและจัดหานักศึกษา โดยใช้รูปแบบคำถามแบบเลือกตอบ (มีห้าตัวเลือก A ถึง E) โดยมีคำตอบที่ดีที่สุดเพียงข้อเดียว คำตอบถูกจัดทำโดย LLM เป็นภาษาตุรกี

กระบวนการประเมินขึ้นอยู่กับคำตอบที่ถูกต้องที่เผยแพร่โดยศูนย์คัดเลือกและจัดหานักศึกษา บทความกล่าวถึง: ‘คำตอบที่ ‘ถูกต้อง’ สำหรับคำถามของแบบจำลองปัญญาประดิษฐ์ถูกกำหนดตามคำตอบที่เผยแพร่โดยศูนย์คัดเลือกและจัดหานักศึกษา เฉพาะคำตอบที่ระบุว่าถูกต้องตามคำแนะนำในข้อความคำถามเท่านั้นที่จะได้รับการยอมรับว่า ‘ถูกต้อง’ เนื่องจากคำถามและคำตอบเป็นภาษาตุรกีทั้งหมด กระบวนการประเมินเกี่ยวข้องกับการเปรียบเทียบคำตอบภาษาตุรกีของ LLM กับรหัสคำตอบภาษาตุรกีอย่างเป็นทางการที่จัดทำโดยศูนย์คัดเลือกและจัดหานักศึกษา

ชุดข้อมูลการศึกษาทางการแพทย์

การศึกษาครั้งนี้ใช้ ChatGPT 4, Gemini 1.5 Pro, Command R+ และ Llama 3 70B เพื่อทดสอบความสามารถของแบบจำลองปัญญาประดิษฐ์ในการประเมินความรู้ทางการแพทย์และกรณีศึกษา การศึกษาดำเนินการกับคำถามจากการสอบเข้าฝึกอบรมเฉพาะทางทางการแพทย์ของตุรกีที่จัดขึ้นเมื่อวันที่ 21 มีนาคม 2021 การสอบเข้าฝึกอบรมเฉพาะทางทางการแพทย์ของตุรกีเป็นการสอบที่จัดโดยศูนย์คัดเลือกและจัดหานักศึกษา ประกอบด้วยคำถาม 240 ข้อ คำถามความรู้พื้นฐานในประเภทแรกทดสอบความรู้และจริยธรรมที่จำเป็นสำหรับการสำเร็จการศึกษาทางการแพทย์ ประเภทที่สองคือคำถามกรณีศึกษา ครอบคลุมโรคต่างๆ มากมายที่วัดความคิดเชิงวิเคราะห์และความสามารถในการให้เหตุผล

การจำแนกประเภทความยากของคำถาม

ระดับความยากของคำถามถูกจำแนกตามข้อมูลประสิทธิภาพของผู้สอบอย่างเป็นทางการที่เผยแพร่โดยศูนย์คัดเลือกและจัดหานักศึกษา โดยเฉพาะอย่างยิ่ง อัตราคำตอบที่ถูกต้องสำหรับแต่ละคำถามที่ศูนย์รายงานถูกใช้เพื่อแบ่งคำถามออกเป็นห้าระดับความยาก:

  • ระดับ 1 (ง่ายที่สุด): คำถามที่มีอัตราคำตอบที่ถูกต้อง 80% ขึ้นไป
  • ระดับ 2: คำถามที่มีอัตราคำตอบที่ถูกต้องระหว่าง 60% ถึง 79.9%
  • ระดับ 3 (ปานกลาง): คำถามที่มีอัตราคำตอบที่ถูกต้องระหว่าง 40% ถึง 59.9%
  • ระดับ 4: คำถามที่มีอัตราคำตอบที่ถูกต้องระหว่าง 20% ถึง 39.9%
  • ระดับ 5 (ยากที่สุด): คำถามที่มีอัตราคำตอบที่ถูกต้อง 19.9% หรือน้อยกว่า

คำตอบที่ ‘ถูกต้อง’ สำหรับคำถามของแบบจำลองปัญญาประดิษฐ์ถูกกำหนดตามคำตอบที่เผยแพร่โดยศูนย์คัดเลือกและจัดหานักศึกษา เฉพาะคำตอบที่ระบุว่าถูกต้องตามคำแนะนำในข้อความคำถามเท่านั้นที่จะได้รับการยอมรับว่า ‘ถูกต้อง’ นอกจากนี้ ระดับความยากของแต่ละคำถามยังถูกจัดประเภทเป็นระดับ 1 ถึง 5 ตามอัตราคำตอบที่ถูกต้องที่เผยแพร่โดยศูนย์คัดเลือกและจัดหานักศึกษา คำถามที่มีอัตราคำตอบที่ถูกต้อง 80% ขึ้นไปถือว่าง่ายที่สุด (ระดับ 1) ในขณะที่คำถามที่มีอัตราคำตอบที่ถูกต้อง 19.9% หรือน้อยกว่าถือว่ายากที่สุด (ระดับ 5)

สาขาความรู้และกรณีศึกษา

การสอบเข้าฝึกอบรมเฉพาะทางทางการแพทย์ของตุรกีเป็นขั้นตอนสำคัญสำหรับผู้สำเร็จการศึกษาทางการแพทย์ในตุรกีที่ต้องการความเชี่ยวชาญ โดยประเมินผู้สอบในด้านความรู้และกรณีศึกษาที่สำคัญสองด้าน การทำความเข้าใจความแตกต่างระหว่างสาขาเหล่านี้เป็นสิ่งสำคัญยิ่งสำหรับการเตรียมตัวอย่างเพียงพอ สาขาความรู้อยู่ที่การประเมินความเข้าใจเชิงทฤษฎีและความรู้ข้อเท็จจริงของผู้สอบภายในสาขาการแพทย์ที่เลือก ทดสอบความเข้าใจในแนวคิดและหลักการพื้นฐาน และสร้างข้อมูลทางการแพทย์ที่เกี่ยวข้องกับความเชี่ยวชาญ แสดงถึงสาขาความรู้ทางการแพทย์เฉพาะที่กำลังทดสอบ เช่น วิทยาศาสตร์การแพทย์พื้นฐาน (กายวิภาคศาสตร์ ชีวเคมี สรีรวิทยา ฯลฯ) และวิทยาศาสตร์คลินิก (อายุรศาสตร์ ศัลยศาสตร์ กุมารเวชศาสตร์ ฯลฯ) สาขากรณีศึกษา ในทางกลับกัน แสดงถึงสถานการณ์หรือสถานการณ์ในชีวิตจริงที่ใช้ความรู้ เช่น การแก้ปัญหา ความคิดเชิงวิเคราะห์ ความคิดเชิงวิพากษ์ การตัดสินใจ และการนำแนวคิดไปใช้ในสถานการณ์จริง

การออกแบบข้อความแจ้ง

การออกแบบข้อความแจ้งคือการออกแบบและปรับแต่งข้อความแจ้งภาษาธรรมชาติเพื่อรับการตอบสนองที่เฉพาะเจาะจงจากแบบจำลองภาษาหรือระบบ AI ในเดือนเมษายน 2024 เราได้รวบรวมการตอบสนองโดยการสอบถามแบบจำลองภาษาโดยตรงผ่านทางอินเทอร์เฟซเว็บของแต่ละแบบจำลอง

เพื่อให้มั่นใจถึงการประเมินความสามารถดั้งเดิมของแต่ละแบบจำลองอย่างยุติธรรม มีการควบคุมวิธีการที่เข้มงวดในการนำเสนอคำถามไปยัง LLM แต่ละคำถามถูกป้อนแยกกัน และเซสชันถูกรีเซ็ตก่อนที่จะถามคำถามใหม่ เพื่อป้องกันไม่ให้แบบจำลองเรียนรู้หรือปรับตัวตามการโต้ตอบก่อนหน้านี้

การวิเคราะห์ข้อมูล

การวิเคราะห์ทั้งหมดดำเนินการโดยใช้ซอฟต์แวร์ Microsoft Office Excel และ Python เพื่อเปรียบเทียบประสิทธิภาพของ LLM ในความยากของคำถามที่แตกต่างกัน มีการทดสอบไคสแควร์แบบไม่มีคู่ ค่า p-value ที่มีเกณฑ์ p < 0.05 ถูกใช้เพื่อกำหนดความสำคัญทางสถิติ การวิเคราะห์ประเมินว่าความถูกต้องของแบบจำลองแตกต่างกันไปตามระดับความยากของคำถามหรือไม่

ข้อพิจารณาด้านจริยธรรม

การศึกษาครั้งนี้ใช้เฉพาะข้อมูลที่เผยแพร่บนอินเทอร์เน็ตเท่านั้น และไม่เกี่ยวข้องกับผู้เข้าร่วมที่เป็นมนุษย์ ดังนั้นจึงไม่จำเป็นต้องได้รับการอนุมัติจากคณะกรรมการจริยธรรมของมหาวิทยาลัย Baskent

ผลลัพธ์

จำนวนคำตอบที่ถูกต้องโดยเฉลี่ยของผู้เข้าร่วมในการสอบวิทยาศาสตร์การแพทย์พื้นฐานภาคการศึกษาที่ 1 ปี 2021 คือ 51.63 จำนวนคำตอบที่ถูกต้องโดยเฉลี่ยสำหรับการสอบวิทยาศาสตร์การแพทย์คลินิกคือ 63.95 จำนวนคำตอบที่ถูกต้องโดยเฉลี่ยสำหรับการสอบวิทยาศาสตร์การแพทย์คลินิกสูงกว่าการสอบวิทยาศาสตร์การแพทย์พื้นฐาน ควบคู่ไปกับสถานการณ์นี้ เทคโนโลยีปัญญาประดิษฐ์ประสบความสำเร็จในการตอบคำถามในการสอบวิทยาศาสตร์การแพทย์คลินิกมากขึ้นเช่นกัน

ประสิทธิภาพของ AI

ประสิทธิภาพของแพลตฟอร์ม AI ถูกประเมินโดยใช้ตัวชี้วัดเดียวกันกับผู้สอบที่เป็นมนุษย์

  • ChatGPT 4:

    ChatGPT 4 ได้คะแนนเฉลี่ย 103 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์พื้นฐาน และ 110 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์คลินิก ซึ่งแสดงถึงความถูกต้องโดยรวม 88.75% ซึ่งดีกว่าผู้สอบที่เป็นมนุษย์โดยเฉลี่ยในทั้งสองส่วนอย่างมีนัยสำคัญ (p < 0.001)

  • Llama 3 70B:

    Llama 3 70B ได้คะแนนเฉลี่ย 95 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์พื้นฐาน และ 95 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์คลินิก ซึ่งแสดงถึงความถูกต้องโดยรวม 79.17% ซึ่งสูงกว่าประสิทธิภาพของมนุษย์โดยเฉลี่ยอย่างมีนัยสำคัญ (p < 0.01)

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro ได้คะแนนเฉลี่ย 94 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์พื้นฐาน และ 93 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์คลินิก ซึ่งแสดงถึงความถูกต้องโดยรวม 78.13% ซึ่งสูงกว่าประสิทธิภาพของมนุษย์โดยเฉลี่ยอย่างมีนัยสำคัญ (p < 0.01)

  • Command R+:

    Command R+ ได้คะแนนเฉลี่ย 60 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์พื้นฐาน และ 60 คำตอบที่ถูกต้องในส่วนวิทยาศาสตร์การแพทย์คลินิก ซึ่งแสดงถึงความถูกต้องโดยรวม 50% ซึ่งไม่มีความแตกต่างอย่างมีนัยสำคัญจากประสิทธิภาพของมนุษย์โดยเฉลี่ยในส่วนวิทยาศาสตร์การแพทย์พื้นฐาน (p = 0.12) แต่ต่ำกว่าอย่างมีนัยสำคัญในส่วนวิทยาศาสตร์การแพทย์คลินิก (p < 0.05)

ประสิทธิภาพของแพลตฟอร์ม AI ถูกประเมินโดยใช้ตัวชี้วัดเดียวกันกับผู้สอบที่เป็นมนุษย์

รูปที่ 3 เปรียบเทียบความถูกต้องของ LLM ที่แตกต่างกันตามความยากของคำถาม - ChatGPT 4: แบบจำลองที่มีประสิทธิภาพดีที่สุด ความถูกต้องเพิ่มขึ้นเมื่อความยากของคำถามเพิ่มขึ้น โดยเข้าใกล้ 70% แม้ในคำถามที่ท้าทายที่สุด - Llama 3 70B: แบบจำลองที่มีประสิทธิภาพปานกลาง ความถูกต้องเพิ่มขึ้นก่อนแล้วจึงลดลงเมื่อความยากของคำถามเพิ่มขึ้น ความถูกต้องประมาณ 25% ในคำถามที่ท้าทายที่สุด Gemini 1.5 70B: ประสิทธิภาพคล้ายกับ Llama 3 70B ความถูกต้องเพิ่มขึ้นก่อนแล้วจึงลดลงเมื่อความยากของคำถามเพิ่มขึ้น ความถูกต้องประมาณ 20% ในคำถามที่ท้าทายที่สุด Command R+: แบบจำลองที่มีประสิทธิภาพต่ำที่สุด ความถูกต้องลดลงเมื่อความยากของคำถามเพิ่มขึ้น และยังคงอยู่ที่ประมาณ 15% ในคำถามที่ท้าทายที่สุด

โดยสรุป ChatGPT 4 เป็นแบบจำลองที่ได้รับผลกระทบน้อยที่สุดจากความยากของคำถาม และมีความถูกต้องโดยรวมสูงสุด Llama 3 70B และ Gemini 1.5 Pro มีประสิทธิภาพปานกลาง ในขณะที่ Command R+ มีอัตราความสำเร็จต่ำกว่าแบบจำลองอื่นๆ ความถูกต้องของแบบจำลองลดลงเมื่อความยากของคำถามเพิ่มขึ้น ซึ่งบ่งชี้ว่า LLM ยังคงต้องการการปรับปรุงในการทำความเข้าใจและตอบคำถามที่ซับซ้อนอย่างถูกต้อง

ในตารางที่ 1 แบบจำลอง ChatGPT 4 โดดเด่นในฐานะแบบจำลองที่มีประสิทธิภาพดีที่สุดด้วยอัตราความสำเร็จ 88.75% ซึ่งบ่งชี้ว่ามีความสามารถที่แข็งแกร่งในการทำความเข้าใจและตอบคำถามอย่างถูกต้อง แบบจำลอง Llama 3 70B อยู่ในอันดับที่สองด้วยอัตราความสำเร็จ 79.17% แม้ว่าจะตามหลังแบบจำลอง ChatGPT 4 แต่ก็ยังแสดงให้เห็นถึงความเชี่ยวชาญในระดับสูงในการตอบคำถาม แบบจำลอง Gemini 1.5 Pro ตามมาอย่างใกล้ชิดด้วยอัตราความสำเร็จ 78.13% ประสิทธิภาพของมันคล้ายกับแบบจำลอง Llama 3 70B บ่งชี้ว่ามีความสามารถในการตอบคำถามที่แข็งแกร่ง ในทางกลับกัน แบบจำลอง Command R+ ตามหลังแบบจำลองอื่นๆ ด้วยอัตราความสำเร็จ 50% ซึ่งบ่งชี้ว่าอาจประสบปัญหาในคำถามบางประเภท หรือต้องมีการปรับแต่งเพิ่มเติมเพื่อปรับปรุงประสิทธิภาพ การกระจายคำตอบที่ถูกต้องในระดับความยากที่แตกต่างกัน ตัวอย่างเช่น แบบจำลองทั้งหมดมีประสิทธิภาพดีในคำถามง่ายๆ (ระดับความยาก 1) โดยแบบจำลอง ChatGPT 4 ได้คะแนนเต็ม ในคำถามที่มีความยากปานกลาง (ระดับ 2 และ 3) แบบจำลอง ChatGPT 4 และ Llama 3 70B ยังคงมีประสิทธิภาพดี

ในทางตรงกันข้าม แบบจำลอง Gemini 1.5 Pro เริ่มแสดงให้เห็นถึงจุดอ่อนบางประการ ในคำถามที่ยาก (ระดับ 4 และ 5) ประสิทธิภาพของแบบจำลองทั้งหมดลดลง โดยแบบจำลอง Command R+ ประสบปัญหามากที่สุด โดยรวมแล้ว ผลลัพธ์เหล่านี้ให้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับจุดแข็งและจุดอ่อนของแบบจำลอง AI แต่ละแบบ และสามารถให้ข้อมูลสำหรับการพัฒนาและความพยายามในการปรับปรุงในอนาคต

ในตารางที่ 3 ชีวเคมีในวิทยาศาสตร์การแพทย์พื้นฐานได้รับคะแนนเต็มจาก ChatGPT 4 ซึ่งพิสูจน์ให้เห็นถึงความสามารถที่ยอดเยี่ยมในการตอบคำถามในสาขานี้ Llama 3 70B และ Gemini 1.5 Pro ก็มีประสิทธิภาพดีเช่นกัน แต่ Command R+ มีประสิทธิภาพไม่ดีด้วยความถูกต้อง 50% แบบจำลองที่มีประสิทธิภาพดีที่สุดในเภสัชวิทยา พยาธิวิทยา และจุลชีววิทยา (ChatGPT 4 และ Llama 3 70B) แสดงให้เห็นถึงความสอดคล้องของข้อมูลที่แข็งแกร่ง โดยมีความถูกต้องระหว่าง 81% ถึง 90% Gemini 1.5 Pro และ Command R+ ตามหลัง แต่ยังคงมีประสิทธิภาพดี กายวิภาคศาสตร์และสรีรวิทยาทำให้แบบจำลองมีความท้าทายบางอย่าง ChatGPT 4 และ Meta AI-Llama 3 70B มีประสิทธิภาพดี ในขณะที่ Gemini 1.5 Pro และ Command R+ มีความถูกต้องต่ำกว่า 70% ซึ่งมีประสิทธิภาพไม่ดี

กุมารเวชศาสตร์ในวิทยาศาสตร์การแพทย์คลินิกมีความสำคัญอย่างยิ่งสำหรับแบบจำลองทั้งหมด โดย ChatGPT 4 ได้คะแนนใกล้เคียงกับคะแนนเต็ม (90%) Llama 3 70B ตามมาอย่างใกล้ชิด และแม้แต่ Command R+ ก็มีความถูกต้อง 43% อายุรศาสตร์และศัลยศาสตร์ทั่วไปมีประสิทธิภาพเหนือกว่าแบบจำลองที่ดีที่สุด โดยมีความถูกต้องระหว่าง 79% ถึง 90% Gemini 1.5 Pro และ Command R+ ตามหลัง แต่ยังคงมีประสิทธิภาพดี คำถามที่ส่งมาจากสาขาเฉพาะทาง เช่น วิสัญญีวิทยาและการกู้ชีพ เวชศาสตร์ฉุกเฉิน ประสาทวิทยา และผิวหนัง มีจำนวนน้อยกว่า แต่แบบจำลองโดยรวมมีประสิทธิภาพดี ChatGPT 4 และ Llama 3 70B แสดงให้เห็นถึงความถูกต้องที่โดดเด่นในสาขาเหล่านี้

เกี่ยวกับการเปรียบเทียบแบบจำลอง ChatGPT 4 เป็นแบบจำลองที่มีประสิทธิภาพดีที่สุดในสาขาส่วนใหญ่ โดยมีความถูกต้องโดยรวม 88.75% จุดแข็งของมันอยู่ที่ความสามารถในการตอบคำถามวิทยาศาสตร์การแพทย์พื้นฐานและคลินิกได้อย่างถูกต้อง Llama 3 70B ตามมาอย่างใกล้ชิดด้วยความถูกต้องโดยรวม 79.17% แม้ว่าจะไม่สามารถเทียบได้กับประสิทธิภาพของ ChatGPT 4 อย่างสมบูรณ์ แต่ก็ยังแสดงให้เห็นถึงความสอดคล้องของความรู้ที่แข็งแกร่งในทุกสาขา Gemini 1.5 Pro และ Command R+ ตามหลัง โดยมีความถูกต้องโดยรวม 78.13% และ 50% ตามลำดับ แม้ว่าแบบจำลองเหล่านี้จะแสดงให้เห็นถึงความหวังในบางสาขา แต่ก็ประสบปัญหาในการรักษาความสอดคล้องในทุกสาขา

กล่าวโดยย่อ ChatGPT 4 เป็นแบบจำลองที่เหมาะสมที่สุดในปัจจุบันสำหรับการตอบคำถามวิทยาศาสตร์การแพทย์ในทุกสาขา Gemini 1.5 Pro และ Command R+ แสดงให้เห็นถึงศักยภาพ แต่ต้องมีการปรับปรุงอย่างมีนัยสำคัญเพื่อให้สามารถแข่งขันกับแบบจำลองที่มีประสิทธิภาพดีที่สุดได้

ในตารางที่ 4 เกี่ยวกับสาขาความรู้ ChatGPT 4 มีความถูกต้อง 86.7% (85/98) ในสาขาวิทยาศาสตร์การแพทย์พื้นฐาน ซึ่งดีกว่าแบบจำลองอื่นๆ ChatGPT 4 มีประสิทธิภาพดีที่สุดอีกครั้ง โดยมีความถูกต้อง 89.7% (61/68) ในสาขาวิทยาศาสตร์การแพทย์คลินิก เกี่ยวกับสาขากรณีศึกษา ChatGPT 4 มีความถูกต้อง 81.8% (18/22) ในสาขาวิทยาศาสตร์การแพทย์พื้นฐาน ในสาขาวิทยาศาสตร์การแพทย์คลินิก ChatGPT 4 มีประสิทธิภาพคล้ายกัน โดยมีความถูกต้อง 94.2% (49/52)

การเปรียบเทียบแบบจำลองแบบคู่แสดงให้เห็นว่า ChatGPT 4 เหนือกว่าแบบจำลองอื่นๆ อย่างมีนัยสำคัญในทั้งสองสาขาและประเภทคำถาม Llama 3 70B และ Gemini 1.5 Pro มีประสิทธิภาพคล้ายกัน ในขณะที่ Command R+ ตามหลัง จากการวิเคราะห์นี้ เราสามารถสรุปได้ว่า ChatGPT 4 แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่นในสาขาความรู้และกรณีศึกษา และในสาขาวิทยาศาสตร์การแพทย์พื้นฐานและคลินิก

การวิเคราะห์ทางสถิติ

ประสิทธิภาพของ LLM ถูกวิเคราะห์โดยใช้ Microsoft Office Excel และ Python (เวอร์ชัน 3.10.2) เพื่อเปรียบเทียบประสิทธิภาพของแบบจำลองในระดับความยากของคำถามที่แตกต่างกัน มีการทดสอบไคสแควร์แบบไม่มีคู่ ตารางความถี่ถูกสร้างขึ้นสำหรับคำตอบที่ถูกต้องและผิดของแบบจำลอง AI แต่ละแบบตามระดับความยาก และมีการทดสอบไคสแควร์เพื่อพิจารณาว่ามีความแตกต่างอย่างมีนัยสำคัญทางสถิติในประสิทธิภาพในระดับความยากหรือไม่ มีการใช้เกณฑ์ p-value ที่ <0.05 เพื่อกำหนดความสำคัญทางสถิติ ค่า p-value สำหรับ ChatGPT 4 คือ 0.00028 และมีความสำคัญที่ p < 0.05 ซึ่งบ่งชี้ว่ามีความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพในระดับความยากที่แตกต่างกัน ค่า p-value สำหรับ Gemini 1.5 Pro คือ 0.047 และมีความสำคัญที่ p < 0.05 ซึ่งบ่งชี้ว่ามีความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพในระดับความยากที่แตกต่างกัน ค่า p-value สำหรับ Command R+ คือ 0.197 และไม่มีความสำคัญที่ p < 0.05 ซึ่งบ่งชี้ว่าไม่มีความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพในระดับความยากที่แตกต่างกัน ค่า p-value สำหรับ Llama 3 70B: 0.118, p-value: 0.118 และไม่มีความสำคัญที่ p < 0.05 ซึ่งบ่งชี้ว่าไม่มีความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพในระดับความยากที่แตกต่างกัน

ความถูกต้องของ ChatGPT 4 และ Gemini 1.5 Pro ในความยากของคำถามที่แตกต่างกันแสดงให้เห็นถึงความแตกต่างอย่างมีนัยสำคัญทางสถิติ ซึ่งบ่งชี้ว่าประสิทธิภาพของแบบจำลองเหล่านี้แตกต่างกันอย่างมากเมื่อความยากของคำถามแตกต่างกัน Command R+ และ Llama 3 70B ไม่แสดงให้เห็นถึงความแตกต่างอย่างมีนัยสำคัญในประสิทธิภาพในระดับความยาก ซึ่งบ่งชี้ว่าประสิทธิภาพมีความสอดคล้องกันมากขึ้นโดยไม่คำนึงถึงความยากของคำถาม ผลลัพธ์เหล่านี้อาจบ่งชี้ว่าแบบจำลองที่แตกต่างกันมีความแข็งแกร่งและจุดอ่อนที่แตกต่างกันในการจัดการกับความซับซ้อนและหัวข้อที่เกี่ยวข้องกับความยากที่แตกต่างกัน

อภิปราย

TUS เป็นการสอบระดับชาติที่สำคัญสำหรับผู้สำเร็จการศึกษาทางการแพทย์ในตุรกีที่ต้องการการฝึกอบรมเฉพาะทาง การสอบประกอบด้วยคำถามแบบเลือกตอบที่ครอบคลุมวิทยาศาสตร์พื้นฐานและคลินิก และมีระบบการจัดอันดับแบบรวมศูนย์ที่กำหนดอันดับสำหรับหลักสูตรเฉพาะทาง

ในการประเมินประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ใน TUS GPT-4 เป็นแบบจำลองที่มีประสิทธิภาพดีที่สุด ในทำนองเดียวกัน ChatGPT เป็นแบบจำลอง AI ที่ทรงพลัง ซึ่งแสดงให้เห็นถึงประสิทธิภาพที่ใกล้เคียงหรือสูงกว่าระดับมนุษย์ในสาขาศัลยศาสตร์ โดยตอบคำถามแบบเลือกตอบ SCORE และ Data-B ได้อย่างถูกต้อง 71% และ 68% ตามลำดับ นอกจากนี้ ChatGPT ยังมีประสิทธิภาพที่โดดเด่นในการสอบสาธารณสุข โดยมีอัตราการสอบผ่านสูงกว่าปัจจุบัน และให้ข้อมูลเชิงลึกที่เป็นเอกลักษณ์ ผลการวิจัยเหล่านี้เน้นย้ำถึงประสิทธิภาพที่โดดเด่นของ GPT-4 และ ChatGPT ในการประเมินทางการแพทย์ แสดงให้เห็นถึงศักยภาพในการเสริมสร้างการศึกษาทางการแพทย์และความช่วยเหลือในการวินิจฉัย

สำหรับนักการศึกษาทางการแพทย์และผู้ตรวจสอบ ความถูกต้องที่เพิ่มขึ้นของ LLM ทำให้เกิดคำถามสำคัญเกี่ยวกับการออกแบบการสอบและการประเมิน หากแบบจำลอง AI สามารถแก้ปัญหาการสอบทางการแพทย์ที่เป็นมาตรฐานด้วยความแม่นยำสูง การประเมินในอนาคตอาจต้องรวมคำถามที่ต้องใช้การให้เหตุผลระดับสูงและการตัดสินใจทางคลินิกที่เกินกว่าการจำง่ายๆ นอกจากนี้ สถาบันการแพทย์ของตุรกียังสามารถสำรวจกลยุทธ์การศึกษาที่ขับเคลื่อนด้วย AI เช่น ระบบการเรียนรู้แบบปรับตัวที่ปรับแต่งสื่อการเรียนรู้ตามความต้องการส่วนบุคคลของนักเรียน

จากมุมมองระดับชาติ การศึกษาครั้งนี้เน้นย้ำถึงความสำคัญที่เพิ่มขึ้นของ AI ในการศึกษาทางการแพทย์ของตุรกี เนื่องจาก LLM เหล่านี้มีประสิทธิภาพดีในการตั้งคำถามทางการแพทย์ในภาษาตุรกี จึงสามารถลดช่องว่างในการเข้าถึงทรัพยากรการศึกษาที่มีคุณภาพสำหรับนักเรียนในพื้นที่ที่ด้อยโอกาส นอกจากนี้ ผู้กำหนดนโยบายควรพิจารณาว่าจะรวมแบบจำลอง AI เข้ากับการศึกษาต่อเนื่องทางการแพทย์และโครงการการเรียนรู้ตลอดชีวิตสำหรับผู้เชี่ยวชาญด้านการดูแลสุขภาพของตุรกีได้อย่างไร

โดยสรุป แม้ว่าแบบจำลอง AI เช่น ChatGPT-4 จะแสดงให้เห็นถึงความถูกต้องที่ยอดเยี่ยม แต่บทบาทในการศึกษาทางการแพทย์ควรได้รับการประเมินอย่างรอบคอบ ประโยชน์ที่อาจเกิดขึ้นของการเรียนรู้ที่ขับเคลื่อนด้วย AI มีมากมาย แต่การดำเนินการที่ถูกต้องจำเป็นต้องตรวจสอบให้แน่ใจว่าเครื่องมือเหล่านี้ถูกใช้อย่างมีความรับผิดชอบ มีจริยธรรม และร่วมกับความเชี่ยวชาญของมนุษย์

ข้อจำกัด

แม้ว่าการศึกษาครั้งนี้จะให้ข้อมูลเชิงลึกอันมีค่าเกี่ยวกับประสิทธิภาพของแบบจำลองภาษาขนาดใหญ่ (LLM) ในการสอบเข้าฝึกอบรมเฉพาะทางทางการแพทย์ของตุรกี (TUS) แต่จำเป็นต้องรับทราบข้อจำกัดที่สำคัญหลายประการเพื่อให้ผลการวิจัยมีความเกี่ยวข้องและเป็นแนวทางในการวิจัยในอนาคต ประการแรก ยังไม่มีความแน่นอนว่าข้อมูลการฝึกอบรมของแบบจำลอง AI ที่ประเมินในการศึกษาครั้งนี้มีคำถาม TUS หรือไม่ เนื่องจากคำถาม TUS ในอดีตมีให้สาธารณชนทราบ คำถามที่ใช้ในการศึกษาครั้งนี้อาจเป็นส่วนหนึ่งของข้อมูลการฝึกอบรมของแบบจำลอง สิ่งนี้ทำให้เกิดความกังวลว่าประสิทธิภาพของแบบจำลองสะท้อนถึงความเข้าใจที่แท้จริงหรือเพียงแค่ความสามารถในการจดจำคำถามเฉพาะเจาะจง การวิจัยในอนาคตควรพัฒนาวิธีการประเมินว่าแบบจำลอง AI แสดงให้เห็นถึงความสามารถในการให้เหตุผลที่แท้จริงหรืออาศัยข้อมูลที่จำได้

ประการที่สอง แบบจำลอง AI มีศักยภาพในการแสดงอคติที่เกิดขึ้นจากข้อมูลการฝึกอบรม อคติเหล่านี้อาจเกิดจากการเป็นตัวแทนที่ไม่สมดุลของภาวะทางการแพทย์ ประชากร หรือมุมมองบางอย่างในข้อมูลการฝึกอบรม ตัวอย่างเช่น เนื่องจากความแตกต่างในปริมาณและคุณภาพของข้อมูลการฝึกอบรมที่มีในแต่ละภาษา ประสิทธิภาพของแบบจำลองในภาษาตุรกีอาจแตกต่างจากภาษาอังกฤษ นอกจากนี้ แบบจำลองเหล่านี้อาจมีความถูกต้องน้อยกว่าในการตอบคำถามที่ต้องใช้ความเข้าใจเกี่ยวกับแนวทางการแพทย์ในท้องถิ่นหรือบริบททางวัฒนธรรมของตุรกี อคติเหล่านี้อาจจำกัดความสามารถในการสรุปผลการวิจัย และทำให้เกิดความกังวลด้านจริยธรรมเกี่ยวกับการใช้ AI ในการศึกษาและการปฏิบัติทางการแพทย์

ข้อจำกัดที่สามคือ การศึกษาครั้งนี้มุ่งเน้นเฉพาะคำถามแบบเลือกตอบ ในการปฏิบัติทางคลินิกในโลกแห่งความเป็นจริง ผู้เชี่ยวชาญทางการแพทย์จำเป็นต้องมีทักษะ เช่น การให้เหตุผลกรณีที่ซับซ้อน การตีความสิ่งที่ค้นพบที่คลุมเครือ และการตัดสินใจภายใต้ความไม่แน่นอน นอกจากนี้ ความสามารถในการสื่อสารการวินิจฉัย แผนการรักษา และความเสี่ยงให้กับผู้ป่วยและเพื่อนร่วมงานอย่างชัดเจนและเห็นอกเห็นใจเป็นสิ่งสำคัญยิ่ง ความสามารถของแบบจำลอง AI ในการปฏิบัติงานเหล่านี้ยังไม่ได้รับการทดสอบ และความสามารถของแบบจำลองเหล่านี้อาจถูกจำกัดโดยการออกแบบและการฝึกอบรมในปัจจุบัน การวิจัยในอนาคตควรประเมินแบบจำลอง AI ในสถานการณ์ที่สมจริงมากขึ้น เช่น การจำลองกรณีทางคลินิกและการประเมินแบบเปิด

ประการที่สี่ การศึกษาครั้งนี้ไม่ได้รวมคำถามแบบเปิด คำถามแบบเปิดมีความสำคัญอย่างยิ่งในการประเมินทักษะการรับรู้ระดับสูง เช่น การคิดเชิงวิพากษ์ การสังเคราะห์ข้อมูล และการให้เหตุผลทางคลินิก คำถามประเภทเหล่านี้ต้องการความสามารถในการสร้างการตอบสนองที่สอดคล้องกันและเกี่ยวข้องกับบริบท แทนที่จะเลือกตัวเลือกที่ถูกต้องจากรายการ แบบจำลอง AI ในงานดังกล่าวอาจแตกต่างจากประสิทธิภาพในการตอบคำถามแบบเลือกตอบ ซึ่งแสดงถึงขอบเขตที่สำคัญสำหรับการวิจัยในอนาคต

ข้อจำกัดที่ห้าคือ แบบจำลอง AI ไม่ได้รับการทดสอบภายใต้แรงกดดันด้านเวลา ผู้สอบที่เป็นมนุษย์ต้องเผชิญกับข้อจำกัดด้านเวลาที่เข้มงวดระหว่างการสอบ ซึ่งอาจส่งผลต่อประสิทธิภาพการทำงานของพวกเขา ในทางตรงกันข้าม แบบจำลอง AI ในการศึกษาครั้งนี้ไม่ได้รับแรงกดดันด้านเวลา ทำให้สามารถทำงานได้โดยปราศจากความเครียดจากสภาพแวดล้อมที่มีการจำกัดเวลา