AI trong Giáo Dục Y Khoa: Đánh Giá LLM

Giới thiệu

Trong những năm gần đây, những tiến bộ công nghệ như trí tuệ nhân tạo (AI) và các mô hình ngôn ngữ lớn (LLM) đã mang lại những thay đổi tiềm năng trong giáo dục y khoa và các phương pháp đánh giá kiến ​​thức. Đặc biệt, những phát triển này có thể giúp tiếp cận thông tin y tế dễ dàng hơn và làm cho việc đánh giá mang tính tương tác hơn.

Các nghiên cứu trước đây đã khám phá hiệu suất của LLM trong các kỳ thi cấp phép y tế khác nhau, chẳng hạn như Kỳ thi Cấp phép Y tế Hoa Kỳ (USMLE) và Kỳ thi Cấp phép Y tế Nhật Bản (JMLE), nhưng các kỳ thi này khác biệt đáng kể về cấu trúc và nội dung so với TUS. TUS tập trung vào khoa học cơ bản và khoa học lâm sàng, đồng thời đặc biệt chú trọng đến bối cảnh y tế Thổ Nhĩ Kỳ, điều này mang đến một cơ hội duy nhất để đánh giá khả năng của LLM trong một môi trường đánh giá độc đáo. Nghiên cứu này nhằm mục đích lấp đầy khoảng trống này bằng cách đánh giá hiệu suất của bốn LLM hàng đầu trong TUS. Hơn nữa, nghiên cứu này khám phá những tác động tiềm tàng của những phát hiện này đối với thiết kế chương trình giảng dạy, đào tạo y tế được hỗ trợ bởi AI và tương lai của đánh giá y tế ở Thổ Nhĩ Kỳ. Cụ thể, chúng tôi điều tra xem hiệu suất của LLM có thể cung cấp thông tin cho việc phát triển các nguồn tài nguyên giáo dục và chiến lược đánh giá hiệu quả hơn, phù hợp với chương trình giảng dạy y tế Thổ Nhĩ Kỳ như thế nào. Cuộc điều tra này không chỉ giúp hiểu rõ về hiệu suất của một ngôn ngữ cụ thể mà còn đóng góp vào cuộc thảo luận rộng rãi hơn về cách tích hợp AI một cách hiệu quả vào giáo dục và đánh giá y tế toàn cầu.

Kết quả của những nghiên cứu này cho thấy rằng ChatGPT và các LLM tương tự có thể đóng một vai trò quan trọng trong giáo dục y khoa và quá trình đánh giá kiến ​​thức. AI và LLM trong truy xuất thông tin y tế và các phương pháp đánh giá có thể cho phép phát triển các phương pháp và phương pháp học tập đổi mới, đặc biệt là trong giáo dục y tế. Nghiên cứu này nhằm mục đích điều tra thêm tác động của LLM đối với giáo dục y khoa và đánh giá kiến ​​thức bằng cách đánh giá hiệu suất của ChatGPT 4, Gemini 1.5 Pro và Cohere-Command R+ trong Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ.

Nghiên cứu này khám phá các ứng dụng của các mô hình trí tuệ nhân tạo (AI) tiên tiến—cụ thể là ChatGPT 4, Gemini 1.5 Pro, Command R+ và Llama 3 70B—trong giáo dục và đánh giá y khoa, tập trung vào hiệu suất của chúng trong việc giải quyết các câu hỏi của kỳ thi chuyên ngành y khoa. Nghiên cứu đánh giá khả năng của các mô hình này trong việc thực hiện phân tích toàn diện và có hệ thống các câu hỏi của Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ, nhấn mạnh tiềm năng của AI trong y học khi xem xét các yếu tố như khả năng diễn giải và độ chính xác. Kết quả chỉ ra rằng các mô hình AI có thể đóng góp đáng kể vào quá trình giáo dục và đánh giá y khoa, mở đường cho các ứng dụng và lĩnh vực nghiên cứu mới. Mục tiêu chính của bài viết này là đánh giá sự tiến bộ nhanh chóng của công nghệ AI và so sánh khả năng phản hồi của các mô hình AI khác nhau. Nghiên cứu đã tiến hành phân tích so sánh ChatGPT 4, Gemini 1.5 Pro, Command R+ và Llama 3 70B, đánh giá hiệu suất của chúng trên 240 câu hỏi từ học kỳ đầu tiên của Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ năm 2021.

So sánh này nhằm mục đích làm sáng tỏ quỹ đạo và sự khác biệt của công nghệ AI, tập trung vào tính hữu ích của chúng trong các lĩnh vực chuyên biệt như giáo dục y khoa và chuẩn bị cho kỳ thi. Mục tiêu cuối cùng là cung cấp thông tin chi tiết giúp người dùng chọn công cụ học tập phù hợp nhất với nhu cầu cụ thể của họ.

Phương pháp

Các câu hỏi được đặt ra cho LLM bằng tiếng Thổ Nhĩ Kỳ. Các câu hỏi này được lấy từ trang web chính thức của Trung tâm Tuyển sinh và Bố trí Sinh viên, ở dạng câu hỏi trắc nghiệm (với năm lựa chọn từ A đến E) với chỉ một câu trả lời tốt nhất. Các câu trả lời được cung cấp bởi LLM bằng tiếng Thổ Nhĩ Kỳ.

Quá trình đánh giá dựa trên các câu trả lời đúng do Trung tâm Tuyển sinh và Bố trí Sinh viên công bố. Bài viết đề cập đến: ‘Câu trả lời ‘đúng’ cho các câu hỏi của mô hình trí tuệ nhân tạo được định nghĩa là dựa trên các câu trả lời do Trung tâm Tuyển sinh và Bố trí Sinh viên công bố. Chỉ những câu trả lời được xác định là đúng theo hướng dẫn trong văn bản câu hỏi mới được chấp nhận là ‘đúng’.’ Vì các câu hỏi và câu trả lời đều bằng tiếng Thổ Nhĩ Kỳ, nên quá trình đánh giá bao gồm việc so sánh các câu trả lời tiếng Thổ Nhĩ Kỳ của LLM với khóa đáp án tiếng Thổ Nhĩ Kỳ chính thức do Trung tâm Tuyển sinh và Bố trí Sinh viên cung cấp.

Tập dữ liệu giáo dục y khoa

Nghiên cứu này sử dụng ChatGPT 4, Gemini 1.5 Pro, Command R+ và Llama 3 70B để kiểm tra khả năng của các mô hình trí tuệ nhân tạo trong việc đánh giá kiến ​​thức và các trường hợp y tế. Nghiên cứu được thực hiện trên các câu hỏi từ Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ được tổ chức vào ngày 21 tháng 3 năm 2021. Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ là một kỳ thi do Trung tâm Tuyển sinh và Bố trí Sinh viên tổ chức, bao gồm 240 câu hỏi. Các câu hỏi kiến ​​thức cơ bản trong loại đầu tiên kiểm tra kiến ​​thức và đạo đức cần thiết để hoàn thành giáo dục y tế. Loại thứ hai là các câu hỏi tình huống bao gồm nhiều bệnh đo lường tư duy phân tích và khả năng suy luận.

Phân loại độ khó của câu hỏi

Mức độ khó của câu hỏi được phân loại dựa trên dữ liệu hiệu suất chính thức của ứng viên do Trung tâm Tuyển sinh và Bố trí Sinh viên công bố. Cụ thể, tỷ lệ câu trả lời đúng cho mỗi câu hỏi được trung tâm báo cáo được sử dụng để phân loại các câu hỏi thành năm mức độ khó:

  • Mức 1 (dễ nhất): Các câu hỏi có tỷ lệ câu trả lời đúng từ 80% trở lên.
  • Mức 2: Các câu hỏi có tỷ lệ câu trả lời đúng từ 60% đến 79,9%.
  • Mức 3 (trung bình): Các câu hỏi có tỷ lệ câu trả lời đúng từ 40% đến 59,9%.
  • Mức 4: Các câu hỏi có tỷ lệ câu trả lời đúng từ 20% đến 39,9%.
  • Mức 5 (khó nhất): Các câu hỏi có tỷ lệ câu trả lời đúng từ 19,9% trở xuống.

Câu trả lời ‘đúng’ cho các câu hỏi của mô hình trí tuệ nhân tạo được định nghĩa là dựa trên các câu trả lời do Trung tâm Tuyển sinh và Bố trí Sinh viên công bố. Chỉ những câu trả lời được xác định là đúng theo hướng dẫn trong văn bản câu hỏi mới được chấp nhận là ‘đúng’. Ngoài ra, mức độ khó của mỗi câu hỏi được chia thành các mức từ 1 đến 5 dựa trên tỷ lệ câu trả lời đúng do Trung tâm Tuyển sinh và Bố trí Sinh viên công bố. Các câu hỏi có tỷ lệ câu trả lời đúng từ 80% trở lên được coi là dễ nhất (mức 1), trong khi các câu hỏi có tỷ lệ câu trả lời đúng từ 19,9% trở xuống được coi là khó nhất (mức 5).

Lĩnh vực kiến ​​thức và tình huống

Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ là một bước quan trọng đối với sinh viên tốt nghiệp y khoa Thổ Nhĩ Kỳ chuyên ngành, đánh giá kiến ​​thức và lĩnh vực tình huống của ứng viên trong hai lĩnh vực quan trọng. Điều cần thiết là phải hiểu sự khác biệt giữa các lĩnh vực này để chuẩn bị đầy đủ. Lĩnh vực kiến ​​thức tập trung vào việc đánh giá sự hiểu biết lý thuyết và kiến ​​thức thực tế của ứng viên trong lĩnh vực y học mà họ đã chọn. Nó kiểm tra sự nắm vững các khái niệm và nguyên tắc cơ bản và thiết lập thông tin y tế liên quan đến chuyên ngành. Nó đại diện cho lĩnh vực kiến ​​thức y tế cụ thể đang được kiểm tra, chẳng hạn như khoa học y học cơ bản (giải phẫu học, sinh hóa học, sinh lý học, v.v.) và khoa học lâm sàng (nội khoa, ngoại khoa, nhi khoa, v.v.) Mặt khác, lĩnh vực tình huống đại diện cho các tình huống hoặc ngữ cảnh thực tế áp dụng kiến ​​thức, chẳng hạn như giải quyết vấn đề, tư duy phân tích, tư duy phản biện, ra quyết định và áp dụng các khái niệm vào các tình huống thực tế.

Kỹ thuật Gợi ý

Kỹ thuật gợi ý là thiết kế và tinh chỉnh các gợi ý ngôn ngữ tự nhiên để có được phản hồi cụ thể từ mô hình ngôn ngữ hoặc hệ thống AI. Vào tháng 4 năm 2024, chúng tôi đã thu thập phản hồi bằng cách trực tiếp truy vấn các mô hình ngôn ngữ thông qua giao diện web tương ứng của chúng.

Để đảm bảo đánh giá công bằng về khả năng ban đầu của mỗi mô hình, một phương pháp kiểm soát nghiêm ngặt đã được thực hiện trong cách trình bày các câu hỏi cho LLM. Mỗi câu hỏi được nhập riêng và phiên được đặt lại trước khi đưa ra câu hỏi mới để ngăn mô hình học hỏi hoặc thích ứng dựa trên các tương tác trước đó.

Phân tích dữ liệu

Tất cả các phân tích được thực hiện bằng phần mềm Microsoft Office Excel và Python. Để so sánh hiệu suất của LLM ở các độ khó câu hỏi khác nhau, đã thực hiện kiểm tra chi bình phương không ghép cặp. Ngưỡng giá trị p < 0,05 được sử dụng để xác định ý nghĩa thống kê. Phân tích này đánh giá xem độ chính xác của mô hình có khác nhau theo mức độ khó của câu hỏi hay không.

Cân nhắc về đạo đức

Nghiên cứu này chỉ sử dụng thông tin được công bố trên internet và không liên quan đến đối tượng là con người. Do đó, không cần sự chấp thuận của Ủy ban Đạo đức của Đại học Baskent.

Kết quả

Số lượng câu trả lời đúng trung bình của các ứng viên tham gia kỳ thi khoa học y học cơ bản giai đoạn 1 Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ năm 2021 là 51,63. Số lượng câu trả lời đúng trung bình cho kỳ thi khoa học y học lâm sàng là 63,95. Số lượng câu trả lời đúng trung bình cho kỳ thi khoa học y học lâm sàng cao hơn kỳ thi khoa học y học cơ bản. Song song với tình huống này, công nghệ trí tuệ nhân tạo cũng thành công hơn trong việc trả lời kỳ thi khoa học y học lâm sàng.

Hiệu suất AI

Hiệu suất của nền tảng AI được đánh giá bằng các chỉ số giống như ứng viên là con người.

  • ChatGPT 4:

    ChatGPT 4 đạt điểm trung bình là 103 câu trả lời đúng trong phần khoa học y học cơ bản và 110 câu trả lời đúng trong phần khoa học y học lâm sàng. Điều này thể hiện độ chính xác tổng thể là 88,75%, cao hơn đáng kể so với các ứng viên là con người trung bình trong cả hai phần (p < 0,001).

  • Llama 3 70B:

    Llama 3 70B đạt điểm trung bình là 95 câu trả lời đúng trong phần khoa học y học cơ bản và 95 câu trả lời đúng trong phần khoa học y học lâm sàng. Điều này thể hiện độ chính xác tổng thể là 79,17%, cũng cao hơn đáng kể so với hiệu suất trung bình của con người (p < 0,01).

  • Gemini 1.5 Pro:

    Gemini 1.5 Pro đạt điểm trung bình là 94 câu trả lời đúng trong phần khoa học y học cơ bản và 93 câu trả lời đúng trong phần khoa học y học lâm sàng. Điều này thể hiện độ chính xác tổng thể là 78,13%, cao hơn đáng kể so với hiệu suất trung bình của con người (p < 0,01).

  • Command R+:

    Command R+ đạt điểm trung bình là 60 câu trả lời đúng trong phần khoa học y học cơ bản và 60 câu trả lời đúng trong phần khoa học y học lâm sàng. Điều này thể hiện độ chính xác tổng thể là 50%, không khác biệt đáng kể so với hiệu suất trung bình của con người trong phần khoa học y học cơ bản (p = 0,12), nhưng thấp hơn đáng kể trong phần khoa học y học lâm sàng (p < 0,05).

Hiệu suất của nền tảng AI được đánh giá bằng các chỉ số giống như ứng viên là con người.

Hình 3 so sánh độ chính xác của các LLM khác nhau theo độ khó của câu hỏi - ChatGPT 4: Mô hình hoạt động tốt nhất. Khi độ khó của câu hỏi tăng lên, độ chính xác tăng lên, ngay cả ở những câu hỏi khó nhất cũng gần 70% - Llama 3 70B: Mô hình hoạt động vừa phải. Khi độ khó của câu hỏi tăng lên, độ chính xác tăng lên rồi giảm xuống. Độ chính xác của nó là khoảng 25% ở những câu hỏi khó nhất. Gemini 1.5 70B: Nó hoạt động tương tự như Llama 3 70B. Khi độ khó của câu hỏi tăng lên, độ chính xác tăng lên rồi giảm xuống. Độ chính xác của nó là khoảng 20% ở những câu hỏi khó nhất. Command R+: Mô hình hoạt động kém nhất. Độ chính xác của nó giảm khi độ khó của câu hỏi tăng lên và duy trì ở mức khoảng 15% ở những câu hỏi khó nhất

Tóm lại, ChatGPT 4 là mô hình ít bị ảnh hưởng nhất bởi độ khó của câu hỏi và có độ chính xác tổng thể cao nhất. Llama 3 70B và Gemini 1.5 Pro hoạt động vừa phải, trong khi Command R+ có tỷ lệ thành công thấp hơn các mô hình khác. Độ chính xác của mô hình giảm khi độ khó của câu hỏi tăng lên. Điều này cho thấy LLM vẫn cần cải thiện trong việc hiểu và trả lời đúng các câu hỏi phức tạp

Trong Bảng 1, mô hình ChatGPT 4 nổi bật là mô hình hoạt động tốt nhất với tỷ lệ thành công là 88,75%. Điều này cho thấy nó có khả năng vững chắc để hiểu và trả lời chính xác các câu hỏi. Mô hình Llama 3 70B đứng thứ hai với tỷ lệ thành công là 79,17%. Mặc dù nó tụt hậu so với mô hình ChatGPT 4, nhưng nó vẫn thể hiện trình độ thành thạo cao trong việc trả lời câu hỏi. Mô hình Gemini 1.5 Pro theo sát phía sau với tỷ lệ thành công là 78,13%. Hiệu suất của nó tương đương với mô hình Llama 3 70B, cho thấy nó có khả năng trả lời câu hỏi mạnh mẽ. Mặt khác, mô hình Command R+ tụt hậu so với các mô hình khác với tỷ lệ thành công là 50%. Điều này cho thấy nó có thể gặp khó khăn với các câu hỏi cụ thể hoặc cần được tinh chỉnh thêm để cải thiện hiệu suất. Phân bố câu trả lời đúng ở các mức độ khó khác nhau. Ví dụ: tất cả các mô hình đều hoạt động tốt trong các câu hỏi dễ (mức độ khó 1), trong đó mô hình ChatGPT 4 đạt điểm hoàn hảo. Trong các câu hỏi có độ khó trung bình (mức 2 và 3), các mô hình ChatGPT 4 và Llama 3 70B tiếp tục hoạt động tốt.

Ngược lại, mô hình Gemini 1.5 Pro bắt đầu bộc lộ một số điểm yếu. Trong các câu hỏi khó (mức 4 và 5), hiệu suất của tất cả các mô hình đều giảm, trong đó mô hình Command R+ gặp khó khăn nhất. Nhìn chung, những kết quả này cung cấp những hiểu biết có giá trị về điểm mạnh và điểm yếu của từng mô hình AI và có thể cung cấp thông tin cho các nỗ lực phát triển và cải tiến trong tương lai

Trong Bảng 3, sinh hóa học trong khoa học y học cơ bản đã đạt điểm hoàn hảo cho ChatGPT 4, chứng minh khả năng vượt trội của nó trong việc trả lời các câu hỏi trong lĩnh vực này. Llama 3 70B và Gemini 1.5 Pro cũng hoạt động tốt, nhưng Command R+ hoạt động kém với độ chính xác là 50%. Các mô hình hoạt động tốt nhất (ChatGPT 4 và Llama 3 70B) trong dược lý học, bệnh lý học và vi sinh học thể hiện sự nhất quán mạnh mẽ về thông tin, với độ chính xác từ 81% đến 90%. Gemini 1.5 Pro và Command R+ tụt hậu, nhưng vẫn hoạt động tốt. Giải phẫu học và sinh lý học đã gây ra một số thách thức cho các mô hình. ChatGPT 4 và Meta AI-Llama 3 70B hoạt động tốt, trong khi độ chính xác của Gemini 1.5 Pro và Command R+ thấp hơn 70%, hoạt động kém.

Nhi khoa trong khoa học y học lâm sàng rất quan trọng đối với tất cả các mô hình, trong đó ChatGPT 4 đạt điểm gần như hoàn hảo (90%). Llama 3 70B theo sát phía sau, và ngay cả Command R+ cũng đạt được độ chính xác là 43%. Hiệu suất trong nội khoa và ngoại khoa tổng quát tốt hơn các mô hình tốt nhất, với độ chính xác từ 79% đến 90%. Gemini 1.5 Pro và Command R+ tụt hậu, nhưng vẫn hoạt động tốt. Các chuyên ngành như gây mê và hồi sức, y học cấp cứu, thần kinh học và da liễu gửi ít câu hỏi hơn, nhưng các mô hình nhìn chung hoạt động tốt. ChatGPT 4 và Llama 3 70B thể hiện độ chính xác vượt trội trong các lĩnh vực này

Về so sánh mô hình, ChatGPT 4 là mô hình hoạt động tốt nhất trong hầu hết các lĩnh vực, với độ chính xác tổng thể là 88,75%. Điểm mạnh của nó nằm ở khả năng trả lời chính xác các câu hỏi khoa học y học cơ bản và lâm sàng. Llama 3 70B theo sát phía sau với độ chính xác tổng thể là 79,17%. Mặc dù nó không thể hoàn toàn sánh được với hiệu suất của ChatGPT 4, nhưng nó vẫn thể hiện sự nhất quán mạnh mẽ về kiến ​​thức trên các lĩnh vực khác nhau. Gemini 1.5 Pro và Command R+ tụt hậu, với độ chính xác tổng thể lần lượt là 78,13% và 50%. Mặc dù chúng thể hiện sự hứa hẹn trong một số lĩnh vực, nhưng chúng khó duy trì tính nhất quán trên tất cả các lĩnh vực

Nói tóm lại, ChatGPT 4 hiện là mô hình phù hợp nhất để trả lời các câu hỏi về khoa học y học trong các lĩnh vực khác nhau. Gemini 1.5 Pro và Command R+ thể hiện tiềm năng, nhưng cần cải thiện đáng kể để cạnh tranh với các mô hình hoạt động tốt nhất

Trong Bảng 4, về lĩnh vực kiến ​​thức, ChatGPT 4 có độ chính xác là 86,7% (85/98) trong lĩnh vực khoa học y học cơ bản, vượt trội so với các mô hình khác. ChatGPT 4 một lần nữa hoạt động tốt nhất, với độ chính xác là 89,7% (61/68) trong lĩnh vực khoa học y học lâm sàng. Về lĩnh vực tình huống, ChatGPT 4 có độ chính xác là 81,8% (18/22) trong lĩnh vực khoa học y học cơ bản. Trong lĩnh vực khoa học y học lâm sàng, ChatGPT 4 hoạt động tương tự, với độ chính xác là 94,2% (49/52)

So sánh theo cặp của các mô hình cho thấy ChatGPT 4 vượt trội hơn đáng kể so với các mô hình khác trong cả hai lĩnh vực và loại câu hỏi. Llama 3 70B và Gemini 1.5 Pro hoạt động tương tự, trong khi Command R+ tụt hậu. Dựa trên phân tích này, chúng tôi có thể kết luận rằng ChatGPT 4 thể hiện hiệu suất vượt trội trong cả lĩnh vực kiến ​​thức và tình huống, cũng như trong lĩnh vực khoa học y học cơ bản và khoa học y học lâm sàng.

Phân tích thống kê

Hiệu suất của LLM được phân tích bằng Microsoft Office Excel và Python (phiên bản 3.10.2). Để so sánh hiệu suất của các mô hình ở các mức độ khó câu hỏi khác nhau, đã thực hiện kiểm tra chi bình phương không ghép cặp. Bảng đối chiếu các câu trả lời đúng và sai được xây dựng cho từng mô hình AI theo mức độ khó và kiểm tra chi bình phương được áp dụng để xác định xem có sự khác biệt đáng kể về mặt thống kê trong hiệu suất trên các mức độ khó hay không. Ngưỡng giá trị p < 0,05 được sử dụng để xác định ý nghĩa thống kê. Giá trị p của ChatGPT 4 là 0,00028 và có ý nghĩa thống kê ở p < 0,05, cho thấy có sự khác biệt đáng kể trong hiệu suất trên các mức độ khó khác nhau. Giá trị p của Gemini 1.5 Pro là 0,047 và có ý nghĩa thống kê ở p < 0,05, cho thấy có sự khác biệt đáng kể trong hiệu suất trên các mức độ khó khác nhau. Giá trị p của Command R+ là 0,197 và không có ý nghĩa thống kê ở p < 0,05, cho thấy không có sự khác biệt đáng kể trong hiệu suất trên các mức độ khó khác nhau. Giá trị p của Llama 3 70B: 0,118, giá trị p: 0,118 và không có ý nghĩa thống kê ở p < 0,05, cho thấy không có sự khác biệt đáng kể trong hiệu suất trên các mức độ khó khác nhau.

Độ chính xác của ChatGPT 4 và Gemini 1.5 Pro ở các độ khó câu hỏi khác nhau cho thấy sự khác biệt đáng kể về mặt thống kê, cho thấy hiệu suất của chúng thay đổi đáng kể theo độ khó của câu hỏi. Command R+ và Llama 3 70B không thể hiện sự khác biệt đáng kể về hiệu suất ở các mức độ khó, cho thấy hiệu suất nhất quán hơn bất kể độ khó của câu hỏi. Những kết quả này có thể cho thấy các mô hình khác nhau có những điểm mạnh và điểm yếu khác nhau trong việc xử lý sự phức tạp và chủ đề liên quan đến các độ khó khác nhau.

Thảo luận

TUS là một kỳ thi quốc gia quan trọng đối với sinh viên tốt nghiệp y khoa Thổ Nhĩ Kỳ theo đuổi đào tạo chuyên ngành. Kỳ thi này bao gồm các câu hỏi trắc nghiệm bao gồm khoa học cơ bản và khoa học lâm sàng và có một hệ thống xếp hạng tập trung xác định xếp hạng khóa học chuyên ngành

Khi đánh giá hiệu suất của các mô hình ngôn ngữ lớn trong TUS, GPT-4 là mô hình hoạt động tốt nhất. Tương tự, ChatGPT là một mô hình AI mạnh mẽ, thể hiện hiệu suất gần hoặc cao hơn mức độ của con người trong lĩnh vực phẫu thuật, trả lời đúng lần lượt 71% và 68% các câu hỏi trắc nghiệm SCORE và Data-B. Ngoài ra, ChatGPT hoạt động xuất sắc trong các kỳ thi sức khỏe cộng đồng, vượt qua tỷ lệ đậu hiện tại và cung cấp những hiểu biết độc đáo. Những phát hiện này làm nổi bật hiệu suất vượt trội của GPT-4 và ChatGPT trong đánh giá y tế, thể hiện tiềm năng của chúng trong việc nâng cao giáo dục y tế và hỗ trợ chẩn đoán tiềm năng.

Đối với các nhà giáo dục và người chấm thi y khoa, độ chính xác ngày càng tăng của LLM đặt ra những câu hỏi quan trọng về thiết kế và đánh giá kỳ thi. Nếu các mô hình AI có thể giải quyết các kỳ thi y tế tiêu chuẩn hóa với độ chính xác cao, thì các đánh giá trong tương lai có thể cần kết hợp các câu hỏi suy luận bậc cao và đánh giá lâm sàng vượt xa khả năng nhớ lại đơn giản. Ngoài ra, các tổ chức y tế Thổ Nhĩ Kỳ có thể khám phá các chiến lược giáo dục được hỗ trợ bởi AI, chẳng hạn như các hệ thống học tập thích ứng điều chỉnh tài liệu học tập theo nhu cầu cá nhân của học sinh.

Từ góc độ quốc gia, nghiên cứu này làm nổi bật tầm quan trọng ngày càng tăng của AI trong giáo dục y tế ở Thổ Nhĩ Kỳ. Vì các LLM này hoạt động tốt trong các câu hỏi y tế tiếng Thổ Nhĩ Kỳ, nên chúng có thể thu hẹp khoảng cách tiếp cận các nguồn tài nguyên giáo dục chất lượng cao cho học sinh ở các khu vực khó khăn. Ngoài ra, các nhà hoạch định chính sách nên xem xét cách tích hợp các mô hình AI vào các chương trình giáo dục y tế thường xuyên và học tập suốt đời cho các chuyên gia chăm sóc sức khỏe Thổ Nhĩ Kỳ.

Tóm lại, mặc dù các mô hình AI như ChatGPT-4 thể hiện độ chính xác phi thường, nhưng vai trò của chúng trong giáo dục y tế nên được đánh giá cẩn thận. Những lợi ích tiềm năng của học tập được hỗ trợ bởi AI là rất lớn, nhưng việc triển khai đúng đắn đòi hỏi phải đảm bảo rằng các công cụ này được sử dụng một cách có trách nhiệm và đạo đức, đồng thời kết hợp với chuyên môn của con người.

Hạn chế

Nghiên cứu này cung cấp những hiểu biết có giá trị về hiệu suất của các mô hình ngôn ngữ lớn (LLM) trong Kỳ thi Tuyển sinh Đào tạo Chuyên ngành Y tế Thổ Nhĩ Kỳ (TUS), nhưng cần phải thừa nhận một số hạn chế quan trọng để làm cho kết quả nghiên cứu có ý nghĩa trong bối cảnh và hướng dẫn các nghiên cứu trong tương lai. Thứ nhất, vẫn chưa chắc chắn liệu dữ liệu huấn luyện của các mô hình AI được đánh giá trong nghiên cứu này có chứa các câu hỏi TUS hay không. Vì các câu hỏi TUS trong quá khứ có sẵn công khai, nên các câu hỏi được sử dụng trong nghiên cứu này có thể là một phần của dữ liệu huấn luyện của mô hình. Điều này làm dấy lên mối lo ngại về việc liệu hiệu suất của mô hình có phản ánh sự hiểu biết thực sự hay chỉ là khả năng ghi nhớ các câu hỏi cụ thể. Các nghiên cứu trong tương lai nên phát triển các phương pháp đánh giá xem các mô hình AI có thể hiện khả năng suy luận thực sự hay dựa vào thông tin được ghi nhớ.

Thứ hai, các mô hình AI có khả năng thể hiện những thành kiến ​​bắt nguồn từ dữ liệu huấn luyện của chúng. Những thành kiến ​​này có thể phát sinh từ sự đại diện không cân bằng của một số tình trạng bệnh, dân số hoặc quan điểm nhất định trong dữ liệu huấn luyện. Ví dụ: hiệu suất của mô hình bằng tiếng Thổ Nhĩ Kỳ có thể khác với tiếng Anh do sự khác biệt về số lượng và chất lượng dữ liệu huấn luyện có sẵn bằng mỗi ngôn ngữ. Ngoài ra, các mô hình này có thể kém chính xác hơn trong việc trả lời các câu hỏi đòi hỏi phải hiểu các thực hành y tế địa phương hoặc bối cảnh văn hóa của Thổ Nhĩ Kỳ. Những thành kiến ​​này có thể hạn chế tính tổng quát của kết quả nghiên cứu và làm dấy lên những lo ngại về đạo đức trong việc sử dụng AI trong giáo dục và thực hành y tế.

Hạn chế thứ ba là nghiên cứu chỉ tập trung vào các câu hỏi trắc nghiệm. Trong thực tế lâm sàng, các chuyên gia y tế cần có các kỹ năng như suy luận các trường hợp phức tạp, giải thích các phát hiện mơ hồ và đưa ra quyết định trong điều kiện không chắc chắn. Ngoài ra, khả năng truyền đạt chẩn đoán, phương án điều trị và rủi ro cho bệnh nhân và đồng nghiệp một cách rõ ràng và giàu lòng trắc ẩn là rất quan trọng. Khả năng của các mô hình AI trong việc thực hiện những nhiệm vụ này chưa được kiểm tra và khả năng của chúng có thể bị giới hạn bởi thiết kế và huấn luyện hiện tại của chúng. Các nghiên cứu trong tương lai nên đánh giá các mô hình AI trong các tình huống thực tế hơn, chẳng hạn như mô phỏng các trường hợp lâm sàng và đánh giá mở.

Thứ tư, nghiên cứu không bao gồm các câu hỏi mở. Các câu hỏi mở rất quan trọng để đánh giá các kỹ năng nhận thức bậc cao hơn, chẳng hạn như tư duy phản biện, tổng hợp thông tin và suy luận lâm sàng. Các loại câu hỏi này đòi hỏi khả năng tạo ra các phản hồi mạch lạc và phù hợp với ngữ cảnh thay vì chỉ đơn giản là chọn tùy chọn đúng từ một danh sách. Hiệu suất của các mô hình AI trong các nhiệm vụ như vậy có thể khác rất nhiều so với hiệu suất của chúng trong các câu hỏi trắc nghiệm, điều này thể hiện một lĩnh vực quan trọng cho nghiên cứu trong tương lai.

Hạn chế thứ năm là các mô hình AI không được kiểm tra dưới áp lực thời gian. Các ứng viên là con người bị giới hạn thời gian nghiêm ngặt trong kỳ thi, điều này có thể ảnh hưởng đến hiệu suất của họ. Ngược lại, các mô hình AI trong nghiên cứu này không bị áp lực thời gian, điều này cho phép chúng làm việc mà không có áp lực của môi trường có thời gian