Đánh giá Hiệu suất Mô hình Ngôn ngữ: Độ chính xác và Tính nhất quán
Mục tiêu chính của chúng tôi là đánh giá độ chính xác của các câu trả lời do các LLM hàng đầu cung cấp khi được trình bày các câu hỏi liên quan đến phòng ngừa CVD. Chúng tôi tập trung vào BARD (mô hình ngôn ngữ của Google), ChatGPT-3.5 và ChatGPT-4.0 (mô hình của OpenAI) và ERNIE (mô hình của Baidu). Một bộ gồm 75 câu hỏi phòng ngừa CVD được soạn thảo tỉ mỉ đã được đặt ra cho mỗi LLM, với các câu trả lời được đánh giá dựa trên tính phù hợp của chúng (được phân loại là phù hợp, ranh giới hoặc không phù hợp).
Hiệu suất Ngôn ngữ Tiếng Anh
Trong ngôn ngữ tiếng Anh, các LLM đã chứng minh độ chính xác đáng chú ý. BARD đạt được xếp hạng "phù hợp" là 88,0%, ChatGPT-3.5 đạt 92,0% và ChatGPT-4.0 vượt trội với xếp hạng 97,3%. Những kết quả này cho thấy rằng LLM có thể cung cấp thông tin có giá trị cho người dùng nói tiếng Anh đang tìm kiếm hướng dẫn về phòng ngừa CVD.
Hiệu suất Ngôn ngữ Tiếng Trung Quốc
Phân tích mở rộng đến các truy vấn bằng tiếng Trung Quốc, nơi hiệu suất của LLM khác nhau. ERNIE đạt được xếp hạng "phù hợp" là 84,0%, ChatGPT-3.5 đạt 88,0% và ChatGPT-4.0 đạt 85,3%. Mặc dù kết quả nói chung là tích cực, nhưng chúng cũng cho thấy sự sụt giảm nhẹ về hiệu suất so với tiếng Anh, cho thấy sự thiên vị ngôn ngữ tiềm ẩn trong các mô hình này.
Cải thiện theo Thời gian và Tự nhận thức
Ngoài độ chính xác ban đầu, chúng tôi đã điều tra khả năng của LLM để cải thiện phản hồi của chúng theo thời gian và khả năng tự nhận thức về tính đúng đắn của chúng. Điều này liên quan đến việc đánh giá cách các mô hình phản ứng với các câu trả lời không tối ưu ban đầu được cung cấp và liệu chúng có thể xác định và khắc phục các lỗi khi được nhắc không.
Phản hồi Nâng cao Theo thời gian
Phân tích cho thấy rằng LLM thể hiện sự cải thiện theo thời gian. Khi được trình bày các phản hồi ban đầu không tối ưu, BARD và ChatGPT-3.5 đã cải thiện 67% (lần lượt là 6/9 và 4/6), trong khi ChatGPT-4.0 đạt được tỷ lệ cải thiện hoàn hảo 100% (2/2). Điều này cho thấy rằng LLM học hỏi từ các tương tác và phản hồi của người dùng, dẫn đến thông tin chính xác và đáng tin cậy hơn theo thời gian.
Tự nhận thức về Tính đúng đắn
Chúng tôi cũng đã kiểm tra khả năng của LLM để nhận ra tính đúng đắn của các phản hồi của chúng. BARD và ChatGPT-4.0 hoạt động tốt hơn ChatGPT-3.5 trong lĩnh vực này, thể hiện sự tự nhận thức tốt hơn về độ chính xác của thông tin mà chúng cung cấp. Tính năng này đặc biệt có giá trị trong bối cảnh y tế, nơi thông tin không chính xác có thể gây ra hậu quả nghiêm trọng.
Hiệu suất của ERNIE trong tiếng Trung
Phân tích về các lời nhắc tiếng Trung Quốc cho thấy rằng ERNIE vượt trội trong việc cải thiện theo thời gian và tự nhận thức về tính đúng đắn. Điều này cho thấy rằng ERNIE rất phù hợp để cung cấp thông tin chính xác và đáng tin cậy cho người dùng nói tiếng Trung Quốc đang tìm kiếm hướng dẫn phòng ngừa CVD.
Đánh giá Toàn diện về LLM Chatbot
Để đảm bảo đánh giá toàn diện bao gồm các LLM-chatbot phổ biến và thông thường, nghiên cứu này bao gồm bốn mô hình nổi bật: ChatGPT-3.5 và ChatGPT-4.0 của OpenAI, BARD của Google và ERNIE của Baidu. Việc đánh giá các lời nhắc tiếng Anh liên quan đến ChatGPT 3.5, ChatGPT 4 và BARD; đối với các lời nhắc tiếng Trung Quốc, việc đánh giá liên quan đến ChatGPT 3.5, ChatGPT 4 và ERNIE. Các mô hình đã được sử dụng với cấu hình và cài đặt nhiệt độ mặc định của chúng mà không cần điều chỉnh các tham số này trong quá trình phân tích.
Tạo Câu hỏi và Đánh giá Phản hồi Chatbot
American College of Cardiology và American Heart Association cung cấp các hướng dẫn và khuyến nghị về phòng ngừa CVD, bao gồm thông tin về các yếu tố rủi ro, xét nghiệm chẩn đoán và các lựa chọn điều trị, cũng như giáo dục bệnh nhân và các chiến lược tự quản lý. Hai bác sĩ tim mạch giàu kinh nghiệm đã tạo ra các câu hỏi liên quan đến phòng ngừa CVD, đóng khung chúng tương tự như cách bệnh nhân sẽ hỏi bác sĩ để đảm bảo tính liên quan và dễ hiểu từ góc độ của bệnh nhân. Cách tiếp cận dựa trên bệnh nhân và dựa trên hướng dẫn này đã mang lại một bộ gồm 300 câu hỏi cuối cùng bao gồm nhiều lĩnh vực khác nhau. Những câu hỏi này sau đó đã được dịch sang tiếng Trung Quốc, đảm bảo việc sử dụng thích hợp các đơn vị thông thường và quốc tế.
Ẩn danh và Đánh giá Thứ tự Ngẫu nhiên
Để đảm bảo rằng những người chấm điểm không thể phân biệt được nguồn gốc của phản hồi giữa các LLM Chatbot khác nhau, bất kỳ tính năng cụ thể nào của chatbot đều được che giấu thủ công. Việc đánh giá được tiến hành một cách ẩn danh và theo thứ tự ngẫu nhiên, với các phản hồi từ ba chatbot được xáo trộn ngẫu nhiên trong bộ câu hỏi. Các phản hồi từ ba chatbot đã được gán ngẫu nhiên cho 3 vòng, theo tỷ lệ 1:1:1, để đánh giá ẩn danh bởi ba bác sĩ tim mạch, với khoảng thời gian rửa trôi 48 giờ giữa các vòng để giảm thiểu sai lệch về tính mới.
Phương pháp Đánh giá Độ chính xác
Kết quả chính là hiệu suất trong việc trả lời các câu hỏi phòng ngừa CVD chính. Cụ thể, một phương pháp hai bước đã được sử dụng để đánh giá các phản hồi. Trong bước đầu tiên, một hội đồng các bác sĩ tim mạch đã xem xét tất cả các phản hồi do LLM Chatbot tạo ra và đánh giá chúng là "phù hợp", "ranh giới" hoặc "không phù hợp", liên quan đến sự đồng thuận và hướng dẫn của chuyên gia. Trong bước thứ hai, một phương pháp đồng thuận đa số đã được sử dụng, trong đó xếp hạng cuối cùng cho mỗi phản hồi của chatbot dựa trên xếp hạng phổ biến nhất được chấm điểm trong số ba người chấm điểm. Trong các trường hợp không thể đạt được sự đồng thuận đa số giữa ba người chấm điểm, một bác sĩ tim mạch cao cấp đã được tham khảo để hoàn thiện xếp hạng.
Phân tích các Phát hiện Quan trọng
Dữ liệu cho thấy rằng LLM-chatbot nói chung hoạt động tốt hơn với các lời nhắc tiếng Anh so với các lời nhắc tiếng Trung Quốc. Cụ thể, đối với các lời nhắc tiếng Anh, BARD, ChatGPT-3.5 và ChatGPT-4.0 đã chứng minh điểm tổng tương tự. Khi so sánh tỷ lệ xếp hạng "phù hợp", ChatGPT-4.0 có tỷ lệ phần trăm cao hơn đáng kể so với ChatGPT-3.5 và Google Bard. Đối với các lời nhắc tiếng Trung Quốc, ChatGPT3.5 có điểm tổng cao hơn, tiếp theo là ChatGPT-4.0 và Ernie. Tuy nhiên, sự khác biệt không có ý nghĩa thống kê. Tương tự, ChatGPT-3.5 có tỷ lệ xếp hạng "phù hợp" cao hơn cho các lời nhắc tiếng Trung Quốc, so với ChatGPT-4.0 và ERNIE, nhưng sự khác biệt không có ý nghĩa thống kê.
Hiệu suất trên các Lĩnh vực Phòng ngừa CVD
Phân tích tập trung vào xếp hạng "phù hợp" trên các lĩnh vực phòng ngừa CVD khác nhau. Đáng chú ý, ChatGPT-4.0 hoạt động tốt một cách nhất quán trong hầu hết các lĩnh vực, với xếp hạng đặc biệt cao trong các lĩnh vực "rối loạn lipid máu", "lối sống", "dấu ấn sinh học và viêm" và "DM và CKD". Tuy nhiên, BARD cho thấy hiệu suất không tối ưu so với ChatGPT4.0 và ChatGPT-3.5, đặc biệt là trong lĩnh vực "lối sống". Các phát hiện nhấn mạnh rằng cả ba LLM-Chatbot đều hoạt động tốt trong lĩnh vực "lối sống", với 100% xếp hạng "phù hợp" (Bảng bổ sung S6). Tuy nhiên, sự khác biệt về hiệu suất đã được quan sát thấy trên các lĩnh vực khác, với một số mô hình cho thấy hiệu quả lớn hơn trong các lĩnh vực phòng ngừa cụ thể.
Ý nghĩa đối với Kiến thức Sức khỏe
Các phát hiện của nghiên cứu có ý nghĩa quan trọng đối với những nỗ lực nhằm cải thiện kiến thức về sức khỏe tim mạch. Khi các cá nhân ngày càng chuyển sang các nguồn tài nguyên trực tuyến để tìm thông tin y tế, LLM có tiềm năng đóng vai trò là công cụ có giá trị để nâng cao sự hiểu biết về phòng ngừa CVD. Bằng cách cung cấp thông tin chính xác và dễ tiếp cận, LLM có thể thu hẹp khoảng cách kiến thức và trao quyền cho các cá nhân đưa ra các quyết định sáng suốt về sức khỏe của họ.
Sự khác biệt trong Hiệusuất
Nghiên cứu cũng tiết lộ những khác biệt đáng kể về hiệu suất LLM trên các ngôn ngữ khác nhau. Việc LLM thường hoạt động tốt hơn với các lời nhắc tiếng Anh so với các lời nhắc tiếng Trung Quốc nhấn mạnh tiềm năng cho sự thiên vị ngôn ngữ trong các mô hình này. Giải quyết vấn đề này là rất quan trọng để đảm bảo rằng LLM cung cấp quyền truy cập công bằng vào thông tin y tế chính xác cho tất cả các cá nhân, bất kể ngôn ngữ mẹ đẻ của họ là gì.
Vai trò của các Mô hình Dành riêng cho Ngôn ngữ
Phân tích hiệu suất của ERNIE trong tiếng Trung Quốc cung cấp những hiểu biết có giá trị về vai trò của LLM dành riêng cho ngôn ngữ. Điểm mạnh của ERNIE trong việc cải thiện theo thời gian và tự nhận thức về tính đúng đắn cho thấy rằng các mô hình được điều chỉnh cho các ngôn ngữ cụ thể có thể giải quyết hiệu quả các sắc thái ngôn ngữ và bối cảnh văn hóa. Việc phát triển và tinh chỉnh thêm các LLM dành riêng cho ngôn ngữ có thể rất cần thiết để tối ưu hóa việc cung cấp thông tin y tế cho các quần thể đa dạng.
Giới hạn và Hướng đi Tương lai
Mặc dù nghiên cứu này cung cấp những hiểu biết có giá trị về khả năng của LLM trong việc giải quyết các truy vấn phòng ngừa CVD, nhưng điều cần thiết là phải thừa nhận một số hạn chế nhất định. Các câu hỏi được sử dụng đại diện cho một phần nhỏ các câu hỏi về phòng ngừa CVD. Khả năng khái quát hóa các phát hiện phải chịu tác động của các phản hồi ngẫu nhiên. Ngoài ra, sự phát triển nhanh chóng của LLM đòi hỏi nghiên cứu liên tục để đáp ứng các lần lặp lại được cập nhật và các mô hình mới nổi. Các nghiên cứu trong tương lai nên mở rộng phạm vi câu hỏi, khám phá tác động của các kiểu tương tác khác nhau với LLM và điều tra các cân nhắc về đạo đức xung quanh việc sử dụng chúng trong bối cảnh y tế.
Kết luận
Tóm lại, những phát hiện này nhấn mạnh lời hứa của LLM như một công cụ để nâng cao sự hiểu biết của công chúng về sức khỏe tim mạch, đồng thời nhấn mạnh sự cần thiết phải đánh giá cẩn thận và tinh chỉnh liên tục để đảm bảo tính chính xác, công bằng và phổ biến thông tin y tế có trách nhiệm. Con đường phía trước bao gồm các đánh giá so sánh liên tục, giải quyết sự thiên vị ngôn ngữ và tận dụng điểm mạnh của các mô hình dành riêng cho ngôn ngữ để thúc đẩy khả năng tiếp cận công bằng với hướng dẫn phòng ngừa CVD chính xác và đáng tin cậy.