Các Mô Hình AI Có Vấn Đề Nhất: Nguy Cơ & Sai Lệch

Một nghiên cứu chuẩn gần đây của startup Giskard của Pháp đã làm nổi bật những thiếu sót đáng kể của một số mô hình ngôn ngữ (LLM) được sử dụng rộng rãi nhất trong bối cảnh trí tuệ nhân tạo. Nghiên cứu này đánh giá tỉ mỉ xu hướng của các mô hình này trong việc tạo ra nội dung có hại, ảo giác thông tin và thể hiện các thành kiến khác nhau trong phản hồi của chúng.

Xác Định Các LLM Rủi Ro Nhất: Đánh Giá Toàn Diện

Chuẩn mực của Giskard, được phát hành vào tháng Tư, đi sâu vào những rủi ro tiềm ẩn liên quan đến LLM, cung cấp một đánh giá đáng tin cậy về xu hướng của chúng trong việc tạo ra thông tin sai lệch, tạo ra các đầu ra độc hại và hiển thị các quan điểm định kiến hoặc khuôn mẫu. Các phát hiện của nghiên cứu cung cấp những hiểu biết có giá trị cho các nhà phát triển, nhà nghiên cứu và tổ chức đang tìm cách triển khai các mô hình AI một cách có trách nhiệm.

Chuẩn mực kiểm tra tỉ mỉ một số khía cạnh quan trọng của hiệu suất LLM, bao gồm:

  • Ảo giác (Hallucination): Xu hướng của mô hình tạo ra thông tin sai lệch hoặc vô nghĩa.
  • Tính gây hại (Harmfulness): Xu hướng của mô hình tạo ra nội dung nguy hiểm, xúc phạm hoặc không phù hợp.
  • Thành kiến và định kiến (Bias and Stereotypes): Khuynh hướng của mô hình duy trì các quan điểm không công bằng hoặc phân biệt đối xử.

Bằng cách đánh giá các yếu tố này, chuẩn mực của Giskard cung cấp một đánh giá toàn diện về rủi ro tổng thể liên quan đến các LLM khác nhau.

Xếp Hạng Các LLM Với Những Thiếu Sót Đáng Kể Nhất

Kết quả nghiên cứu cho thấy một bảng xếp hạng các LLM dựa trên hiệu suất của chúng trên các số liệu chính này. Điểm càng thấp, mô hình càng được coi là có vấn đề hơn. Bảng dưới đây tóm tắt kết quả:

Model Overall Average Hallucination Harmfulness Bias & Stereotypes Developer
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

Chuẩn mực bao gồm 17 mô hình được sử dụng rộng rãi, được lựa chọn cẩn thận để đại diện cho bối cảnh AI hiện tại. Giskard ưu tiên đánh giá các mô hình ổn định và được áp dụng rộng rãi hơn là các phiên bản thử nghiệm hoặc chưa hoàn thiện, đảm bảo tính phù hợp và độ tin cậy của kết quả. Cách tiếp cận này loại trừ các mô hình chủ yếu được thiết kế cho các nhiệm vụ suy luận, vì chúng không phải là trọng tâm chính của chuẩn mực này.

Xác Định Những Mô Hình Hoạt Động Kém Nhất Trên Tất Cả Các Danh Mục

Những phát hiện ban đầu của chuẩn mực Phare phần lớn phù hợp với nhận thức và phản hồi hiện có của cộng đồng. Năm mô hình hoạt động “tệ” nhất hàng đầu (trong số 17 mô hình được thử nghiệm) bao gồm GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B và Llama 3.3 70B. Ngược lại, các mô hình thể hiện hiệu suất tốt nhất bao gồm Gemini 1.5 Pro, Claude 3.5 Haiku và Llama 3.1 405B.

Điểm Nóng Ảo Giác: Các Mô Hình Dễ Bịa Đặt Thông Tin

Khi chỉ xem xét số liệu ảo giác, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B và Llama 4 Maverick nổi lên là những mô hình dễ tạo ra thông tin sai lệch hoặc gây hiểu lầm nhất. Ngược lại, Anthropic thể hiện sức mạnh trong lĩnh vực này, với ba mô hình của nó thể hiện tỷ lệ ảo giác thấp nhất: Claude 3.5 Sonnet, Claude 3.7 Sonnet và Claude 3.5 Haiku, cùng với Gemini 1.5 Pro và GPT-4o.

Tạo Nội Dung Nguy Hiểm: Các Mô Hình Có Biện Pháp Bảo Vệ Yếu

Về việc tạo ra nội dung nguy hiểm hoặc có hại (đánh giá khả năng của mô hình trong việc nhận biết các đầu vào có vấn đề và phản hồi phù hợp), GPT-4o mini hoạt động kém nhất, tiếp theo là Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 và Llama 4 Maverick. Mặt khác, Gemini 1.5 Pro luôn thể hiện hiệu suất tốt nhất, theo sát là ba mô hình của Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet và Claude 3.5 Haiku) và Gemini 2.0 Flash.

Thành Kiến và Định Kiến: Một Thách Thức Dai Dẳng

Sự hiện diện của thành kiến và định kiến trong LLM vẫn là một lĩnh vực quan trọng đòi hỏi sự cải thiện. Kết quả chuẩn mực Phare chỉ ra rằng LLM vẫn thể hiện những thành kiến và định kiến rõ rệt trong các đầu ra của chúng. Grok 2 nhận được điểm thấp nhất trong danh mục này, tiếp theo là Mistral Large, Mistral Small 3.1 24B, GPT-4o mini và Claude 3.5 Sonnet. Ngược lại, Gemini 1.5 Pro đạt được điểm số tốt nhất, tiếp theo là Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B và Llama 4 Maverick.

Mặc dù kích thước mô hình có thể ảnh hưởng đến việc tạo ra nội dung độc hại (các mô hình nhỏ hơn có xu hướng tạo ra các đầu ra “có hại” hơn), nhưng số lượng tham số không phải là yếu tố quyết định duy nhất. Theo Matteo Dora, CTO của Giskard, “Phân tích của chúng tôi chứng minh rằng độ nhạy cảm với cách diễn đạt của người dùng khác nhau đáng kể giữa các nhà cung cấp khác nhau. Ví dụ: các mô hình của Anthropic dường như ít bị ảnh hưởng bởi cách các câu hỏi được đặt ra so với các đối thủ cạnh tranh, bất kể kích thước của chúng. Cách đặt câu hỏi (yêu cầu một câu trả lời ngắn gọn hoặc chi tiết) cũng có những tác động khác nhau. Điều này khiến chúng tôi tin rằng các phương pháp đào tạo cụ thể, chẳng hạn như học tăng cường từ phản hồi của con người (RLHF), quan trọng hơn kích thước.”

Một Phương Pháp Luận Mạnh Mẽ Để Đánh Giá LLM

Phare sử dụng một phương pháp luận nghiêm ngặt để đánh giá LLM, sử dụng một tập dữ liệu riêng gồm khoảng 6.000 cuộc hội thoại. Để đảm bảo tính minh bạch đồng thời ngăn chặn sự thao túng quá trình đào tạo mô hình, một tập hợp con gồm khoảng 1.600 mẫu đã được cung cấp công khai trên Hugging Face. Các nhà nghiên cứu đã thu thập dữ liệu bằng nhiều ngôn ngữ (tiếng Pháp, tiếng Anh, tiếng Tây Ban Nha) và thiết kế các bài kiểm tra phản ánh các tình huống thực tế.

Chuẩn mực đánh giá các nhiệm vụ con khác nhau cho từng số liệu:

Ảo Giác (Hallucination)

  • Tính xác thực (Factuality): Khả năng của mô hình tạo ra các phản hồi thực tế cho các câu hỏi kiến thức chung.
  • Độ chính xác với thông tin sai lệch (Accuracy with False Information): Khả năng của mô hình cung cấp thông tin chính xác khi trả lời các lời nhắc có chứa các yếu tố sai.
  • Xử lý các tuyên bố đáng ngờ (Handling Dubious Claims): Khả năng của mô hình xử lý các tuyên bố đáng ngờ (giả khoa học, thuyết âm mưu).
  • Sử dụng công cụ mà không có ảo giác (Tool Usage without Hallucination): Khả năng của mô hình sử dụng các công cụ mà không tạo ra thông tin sai lệch.

Tính Gây Hại (Harmfulness)

Các nhà nghiên cứu đã đánh giá khả năng của mô hình trong việc nhận biết các tình huống có khả năng nguy hiểm và đưa ra các cảnh báo phù hợp.

Thành Kiến và Công Bằng (Bias & Fairness)

Chuẩn mực tập trung vào khả năng của mô hình trong việc xác định các thành kiến và định kiến được tạo ra trong các đầu ra của chính nó.

Hợp Tác Với Các Tổ Chức AI Hàng Đầu

Tầm quan trọng của Phare được nâng cao hơn nữa nhờ tập trung trực tiếp vào các số liệu quan trọng đối với các tổ chức đang tìm cách sử dụng LLM. Kết quả chi tiết cho từng mô hình được công khai trên trang web Giskard, bao gồm cả phân tích theo nhiệm vụ con. Chuẩn mực được hỗ trợ tài chính bởi BPI (Ngân hàng Đầu tư Công của Pháp) và Ủy ban Châu Âu. Giskard cũng đã hợp tác với Mistral AI và DeepMind về các khía cạnh kỹ thuật của dự án. Khuôn khổ LMEval để sử dụng đã được phát triển trong sự hợp tác trực tiếp với nhóm Gemma tại DeepMind, đảm bảo quyền riêng tư và bảo mật dữ liệu.

Nhìn về phía trước, nhóm Giskard có kế hoạch thêm hai tính năng chính vào Phare: “Có lẽ vào tháng Sáu, chúng tôi sẽ thêm một mô-đun để đánh giá khả năng chống lại các jailbreak và prompt injection,” Matteo Dora nói. Ngoài ra, các nhà nghiên cứu sẽ tiếp tục cập nhật bảng xếp hạng với các mô hình ổn định mới nhất, với Grok 3, Qwen 3 và có khả năng là GPT-4.1 trong tương lai.