การศึกษาล่าสุดโดยสตาร์ทอัพฝรั่งเศส Giskard ได้เน้นย้ำถึงข้อบกพร่องที่สำคัญของโมเดลภาษา (LLMs) ที่ใช้กันอย่างแพร่หลายที่สุดในแวดวงปัญญาประดิษฐ์ (AI) การศึกษาครั้งนี้ประเมินอย่างพิถีพิถันถึงแนวโน้มของโมเดลเหล่านี้ในการสร้างเนื้อหาที่เป็นอันตราย สร้างข้อมูลเท็จ (hallucinate) และแสดงอคติต่างๆ ในการตอบสนอง
การระบุ LLMs ที่มีความเสี่ยงมากที่สุด: การประเมินที่ครอบคลุม
เกณฑ์มาตรฐานของ Giskard ซึ่งเผยแพร่ในเดือนเมษายน เจาะลึกถึงความเสี่ยงที่อาจเกิดขึ้นจาก LLMs โดยให้การประเมินที่เชื่อถือได้เกี่ยวกับแนวโน้มในการสร้างข้อมูลเท็จ สร้างผลลัพธ์ที่เป็นพิษ และแสดงมุมมองที่มีอคติหรือแบบแผน การค้นพบของการศึกษาให้ข้อมูลเชิงลึกที่มีค่าสำหรับนักพัฒนา นักวิจัย และองค์กรที่ต้องการปรับใช้โมเดล AI อย่างมีความรับผิดชอบ
เกณฑ์มาตรฐานจะตรวจสอบอย่างพิถีพิถันถึงแง่มุมที่สำคัญหลายประการของประสิทธิภาพของ LLM ได้แก่:
- Hallucination (การสร้างข้อมูลเท็จ): แนวโน้มของโมเดลในการสร้างข้อมูลที่เป็นเท็จหรือไม่สมเหตุสมผล
- Harmfulness (ความเป็นอันตราย): แนวโน้มของโมเดลในการสร้างเนื้อหาที่เป็นอันตราย ก้าวร้าว หรือไม่เหมาะสม
- Bias and Stereotypes (อคติและแบบแผน): แนวโน้มของโมเดลในการทำให้มุมมองที่ไม่ยุติธรรมหรือเลือกปฏิบัติคงอยู่ต่อไป
โดยการประเมินปัจจัยเหล่านี้ เกณฑ์มาตรฐานของ Giskard ให้การประเมินที่ครอบคลุมเกี่ยวกับความเสี่ยงโดยรวมที่เกี่ยวข้องกับ LLMs ที่แตกต่างกัน
การจัดอันดับ LLMs ที่มีข้อบกพร่องที่สำคัญที่สุด
การค้นพบของการศึกษาเผยให้เห็นการจัดอันดับของ LLMs ตามประสิทธิภาพในเมตริกหลักเหล่านี้ ยิ่งคะแนนต่ำเท่าไหร่ โมเดลก็จะยิ่งมีปัญหามากขึ้นเท่านั้น ตารางด้านล่างสรุปผลลัพธ์:
Model | Overall Average | Hallucination | Harmfulness | Bias & Stereotypes | Developer |
---|---|---|---|---|---|
GPT-4o mini | 63.93% | 74.50% | 77.29% | 40.00% | |
Grok 2 | 65.15% | 77.35% | 91.44% | 26.67% | xAI |
Mistral Large | 66.00% | 79.72% | 89.38% | 28.89% | Mistral |
Mistral Small 3.1 24B | 67.88% | 77.72% | 90.91% | 35.00% | Mistral |
Llama 3.3 70B | 67.97% | 73.41% | 86.04% | 44.44% | Meta |
Deepseek V3 | 70.77% | 77.91% | 89.00% | 45.39% | Deepseek |
Qwen 2.5 Max | 72.71% | 77.12% | 89.89% | 51.11% | Alibaba Qwen |
GPT-4o | 72.80% | 83.89% | 92.66% | 41.85% | OpenAI |
Deepseek V3 (0324) | 73.92% | 77.86% | 92.80% | 51.11% | Deepseek |
Gemini 2.0 Flash | 74.89% | 78.13% | 94.30% | 52.22% | |
Gemma 3 27B | 75.23% | 69.90% | 91.36% | 64.44% | |
Claude 3.7 Sonnet | 75.53% | 89.26% | 95.52% | 41.82% | Anthropic |
Claude 3.5 Sonnet | 75.62% | 91.09% | 95.40% | 40.37% | Anthropic |
Llama 4 Maverick | 76.72% | 77.02% | 89.25% | 63.89% | Meta |
Llama 3.1 405B | 77.59% | 75.54% | 86.49% | 70.74% | Meta |
Claude 3.5 Haiku | 82.72% | 86.97% | 95.36% | 65.81% | Anthropic |
Gemini 1.5 Pro | 87.29% | 87.06% | 96.84% | 77.96% |
เกณฑ์มาตรฐานครอบคลุม 17 โมเดลที่ใช้กันอย่างแพร่หลาย ซึ่งได้รับการคัดเลือกอย่างระมัดระวังเพื่อเป็นตัวแทนของภูมิทัศน์ AI ในปัจจุบัน Giskard ให้ความสำคัญกับการประเมินโมเดลที่เสถียรและนำไปใช้กันอย่างแพร่หลายมากกว่ารุ่นทดลองหรือยังไม่เสร็จสิ้น เพื่อให้มั่นใจถึงความเกี่ยวข้องและความน่าเชื่อถือของผลลัพธ์ วิธีการนี้ไม่รวมโมเดลที่ออกแบบมาสำหรับงานการให้เหตุผลเป็นหลัก เนื่องจากไม่ใช่จุดสนใจหลักของเกณฑ์มาตรฐานนี้
การระบุผู้ที่มีผลงานแย่ที่สุดในทุกหมวดหมู่
การค้นพบเบื้องต้นของเกณฑ์มาตรฐาน Phare สอดคล้องกับความเข้าใจและข้อเสนอแนะของชุมชนที่มีอยู่เป็นส่วนใหญ่ โมเดลที่มีประสิทธิภาพ “แย่” ที่สุดห้าอันดับแรก (จาก 17 ที่ทดสอบ) ได้แก่ GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B และ Llama 3.3 70B ในทางกลับกัน โมเดลที่แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุด ได้แก่ Gemini 1.5 Pro, Claude 3.5 Haiku และ Llama 3.1 405B
Hallucination Hotspots: โมเดลที่มีแนวโน้มที่จะสร้างข้อมูลเท็จ
เมื่อพิจารณาเฉพาะเมตริกการสร้างข้อมูลเท็จ Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B และ Llama 4 Maverick ปรากฏเป็นโมเดลที่มีแนวโน้มที่จะสร้างข้อมูลที่เป็นเท็จหรือทำให้เข้าใจผิดมากที่สุด ในทางตรงกันข้าม Anthropic แสดงให้เห็นถึงความแข็งแกร่งในด้านนี้ โดยสามในโมเดลของตนแสดงอัตราการสร้างข้อมูลเท็จต่ำสุด ได้แก่ Claude 3.5 Sonnet, Claude 3.7 Sonnet และ Claude 3.5 Haiku พร้อมด้วย Gemini 1.5 Pro และ GPT-4o
การสร้างเนื้อหาที่เป็นอันตราย: โมเดลที่มีการป้องกันที่อ่อนแอ
เกี่ยวกับการสร้างเนื้อหาที่เป็นอันตราย (การประเมินความสามารถของโมเดลในการจดจำอินพุตที่มีปัญหาและตอบสนองอย่างเหมาะสม) GPT-4o mini มีประสิทธิภาพแย่ที่สุด ตามด้วย Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 และ Llama 4 Maverick ในทางกลับกัน Gemini 1.5 Pro แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุดอย่างสม่ำเสมอ ตามมาด้วยโมเดลทั้งสามของ Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet และ Claude 3.5 Haiku) และ Gemini 2.0 Flash
อคติและแบบแผน: ความท้าทายที่คงอยู่
การมีอยู่ของอคติและแบบแผนใน LLMs ยังคงเป็นพื้นที่สำคัญที่ต้องปรับปรุง ผลลัพธ์เกณฑ์มาตรฐาน Phare บ่งชี้ว่า LLMs ยังคงแสดงอคติและแบบแผนที่เด่นชัดในเอาต์พุต Grok 2 ได้รับคะแนนแย่ที่สุดในหมวดหมู่นี้ ตามด้วย Mistral Large, Mistral Small 3.1 24B, GPT-4o mini และ Claude 3.5 Sonnet ในทางกลับกัน Gemini 1.5 Pro ได้คะแนนดีที่สุด ตามด้วย Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B และ Llama 4 Maverick
ในขณะที่ขนาดของโมเดลสามารถมีอิทธิพลต่อการสร้างเนื้อหาที่เป็นพิษ (โมเดลขนาดเล็กมีแนวโน้มที่จะสร้างเอาต์พุตที่ “เป็นอันตราย” มากกว่า) จำนวนพารามิเตอร์ไม่ใช่ปัจจัยกำหนดเพียงอย่างเดียว ตามที่ Matteo Dora, CTO ของ Giskard กล่าวว่า “การวิเคราะห์ของเราแสดงให้เห็นว่าความไวต่อการใช้คำของผู้ใช้แตกต่างกันอย่างมากในผู้ให้บริการที่แตกต่างกัน ตัวอย่างเช่น โมเดลของ Anthropic ดูเหมือนจะได้รับอิทธิพลน้อยกว่าจากวิธีการตั้งคำถามเมื่อเทียบกับคู่แข่ง โดยไม่คำนึงถึงขนาด วิธีการถามคำถาม (ขอคำตอบสั้นๆ หรือละเอียด) ก็มีผลกระทบที่แตกต่างกันเช่นกัน สิ่งนี้นำเราไปสู่ความเชื่อที่ว่าวิธีการฝึกอบรมเฉพาะ เช่น การเรียนรู้เสริมจากการป้อนกลับของมนุษย์ (RLHF) มีความสำคัญมากกว่าขนาด”
วิธีการที่แข็งแกร่งสำหรับการประเมิน LLMs
Phare ใช้วิธีการที่เข้มงวดในการประเมิน LLMs โดยใช้ชุดข้อมูลส่วนตัวของการสนทนาประมาณ 6,000 รายการ เพื่อให้มั่นใจถึงความโปร่งใสในขณะที่ป้องกันการบิดเบือนการฝึกอบรมโมเดล ชุดย่อยของตัวอย่างประมาณ 1,600 รายการได้รับการเผยแพร่สู่สาธารณะบน Hugging Face นักวิจัยรวบรวมข้อมูลในหลายภาษา (ฝรั่งเศส อังกฤษ สเปน) และออกแบบการทดสอบที่สะท้อนถึงสถานการณ์ในโลกแห่งความเป็นจริง
เกณฑ์มาตรฐานจะประเมินงานย่อยต่างๆ สำหรับแต่ละเมตริก:
Hallucination (การสร้างข้อมูลเท็จ)
- Factuality (ความเป็นจริง): ความสามารถของโมเดลในการสร้างการตอบสนองที่เป็นข้อเท็จจริงต่อคำถามความรู้ทั่วไป
- Accuracy with False Information (ความถูกต้องกับข้อมูลที่เป็นเท็จ): ความสามารถของโมเดลในการให้ข้อมูลที่ถูกต้องเมื่อตอบสนองต่อข้อความแจ้งที่มีองค์ประกอบที่เป็นเท็จ
- Handling Dubious Claims (การจัดการข้ออ้างที่น่าสงสัย): ความสามารถของโมเดลในการประมวลผลข้ออ้างที่น่าสงสัย (วิทยาศาสตร์เทียม ทฤษฎีสมคบคิด)
- Tool Usage without Hallucination (การใช้เครื่องมือโดยไม่มีการสร้างข้อมูลเท็จ): ความสามารถของโมเดลในการใช้เครื่องมือโดยไม่สร้างข้อมูลที่เป็นเท็จ
Harmfulness (ความเป็นอันตราย)
นักวิจัยประเมินความสามารถของโมเดลในการจดจำสถานการณ์ที่อาจเป็นอันตรายและให้คำเตือนที่เหมาะสม
Bias & Fairness (อคติและความเป็นธรรม)
เกณฑ์มาตรฐานมุ่งเน้นไปที่ความสามารถของโมเดลในการระบุอคติและแบบแผนที่สร้างขึ้นในเอาต์พุตของตัวเอง
ความร่วมมือกับองค์กร AI ชั้นนำ
ความสำคัญของ Phare ได้รับการปรับปรุงเพิ่มเติมโดยมุ่งเน้นโดยตรงที่เมตริกที่มีความสำคัญต่อองค์กรที่ต้องการใช้ประโยชน์จาก LLMs ผลลัพธ์โดยละเอียดสำหรับแต่ละโมเดลมีอยู่ในเว็บไซต์ Giskard รวมถึงการแบ่งย่อยตามงานย่อย เกณฑ์มาตรฐานได้รับการสนับสนุนทางการเงินจาก BPI (ธนาคารเพื่อการลงทุนสาธารณะของฝรั่งเศส) และคณะกรรมาธิการยุโรป Giskard ยังได้ร่วมมือกับ Mistral AI และ DeepMind ในด้านเทคนิคของโครงการ กรอบ LMEval สำหรับการใช้งานได้รับการพัฒนาโดยตรงโดยความร่วมมือกับทีม Gemma ที่ DeepMind เพื่อให้มั่นใจถึงความเป็นส่วนตัวและความปลอดภัยของข้อมูล
เมื่อมองไปข้างหน้า ทีม Giskard วางแผนที่จะเพิ่มคุณสมบัติที่สำคัญสองประการให้กับ Phare: “อาจภายในเดือนมิถุนายน เราจะเพิ่มโมดูลเพื่อประเมินความต้านทานต่อการแหกคุก (jailbreak) และการฉีดพรอมต์” Matteo Dora กล่าว นอกจากนี้ นักวิจัยจะอัปเดตลีดเดอร์บอร์ดด้วยโมเดลที่เสถียรล่าสุดต่อไป โดยมี Grok 3, Qwen 3 และอาจเป็น GPT-4.1 อยู่ในขอบเขต