AI โมเดลปัญหาเยอะ: อันตราย, ภาพหลอน, อคติ

การศึกษาล่าสุดโดยสตาร์ทอัพฝรั่งเศส Giskard ได้เน้นย้ำถึงข้อบกพร่องที่สำคัญของโมเดลภาษา (LLMs) ที่ใช้กันอย่างแพร่หลายที่สุดในแวดวงปัญญาประดิษฐ์ (AI) การศึกษาครั้งนี้ประเมินอย่างพิถีพิถันถึงแนวโน้มของโมเดลเหล่านี้ในการสร้างเนื้อหาที่เป็นอันตราย สร้างข้อมูลเท็จ (hallucinate) และแสดงอคติต่างๆ ในการตอบสนอง

การระบุ LLMs ที่มีความเสี่ยงมากที่สุด: การประเมินที่ครอบคลุม

เกณฑ์มาตรฐานของ Giskard ซึ่งเผยแพร่ในเดือนเมษายน เจาะลึกถึงความเสี่ยงที่อาจเกิดขึ้นจาก LLMs โดยให้การประเมินที่เชื่อถือได้เกี่ยวกับแนวโน้มในการสร้างข้อมูลเท็จ สร้างผลลัพธ์ที่เป็นพิษ และแสดงมุมมองที่มีอคติหรือแบบแผน การค้นพบของการศึกษาให้ข้อมูลเชิงลึกที่มีค่าสำหรับนักพัฒนา นักวิจัย และองค์กรที่ต้องการปรับใช้โมเดล AI อย่างมีความรับผิดชอบ

เกณฑ์มาตรฐานจะตรวจสอบอย่างพิถีพิถันถึงแง่มุมที่สำคัญหลายประการของประสิทธิภาพของ LLM ได้แก่:

  • Hallucination (การสร้างข้อมูลเท็จ): แนวโน้มของโมเดลในการสร้างข้อมูลที่เป็นเท็จหรือไม่สมเหตุสมผล
  • Harmfulness (ความเป็นอันตราย): แนวโน้มของโมเดลในการสร้างเนื้อหาที่เป็นอันตราย ก้าวร้าว หรือไม่เหมาะสม
  • Bias and Stereotypes (อคติและแบบแผน): แนวโน้มของโมเดลในการทำให้มุมมองที่ไม่ยุติธรรมหรือเลือกปฏิบัติคงอยู่ต่อไป

โดยการประเมินปัจจัยเหล่านี้ เกณฑ์มาตรฐานของ Giskard ให้การประเมินที่ครอบคลุมเกี่ยวกับความเสี่ยงโดยรวมที่เกี่ยวข้องกับ LLMs ที่แตกต่างกัน

การจัดอันดับ LLMs ที่มีข้อบกพร่องที่สำคัญที่สุด

การค้นพบของการศึกษาเผยให้เห็นการจัดอันดับของ LLMs ตามประสิทธิภาพในเมตริกหลักเหล่านี้ ยิ่งคะแนนต่ำเท่าไหร่ โมเดลก็จะยิ่งมีปัญหามากขึ้นเท่านั้น ตารางด้านล่างสรุปผลลัพธ์:

Model Overall Average Hallucination Harmfulness Bias & Stereotypes Developer
GPT-4o mini 63.93% 74.50% 77.29% 40.00%
Grok 2 65.15% 77.35% 91.44% 26.67% xAI
Mistral Large 66.00% 79.72% 89.38% 28.89% Mistral
Mistral Small 3.1 24B 67.88% 77.72% 90.91% 35.00% Mistral
Llama 3.3 70B 67.97% 73.41% 86.04% 44.44% Meta
Deepseek V3 70.77% 77.91% 89.00% 45.39% Deepseek
Qwen 2.5 Max 72.71% 77.12% 89.89% 51.11% Alibaba Qwen
GPT-4o 72.80% 83.89% 92.66% 41.85% OpenAI
Deepseek V3 (0324) 73.92% 77.86% 92.80% 51.11% Deepseek
Gemini 2.0 Flash 74.89% 78.13% 94.30% 52.22% Google
Gemma 3 27B 75.23% 69.90% 91.36% 64.44% Google
Claude 3.7 Sonnet 75.53% 89.26% 95.52% 41.82% Anthropic
Claude 3.5 Sonnet 75.62% 91.09% 95.40% 40.37% Anthropic
Llama 4 Maverick 76.72% 77.02% 89.25% 63.89% Meta
Llama 3.1 405B 77.59% 75.54% 86.49% 70.74% Meta
Claude 3.5 Haiku 82.72% 86.97% 95.36% 65.81% Anthropic
Gemini 1.5 Pro 87.29% 87.06% 96.84% 77.96% Google

เกณฑ์มาตรฐานครอบคลุม 17 โมเดลที่ใช้กันอย่างแพร่หลาย ซึ่งได้รับการคัดเลือกอย่างระมัดระวังเพื่อเป็นตัวแทนของภูมิทัศน์ AI ในปัจจุบัน Giskard ให้ความสำคัญกับการประเมินโมเดลที่เสถียรและนำไปใช้กันอย่างแพร่หลายมากกว่ารุ่นทดลองหรือยังไม่เสร็จสิ้น เพื่อให้มั่นใจถึงความเกี่ยวข้องและความน่าเชื่อถือของผลลัพธ์ วิธีการนี้ไม่รวมโมเดลที่ออกแบบมาสำหรับงานการให้เหตุผลเป็นหลัก เนื่องจากไม่ใช่จุดสนใจหลักของเกณฑ์มาตรฐานนี้

การระบุผู้ที่มีผลงานแย่ที่สุดในทุกหมวดหมู่

การค้นพบเบื้องต้นของเกณฑ์มาตรฐาน Phare สอดคล้องกับความเข้าใจและข้อเสนอแนะของชุมชนที่มีอยู่เป็นส่วนใหญ่ โมเดลที่มีประสิทธิภาพ “แย่” ที่สุดห้าอันดับแรก (จาก 17 ที่ทดสอบ) ได้แก่ GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B และ Llama 3.3 70B ในทางกลับกัน โมเดลที่แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุด ได้แก่ Gemini 1.5 Pro, Claude 3.5 Haiku และ Llama 3.1 405B

Hallucination Hotspots: โมเดลที่มีแนวโน้มที่จะสร้างข้อมูลเท็จ

เมื่อพิจารณาเฉพาะเมตริกการสร้างข้อมูลเท็จ Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B และ Llama 4 Maverick ปรากฏเป็นโมเดลที่มีแนวโน้มที่จะสร้างข้อมูลที่เป็นเท็จหรือทำให้เข้าใจผิดมากที่สุด ในทางตรงกันข้าม Anthropic แสดงให้เห็นถึงความแข็งแกร่งในด้านนี้ โดยสามในโมเดลของตนแสดงอัตราการสร้างข้อมูลเท็จต่ำสุด ได้แก่ Claude 3.5 Sonnet, Claude 3.7 Sonnet และ Claude 3.5 Haiku พร้อมด้วย Gemini 1.5 Pro และ GPT-4o

การสร้างเนื้อหาที่เป็นอันตราย: โมเดลที่มีการป้องกันที่อ่อนแอ

เกี่ยวกับการสร้างเนื้อหาที่เป็นอันตราย (การประเมินความสามารถของโมเดลในการจดจำอินพุตที่มีปัญหาและตอบสนองอย่างเหมาะสม) GPT-4o mini มีประสิทธิภาพแย่ที่สุด ตามด้วย Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 และ Llama 4 Maverick ในทางกลับกัน Gemini 1.5 Pro แสดงให้เห็นถึงประสิทธิภาพที่ดีที่สุดอย่างสม่ำเสมอ ตามมาด้วยโมเดลทั้งสามของ Anthropic (Claude 3.7 Sonnet, Claude 3.5 Sonnet และ Claude 3.5 Haiku) และ Gemini 2.0 Flash

อคติและแบบแผน: ความท้าทายที่คงอยู่

การมีอยู่ของอคติและแบบแผนใน LLMs ยังคงเป็นพื้นที่สำคัญที่ต้องปรับปรุง ผลลัพธ์เกณฑ์มาตรฐาน Phare บ่งชี้ว่า LLMs ยังคงแสดงอคติและแบบแผนที่เด่นชัดในเอาต์พุต Grok 2 ได้รับคะแนนแย่ที่สุดในหมวดหมู่นี้ ตามด้วย Mistral Large, Mistral Small 3.1 24B, GPT-4o mini และ Claude 3.5 Sonnet ในทางกลับกัน Gemini 1.5 Pro ได้คะแนนดีที่สุด ตามด้วย Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B และ Llama 4 Maverick

ในขณะที่ขนาดของโมเดลสามารถมีอิทธิพลต่อการสร้างเนื้อหาที่เป็นพิษ (โมเดลขนาดเล็กมีแนวโน้มที่จะสร้างเอาต์พุตที่ “เป็นอันตราย” มากกว่า) จำนวนพารามิเตอร์ไม่ใช่ปัจจัยกำหนดเพียงอย่างเดียว ตามที่ Matteo Dora, CTO ของ Giskard กล่าวว่า “การวิเคราะห์ของเราแสดงให้เห็นว่าความไวต่อการใช้คำของผู้ใช้แตกต่างกันอย่างมากในผู้ให้บริการที่แตกต่างกัน ตัวอย่างเช่น โมเดลของ Anthropic ดูเหมือนจะได้รับอิทธิพลน้อยกว่าจากวิธีการตั้งคำถามเมื่อเทียบกับคู่แข่ง โดยไม่คำนึงถึงขนาด วิธีการถามคำถาม (ขอคำตอบสั้นๆ หรือละเอียด) ก็มีผลกระทบที่แตกต่างกันเช่นกัน สิ่งนี้นำเราไปสู่ความเชื่อที่ว่าวิธีการฝึกอบรมเฉพาะ เช่น การเรียนรู้เสริมจากการป้อนกลับของมนุษย์ (RLHF) มีความสำคัญมากกว่าขนาด”

วิธีการที่แข็งแกร่งสำหรับการประเมิน LLMs

Phare ใช้วิธีการที่เข้มงวดในการประเมิน LLMs โดยใช้ชุดข้อมูลส่วนตัวของการสนทนาประมาณ 6,000 รายการ เพื่อให้มั่นใจถึงความโปร่งใสในขณะที่ป้องกันการบิดเบือนการฝึกอบรมโมเดล ชุดย่อยของตัวอย่างประมาณ 1,600 รายการได้รับการเผยแพร่สู่สาธารณะบน Hugging Face นักวิจัยรวบรวมข้อมูลในหลายภาษา (ฝรั่งเศส อังกฤษ สเปน) และออกแบบการทดสอบที่สะท้อนถึงสถานการณ์ในโลกแห่งความเป็นจริง

เกณฑ์มาตรฐานจะประเมินงานย่อยต่างๆ สำหรับแต่ละเมตริก:

Hallucination (การสร้างข้อมูลเท็จ)

  • Factuality (ความเป็นจริง): ความสามารถของโมเดลในการสร้างการตอบสนองที่เป็นข้อเท็จจริงต่อคำถามความรู้ทั่วไป
  • Accuracy with False Information (ความถูกต้องกับข้อมูลที่เป็นเท็จ): ความสามารถของโมเดลในการให้ข้อมูลที่ถูกต้องเมื่อตอบสนองต่อข้อความแจ้งที่มีองค์ประกอบที่เป็นเท็จ
  • Handling Dubious Claims (การจัดการข้ออ้างที่น่าสงสัย): ความสามารถของโมเดลในการประมวลผลข้ออ้างที่น่าสงสัย (วิทยาศาสตร์เทียม ทฤษฎีสมคบคิด)
  • Tool Usage without Hallucination (การใช้เครื่องมือโดยไม่มีการสร้างข้อมูลเท็จ): ความสามารถของโมเดลในการใช้เครื่องมือโดยไม่สร้างข้อมูลที่เป็นเท็จ

Harmfulness (ความเป็นอันตราย)

นักวิจัยประเมินความสามารถของโมเดลในการจดจำสถานการณ์ที่อาจเป็นอันตรายและให้คำเตือนที่เหมาะสม

Bias & Fairness (อคติและความเป็นธรรม)

เกณฑ์มาตรฐานมุ่งเน้นไปที่ความสามารถของโมเดลในการระบุอคติและแบบแผนที่สร้างขึ้นในเอาต์พุตของตัวเอง

ความร่วมมือกับองค์กร AI ชั้นนำ

ความสำคัญของ Phare ได้รับการปรับปรุงเพิ่มเติมโดยมุ่งเน้นโดยตรงที่เมตริกที่มีความสำคัญต่อองค์กรที่ต้องการใช้ประโยชน์จาก LLMs ผลลัพธ์โดยละเอียดสำหรับแต่ละโมเดลมีอยู่ในเว็บไซต์ Giskard รวมถึงการแบ่งย่อยตามงานย่อย เกณฑ์มาตรฐานได้รับการสนับสนุนทางการเงินจาก BPI (ธนาคารเพื่อการลงทุนสาธารณะของฝรั่งเศส) และคณะกรรมาธิการยุโรป Giskard ยังได้ร่วมมือกับ Mistral AI และ DeepMind ในด้านเทคนิคของโครงการ กรอบ LMEval สำหรับการใช้งานได้รับการพัฒนาโดยตรงโดยความร่วมมือกับทีม Gemma ที่ DeepMind เพื่อให้มั่นใจถึงความเป็นส่วนตัวและความปลอดภัยของข้อมูล

เมื่อมองไปข้างหน้า ทีม Giskard วางแผนที่จะเพิ่มคุณสมบัติที่สำคัญสองประการให้กับ Phare: “อาจภายในเดือนมิถุนายน เราจะเพิ่มโมดูลเพื่อประเมินความต้านทานต่อการแหกคุก (jailbreak) และการฉีดพรอมต์” Matteo Dora กล่าว นอกจากนี้ นักวิจัยจะอัปเดตลีดเดอร์บอร์ดด้วยโมเดลที่เสถียรล่าสุดต่อไป โดยมี Grok 3, Qwen 3 และอาจเป็น GPT-4.1 อยู่ในขอบเขต