การตรวจสอบข้อโต้แย้งอย่างใกล้ชิด
เมื่อเร็ว ๆ นี้ พนักงานของ OpenAI ได้กล่าวหา xAI บริษัท AI ของ Elon Musk ว่านำเสนอผลการวัดประสิทธิภาพของ Grok 3 ซึ่งเป็นแบบจำลอง AI ล่าสุดของพวกเขาอย่างทำให้เข้าใจผิด สิ่งนี้จุดประกายให้เกิดการถกเถียง โดย Igor Babushkin หนึ่งในผู้ร่วมก่อตั้ง xAI ได้ออกมาปกป้องจุดยืนของบริษัทอย่างแข็งขัน
ความจริงของสถานการณ์ดังกล่าวมักจะอยู่ในจุดกึ่งกลางที่มีความแตกต่างกันเล็กน้อย
ในบล็อกโพสต์ xAI ได้แสดงกราฟที่แสดงประสิทธิภาพของ Grok 3 ใน AIME 2025 ซึ่งเป็นชุดปัญหาทางคณิตศาสตร์ที่ท้าทายซึ่งได้มาจากการสอบคณิตศาสตร์สำหรับผู้ได้รับเชิญเมื่อเร็ว ๆ นี้ แม้ว่าผู้เชี่ยวชาญบางคนได้ตั้งข้อสงสัยเกี่ยวกับความถูกต้องของ AIME ในฐานะเกณฑ์มาตรฐาน AI ที่แน่นอน แต่ก็ยังคงเป็นเครื่องมือที่ใช้กันทั่วไปในการประเมินความสามารถทางคณิตศาสตร์ของแบบจำลอง ร่วมกับเวอร์ชันเก่าของการทดสอบ
การถอดรหัสกราฟของ xAI
กราฟที่นำเสนอโดย xAI แสดง Grok 3 สองรูปแบบ ได้แก่ Grok 3 Reasoning Beta และ Grok 3 mini Reasoning ซึ่งดูเหมือนจะมีประสิทธิภาพเหนือกว่า o3-mini-high ซึ่งเป็นแบบจำลองที่มีประสิทธิภาพสูงสุดของ OpenAI ใน AIME 2025 อย่างไรก็ตาม พนักงานของ OpenAI ได้ตอบโต้อย่างรวดเร็วบนโซเชียลมีเดีย โดยสังเกตเห็นการละเว้นที่เห็นได้ชัดเจน: กราฟของ xAI ไม่ได้รวมคะแนน AIME 2025 ของ o3-mini-high ที่ “cons@64”
“cons@64” คืออะไรกันแน่? มันเป็นตัวย่อของ “consensus@64” ซึ่งเป็นวิธีการที่ให้แบบจำลอง 64 ครั้งในการแก้ปัญหาแต่ละข้อภายในเกณฑ์มาตรฐาน คำตอบที่สร้างขึ้นบ่อยที่สุดจะถูกเลือกเป็นคำตอบสุดท้าย อย่างที่คาดไว้ cons@64 มักจะเพิ่มคะแนนเกณฑ์มาตรฐานของแบบจำลองได้อย่างมาก การละเว้นจากกราฟเปรียบเทียบอาจสร้างภาพลวงตาว่าแบบจำลองหนึ่งเหนือกว่าอีกแบบหนึ่ง ในขณะที่ในความเป็นจริง อาจไม่เป็นเช่นนั้น
การอ้างว่าเป็น “AI ที่ฉลาดที่สุดในโลก”
เมื่อพิจารณาคะแนน AIME 2025 ที่ “@1” ซึ่งบ่งชี้ถึงคะแนนแรกที่แบบจำลองทำได้ในเกณฑ์มาตรฐาน ทั้ง Grok 3 Reasoning Beta และ Grok 3 mini Reasoning ต่างก็ทำคะแนนได้ต่ำกว่าคะแนนของ o3-mini-high นอกจากนี้ Grok 3 Reasoning Beta ยังตามหลัง o1 model ของ OpenAI ที่ตั้งค่าการคำนวณเป็น “ปานกลาง” เพียงเล็กน้อยเท่านั้น แม้จะมีผลลัพธ์เหล่านี้ xAI ก็กำลังโปรโมต Grok 3 อย่างแข็งขันว่าเป็น “AI ที่ฉลาดที่สุดในโลก”
Babushkin โต้แย้งบนโซเชียลมีเดียว่า OpenAI เคยเผยแพร่แผนภูมิเกณฑ์มาตรฐานที่ทำให้เข้าใจผิดในทำนองเดียวกันในอดีต อย่างไรก็ตาม แผนภูมิเหล่านั้นถูกใช้เพื่อเปรียบเทียบประสิทธิภาพของแบบจำลองของ OpenAI เอง ผู้สังเกตการณ์ที่เป็นกลางในการอภิปรายได้สร้างกราฟที่ “แม่นยำ” มากขึ้น โดยแสดงประสิทธิภาพของเกือบทุกแบบจำลองที่ cons@64
เมตริกที่ขาดหายไป: ต้นทุนการคำนวณ
Nathan Lambert นักวิจัย AI เน้นย้ำถึงประเด็นสำคัญ: เมตริกที่สำคัญที่สุดยังคงถูกปกปิดเป็นความลับ นี่คือต้นทุนการคำนวณ (และทางการเงิน) ที่เกิดขึ้นจากแต่ละแบบจำลองเพื่อให้ได้คะแนนที่ดีที่สุด สิ่งนี้ตอกย้ำปัญหาพื้นฐานของเกณฑ์มาตรฐาน AI ส่วนใหญ่ ซึ่งเผยให้เห็นข้อจำกัดของแบบจำลองเพียงเล็กน้อย หรือแม้แต่จุดแข็งของมัน
การถกเถียงเกี่ยวกับเกณฑ์มาตรฐานของ Grok 3 เน้นย้ำถึงปัญหาที่กว้างขึ้นภายในชุมชน AI: ความต้องการความโปร่งใสและมาตรฐานที่มากขึ้นในการประเมินและเปรียบเทียบแบบจำลอง AI
เจาะลึกการวัดประสิทธิภาพ AI
ข้อโต้แย้งเกี่ยวกับการนำเสนอประสิทธิภาพของ Grok 3 ของ xAI ทำให้เกิดคำถามสำคัญหลายประการเกี่ยวกับธรรมชาติของการวัดประสิทธิภาพ AI เกณฑ์มาตรฐานที่ดีคืออะไร? ควรนำเสนอผลลัพธ์อย่างไรเพื่อหลีกเลี่ยงการตีความที่ผิด? และข้อจำกัดของการพึ่งพาคะแนนเกณฑ์มาตรฐานเพียงอย่างเดียวในการประเมินความสามารถของแบบจำลอง AI คืออะไร?
วัตถุประสงค์ของเกณฑ์มาตรฐาน:
ตามทฤษฎีแล้ว เกณฑ์มาตรฐานทำหน้าที่เป็นวิธีมาตรฐานในการวัดและเปรียบเทียบประสิทธิภาพของแบบจำลอง AI ต่างๆ ในงานเฉพาะ พวกเขาให้เกณฑ์มาตรฐานทั่วไป ช่วยให้นักวิจัยและนักพัฒนาสามารถติดตามความคืบหน้า ระบุจุดแข็งและจุดอ่อน และขับเคลื่อนนวัตกรรมในท้ายที่สุด อย่างไรก็ตาม ประสิทธิภาพของเกณฑ์มาตรฐานขึ้นอยู่กับปัจจัยหลายประการ:
- ความเกี่ยวข้อง: เกณฑ์มาตรฐานสะท้อนถึงงานและความท้าทายในโลกแห่งความเป็นจริงอย่างถูกต้องหรือไม่?
- ความครอบคลุม: เกณฑ์มาตรฐานครอบคลุมความสามารถที่หลากหลายที่เกี่ยวข้องกับการใช้งานตามวัตถุประสงค์ของแบบจำลอง AI หรือไม่?
- ความเป็นกลาง: เกณฑ์มาตรฐานได้รับการออกแบบและจัดการในลักษณะที่ลดอคติและรับประกันการเปรียบเทียบที่เป็นธรรมหรือไม่?
- ความสามารถในการทำซ้ำ: ผลลัพธ์ของเกณฑ์มาตรฐานสามารถทำซ้ำได้อย่างสม่ำเสมอโดยนักวิจัยอิสระหรือไม่?
ความท้าทายของการวัดประสิทธิภาพ AI:
แม้จะมีวัตถุประสงค์ตามที่ตั้งใจไว้ แต่เกณฑ์มาตรฐาน AI มักจะเต็มไปด้วยความท้าทาย:
- การปรับให้เหมาะสมมากเกินไป (Overfitting): แบบจำลองสามารถฝึกฝนเป็นพิเศษเพื่อให้เก่งในเกณฑ์มาตรฐานเฉพาะ โดยไม่จำเป็นต้องได้รับสติปัญญาที่แท้จริงหรือความสามารถทั่วไป ปรากฏการณ์นี้เรียกว่า “การปรับให้เหมาะสมมากเกินไป” ซึ่งอาจนำไปสู่คะแนนที่สูงเกินจริงซึ่งไม่ได้สะท้อนถึงประสิทธิภาพในโลกแห่งความเป็นจริง
- การขาดมาตรฐาน: การเพิ่มจำนวนของเกณฑ์มาตรฐานที่แตกต่างกัน ซึ่งแต่ละเกณฑ์มีวิธีการและระบบการให้คะแนนของตัวเอง ทำให้ยากต่อการเปรียบเทียบผลลัพธ์ระหว่างแบบจำลองและห้องปฏิบัติการวิจัยต่างๆ
- การเล่นเกมระบบ: ดังที่ข้อโต้แย้งของ xAI แสดงให้เห็น มีสิ่งล่อใจสำหรับบริษัทต่างๆ ที่จะเลือกนำเสนอผลลัพธ์เกณฑ์มาตรฐานในลักษณะที่เข้าข้างแบบจำลองของตนเอง ซึ่งอาจทำให้สาธารณชนเข้าใจผิดและขัดขวางการประเมินตามวัตถุประสงค์
- ขอบเขตที่จำกัด: เกณฑ์มาตรฐานมักจะเน้นไปที่งานที่แคบและมีคำจำกัดความที่ดี โดยไม่สามารถจับความซับซ้อนและความแตกต่างทั้งหมดของสติปัญญาของมนุษย์ได้ พวกเขาอาจไม่สามารถประเมินแง่มุมต่างๆ ได้อย่างเพียงพอ เช่น ความคิดสร้างสรรค์ การใช้เหตุผลเชิงสามัญสำนึก หรือความสามารถในการปรับตัวเข้ากับสถานการณ์ใหม่ๆ
ความต้องการความโปร่งใสและการประเมินแบบองค์รวม
เหตุการณ์ Grok 3 ตอกย้ำถึงความจำเป็นที่สำคัญสำหรับความโปร่งใสที่มากขึ้นและแนวทางการประเมินแบบจำลอง AI แบบองค์รวมมากขึ้น การพึ่งพาคะแนนเกณฑ์มาตรฐานเพียงอย่างเดียว โดยเฉพาะอย่างยิ่งคะแนนที่นำเสนอโดยไม่มีบริบททั้งหมด อาจทำให้เข้าใจผิดได้อย่างมาก
ก้าวข้ามเกณฑ์มาตรฐาน:
แม้ว่าเกณฑ์มาตรฐานจะเป็นเครื่องมือที่มีประโยชน์ แต่ก็ไม่ควรเป็นตัวกำหนดความสามารถของแบบจำลอง AI แต่เพียงผู้เดียว การประเมินที่ครอบคลุมมากขึ้นควรพิจารณา:
- ประสิทธิภาพในโลกแห่งความเป็นจริง: แบบจำลองทำงานอย่างไรในการใช้งานและสถานการณ์จริง?
- การวิเคราะห์เชิงคุณภาพ: การประเมินโดยผู้เชี่ยวชาญเกี่ยวกับผลลัพธ์ของแบบจำลอง การประเมินปัจจัยต่างๆ เช่น ความสอดคล้อง ความคิดสร้างสรรค์ และความสามารถในการใช้เหตุผล
- ข้อควรพิจารณาด้านจริยธรรม: แบบจำลองแสดงอคติหรือสร้างเนื้อหาที่เป็นอันตรายหรือไม่?
- ความสามารถในการอธิบาย: กระบวนการตัดสินใจของแบบจำลองสามารถเข้าใจและตีความได้หรือไม่?
- ความทนทาน: แบบจำลองจัดการกับอินพุตที่มีเสียงดังหรือที่ไม่คาดคิดได้ดีเพียงใด?
การส่งเสริมความโปร่งใส:
ห้องปฏิบัติการ AI ควรพยายามให้มีความโปร่งใสมากขึ้นในการวัดประสิทธิภาพ ซึ่งรวมถึง:
- การกำหนดวิธีการอย่างชัดเจน: การให้ข้อมูลโดยละเอียดเกี่ยวกับการตั้งค่าเกณฑ์มาตรฐาน รวมถึงชุดข้อมูลเฉพาะที่ใช้ เมตริกการประเมิน และขั้นตอนการประมวลผลล่วงหน้าใดๆ
- การรายงานผลลัพธ์ทั้งหมด: การนำเสนอคะแนนที่เกี่ยวข้องทั้งหมด รวมถึงคะแนนที่ได้รับโดยใช้การกำหนดค่าหรือวิธีการที่แตกต่างกัน (เช่น cons@64)
- การเปิดเผยต้นทุนการคำนวณ: การเปิดเผยทรัพยากรการคำนวณที่จำเป็นเพื่อให้ได้ผลลัพธ์ที่รายงาน
- เกณฑ์มาตรฐานโอเพนซอร์ส: การทำให้ชุดข้อมูลเกณฑ์มาตรฐานและเครื่องมือประเมินพร้อมใช้งานต่อสาธารณะเพื่ออำนวยความสะดวกในการตรวจสอบและเปรียบเทียบโดยอิสระ
การแสวงหาปัญญาประดิษฐ์เป็นสาขาที่ซับซ้อนและมีการพัฒนาอย่างรวดเร็ว เกณฑ์มาตรฐานแม้จะไม่สมบูรณ์แบบ แต่ก็มีบทบาทในการวัดความก้าวหน้า อย่างไรก็ตาม สิ่งสำคัญคือต้องตระหนักถึงข้อจำกัดของพวกเขาและพยายามให้มีแนวทางการประเมินแบบจำลอง AI ที่มีความแตกต่างและโปร่งใสมากขึ้น เป้าหมายสูงสุดควรเป็นการพัฒนาระบบ AI ที่ไม่เพียงแต่มีประสิทธิภาพ แต่ยังเชื่อถือได้ มีจริยธรรม และเป็นประโยชน์ต่อสังคม การมุ่งเน้นต้องเปลี่ยนจากการไล่ล่าคะแนนเกณฑ์มาตรฐานที่สูงขึ้นไปสู่การสร้าง AI ที่เข้าใจและโต้ตอบกับโลกอย่างแท้จริงในลักษณะที่มีความหมาย