คิดใหม่เรื่องมาตรฐาน AI: แสวงหาการวัดที่สมเหตุสมผล

การแสวงหาปัญญาประดิษฐ์ (AI) ที่เหนือกว่ามักถูกขับเคลื่อนด้วยคะแนนมาตรฐาน แต่คะแนนเหล่านี้บ่งชี้ถึงความสามารถในโลกแห่งความเป็นจริงอย่างแท้จริงหรือไม่? ชุมชน AI กำลังต่อสู้กับคำถามนี้เนื่องจากเกณฑ์มาตรฐานแบบดั้งเดิมกำลังเผชิญกับการตรวจสอบที่เพิ่มขึ้น

SWE-Bench ซึ่งเปิดตัวในเดือนพฤศจิกายน 2024 ได้รับแรงผลักดันอย่างรวดเร็วในฐานะเครื่องมือยอดนิยมสำหรับการประเมินความสามารถในการเขียนโค้ดของโมเดล AI โดยใช้ประโยชน์จากความท้าทายด้านการเขียนโปรแกรมที่แท้จริงกว่า 2,000 รายการที่ดึงมาจากที่เก็บ GitHub สาธารณะในโครงการที่ใช้ Python จำนวนมาก คะแนน SWE-Bench ที่แข็งแกร่งได้กลายเป็นป้ายที่น่าปรารถนา ซึ่งแสดงไว้อย่างโดดเด่นในการเปิดตัวโมเดลหลักจากนักพัฒนา AI ชั้นนำ เช่น OpenAI, Anthropic และ Google นอกเหนือจากยักษ์ใหญ่เหล่านี้ บริษัท AI ที่เชี่ยวชาญด้านการปรับแต่งอย่างละเอียดต่างแข่งขันกันเพื่อความเป็นเลิศในลีดเดอร์บอร์ด SWE-Bench อย่างต่อเนื่อง

อย่างไรก็ตาม ความกระตือรือร้นที่ล้อมรอบเกณฑ์มาตรฐานเหล่านี้อาจทำให้เข้าใจผิด จอห์น หยาง นักวิจัยจากมหาวิทยาลัยพรินซ์ตันที่เกี่ยวข้องกับการพัฒนา SWE-Bench ตั้งข้อสังเกตว่าการแข่งขันที่รุนแรงเพื่อแย่งชิงตำแหน่งสูงสุดได้นำไปสู่การ “เล่นเกม” ของระบบ สิ่งนี้ทำให้เกิดความกังวลว่าเกณฑ์มาตรฐานเหล่านี้สะท้อนถึงความสำเร็จของ AI ที่แท้จริงอย่างถูกต้องหรือไม่

ปัญหาไม่ได้อยู่ที่การโกงอย่างโจ่งแจ้งเสมอไป แต่เป็นการพัฒนาแนวทางที่ปรับให้เข้ากับข้อจำกัดของเกณฑ์มาตรฐานโดยเฉพาะ ตัวอย่างเช่น SWE-Bench เริ่มต้นมุ่งเน้นไปที่โค้ด Python เท่านั้น ซึ่งกระตุ้นให้นักพัฒนาฝึกอบรมโมเดลของตนโดยเฉพาะใน Python หยางสังเกตว่าโมเดลที่ได้คะแนนสูงเหล่านี้มักจะล้มเหลวเมื่อเผชิญหน้ากับภาษาโปรแกรมที่แตกต่างกัน โดยเปิดเผยความเข้าใจเพียงผิวเผินที่เขาอธิบายว่า “เคลือบทอง”

“มันดูดีและเงางามเมื่อมองแวบแรก แต่เมื่อคุณลองใช้งานกับภาษาอื่น ทุกอย่างก็พังทลายลง” หยางอธิบาย “ณ จุดนั้น คุณไม่ได้ออกแบบตัวแทนวิศวกรรมซอฟต์แวร์ คุณกำลังออกแบบเพื่อสร้างตัวแทน SWE-Bench ซึ่งน่าสนใจน้อยกว่ามาก”

“ปัญหา SWE-Bench” นี้สะท้อนถึงความท้าทายที่กว้างขึ้นในการประเมิน AI เกณฑ์มาตรฐาน ซึ่งครั้งหนึ่งเคยถือเป็นตัวบ่งชี้ความคืบหน้าที่เชื่อถือได้ กำลังแยกตัวออกจากความสามารถในโลกแห่งความเป็นจริงมากขึ้นเรื่อยๆ ปัญหาที่ซับซ้อนขึ้นคือความกังวลเกี่ยวกับความโปร่งใสที่ปรากฏขึ้น ซึ่งบ่อนทำลายความไว้วางใจในเมตริกเหล่านี้มากยิ่งขึ้น แม้จะมีปัญหาเหล่านี้ แต่เกณฑ์มาตรฐานยังคงมีบทบาทสำคัญในการพัฒนาโมเดล แม้ว่าผู้เชี่ยวชาญหลายคนจะตั้งคำถามถึงคุณค่าโดยธรรมชาติของพวกเขาก็ตาม Andrej Karpathy ผู้ร่วมก่อตั้ง OpenAI ถึงกับเรียกสถานการณ์ปัจจุบันว่าเป็น “วิกฤตการประเมิน” โดยคร่ำครวญถึงการขาดวิธีการที่เชื่อถือได้สำหรับการวัดความสามารถของ AI และการไม่มีเส้นทางที่ชัดเจนไปข้างหน้า

Vanessa Parli ผู้อำนวยการฝ่ายวิจัยของสถาบัน AI ที่เน้นมนุษย์เป็นศูนย์กลางของมหาวิทยาลัยสแตนฟอร์ด ถามว่า “ในอดีต เกณฑ์มาตรฐานเป็นวิธีที่เราประเมินระบบ AI นั่นเป็นวิธีที่เราต้องการประเมินระบบต่อไปหรือไม่ และถ้าไม่ใช่ วิธีการคืออะไร”

กลุ่มนักวิชาการและนักวิจัย AI ที่เพิ่มมากขึ้นสนับสนุนแนวทางที่เน้นมากขึ้น โดยได้รับแรงบันดาลใจจากสังคมศาสตร์ พวกเขาเสนอให้จัดลำดับความสำคัญของ “ความถูกต้อง” ซึ่งเป็นแนวคิดที่เป็นศูนย์กลางของสังคมศาสตร์เชิงปริมาณ ซึ่งประเมินว่าเครื่องมือวัดสามารถจับโครงสร้างที่ต้องการได้อย่างแม่นยำเพียงใด การเน้นที่ความถูกต้องนี้อาจท้าทายเกณฑ์มาตรฐานที่ประเมินแนวคิดที่กำหนดไว้อย่างคลุมเครือ เช่น “การให้เหตุผล” หรือ “ความรู้ทางวิทยาศาสตร์” แม้ว่ามันอาจจะลดความร้อนแรงในการแสวงหาปัญญาประดิษฐ์ทั่วไป (AGI) แต่ก็จะให้รากฐานที่แข็งแกร่งยิ่งขึ้นสำหรับการประเมินโมเดลแต่ละรายการ

Abigail Jacobs ศาสตราจารย์แห่งมหาวิทยาลัยมิชิแกนและเป็นเสียงนำในการผลักดันความถูกต้อง ยืนยันว่า “การให้ความสำคัญกับความถูกต้องหมายถึงการขอให้ผู้คนในวงการวิชาการ อุตสาหกรรม หรือที่ใดก็ตามแสดงให้เห็นว่าระบบของพวกเขาทำในสิ่งที่พวกเขาบอกว่าทำได้ ฉันคิดว่ามันชี้ให้เห็นถึงจุดอ่อนในโลกของ AI หากพวกเขาต้องการที่จะถอยห่างจากการแสดงให้เห็นว่าพวกเขาสามารถสนับสนุนการกล่าวอ้างของพวกเขาได้”

ข้อจำกัดของการทดสอบแบบดั้งเดิม

การพึ่งพาเกณฑ์มาตรฐานของอุตสาหกรรม AI เกิดจากความสำเร็จในอดีต โดยเฉพาะอย่างยิ่งในความท้าทายเช่น ImageNet

ImageNet ซึ่งเปิดตัวในปี 2010 นำเสนอฐานข้อมูลรูปภาพกว่า 3 ล้านรูปภาพที่จัดอยู่ใน 1,000 คลาสที่แตกต่างกันแก่นักวิจัย ความท้าทายเป็นแบบ agnostic โดยอนุญาตให้อัลกอริทึมที่ประสบความสำเร็จได้รับความน่าเชื่อถือโดยไม่คำนึงถึงแนวทางพื้นฐาน ความก้าวหน้าของ AlexNet ในปี 2012 ซึ่งใช้รูปแบบการฝึกอบรม GPU ที่แหวกแนว ได้กลายเป็นรากฐานสำคัญของ AI สมัยใหม่ แม้ว่าจะมีเพียงไม่กี่คนที่สามารถคาดการณ์ได้ว่าเครือข่ายประสาทเทียมแบบคอนโวลูชันของ AlexNet จะปลดล็อกการจดจำภาพ แต่คะแนนที่สูงของมันก็ทำให้ความสงสัยใดๆ เงียบลง (โดยเฉพาะอย่างยิ่ง ผู้พัฒนารายหนึ่งของ AlexNet ได้ร่วมก่อตั้ง OpenAI ในเวลาต่อมา)

ประสิทธิภาพของ ImageNet เกิดจากการจัดแนวที่ใกล้เคียงกันระหว่างความท้าทายและงานจดจำภาพในโลกแห่งความเป็นจริง แม้จะมีการถกเถียงกันเกี่ยวกับวิธีการ แต่โมเดลที่ได้คะแนนสูงสุดก็แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในการใช้งานจริงอย่างสม่ำเสมอ

อย่างไรก็ตาม ในช่วงหลายปีที่ผ่านมา นักวิจัย AI ได้นำวิธีการที่ไม่ขึ้นกับวิธีเดียวกันนี้ไปใช้กับงานทั่วไปมากขึ้น ตัวอย่างเช่น SWE-Bench มักใช้เป็นตัวแทนสำหรับความสามารถในการเขียนโค้ดที่กว้างขึ้น ในขณะที่เกณฑ์มาตรฐานสไตล์ข้อสอบอื่นๆ ใช้เพื่อวัดความสามารถในการให้เหตุผล ขอบเขตกว้างนี้ทำให้ยากต่อการกำหนดอย่างเข้มงวดว่าเกณฑ์มาตรฐานเฉพาะวัดอะไร ซึ่งขัดขวางการตีความผลลัพธ์อย่างมีความรับผิดชอบ

จุดที่สิ่งต่างๆ พังทลาย

Anka Reuel นักศึกษาปริญญาเอกที่ Stanford แย้งว่าการผลักดันไปสู่ความเป็นสากลเป็นรากเหง้าของปัญหาการประเมินผล “เราได้ย้ายจากโมเดลเฉพาะงานไปเป็นโมเดลเอนกประสงค์” Reuel กล่าว “มันไม่ได้เกี่ยวกับงานเดียวอีกต่อไป แต่เป็นงานทั้งหมด ดังนั้นการประเมินจึงยากขึ้น”

เช่นเดียวกับ Jacobs Reuel เชื่อว่า “ปัญหาหลักของเกณฑ์มาตรฐานคือความถูกต้อง มากกว่าการนำไปใช้งานจริงเสียอีก” โดยสังเกตว่า “นั่นคือจุดที่สิ่งต่างๆ พังทลายลงมากมาย” สำหรับงานที่ซับซ้อน เช่น การเขียนโค้ด แทบจะเป็นไปไม่ได้เลยที่จะรวมทุกสถานการณ์ที่เป็นไปได้ไว้ในชุดปัญหา ดังนั้น จึงเป็นเรื่องยากที่จะแยกแยะว่าคะแนนที่สูงขึ้นของโมเดลสะท้อนถึงทักษะการเขียนโค้ดที่แท้จริงหรือเพียงแค่การจัดการชุดปัญหาอย่างชาญฉลาด แรงกดดันอย่างมากเพื่อให้ได้คะแนนบันทึกยังกระตุ้นให้เกิดทางลัดมากขึ้น

นักพัฒนาหวังว่าความสำเร็จในเกณฑ์มาตรฐานเฉพาะจำนวนมากจะแปลเป็นโมเดลที่มีความสามารถโดยทั่วไป อย่างไรก็ตาม การเพิ่มขึ้นของ AI ที่เป็นตัวแทน ซึ่งระบบเดียวสามารถรวมชุดโมเดลที่ซับซ้อนเข้าด้วยกัน ทำให้ยากต่อการประเมินว่าการปรับปรุงในงานเฉพาะจะทำให้เกิดผลทั่วไปหรือไม่ “มีปุ่มให้หมุนมากขึ้น” Sayash Kapoor นักวิทยาศาสตร์คอมพิวเตอร์ที่ Princeton และนักวิจารณ์แนวทางปฏิบัติที่ไม่ถูกต้องในอุตสาหกรรม AI กล่าว “เมื่อพูดถึงตัวแทน พวกเขาได้ละทิ้งแนวทางปฏิบัติที่ดีที่สุดสำหรับการประเมินผล”

ในเอกสารที่ตีพิมพ์เมื่อเดือนกรกฎาคมที่ผ่านมา Kapoor ได้เน้นถึงปัญหาเฉพาะเกี่ยวกับวิธีที่โมเดล AI เข้าใกล้เกณฑ์มาตรฐาน WebArena ในปี 2024 ซึ่งทดสอบความสามารถของตัวแทน AI ในการนำทางเว็บ เกณฑ์มาตรฐานประกอบด้วยงานกว่า 800 งานที่ดำเนินการบนเว็บไซต์ที่โคลนซึ่งเลียนแบบ Reddit, Wikipedia และอื่นๆ Kapoor และทีมงานของเขาค้นพบว่าโมเดลที่ชนะ STeP ใช้ประโยชน์จากโครงสร้างของ URL Reddit เพื่อเข้าถึงหน้าโปรไฟล์ผู้ใช้โดยตรง ซึ่งเป็นข้อกำหนดที่พบบ่อยในงาน WebArena

แม้ว่าจะไม่ได้เป็นการโกงอย่างโจ่งแจ้ง แต่ Kapoor ถือว่านี่เป็น “การบิดเบือนอย่างร้ายแรงว่าตัวแทนจะทำงานได้ดีเพียงใดหากเห็นงานใน WebArena เป็นครั้งแรก” แม้ว่าจะเป็นเช่นนั้น ตัวแทนเว็บของ OpenAI Operator ได้นำนโยบายที่คล้ายคลึงกันมาใช้ตั้งแต่

เพื่อเป็นการอธิบายเพิ่มเติมถึงปัญหาเกี่ยวกับเกณฑ์มาตรฐาน AI Kapoor และทีมนักวิจัยเพิ่งตีพิมพ์เอกสารที่เปิดเผยปัญหาสำคัญใน Chatbot Arena ซึ่งเป็นระบบประเมินที่มาจากแหล่งภายนอกที่ได้รับความนิยม ผลการวิจัยของพวกเขาบ่งชี้ว่ามีการจัดการลีดเดอร์บอร์ด โดยโมเดลพื้นฐานชั้นนำบางรุ่นมีส่วนร่วมในการทดสอบส่วนตัวที่ไม่เปิดเผยและเลือกที่จะเปิดเผยคะแนนของพวกเขา

แม้แต่ ImageNet ซึ่งเป็นเกณฑ์มาตรฐานที่เริ่มต้นทุกอย่าง กำลังเผชิญกับปัญหาความถูกต้องตามกฎหมาย ในการศึกษาในปี 2023 โดยนักวิจัยจาก University of Washington และ Google Research พบว่าอัลกอริทึมที่ชนะ ImageNet แสดงให้เห็นถึง “ความคืบหน้าน้อยมากหรือไม่คืบหน้าเลย” เมื่อนำไปใช้กับชุดข้อมูลในโลกแห่งความเป็นจริง 6 ชุด ซึ่งบ่งชี้ว่าความถูกต้องภายนอกของการทดสอบถึงขีดจำกัดแล้ว

เล็กลง

เพื่อแก้ไขปัญหาความถูกต้อง นักวิจัยบางคนเสนอให้เชื่อมต่อเกณฑ์มาตรฐานเข้ากับงานเฉพาะอีกครั้ง ดังที่ Reuel กล่าวไว้ นักพัฒนา AI “ต้องหันไปใช้เกณฑ์มาตรฐานระดับสูงเหล่านี้ซึ่งแทบจะไม่มีความหมายสำหรับผู้บริโภคปลายน้ำ เนื่องจากนักพัฒนาเกณฑ์มาตรฐานไม่สามารถคาดการณ์งานปลายน้ำได้อีกต่อไป”

ในเดือนพฤศจิกายน 2024 Reuel ได้เปิดตัว BetterBench ซึ่งเป็นโครงการจัดอันดับสาธารณะที่ประเมินเกณฑ์มาตรฐานตามเกณฑ์ต่างๆ รวมถึงความชัดเจนของเอกสารประกอบโค้ด และที่สำคัญคือความถูกต้องของเกณฑ์มาตรฐานในการวัดความสามารถที่ระบุ BetterBench ท้าทายผู้ออกแบบให้กำหนดอย่างชัดเจนว่าเกณฑ์มาตรฐานของพวกเขาทดสอบอะไรและเกี่ยวข้องกับงานที่เป็นส่วนประกอบของเกณฑ์มาตรฐานอย่างไร

“คุณต้องมีโครงสร้างรายละเอียดของความสามารถ” Reuel กล่าว “ทักษะที่แท้จริงที่คุณสนใจคืออะไร และคุณจะนำไปดำเนินการเป็นสิ่งที่เราวัดได้อย่างไร”

ผลลัพธ์ที่ได้นั้นน่าทึ่ง Arcade Learning Environment (ALE) ซึ่งก่อตั้งขึ้นในปี 2013 เพื่อทดสอบความสามารถของโมเดลในการเรียนรู้วิธีการเล่นเกม Atari 2600 กลายเป็นหนึ่งในเกณฑ์มาตรฐานที่ได้คะแนนสูงสุด ในทางกลับกัน เกณฑ์มาตรฐาน Massive Multitask Language Understanding (MMLU) ซึ่งเป็นการทดสอบที่ใช้กันอย่างแพร่หลายสำหรับทักษะทางภาษาทั่วไป ได้รับคะแนนต่ำสุดเนื่องจากการเชื่อมต่อที่ไม่ดีระหว่างคำถามและทักษะพื้นฐาน

แม้ว่า BetterBench จะยังไม่มีผลกระทบอย่างมีนัยสำคัญต่อชื่อเสียงของเกณฑ์มาตรฐานเฉพาะ แต่ก็ประสบความสำเร็จในการนำความถูกต้องมาสู่แนวหน้าของการอภิปรายเกี่ยวกับวิธีการปรับปรุงเกณฑ์มาตรฐาน AI Reuel ได้เข้าร่วมกลุ่มวิจัยใหม่ที่ Hugging Face, University of Edinburgh และ EleutherAI เป็นเจ้าภาพ ซึ่งเธอจะพัฒนาแนวคิดของเธอเกี่ยวกับความถูกต้องและการประเมินโมเดล AI ต่อไป

Irene Solaiman หัวหน้านโยบายระดับโลกของ Hugging Face กล่าวว่ากลุ่มจะมุ่งเน้นไปที่การสร้างเกณฑ์มาตรฐานที่ถูกต้องซึ่งนอกเหนือไปจากการวัดความสามารถโดยตรง “มีความกระหายในเกณฑ์มาตรฐานที่ดีจากชั้นวางที่ใช้งานได้แล้ว” Solaiman กล่าว “การประเมินจำนวนมากพยายามทำมากเกินไป”

ดูเหมือนว่าอุตสาหกรรมในวงกว้างกำลังบรรจบกันในมุมมองนี้ ในเอกสารที่ตีพิมพ์ในเดือนมีนาคม นักวิจัยจาก Google, Microsoft, Anthropic และอื่นๆ ได้สรุปกรอบงานใหม่สำหรับการปรับปรุงการประเมิน โดยมีพื้นฐานมาจากความถูกต้อง

นักวิจัยแย้งว่า “วิทยาศาสตร์การประเมิน AI จะต้องก้าวข้ามการอ้างสิทธิ์ที่หยาบกร้านของ ‘ปัญญาประดิษฐ์ทั่วไป’ ไปสู่การวัดความคืบหน้าที่เฉพาะเจาะจงและเกี่ยวข้องกับโลกแห่งความเป็นจริงมากขึ้น”

การวัด “สิ่งที่ไม่ชัดเจน”

เพื่ออำนวยความสะดวกในการเปลี่ยนแปลงนี้ นักวิจัยบางคนกำลังหันไปใช้เครื่องมือของสังคมศาสตร์ เอกสารแสดงจุดยืนในเดือนกุมภาพันธ์โต้แย้งว่า “การประเมินระบบ GenAI เป็นความท้าทายในการวัดทางสังคมศาสตร์” โดยเฉพาะอย่างยิ่งสำรวจว่าระบบความถูกต้องทางสังคมศาสตร์สามารถนำไปใช้กับการเปรียบเทียบ AI ได้อย่างไร

ผู้เขียน ซึ่งส่วนใหญ่อยู่ในสาขาวิจัยของ Microsoft แต่รวมถึงนักวิชาการจาก Stanford และ University of Michigan ด้วย ชี้ให้เห็นถึงมาตรฐานที่นักสังคมศาสตร์ใช้ในการวัดแนวคิดที่มีการโต้แย้ง เช่น อุดมการณ์ ประชาธิปไตย และอคติของสื่อ เมื่อนำไปใช้กับเกณฑ์มาตรฐาน AI ขั้นตอนเดียวกันเหล่านี้สามารถเป็นวิธีในการวัดแนวคิดต่างๆ เช่น “การให้เหตุผล” และ “ความเชี่ยวชาญทางคณิตศาสตร์” โดยไม่ต้องหันไปใช้ข้อสรุปทั่วไปที่คลุมเครือ

วรรณกรรมทางสังคมศาสตร์เน้นย้ำถึงความสำคัญของการกำหนดแนวคิดที่กำลังวัดอย่างเข้มงวด ตัวอย่างเช่น การทดสอบที่ออกแบบมาเพื่อวัดระดับประชาธิปไตยในสังคมจะต้องกำหนดนิยามที่ชัดเจนของ “สังคมประชาธิปไตย” ก่อน แล้วจึงกำหนดคำถามที่เกี่ยวข้องกับนิยามนั้น

ในการนำสิ่งนี้ไปใช้กับเกณฑ์มาตรฐานเช่น SWE-Bench ผู้ออกแบบจะต้องละทิ้งแนวทางการเรียนรู้ของเครื่องแบบดั้งเดิมในการรวบรวมปัญหาการเขียนโปรแกรมจาก GitHub และสร้างรูปแบบเพื่อตรวจสอบความถูกต้องของคำตอบ แทนที่จะเป็นเช่นนั้น พวกเขาจะกำหนดก่อนว่าเกณฑ์มาตรฐานมีเป้าหมายที่จะวัดอะไร (เช่น “ความสามารถในการแก้ไขปัญหาที่ถูกตั้งค่าสถานะในซอฟต์แวร์”) แบ่งสิ่งนั้นออกเป็นทักษะย่อย (เช่น ประเภทต่างๆ ของปัญหาหรือโครงสร้างโปรแกรม) แล้วสร้างคำถามที่ครอบคลุมทักษะย่อยเหล่านั้นอย่างถูกต้อง

สำหรับนักวิจัยเช่น Jacobs การเปลี่ยนแปลงอย่างลึกซึ้งจากวิธีที่นักวิจัย AI เข้าใกล้การเปรียบเทียบโดยทั่วไปคือประเด็นสำคัญ “มีความไม่ตรงกันระหว่างสิ่งที่เกิดขึ้นในอุตสาหกรรมเทคโนโลยีและเครื่องมือเหล่านี้จากสังคมศาสตร์” เธอกล่าว “เรามีทศวรรษและทศวรรษแห่งการคิดเกี่ยวกับวิธีที่เราต้องการวัดสิ่งที่ไม่ชัดเจนเกี่ยวกับมนุษย์เหล่านี้”

แม้ว่าแนวคิดเหล่านี้จะมีผลกระทบมากขึ้นในชุมชนวิจัย แต่ก็มีอิทธิพลอย่างช้าๆ ต่อวิธีที่บริษัท AI ใช้เกณฑ์มาตรฐานจริง ๆ

การเปิดตัวโมเดลล่าสุดจาก OpenAI, Anthropic, Google และ Meta ยังคงพึ่งพาเกณฑ์มาตรฐานความรู้แบบเลือกตอบหลายข้อ เช่น MMLU ซึ่งเป็นแนวทางที่นักวิจัยด้านความถูกต้องพยายามที่จะก้าวข้ามไป การเปิดตัวโมเดลส่วนใหญ่มักจะมุ่งเน้นไปที่การแสดงให้เห็นถึงการเพิ่มขึ้นของปัญญาประดิษฐ์ทั่วไป และใช้เกณฑ์มาตรฐานที่กว้างเพื่อสนับสนุนการกล่าวอ้างเหล่านี้

ผู้สังเกตการณ์บางคนพบว่าสิ่งนี้เป็นที่น่าพอใจ Ethan Mollick ศาสตราจารย์แห่ง Wharton ชี้ให้เห็นว่าเกณฑ์มาตรฐาน แม้ว่าจะเป็น “มาตรการที่ไม่ดีของสิ่งต่างๆ ก็เป็นสิ่งที่เรามีอยู่” เขากล่าวเสริมว่า “ในขณะเดียวกัน โมเดลก็ดีขึ้นมาก บาปมากมายได้รับการอภัยด้วยความคืบหน้าที่รวดเร็ว”

ในตอนนี้ การมุ่งเน้นที่ปัญญาประดิษฐ์ทั่วไปของอุตสาหกรรมในระยะยาวดูเหมือนจะบดบังแนวทางที่เน้นมากขึ้นและอิงตามความถูกต้อง ตราบใดที่โมเดล AI ยังคงพัฒนาในด้านปัญญาประดิษฐ์ทั่วไป การใช้งานเฉพาะดูเหมือนไม่น่าสนใจ แม้ว่าผู้ปฏิบัติงานจะใช้เครื่องมือที่พวกเขาไม่ไว้วางใจอย่างเต็มที่อีกต่อไป

“นี่คือเส้นลวดที่เรากำลังเดินอยู่” Solaiman จาก Hugging Face กล่าว “มันง่ายเกินไปที่จะโยนระบบทิ้ง แต่การประเมินเป็นประโยชน์อย่างมากในการทำความเข้าใจโมเดลของเรา แม้จะมีข้อจำกัดเหล่านี้ก็ตาม”

การคิดใหม่เรื่องมาตรฐาน AI: การแสวงหาการวัดที่มีความหมาย

ความท้าทายของมาตรฐาน AI แบบดั้งเดิม

ในการแสวงหาปัญญาประดิษฐ์ (AI) ที่เหนือกว่านั้น มักจะมีการใช้คะแนนมาตรฐานเป็นตัวขับเคลื่อน อย่างไรก็ตาม คำถามสำคัญคือ คะแนนเหล่านี้สามารถบ่งชี้ถึงความสามารถที่แท้จริงในโลกแห่งความเป็นจริงได้หรือไม่ ชุมชน AI กำลังเผชิญกับความท้าทายนี้เนื่องจากมาตรฐานเดิมๆ กำลังเผชิญกับการตรวจสอบที่เข้มงวดมากขึ้น

SWE-Bench ซึ่งเปิดตัวในเดือนพฤศจิกายน 2024 ได้รับความนิยมอย่างรวดเร็วในฐานะเครื่องมือยอดนิยมสำหรับการประเมินความสามารถในการเขียนโค้ดของโมเดล AI โดยใช้ประโยชน์จากความท้าทายด้านการเขียนโปรแกรมที่แท้จริงกว่า 2,000 รายการที่ดึงมาจากที่เก็บ GitHub สาธารณะในโครงการที่ใช้ Python จำนวนมาก คะแนน SWE-Bench ที่แข็งแกร่งได้กลายเป็นป้ายที่น่าปรารถนา ซึ่งแสดงไว้อย่างโดดเด่นในการเปิดตัวโมเดลหลักจากนักพัฒนา AI ชั้นนำ เช่น OpenAI, Anthropic และ Google นอกเหนือจากยักษ์ใหญ่เหล่านี้ บริษัท AI ที่เชี่ยวชาญด้านการปรับแต่งอย่างละเอียดต่างแข่งขันกันเพื่อความเป็นเลิศในลีดเดอร์บอร์ด SWE-Bench อย่างต่อเนื่อง

อย่างไรก็ตาม ความกระตือรือร้นที่ล้อมรอบเกณฑ์มาตรฐานเหล่านี้อาจทำให้เข้าใจผิด จอห์น หยาง นักวิจัยจากมหาวิทยาลัยพรินซ์ตันที่เกี่ยวข้องกับการพัฒนา SWE-Bench ตั้งข้อสังเกตว่าการแข่งขันที่รุนแรงเพื่อแย่งชิงตำแหน่งสูงสุดได้นำไปสู่การ “เล่นเกม” ของระบบ สิ่งนี้ทำให้เกิดความกังวลว่าเกณฑ์มาตรฐานเหล่านี้สะท้อนถึงความสำเร็จของ AI ที่แท้จริงอย่างถูกต้องหรือไม่

ปัญหาไม่ได้อยู่ที่การโกงอย่างโจ่งแจ้งเสมอไป แต่เป็นการพัฒนาแนวทางที่ปรับให้เข้ากับข้อจำกัดของเกณฑ์มาตรฐานโดยเฉพาะ ตัวอย่างเช่น SWE-Bench เริ่มต้นมุ่งเน้นไปที่โค้ด Python เท่านั้น ซึ่งกระตุ้นให้นักพัฒนาฝึกอบรมโมเดลของตนโดยเฉพาะใน Python หยางสังเกตว่าโมเดลที่ได้คะแนนสูงเหล่านี้มักจะล้มเหลวเมื่อเผชิญหน้ากับภาษาโปรแกรมที่แตกต่างกัน โดยเปิดเผยความเข้าใจเพียงผิวเผินที่เขาอธิบายว่า “เคลือบทอง”

“มันดูดีและเงางามเมื่อมองแวบแรก แต่เมื่อคุณลองใช้งานกับภาษาอื่น ทุกอย่างก็พังทลายลง” หยางอธิบาย “ณ จุดนั้น คุณไม่ได้ออกแบบตัวแทนวิศวกรรมซอฟต์แวร์ คุณกำลังออกแบบเพื่อสร้างตัวแทน SWE-Bench ซึ่งน่าสนใจน้อยกว่ามาก”

“ปัญหา SWE-Bench” นี้สะท้อนถึงความท้าทายที่กว้างขึ้นในการประเมิน AI เกณฑ์มาตรฐาน ซึ่งครั้งหนึ่งเคยถือเป็นตัวบ่งชี้ความคืบหน้าที่เชื่อถือได้ กำลังแยกตัวออกจากความสามารถในโลกแห่งความเป็นจริงมากขึ้นเรื่อยๆ ปัญหาที่ซับซ้อนขึ้นคือความกังวลเกี่ยวกับความโปร่งใสที่ปรากฏขึ้น ซึ่งบ่อนทำลายความไว้วางใจในเมตริกเหล่านี้มากยิ่งขึ้น แม้จะมีปัญหาเหล่านี้ แต่เกณฑ์มาตรฐานยังคงมีบทบาทสำคัญในการพัฒนาโมเดล แม้ว่าผู้เชี่ยวชาญหลายคนจะตั้งคำถามถึงคุณค่าโดยธรรมชาติของพวกเขาก็ตาม Andrej Karpathy ผู้ร่วมก่อตั้ง OpenAI ถึงกับเรียกสถานการณ์ปัจจุบันว่าเป็น “วิกฤตการประเมิน” โดยคร่ำครวญถึงการขาดวิธีการที่เชื่อถือได้สำหรับการวัดความสามารถของ AI และการไม่มีเส้นทางที่ชัดเจนไปข้างหน้า

Vanessa Parli ผู้อำนวยการฝ่ายวิจัยของสถาบัน AI ที่เน้นมนุษย์เป็นศูนย์กลางของมหาวิทยาลัยสแตนฟอร์ด ถามว่า “ในอดีต เกณฑ์มาตรฐานเป็นวิธีที่เราประเมินระบบ AI นั่นเป็นวิธีที่เราต้องการประเมินระบบต่อไปหรือไม่ และถ้าไม่ใช่ วิธีการคืออะไร”

กลุ่มนักวิชาการและนักวิจัย AI ที่เพิ่มมากขึ้นสนับสนุนแนวทางที่เน้นมากขึ้น โดยได้รับแรงบันดาลใจจากสังคมศาสตร์ พวกเขาเสนอให้จัดลำดับความสำคัญของ “ความถูกต้อง” ซึ่งเป็นแนวคิดที่เป็นศูนย์กลางของสังคมศาสตร์เชิงปริมาณ ซึ่งประเมินว่าเครื่องมือวัดสามารถจับโครงสร้างที่ต้องการได้อย่างแม่นยำเพียงใด การเน้นที่ความถูกต้องนี้อาจท้าทายเกณฑ์มาตรฐานที่ประเมินแนวคิดที่กำหนดไว้อย่างคลุมเครือ เช่น “การให้เหตุผล” หรือ “ความรู้ทางวิทยาศาสตร์” แม้ว่ามันอาจจะลดความร้อนแรงในการแสวงหาปัญญาประดิษฐ์ทั่วไป (AGI) แต่ก็จะให้รากฐานที่แข็งแกร่งยิ่งขึ้นสำหรับการประเมินโมเดลแต่ละรายการ

Abigail Jacobs ศาสตราจารย์แห่งมหาวิทยาลัยมิชิแกนและเป็นเสียงนำในการผลักดันความถูกต้อง ยืนยันว่า “การให้ความสำคัญกับความถูกต้องหมายถึงการขอให้ผู้คนในวงการวิชาการ อุตสาหกรรม หรือที่ใดก็ตามแสดงให้เห็นว่าระบบของพวกเขาทำในสิ่งที่พวกเขาบอกว่าทำได้ ฉันคิดว่ามันชี้ให้เห็นถึงจุดอ่อนในโลกของ AI หากพวกเขาต้องการที่จะถอยห่างจากการแสดงให้เห็นว่าพวกเขาสามารถสนับสนุนการกล่าวอ้างของพวกเขาได้”

ข้อจำกัดของการทดสอบแบบดั้งเดิม

การพึ่งพาเกณฑ์มาตรฐานของอุตสาหกรรม AI เกิดจากความสำเร็จในอดีต โดยเฉพาะอย่างยิ่งในความท้าทายเช่น ImageNet

ImageNet ซึ่งเปิดตัวในปี 2010 นำเสนอฐานข้อมูลรูปภาพกว่า 3 ล้านรูปภาพที่จัดอยู่ใน 1,000 คลาสที่แตกต่างกันแก่นักวิจัย ความท้าทายเป็นแบบ agnostic โดยอนุญาตให้อัลกอริทึมที่ประสบความสำเร็จได้รับความน่าเชื่อถือโดยไม่คำนึงถึงแนวทางพื้นฐาน ความก้าวหน้าของ AlexNet ในปี 2012 ซึ่งใช้รูปแบบการฝึกอบรม GPU ที่แหวกแนว ได้กลายเป็นรากฐานสำคัญของ AI สมัยใหม่ แม้ว่าจะมีเพียงไม่กี่คนที่สามารถคาดการณ์ได้ว่าเครือข่ายประสาทเทียมแบบคอนโวลูชันของ AlexNet จะปลดล็อกการจดจำภาพ แต่คะแนนที่สูงของมันก็ทำให้ความสงสัยใดๆ เงียบลง (โดยเฉพาะอย่างยิ่ง ผู้พัฒนารายหนึ่งของ AlexNet ได้ร่วมก่อตั้ง OpenAI ในเวลาต่อมา)

ประสิทธิภาพของ ImageNet เกิดจากการจัดแนวที่ใกล้เคียงกันระหว่างความท้าทายและงานจดจำภาพในโลกแห่งความเป็นจริง แม้จะมีการถกเถียงกันเกี่ยวกับวิธีการ แต่โมเดลที่ได้คะแนนสูงสุดก็แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่าในการใช้งานจริงอย่างสม่ำเสมอ

อย่างไรก็ตาม ในช่วงหลายปีที่ผ่านมา นักวิจัย AI ได้นำวิธีการที่ไม่ขึ้นกับวิธีเดียวกันนี้ไปใช้กับงานทั่วไปมากขึ้น ตัวอย่างเช่น SWE-Bench มักใช้เป็นตัวแทนสำหรับความสามารถในการเขียนโค้ดที่กว้างขึ้น ในขณะที่เกณฑ์มาตรฐานสไตล์ข้อสอบอื่นๆ ใช้เพื่อวัดความสามารถในการให้เหตุผล ขอบเขตกว้างนี้ทำให้ยากต่อการกำหนดอย่างเข้มงวดว่าเกณฑ์มาตรฐานเฉพาะวัดอะไร ซึ่งขัดขวางการตีความผลลัพธ์อย่างมีความรับผิดชอบ

จุดที่สิ่งต่างๆ พังทลาย

Anka Reuel นักศึกษาปริญญาเอกที่ Stanford แย้งว่าการผลักดันไปสู่ความเป็นสากลเป็นรากเหง้าของปัญหาการประเมินผล “เราได้ย้ายจากโมเดลเฉพาะงานไปเป็นโมเดลเอนกประสงค์” Reuel กล่าว “มันไม่ได้เกี่ยวกับงานเดียวอีกต่อไป แต่เป็นงานทั้งหมด ดังนั้นการประเมินจึงยากขึ้น”

เช่นเดียวกับ Jacobs Reuel เชื่อว่า “ปัญหาหลักของเกณฑ์มาตรฐานคือความถูกต้อง มากกว่าการนำไปใช้งานจริงเสียอีก” โดยสังเกตว่า “นั่นคือจุดที่สิ่งต่างๆ พังทลายลงมากมาย” สำหรับงานที่ซับซ้อน เช่น การเขียนโค้ด แทบจะเป็นไปไม่ได้เลยที่จะรวมทุกสถานการณ์ที่เป็นไปได้ไว้ในชุดปัญหา ดังนั้น จึงเป็นเรื่องยากที่จะแยกแยะว่าคะแนนที่สูงขึ้นของโมเดลสะท้อนถึงทักษะการเขียนโค้ดที่แท้จริงหรือเพียงแค่การจัดการชุดปัญหาอย่างชาญฉลาด แรงกดดันอย่างมากเพื่อให้ได้คะแนนบันทึกยังกระตุ้นให้เกิดทางลัดมากขึ้น

นักพัฒนาหวังว่าความสำเร็จในเกณฑ์มาตรฐานเฉพาะจำนวนมากจะแปลเป็นโมเดลที่มีความสามารถโดยทั่วไป อย่างไรก็ตาม การเพิ่มขึ้นของ AI ที่เป็นตัวแทน ซึ่งระบบเดียวสามารถรวมชุดโมเดลที่ซับซ้อนเข้าด้วยกัน ทำให้ยากต่อการประเมินว่าการปรับปรุงในงานเฉพาะจะทำให้เกิดผลทั่วไปหรือไม่ “มีปุ่มให้หมุนมากขึ้น” Sayash Kapoor นักวิทยาศาสตร์คอมพิวเตอร์ที่ Princeton และนักวิจารณ์แนวทางปฏิบัติที่ไม่ถูกต้องในอุตสาหกรรม AI กล่าว “เมื่อพูดถึงตัวแทน พวกเขาได้ละทิ้งแนวทางปฏิบัติที่ดีที่สุดสำหรับการประเมินผล”

ในเอกสารที่ตีพิมพ์เมื่อเดือนกรกฎาคมที่ผ่านมา Kapoor ได้เน้นถึงปัญหาเฉพาะเกี่ยวกับวิธีที่โมเดล AI เข้าใกล้เกณฑ์มาตรฐาน WebArena ในปี 2024 ซึ่งทดสอบความสามารถของตัวแทน AI ในการนำทางเว็บ เกณฑ์มาตรฐานประกอบด้วยงานกว่า 800 งานที่ดำเนินการบนเว็บไซต์ที่โคลนซึ่งเลียนแบบ Reddit, Wikipedia และอื่นๆ Kapoor และทีมงานของเขาค้นพบว่าโมเดลที่ชนะ STeP ใช้ประโยชน์จากโครงสร้างของ URL Reddit เพื่อเข้าถึงหน้าโปรไฟล์ผู้ใช้โดยตรง ซึ่งเป็นข้อกำหนดที่พบบ่อยในงาน WebArena

แม้ว่าจะไม่ได้เป็นการโกงอย่างโจ่งแจ้ง แต่ Kapoor ถือว่านี่เป็น “การบิดเบือนอย่างร้ายแรงว่าตัวแทนจะทำงานได้ดีเพียงใดหากเห็นงานใน WebArena เป็นครั้งแรก” แม้ว่าจะเป็นเช่นนั้น ตัวแทนเว็บของ OpenAI Operator ได้นำนโยบายที่คล้ายคลึงกันมาใช้ตั้งแต่

เพื่อเป็นการอธิบายเพิ่มเติมถึงปัญหาเกี่ยวกับเกณฑ์มาตรฐาน AI Kapoor และทีมนักวิจัยเพิ่งตีพิมพ์เอกสารที่เปิดเผยปัญหาสำคัญใน Chatbot Arena ซึ่งเป็นระบบประเมินที่มาจากแหล่งภายนอกที่ได้รับความนิยม ผลการวิจัยของพวกเขาบ่งชี้ว่ามีการจัดการลีดเดอร์บอร์ด โดยโมเดลพื้นฐานชั้นนำบางรุ่นมีส่วนร่วมในการทดสอบส่วนตัวที่ไม่เปิดเผยและเลือกที่จะเปิดเผยคะแนนของพวกเขา

แม้แต่ ImageNet ซึ่งเป็นเกณฑ์มาตรฐานที่เริ่มต้นทุกอย่าง กำลังเผชิญกับปัญหาความถูกต้องตามกฎหมาย ในการศึกษาในปี 2023 โดยนักวิจัยจาก University of Washington และ Google Research พบว่าอัลกอริทึมที่ชนะ ImageNet แสดงให้เห็นถึง “ความคืบหน้าน้อยมากหรือไม่คืบหน้าเลย” เมื่อนำไปใช้กับชุดข้อมูลในโลกแห่งความเป็นจริง 6 ชุด ซึ่งบ่งชี้ว่าความถูกต้องภายนอกของการทดสอบถึงขีดจำกัดแล้ว

เล็กลง

เพื่อแก้ไขปัญหาความถูกต้อง นักวิจัยบางคนเสนอให้เชื่อมต่อเกณฑ์มาตรฐานเข้ากับงานเฉพาะอีกครั้ง ดังที่ Reuel กล่าวไว้ นักพัฒนา AI “ต้องหันไปใช้เกณฑ์มาตรฐานระดับสูงเหล่านี้ซึ่งแทบจะไม่มีความหมายสำหรับผู้บริโภคปลายน้ำ เนื่องจากนักพัฒนาเกณฑ์มาตรฐานไม่สามารถคาดการณ์งานปลายน้ำได้อีกต่อไป”

ในเดือนพฤศจิกายน 2024 Reuel ได้เปิดตัว BetterBench ซึ่งเป็นโครงการจัดอันดับสาธารณะที่ประเมินเกณฑ์มาตรฐานตามเกณฑ์ต่างๆ รวมถึงความชัดเจนของเอกสารประกอบโค้ด และที่สำคัญคือความถูกต้องของเกณฑ์มาตรฐานในการวัดความสามารถที่ระบุ BetterBench ท้าทายผู้ออกแบบให้กำหนดอย่างชัดเจนว่าเกณฑ์มาตรฐานของพวกเขาทดสอบอะไรและเกี่ยวข้องกับงานที่เป็นส่วนประกอบของเกณฑ์มาตรฐานอย่างไร

“คุณต้องมีโครงสร้างรายละเอียดของความสามารถ” Reuel กล่าว “ทักษะที่แท้จริงที่คุณสนใจคืออะไร และคุณจะนำไปดำเนินการเป็นสิ่งที่เราวัดได้อย่างไร”

ผลลัพธ์ที่ได้นั้นน่าทึ่ง Arcade Learning Environment (ALE) ซึ่งก่อตั้งขึ้นในปี 2013 เพื่อทดสอบความสามารถของโมเดลในการเรียนรู้วิธีการเล่นเกม Atari 2600 กลายเป็นหนึ่งในเกณฑ์มาตรฐานที่ได้คะแนนสูงสุด ในทางกลับกัน เกณฑ์มาตรฐาน Massive Multitask Language Understanding (MMLU) ซึ่งเป็นการทดสอบที่ใช้กันอย่างแพร่หลายสำหรับทักษะทางภาษาทั่วไป ได้รับคะแนนต่ำสุดเนื่องจากการเชื่อมต่อที่ไม่ดีระหว่างคำถามและทักษะพื้นฐาน

แม้ว่า BetterBench จะยังไม่มีผลกระทบอย่างมีนัยสำคัญต่อชื่อเสียงของเกณฑ์มาตรฐานเฉพาะ แต่ก็ประสบความสำเร็จในการนำความถูกต้องมาสู่แนวหน้าของการอภิปรายเกี่ยวกับวิธีการปรับปรุงเกณฑ์มาตรฐาน AI Reuel ได้เข้าร่วมกลุ่มวิจัยใหม่ที่ Hugging Face, University of Edinburgh และ EleutherAI เป็นเจ้าภาพ ซึ่งเธอจะพัฒนาแนวคิดของเธอเกี่ยวกับความถูกต้องและการประเมินโมเดล AI ต่อไป

Irene Solaiman หัวหน้านโยบายระดับโลกของ Hugging Face กล่าวว่ากลุ่มจะมุ่งเน้นไปที่การสร้างเกณฑ์มาตรฐานที่ถูกต้องซึ่งนอกเหนือไปจากการวัดความสามารถโดยตรง “มีความกระหายในเกณฑ์มาตรฐานที่ดีจากชั้นวางที่ใช้งานได้แล้ว” Solaiman กล่าว “การประเมินจำนวนมากพยายามทำมากเกินไป”

ดูเหมือนว่าอุตสาหกรรมในวงกว้างกำลังบรรจบกันในมุมมองนี้ ในเอกสารที่ตีพิมพ์ในเดือนมีนาคม นักวิจัยจาก Google, Microsoft, Anthropic และอื่นๆ ได้สรุปกรอบงานใหม่สำหรับการปรับปรุงการประเมิน โดยมีพื้นฐานมาจากความถูกต้อง

นักวิจัยแย้งว่า “วิทยาศาสตร์การประเมิน AI จะต้องก้าวข้ามการอ้างสิทธิ์ที่หยาบกร้านของ ‘ปัญญาประดิษฐ์ทั่วไป’ ไปสู่การวัดความคืบหน้าที่เฉพาะเจาะจงและเกี่ยวข้องกับโลกแห่งความเป็นจริงมากขึ้น”

การวัด “สิ่งที่ไม่ชัดเจน”

เพื่ออำนวยความสะดวกในการเปลี่ยนแปลงนี้ นักวิจัยบางคนกำลังหันไปใช้เครื่องมือของสังคมศาสตร์ เอกสารแสดงจุดยืนในเดือนกุมภาพันธ์โต้แย้งว่า “การประเมินระบบ GenAI เป็นความท้าทายในการวัดทางสังคมศาสตร์” โดยเฉพาะอย่างยิ่งสำรวจว่าระบบความถูกต้องทางสังคมศาสตร์สามารถนำไปใช้กับการเปรียบเทียบ AI ได้อย่างไร

ผู้เขียน ซึ่งส่วนใหญ่อยู่ในสาขาวิจัยของ Microsoft แต่รวมถึงนักวิชาการจาก Stanford และ University of Michigan ด้วย ชี้ให้เห็นถึงมาตรฐานที่นักสังคมศาสตร์ใช้ในการวัดแนวคิดที่มีการโต้แย้ง เช่น อุดมการณ์ ประชาธิปไตย และอคติของสื่อ เมื่อนำไปใช้กับเกณฑ์มาตรฐาน AI ขั้นตอนเดียวกันเหล่านี้สามารถเป็นวิธีในการวัดแนวคิดต่างๆ เช่น “การให้เหตุผล” และ “ความเชี่ยวชาญทางคณิตศาสตร์” โดยไม่ต้องหันไปใช้ข้อสรุปทั่วไปที่คลุมเครือ

วรรณกรรมทางสังคมศาสตร์เน้นย้ำถึงความสำคัญของการกำหนดแนวคิดที่กำลังวัดอย่างเข้มงวด ตัวอย่างเช่น การทดสอบที่ออกแบบมาเพื่อวัดระดับประชาธิปไตยในสังคมจะต้องกำหนดนิยามที่ชัดเจนของ “สังคมประชาธิปไตย” ก่อน แล้วจึงกำหนดคำถามที่เกี่ยวข้องกับนิยามนั้น

ในการนำสิ่งนี้ไปใช้กับเกณฑ์มาตรฐานเช่น SWE-Bench ผู้ออกแบบจะต้องละทิ้งแนวทางการเรียนรู้ของเครื่องแบบดั้งเดิมในการรวบรวมปัญหาการเขียนโปรแกรมจาก GitHub และสร้างรูปแบบเพื่อตรวจสอบความถูกต้องของคำตอบ แทนที่จะเป็นเช่นนั้น พวกเขาจะกำหนดก่อนว่าเกณฑ์มาตรฐานมีเป้าหมายที่จะวัดอะไร (เช่น “ความสามารถในการแก้ไขปัญหาที่ถูกตั้งค่าสถานะในซอฟต์แวร์”) แบ่งสิ่งนั้นออกเป็นทักษะย่อย (เช่น ประเภทต่างๆ ของปัญหาหรือโครงสร้างโปรแกรม) แล้วสร้างคำถามที่ครอบคลุมทักษะย่อยเหล่านั้นอย่างถูกต้อง

สำหรับนักวิจัยเช่น Jacobs การเปลี่ยนแปลงอย่างลึกซึ้งจากวิธีที่นักวิจัย AI เข้าใกล้การเปรียบเทียบโดยทั่วไปคือประเด็นสำคัญ “มีความไม่ตรงกันระหว่างสิ่งที่เกิดขึ้นในอุตสาหกรรมเทคโนโลยีและเครื่องมือเหล่านี้จากสังคมศาสตร์” เธอกล่าว “เรามีทศวรรษและทศวรรษแห่งการคิดเกี่ยวกับวิธีที่เราต้องการวัดสิ่งที่ไม่ชัดเจนเกี่ยวกับมนุษย์เหล่านี้”

แม้ว่าแนวคิดเหล่านี้จะมีผลกระทบมากขึ้นในชุมชนวิจัย แต่ก็มีอิทธิพลอย่างช้าๆ ต่อวิธีที่บริษัท AI ใช้เกณฑ์มาตรฐานจริง ๆ

การเปิดตัวโมเดลล่าสุดจาก OpenAI, Anthropic, Google และ Meta ยังคงพึ่งพาเกณฑ์มาตรฐานความรู้แบบเลือกตอบหลายข้อ เช่น MMLU ซึ่งเป็นแนวทางที่นักวิจัยด้านความถูกต้องพยายามที่จะก้าวข้ามไป การเปิดตัวโมเดลส่วนใหญ่มักจะมุ่งเน้นไปที่การแสดงให้เห็นถึงการเพิ่มขึ้นของปัญญาประดิษฐ์ทั่วไป และใช้เกณฑ์มาตรฐานที่กว้างเพื่อสนับสนุนการกล่าวอ้างเหล่านี้

ผู้สังเกตการณ์บางคนพบว่าสิ่งนี้เป็นที่น่าพอใจ Ethan Mollick ศาสตราจารย์แห่ง Wharton ชี้ให้เห็นว่าเกณฑ์มาตรฐาน แม้ว่าจะเป็น “มาตรการที่ไม่ดีของสิ่งต่างๆ ก็เป็นสิ่งที่เรามีอยู่” เขากล่าวเสริมว่า “ในขณะเดียวกัน โมเดลก็ดีขึ้นมาก บาปมากมายได้รับการอภัยด้วยความคืบหน้าที่รวดเร็ว”

ในตอนนี้ การมุ่งเน้นที่ปัญญาประดิษฐ์ทั่วไปของอุตสาหกรรมในระยะยาวดูเหมือนจะบดบังแนวทางที่เน้นมากขึ้นและอิงตามความถูกต้อง ตราบใดที่โมเดล AI ยังคงพัฒนาในด้านปัญญาประดิษฐ์ทั่วไป การใช้งานเฉพาะดูเหมือนไม่น่าสนใจ แม้ว่าผู้ปฏิบัติงานจะใช้เครื่องมือที่พวกเขาไม่ไว้วางใจอย่างเต็มที่อีกต่อไป

“นี่คือเส้นลวดที่เรากำลังเดินอยู่” Solaiman จาก Hugging Face กล่าว “มันง่ายเกินไปที่จะโยนระบบทิ้ง แต่การประเมินเป็นประโยชน์อย่างมากในการทำความเข้าใจโมเดลของเรา แม้จะมีข้อจำกัดเหล่านี้ก็ตาม”