GPT-4.5 ล้มเหลวหรือไม่? เจาะลึกโมเดลล่าสุดของ OpenAI

ขนาดและขอบเขตของ GPT-4.5

GPT-4.5 แสดงถึงความพยายามที่ทะเยอทะยานที่สุดของ OpenAI จนถึงปัจจุบันในแง่ของขนาด แม้ว่ารายละเอียดที่แม่นยำเกี่ยวกับสถาปัตยกรรมและข้อมูลการฝึกอบรมยังคงหายาก แต่ก็เป็นที่ทราบกันว่ากระบวนการฝึกอบรมนั้นใช้ทรัพยากรการคำนวณอย่างเข้มข้นจนจำเป็นต้องกระจายไปยังศูนย์ข้อมูลหลายแห่ง สิ่งนี้บ่งบอกถึงทรัพยากรมหาศาลที่ทุ่มเทให้กับการพัฒนา

โครงสร้างราคาของโมเดลยังตอกย้ำตำแหน่งของมันในฐานะข้อเสนอระดับพรีเมียม ค่าใช้จ่ายสูงกว่ารุ่นก่อนอย่างมาก โดยสูงกว่า GPT-4o ถึง 15-30 เท่า, o1 3-5 เท่า และ Claude 3.7 Sonnet 10-25 เท่า การเข้าถึงปัจจุบันจำกัดเฉพาะสมาชิก ChatGPT Pro (ในราคา 200 ดอลลาร์ต่อเดือน) และลูกค้า API ที่ยินดีจ่ายตามจำนวนโทเค็น

อย่างไรก็ตาม ประสิทธิภาพที่เพิ่มขึ้น อย่างน้อยในบางด้าน ก็ยังไม่สอดคล้องกับป้ายราคา เกณฑ์มาตรฐานเบื้องต้นเปิดเผยว่ามีการปรับปรุงเพียงเล็กน้อยเมื่อเทียบกับ GPT-4o และยังแสดงให้เห็นว่า GPT-4.5 ล้าหลังโมเดลอย่าง o1 และ o3-mini ในงานด้านการให้เหตุผล

ทำความเข้าใจวัตถุประสงค์ของ GPT-4.5

สิ่งสำคัญคือต้องรับทราบว่า OpenAI ไม่เคยทำการตลาด GPT-4.5 อย่างชัดเจนว่าเป็นโมเดลหลักที่ใช้งานได้หลากหลาย ในความเป็นจริง โพสต์บล็อกเวอร์ชันแรกๆ ของพวกเขาชี้แจงว่าไม่ได้มีวัตถุประสงค์เพื่อเป็น ‘frontier model’ ที่ผลักดันขีดจำกัดความสามารถอย่างแท้จริง นอกจากนี้ มันไม่ได้ถูกออกแบบมาเพื่อเป็นแบบจำลองการให้เหตุผลเป็นหลัก ทำให้การเปรียบเทียบโดยตรงกับแบบจำลองที่ปรับให้เหมาะสมสำหรับวัตถุประสงค์นั้น (เช่น o3 และ DeepSeek-R1) ค่อนข้างทำให้เข้าใจผิด

OpenAI ได้ระบุว่า GPT-4.5 จะเป็นโมเดล non-chain-of-thought ตัวสุดท้าย ซึ่งหมายความว่าการฝึกอบรมมุ่งเน้นไปที่การฝังความรู้เกี่ยวกับโลกจำนวนมหาศาลและการปรับให้สอดคล้องกับความชอบของผู้ใช้ มากกว่าการพัฒนาความสามารถในการให้เหตุผลที่ซับซ้อน

จุดที่ GPT-4.5 อาจโดดเด่น: ความรู้และความแตกต่างเล็กน้อย

ข้อได้เปรียบหลักของโมเดลขนาดใหญ่มักอยู่ที่ความสามารถในการรับความรู้ที่เพิ่มขึ้น GPT-4.5 สอดคล้องกับหลักการนี้ แสดงให้เห็นถึงแนวโน้มที่ลดลงในการสร้างภาพหลอนเมื่อเทียบกับรุ่นที่เล็กกว่า ทำให้มีคุณค่าในสถานการณ์ที่การยึดมั่นในข้อเท็จจริงและข้อมูลตามบริบทเป็นสิ่งสำคัญยิ่ง

นอกจากนี้ GPT-4.5 ยังแสดงความสามารถที่เพิ่มขึ้นในการปฏิบัติตามคำแนะนำและความชอบของผู้ใช้ สิ่งนี้ได้รับการแสดงให้เห็นในการสาธิตต่างๆ โดย OpenAI และได้รับการยืนยันจากประสบการณ์ของผู้ใช้ที่แบ่งปันทางออนไลน์ โมเดลดูเหมือนจะเข้าใจความแตกต่างของความตั้งใจของผู้ใช้ได้อย่างมีประสิทธิภาพมากขึ้น นำไปสู่ผลลัพธ์ที่ปรับแต่งและเกี่ยวข้องมากขึ้น

การอภิปรายเกี่ยวกับคุณภาพของร้อยแก้ว: อัตวิสัยและศักยภาพ

มีการอภิปรายอย่างมีชีวิตชีวาเกี่ยวกับความสามารถของ GPT-4.5 ในการสร้างร้อยแก้วที่เหนือกว่า ผู้บริหาร OpenAI บางคนยกย่องคุณภาพผลลัพธ์ของโมเดล โดย Sam Altman ซีอีโอแนะนำว่าการโต้ตอบกับมันทำให้ผู้ทดสอบที่ชาญฉลาดบางคนได้เห็น ‘AGI’ (Artificial General Intelligence)

อย่างไรก็ตาม ปฏิกิริยาในวงกว้างกลับผสมปนเปกัน Andrej Karpathy ผู้ร่วมก่อตั้ง OpenAI คาดการณ์ว่าจะมีการปรับปรุงในงานที่ต้องพึ่งพาการให้เหตุผลอย่างแท้จริงน้อยลง โดยเน้นที่ด้านต่างๆ เช่น ‘EQ’ (ความฉลาดทางอารมณ์) ความคิดสร้างสรรค์ การเปรียบเทียบ และอารมณ์ขัน ซึ่งเป็นแง่มุมที่มักถูกจำกัดโดยความรู้เกี่ยวกับโลกและความเข้าใจทั่วไป

ที่น่าสนใจคือ การสำรวจในภายหลังที่จัดทำโดย Karpathy เปิดเผยว่าผู้ใช้ทั่วไปชอบการตอบสนองของ GPT-4o มากกว่า GPT-4.5 ในแง่ของคุณภาพการเขียน สิ่งนี้เน้นย้ำถึงอัตวิสัยโดยธรรมชาติในการประเมินร้อยแก้ว และชี้ให้เห็นว่าการใช้ prompt engineering อย่างชำนาญอาจทำให้ได้คุณภาพที่เทียบเคียงได้จากโมเดลที่เล็กกว่าและมีประสิทธิภาพมากกว่า

Karpathy เองก็ยอมรับถึงความคลุมเครือของผลลัพธ์ โดยแนะนำคำอธิบายที่เป็นไปได้หลายประการ: ผู้ทดสอบ ‘high-taste’ อาจรับรู้ถึงการปรับปรุงโครงสร้างเล็กน้อยที่คนอื่นมองข้าม ตัวอย่างที่ทดสอบอาจไม่เหมาะสม หรือความแตกต่างอาจเล็กน้อยเกินกว่าจะมองเห็นได้ในขนาดตัวอย่างเล็กๆ

ข้อจำกัดของการปรับขนาดและอนาคตของ LLMs

การเปิดตัว GPT-4.5 ในบางแง่มุม ตอกย้ำถึงข้อจำกัดที่อาจเกิดขึ้นจากการปรับขนาดโมเดลที่ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่ Ilya Sutskever ผู้ร่วมก่อตั้ง OpenAI อีกคนและอดีตหัวหน้านักวิทยาศาสตร์ กล่าวอย่างโด่งดังที่ NeurIPS 2024 ว่า ‘การฝึกอบรมล่วงหน้าอย่างที่เรารู้จักจะสิ้นสุดลงอย่างไม่ต้องสงสัย… เราได้บรรลุข้อมูลสูงสุดแล้วและจะไม่มีอีกต่อไป เราต้องจัดการกับข้อมูลที่เรามี มีอินเทอร์เน็ตเพียงแห่งเดียว’

ผลตอบแทนที่ลดลงที่สังเกตได้จาก GPT-4.5 เป็นเครื่องพิสูจน์ถึงความท้าทายในการปรับขนาดโมเดลเอนกประสงค์ที่ได้รับการฝึกฝนบนข้อมูลอินเทอร์เน็ตเป็นหลัก และปรับแต่งเพื่อการจัดตำแหน่งผ่านการเรียนรู้แบบเสริมกำลังจากความคิดเห็นของมนุษย์ (RLHF)

พรมแดนต่อไปสำหรับ Large Language Models ดูเหมือนจะเป็น test-time scaling (หรือ inference-time scaling) ซึ่งเกี่ยวข้องกับการฝึกอบรมโมเดลให้ ‘คิด’ เป็นระยะเวลานานขึ้นโดยการสร้างโทเค็น chain-of-thought (CoT) Test-time scaling ช่วยเพิ่มความสามารถของโมเดลในการจัดการกับปัญหาการให้เหตุผลที่ซับซ้อน และเป็นปัจจัยสำคัญในความสำเร็จของโมเดลอย่าง o1 และ R1

ไม่ใช่ความล้มเหลว แต่เป็นรากฐาน

แม้ว่า GPT-4.5 อาจไม่ใช่ตัวเลือกที่ดีที่สุดสำหรับทุกงาน แต่สิ่งสำคัญคือต้องตระหนักถึงบทบาทที่เป็นไปได้ในฐานะองค์ประกอบพื้นฐานสำหรับความก้าวหน้าในอนาคต ฐานความรู้ที่แข็งแกร่งเป็นสิ่งจำเป็นสำหรับการพัฒนาแบบจำลองการให้เหตุผลที่ซับซ้อนยิ่งขึ้น

แม้ว่า GPT-4.5 จะไม่ได้กลายเป็นโมเดลหลักสำหรับการใช้งานส่วนใหญ่ แต่ก็สามารถใช้เป็นส่วนประกอบสำคัญสำหรับโมเดลการให้เหตุผลในภายหลัง เป็นไปได้ว่ามันถูกนำไปใช้ในโมเดลอย่าง o3 แล้ว

ดังที่ Mark Chen หัวหน้าเจ้าหน้าที่วิจัยของ OpenAI อธิบายว่า ‘คุณต้องมีความรู้เพื่อสร้างเหตุผลบนพื้นฐานนั้น โมเดลไม่สามารถเข้าไปโดยไม่รู้และเรียนรู้การให้เหตุผลตั้งแต่เริ่มต้นได้ ดังนั้นเราจึงพบว่ากระบวนทัศน์ทั้งสองนี้ค่อนข้างเสริมกัน และเราคิดว่าพวกเขามีวงจรป้อนกลับซึ่งกันและกัน’

ดังนั้น การพัฒนา GPT-4.5 จึงไม่ได้แสดงถึงทางตัน แต่เป็นขั้นตอนเชิงกลยุทธ์ในวิวัฒนาการอย่างต่อเนื่องของ Large Language Models มันเป็นเครื่องพิสูจน์ถึงลักษณะการทำซ้ำของการวิจัย AI ซึ่งแต่ละขั้นตอน แม้ว่าจะดูเหมือนไม่น่าประทับใจในตัวเอง แต่ก็มีส่วนช่วยให้เกิดความก้าวหน้าในวงกว้างไปสู่ระบบ AI ที่มีความสามารถและหลากหลายมากขึ้น ขณะนี้จุดสนใจกำลังเปลี่ยนไปสู่การใช้ประโยชน์จากรากฐานความรู้ที่แข็งแกร่งนี้เพื่อสร้างแบบจำลองที่ไม่เพียงแต่สามารถเรียกคืนข้อมูลได้เท่านั้น แต่ยังให้เหตุผลและแก้ไขปัญหาได้อย่างมีประสิทธิภาพอย่างที่ไม่เคยมีมาก่อน การเดินทางสู่ AI ที่ชาญฉลาดอย่างแท้จริงยังคงดำเนินต่อไป และ GPT-4.5 แม้จะได้รับการตอบรับที่หลากหลาย แต่ก็มีบทบาทสำคัญในการเดินทางครั้งนี้
ขณะนี้จุดสนใจไม่ได้อยู่ที่ว่าโมเดลรู้ มาก แค่ไหน แต่จะ ใช้ ความรู้นั้นได้ดีเพียงใด นี่คือความท้าทายหลักที่ชุมชน AI กำลังต่อสู้ และ GPT-4.5 แม้จะไม่ใช่โซลูชันที่สมบูรณ์แบบ แต่ก็ให้ข้อมูลเชิงลึกที่มีค่าและรากฐานที่มั่นคงสำหรับความก้าวหน้าในอนาคต เส้นทางข้างหน้าเกี่ยวข้องกับการผสมผสานแนวทางต่างๆ: การปรับแต่งเทคนิคที่มีอยู่ การสำรวจสถาปัตยกรรมใหม่ๆ และการพัฒนาวิธีการที่ซับซ้อนยิ่งขึ้นสำหรับการฝึกอบรมและการประเมิน เป้าหมายสูงสุดยังคงเหมือนเดิม: เพื่อสร้างระบบ AI ที่ไม่เพียงแต่สามารถเข้าใจและสร้างภาษามนุษย์ได้เท่านั้น แต่ยังให้เหตุผล เรียนรู้ และปรับตัวในรูปแบบที่ครั้งหนึ่งเคยถือว่าเป็นขอบเขตเฉพาะของสติปัญญาของมนุษย์