การปรับปรุงประสิทธิภาพ: การตรวจสอบอย่างใกล้ชิด
OpenAI ได้เปิดตัว GPT-4.5 ซึ่งได้รับการยกย่องว่าเป็นแบบจำลอง AI ที่มีความซับซ้อนมากที่สุดในปัจจุบัน ในขณะที่โอ้อวดถึงการปรับปรุงในด้านความแม่นยำ, ประสบการณ์ของผู้ใช้, และแม้กระทั่งความฉลาดทางอารมณ์, การตอบรับของแบบจำลองนี้กลับไม่ค่อยดีนัก, สาเหตุหลักมาจากโครงสร้างราคาของมัน ชุมชน AI กำลังพิจารณาถึงผลกระทบของแบบจำลองที่, แม้ว่าจะเหนือกว่า GPT-4o รุ่นก่อนเพียงเล็กน้อย, แต่ก็มาพร้อมกับป้ายราคาที่สูงกว่าอย่างมาก
เกณฑ์มาตรฐานภายในของ OpenAI เปิดเผยว่า GPT-4.5 นั้นเหนือกว่า GPT-4o ในหลาย ๆ ด้านที่สำคัญ การปรับปรุงที่โดดเด่นอย่างหนึ่งคือประสิทธิภาพในการทดสอบ MMMLU (ความรู้ทั่วไป) แบบหลายภาษา GPT-4.5 ทำคะแนนได้ 85.1% ซึ่งสูงกว่า 81.5% ของ GPT-4o สิ่งนี้ชี้ให้เห็นถึงความเข้าใจที่กว้างและลึกซึ้งยิ่งขึ้นเกี่ยวกับความรู้ทั่วไปในภาษาต่าง ๆ
นอกเหนือจากการทดสอบมาตรฐาน, OpenAI อ้างว่า GPT-4.5 แสดงให้เห็นถึงการลดลงของ ‘confabulations’, หรือที่รู้จักกันทั่วไปว่าอาการหลอน ซึ่งหมายความว่าแบบจำลองมีแนวโน้มน้อยลงที่จะสร้างข้อมูลที่เป็นเท็จหรือทำให้เข้าใจผิด, ซึ่งเป็นความก้าวหน้าที่สำคัญสำหรับการใช้งานที่ต้องการความถูกต้องตามข้อเท็จจริง การลดลงของคำตอบที่ถูกสร้างขึ้นแสดงถึงขั้นตอนไปสู่ความน่าเชื่อถือที่มากขึ้น
ประสบการณ์ของผู้ใช้ก็ได้รับการปรับปรุงเช่นกัน, แม้ว่าจะเล็กน้อยก็ตาม การประเมินของ OpenAI ระบุว่าผู้ใช้ต้องการคำตอบของ GPT-4.5 มากกว่าคำตอบของ GPT-4o ในการโต้ตอบประมาณ 57% แม้ว่าจะไม่ใช่ชัยชนะอย่างถล่มทลาย, แต่ความชอบนี้ชี้ให้เห็นถึงการปรับปรุงที่เห็นได้ชัดในคุณภาพโดยรวมและความเกี่ยวข้องของผลลัพธ์ของแบบจำลอง การโต้ตอบให้ความรู้สึกเป็นธรรมชาติมากขึ้นและสอดคล้องกับความคาดหวังของผู้ใช้
การก้าวกระโดดที่สำคัญอีกประการหนึ่งคือความแม่นยำของ Simple QA ที่นี่ GPT-4.5 ทำคะแนนได้ 62.5% ซึ่งเพิ่มขึ้นอย่างมากจาก 38.2% ของ GPT-4o สิ่งนี้บ่งชี้ถึงการปรับปรุงที่โดดเด่นในความสามารถของแบบจำลองในการให้คำตอบที่ถูกต้องสำหรับคำถามง่าย ๆ, แสดงให้เห็นถึงความเข้าใจและความสามารถในการดึงข้อมูลที่เพิ่มขึ้น
ความฉลาดทางอารมณ์: การโต้ตอบที่เหมือนมนุษย์มากขึ้น
GPT-4.5 สร้างความแตกต่างไม่เพียงแค่ผ่านตัวชี้วัดประสิทธิภาพดิบเท่านั้น, แต่ยังรวมถึงความฉลาดทางอารมณ์ (EQ) ที่ได้รับการปรับปรุงอีกด้วย แบบจำลองได้รับการออกแบบมาเพื่อให้มีน้ำเสียงที่เป็นธรรมชาติและเห็นอกเห็นใจมากขึ้น, ทำให้การโต้ตอบรู้สึกเหมือนหุ่นยนต์น้อยลงและมีส่วนร่วมมากขึ้น นี่เป็นก้าวสำคัญสู่การสร้าง AI ที่ให้ความรู้สึกเหมือนมนุษย์มากขึ้นในการสื่อสาร
- น้ำเสียงที่เป็นธรรมชาติ: การสนทนาจะราบรื่นขึ้น, ด้วยการตอบสนองที่เลียนแบบรูปแบบการสนทนาของมนุษย์ได้ดีขึ้น
- การตอบสนองที่เห็นอกเห็นใจ: แบบจำลองแสดงให้เห็นถึงความสามารถที่มากขึ้นในการทำความเข้าใจและตอบสนองต่อความรู้สึกทางอารมณ์ของการสนทนา
- การโต้ตอบที่มีส่วนร่วม: ประสบการณ์โดยรวมได้รับการออกแบบมาเพื่อให้น่าดึงดูดยิ่งขึ้น, ดึงดูดความสนใจของผู้ใช้และส่งเสริมการโต้ตอบเชิงบวกมากขึ้น
EQ ที่ได้รับการปรับปรุงนี้ทำให้ GPT-4.5 เหมาะอย่างยิ่งสำหรับการใช้งานที่การโต้ตอบที่เหมือนมนุษย์เป็นสิ่งสำคัญยิ่ง การบริการลูกค้า, ผู้ช่วยเสมือน, และแม้แต่การใช้งานด้านการบำบัดก็สามารถได้รับประโยชน์จากแนวทางที่ละเอียดอ่อนและชาญฉลาดทางอารมณ์มากขึ้นนี้
นอกจากนี้, GPT-4.5 ยังยอดเยี่ยมในเรื่อง ‘steerability’ ซึ่งหมายถึงความสามารถของแบบจำลองในการตีความและตอบสนองต่อข้อความแจ้งที่ละเอียดอ่อนด้วยความแม่นยำที่มากขึ้น ผู้ใช้สังเกตเห็นว่า GPT-4.5 แสดงให้เห็นถึงความเข้าใจในความละเอียดอ่อนที่แข็งแกร่งขึ้น, ทำให้สามารถจัดการกับคำถามที่ซับซ้อนหรือคลุมเครือได้อย่างมีประสิทธิภาพมากขึ้น มันสามารถแยกแยะเจตนาพื้นฐานของคำถามได้ดีขึ้น, นำไปสู่การตอบสนองที่เกี่ยวข้องและเป็นประโยชน์มากขึ้น
ช้างในห้อง: ข้อกังวลด้านราคา
แม้จะมีความก้าวหน้า, แต่ราคาของ GPT-4.5 ก็กลายเป็นประเด็นหลักของการโต้แย้ง ในขณะที่มันมีการปรับปรุงมากกว่า GPT-4o, ความเหลื่อมล้ำของราคานั้นมีมาก สำหรับการประมวลผลอินพุต, GPT-4.5 มีราคาแพงกว่าประมาณ 30 เท่า, และสำหรับการสร้างเอาต์พุต, มันแพงกว่า 15 เท่า รูปแบบการกำหนดราคานี้ทำให้เกิดคำถามร้ายแรงเกี่ยวกับข้อเสนอคุณค่าของแบบจำลองใหม่
ปัญหาหลักคือผลตอบแทนที่ลดลง ในขณะที่ GPT-4.5 มีขนาดใหญ่และซับซ้อนกว่ารุ่นก่อนอย่างไม่ต้องสงสัย, การปรับปรุงประสิทธิภาพดูเหมือนจะไม่ปรับขนาดตามสัดส่วนกับการเพิ่มขึ้นของต้นทุน ความคลาดเคลื่อนนี้ทำให้หลายคนในชุมชน AI ตั้งคำถามว่าผลประโยชน์ส่วนเพิ่มนั้นสมเหตุสมผลกับการขึ้นราคาแบบทวีคูณหรือไม่
ราคาที่สูงเกินไปมีนัยสำคัญต่อการเข้าถึง นักพัฒนาหลายคน, โดยเฉพาะอย่างยิ่งผู้ที่ทำงานอย่างอิสระหรือสำหรับธุรกิจขนาดเล็ก, อาจพบว่า GPT-4.5 นั้นเกินเอื้อม สิ่งนี้สร้างอุปสรรคในการเข้า, ซึ่งอาจขัดขวางนวัตกรรมและจำกัดการนำเทคโนโลยีไปใช้อย่างแพร่หลาย
ลองพิจารณาตัวอย่างที่ใช้ได้จริง: การสรุปนวนิยาย 300,000 คำ (ประมาณ 450,000 โทเค็น) และสร้างรายงานการวิเคราะห์ 50,000 โทเค็น ด้วย GPT-4.5 งานนี้จะมีค่าใช้จ่ายประมาณ $41.25 งานเดียวกันโดยใช้ GPT-4 จะมีค่าใช้จ่ายเพียง $1.6 ความแตกต่างที่ชัดเจนนี้เน้นย้ำถึงภาระทางการเงินที่ GPT-4.5 มีต่อผู้ใช้, โดยเฉพาะอย่างยิ่งสำหรับโครงการขนาดใหญ่
กลยุทธ์การกำหนดราคานี้ทำให้เกิดความกังวลเกี่ยวกับความสามารถในการจ่ายและความครอบคลุมภายในภูมิทัศน์การพัฒนา AI หน่วยงานขนาดเล็กและนักวิจัยแต่ละคนอาจถูกบังคับให้เลือกทางเลือกที่ถูกกว่า, แม้ว่าจะมีประสิทธิภาพน้อยกว่า, ซึ่งอาจขัดขวางความสามารถในการแข่งขันกับองค์กรขนาดใหญ่ที่สามารถจ่ายค่าพรีเมียมได้
ความสามารถในการให้เหตุผล: งานที่กำลังดำเนินการ
ในขณะที่ GPT-4.5 แสดงให้เห็นถึงความก้าวหน้าในหลาย ๆ ด้าน, สิ่งสำคัญคือต้องรับทราบถึงข้อจำกัดของมัน แบบจำลองได้รับการพัฒนาโดยใช้การฝึกอบรมล่วงหน้า, การปรับแต่งอย่างละเอียดภายใต้การดูแล, และ Reinforcement Learning from Human Feedback (RLHF) อย่างไรก็ตาม, มันยังไม่ได้รับการปรับให้เหมาะสมสำหรับงานการให้เหตุผลขั้นสูง
ซึ่งหมายความว่ารุ่นปัจจุบันไม่ได้นำมาซึ่งการปรับปรุงที่สำคัญในโดเมนที่ต้องพึ่งพาทักษะการให้เหตุผลที่แข็งแกร่ง, เช่น คณิตศาสตร์และการเขียนโค้ด พื้นที่เหล่านี้ต้องการระดับการหักล้างเชิงตรรกะและการแก้ปัญหาที่ลึกซึ้งยิ่งขึ้น ซึ่ง GPT-4.5 ในสถานะปัจจุบันยังไม่มีอย่างเต็มที่
สำหรับงานที่ต้องการความสามารถในการให้เหตุผลที่แข็งแกร่ง, GPT-4o ยังคงเป็นแบบจำลองชั้นนำ ดูเหมือนว่ากลยุทธ์ของ OpenAI เกี่ยวข้องกับแนวทางแบบเป็นขั้นตอน, โดยการเปิดตัวครั้งแรกของ GPT-4.5 มุ่งเน้นไปที่ด้านต่าง ๆ เช่น ความรู้ทั่วไป, ประสบการณ์ของผู้ใช้, และความฉลาดทางอารมณ์ บริษัทมีแนวโน้มที่จะเปลี่ยนโฟกัสไปที่การใช้การฝึกอบรม RL เพิ่มเติมกับ GPT-4.5 โดยเฉพาะเพื่อเพิ่มความสามารถในการให้เหตุผลในการทำซ้ำครั้งต่อ ๆ ไป สิ่งนี้ชี้ให้เห็นถึงความมุ่งมั่นในการปรับปรุงอย่างต่อเนื่อง, โดยการอัปเดตในอนาคตอาจแก้ไขข้อจำกัดในปัจจุบันในงานที่ต้องใช้เหตุผลอย่างเข้มข้น
ความคาดหวังคือการปรับปรุงในอนาคตจะลดช่องว่าง, ในที่สุดก็วางตำแหน่ง GPT-4.5 ให้เป็นผู้นำในการใช้งานตามเหตุผลเช่นกัน
โดยรวม:
การเปิดตัว GPT-4.5 นำเสนอภาพที่ซับซ้อน มันแสดงให้เห็นถึงความก้าวหน้าในบางด้าน, โดยเฉพาะอย่างยิ่งในแง่ของประสบการณ์ของผู้ใช้และความฉลาดทางอารมณ์ อย่างไรก็ตาม, รูปแบบการกำหนดราคาทำให้เกิดความกังวลอย่างมากเกี่ยวกับการเข้าถึงและข้อเสนอคุณค่าโดยรวม ในขณะที่แบบจำลองแสดงถึงก้าวไปข้างหน้า, ความคุ้มค่าของมันยังคงเป็นหัวข้อของการอภิปรายภายในชุมชน AI ข้อจำกัดในความสามารถในการให้เหตุผลยังเน้นย้ำถึงกระบวนการพัฒนาที่กำลังดำเนินอยู่, โดยคาดว่าจะมีการอัปเดตในอนาคตเพื่อแก้ไขข้อบกพร่องเหล่านี้ วิถีของ GPT-4.5 จะขึ้นอยู่กับว่า OpenAI จัดการความสมดุลระหว่างประสิทธิภาพ, ต้นทุน, และการเข้าถึงอย่างไร, ซึ่งในที่สุดจะกำหนดผลกระทบต่อภูมิทัศน์ AI ในวงกว้าง