Baidu ยักษ์ใหญ่ด้านเทคโนโลยีของจีน ได้เปิดตัวการอัปเดตที่สำคัญสองรายการสำหรับ ERNIE (Enhanced Representation through Knowledge Integration) foundation model การทำซ้ำใหม่เหล่านี้ ERNIE X1 และ ERNIE 4.5 แสดงถึงการตอบสนองเชิงกลยุทธ์ของ Baidu ต่อภูมิทัศน์ AI ทั่วโลกที่มีการแข่งขันสูงขึ้น โดยเฉพาะอย่างยิ่งความก้าวหน้าที่เกิดขึ้นจากทั้งบริษัทจีนและอเมริกา โมเดลเหล่านี้ไม่ได้เป็นเพียงการอัปเกรดที่เพิ่มขึ้นเท่านั้น แต่ได้รับการออกแบบมาเพื่อแข่งขันแบบตัวต่อตัวกับระบบ AI ที่ล้ำหน้าที่สุดบางระบบที่มีอยู่ โดยมีความสามารถที่ Baidu ระบุว่าเทียบเท่าหรือเหนือกว่าคู่แข่ง โมเดลทั้งสองสามารถเข้าถึงได้สำหรับผู้ใช้ผ่านแชทบอท ERNIE Bot และ Baidu วางแผนที่จะรวมเข้ากับผลิตภัณฑ์ที่หลากหลาย รวมถึง Baidu Search ซึ่งเป็นเรือธง
ช่วงเวลาของการเปิดตัวนี้มีความสำคัญ ภาคส่วน generative AI กำลังประสบกับช่วงเวลาแห่งนวัตกรรมที่รวดเร็วและการแข่งขันที่รุนแรง โดยเฉพาะอย่างยิ่งการมุ่งเน้นไปที่พลวัตระหว่างจีนและสหรัฐอเมริกา DeepSeek สตาร์ทอัพ AI ของจีน ได้รับความสนใจจากอุตสาหกรรมในช่วงต้นปี 2025 ด้วย R1 ซึ่งเป็นโมเดลการให้เหตุผลแบบโอเพนซอร์สที่รายงานว่ามีประสิทธิภาพเหนือกว่าโมเดล AI ชั้นนำในราคาที่ต่ำกว่าอย่างมาก การเคลื่อนไหวนี้ขับเคลื่อน DeepSeek ให้ก้าวหน้ากว่าคู่แข่งทั้งในจีนและสหรัฐอเมริกา รวมถึง Baidu อย่างไรก็ตาม Baidu เป็นหนึ่งในบริษัทจีนกลุ่มแรกๆ ที่เปิดตัวคู่แข่ง ChatGPT อย่าง ERNIE Bot
ERNIE X1 และ ERNIE 4.5: เจาะลึกโมเดลใหม่ของ Baidu
ERNIE X1 และ ERNIE 4.5 แม้ว่าทั้งคู่จะพัฒนาโดย Baidu แต่ก็เป็น foundation models ที่แตกต่างกันซึ่งปรับให้เหมาะกับการใช้งานที่แตกต่างกัน:
ERNIE X1: โมเดลนี้อยู่ในตำแหน่งที่เป็นเครื่องมือการให้เหตุผลที่มีประสิทธิภาพสูง ท้าทายโดยตรงกับโมเดลเช่น DeepSeek R1 และ o3 mini ของ OpenAI ได้รับการออกแบบมาสำหรับงานที่ต้องการการประมวลผลเชิงตรรกะที่ซับซ้อนและการแก้ปัญหาหลายขั้นตอน
ERNIE 4.5: โมเดลนี้เป็น AI หลายรูปแบบขนาดใหญ่ สามารถประมวลผลและทำความเข้าใจสื่อรูปแบบต่างๆ ได้แก่ ข้อความ รูปภาพ เสียง และวิดีโอ แข่งขันกับโมเดลเช่น GPT-4o และ Gemini ของ Google
การเกิดขึ้นของ R1 ของ DeepSeek ทำให้เกิดการเปลี่ยนแปลงในลำดับความสำคัญของผู้เล่น AI รายใหญ่ เช่น Google, OpenAI, Anthropic และ xAI บริษัทเหล่านี้เริ่มให้ความสำคัญกับประสิทธิภาพและความสามารถในการจ่าย ควบคู่ไปกับขนาดของโมเดลดิบ การเปิดตัว ERNIE X1 ของ Baidu โดยเฉพาะอย่างยิ่ง แสดงถึงการเข้าสู่การแข่งขัน AI ระดับโลกนี้ โดยนำเสนอประสิทธิภาพที่เทียบเท่ากับ R1 และโมเดลอื่นๆ ซึ่งอาจอยู่ในราคาที่แข่งขันได้มากกว่า
Baidu เน้นย้ำว่าปี 2025 เป็นปีที่สำคัญสำหรับวิวัฒนาการของ large language models และเทคโนโลยีที่เกี่ยวข้อง ข่าวประชาสัมพันธ์ของบริษัทเน้นย้ำถึงความมุ่งมั่นอย่างต่อเนื่องในการลงทุนในปัญญาประดิษฐ์ ศูนย์ข้อมูล และโครงสร้างพื้นฐานคลาวด์ โดยมีเป้าหมายเพื่อเพิ่มขีดความสามารถ AI และพัฒนาโมเดลรุ่นต่อไปที่ทรงพลังยิ่งขึ้น
ERNIE X1: เจาะลึกการให้เหตุผลเชิงลึก
ERNIE X1 เป็น language model ที่ออกแบบมาโดยเฉพาะสำหรับ “การให้เหตุผลเชิงลึก” สิ่งนี้ทำให้แตกต่างจาก language models แบบดั้งเดิมที่เก่งในการสร้างการตอบสนองตามรูปแบบอย่างรวดเร็ว ในทางตรงกันข้าม โมเดลการให้เหตุผลได้รับการออกแบบมาเพื่อแยกปัญหาที่ซับซ้อนออกเป็นชุดของขั้นตอนเชิงตรรกะ พวกเขาประเมินวิธีแก้ปัญหาที่เป็นไปได้ต่างๆ และปรับแต่งคำตอบก่อนที่จะนำเสนอผลลัพธ์สุดท้าย สิ่งนี้ทำให้เหมาะสมอย่างยิ่งสำหรับงานที่เกี่ยวข้องกับการวางแผนหลายขั้นตอน การอนุมานเชิงตรรกะ และการแก้ปัญหาที่ซับซ้อน
Baidu ระบุว่าความสามารถในการให้เหตุผลของ ERNIE X1 มาจากเทคนิคขั้นสูงหลายประการ ได้แก่:
- Progressive Reinforcement Learning: สิ่งนี้ชี้ให้เห็นถึงกระบวนการเรียนรู้แบบวนซ้ำที่โมเดลปรับปรุงประสิทธิภาพอย่างต่อเนื่องผ่านการตอบรับ
- End-to-End Training: นี่หมายถึงแนวทางการฝึกอบรมแบบองค์รวมที่โมเดลทั้งหมดได้รับการปรับให้เหมาะสมพร้อมกัน แทนที่จะเป็นในขั้นตอนแยกต่างหาก
- Chains of Thought and Action: เทคนิคนี้อาจช่วยให้โมเดลทำตามลำดับขั้นตอนเชิงตรรกะ เลียนแบบกระบวนการคิดของมนุษย์
- Unified Multi-faceted Reward System: สิ่งนี้ชี้ให้เห็นถึงระบบที่ซับซ้อนสำหรับการประเมินและให้รางวัลแก่ประสิทธิภาพของโมเดลในด้านต่างๆ ของการให้เหตุผล
แม้ว่า Baidu จะไม่ได้เปิดเผยรายละเอียดทางเทคนิคอย่างละเอียด แต่วิธีการเหล่านี้ชี้ให้เห็นถึงการมุ่งเน้นไปที่การเรียนรู้แบบวนซ้ำ ความเข้าใจตามบริบท และการให้เหตุผลที่มีโครงสร้าง ซึ่งเป็นจุดแข็งที่เป็นลักษณะเฉพาะของโมเดลการให้เหตุผลที่ประสบความสำเร็จอื่นๆ
ในการใช้งานจริง Baidu อ้างว่า ERNIE X1 แสดง “ความสามารถที่เพิ่มขึ้นในการทำความเข้าใจ การวางแผน การไตร่ตรอง และวิวัฒนาการ” บริษัทเน้นย้ำถึงความเชี่ยวชาญในด้านต่างๆ เช่น:
- Literary Creation: การสร้างรูปแบบข้อความที่สร้างสรรค์
- Manuscript Writing: การช่วยเหลือในการร่างเอกสารที่ยาวขึ้น
- Dialogue: การมีส่วนร่วมในการสนทนาที่เป็นธรรมชาติและสอดคล้องกัน
- Logical Reasoning: การแก้ปัญหาที่ต้องใช้การอนุมานเชิงตรรกะ
- Complex Calculations: การดำเนินการทางคณิตศาสตร์ที่ซับซ้อน
- ‘Chinese Knowledge’: ความสามารถที่ไม่ระบุรายละเอียดนี้อาจหมายถึงความเข้าใจอย่างลึกซึ้งเกี่ยวกับภาษา วัฒนธรรม และบริบทของจีน
ดังนั้น ERNIE X1 จึงถูกมองว่าจะขับเคลื่อนแอปพลิเคชันที่หลากหลาย รวมถึง:
- Search Engines: การปรับปรุงผลการค้นหาด้วยความเข้าใจที่ละเอียดยิ่งขึ้น
- Document Summarization and Q&A: การให้ข้อมูลสรุปที่กระชับและคำตอบที่ถูกต้องสำหรับคำถาม
- Image Understanding and Generation: การตีความและการสร้างเนื้อหาภาพ
- Code Interpretation: การวิเคราะห์และทำความเข้าใจโค้ดโปรแกรม
- Webpage Analysis: การดึงข้อมูลสำคัญจากหน้าเว็บ
- Mind Mapping: การสร้างการแสดงภาพของแนวคิดและแนวคิด
- Academic Research: การช่วยเหลือในงานวิจัยในสาขาวิชาต่างๆ
- Business and Franchise Information Search: การให้ข้อมูลที่เกี่ยวข้องสำหรับการสอบถามทางธุรกิจ
ERNIE X1: การเปรียบเทียบกับคู่แข่ง
แม้ว่า Baidu จะไม่ได้เปิดเผยคะแนนมาตรฐานเฉพาะหรือการประเมินโดยละเอียดสำหรับ ERNIE X1 แต่ก็ยืนยันว่าประสิทธิภาพของโมเดลนั้น “เทียบเท่ากับ” DeepSeek R1 ในขณะที่เสนอในราคา “เพียงครึ่งเดียว” ในปัจจุบัน Baidu ยังไม่ได้ให้การเปรียบเทียบกับโมเดลการให้เหตุผลอื่นๆ ในตลาด การขาดข้อมูลเปรียบเทียบโดยละเอียดนี้ทำให้ยากต่อการประเมินสถานะการแข่งขันของ ERNIE X1 อย่างเต็มที่ แต่การอ้างว่ามีประสิทธิภาพเทียบเท่าในราคาที่ต่ำกว่านั้นเป็นสิ่งที่น่าสังเกต
ERNIE 4.5: โอบรับความสามารถหลายรูปแบบดั้งเดิม
ERNIE 4.5 ได้รับการนำเสนอโดย Baidu ว่าเป็น “native multimodal model” ซึ่งหมายความว่าได้รับการออกแบบมาเพื่อผสานรวมและทำความเข้าใจสื่อรูปแบบต่างๆ ได้แก่ ข้อความ รูปภาพ เสียง และวิดีโอ ได้อย่างราบรื่นภายในกรอบการทำงานที่เป็นหนึ่งเดียว ซึ่งแตกต่างจากระบบ AI จำนวนมากที่ประมวลผลสื่อประเภทต่างๆ แยกกัน ERNIE 4.5 ได้รับการออกแบบมาเพื่อรวมรูปแบบเหล่านี้และแม้กระทั่งแปลงระหว่างกัน (เช่น ข้อความเป็นเสียงและในทางกลับกัน)
Baidu เน้นย้ำว่า ERNIE 4.5 “บรรลุการเพิ่มประสิทธิภาพร่วมกันผ่านการสร้างแบบจำลองร่วมกันของหลายรูปแบบ แสดงให้เห็นถึงความสามารถในการทำความเข้าใจหลายรูปแบบที่ยอดเยี่ยม” สิ่งนี้ชี้ให้เห็นถึงแนวทางที่ซับซ้อนที่โมเดลเรียนรู้ที่จะเข้าใจและเชื่อมโยงข้อมูลในสื่อประเภทต่างๆ
นอกเหนือจากความสามารถหลายรูปแบบแล้ว ERNIE 4.5 ยังมี “ทักษะทางภาษาที่ได้รับการขัดเกลา” ซึ่งช่วยเพิ่มความสามารถในการทำความเข้าใจและการสร้าง ตลอดจนความสามารถในการให้เหตุผลเชิงตรรกะ ความจำ และการเขียนโค้ด Baidu ยังเน้นย้ำถึง “ความฉลาดที่แข็งแกร่ง” และ “การรับรู้ตามบริบท” ของโมเดล โดยเฉพาะอย่างยิ่งความสามารถในการจดจำเนื้อหาที่ละเอียดอ่อน เช่น มีมทางอินเทอร์เน็ตและการ์ตูนเสียดสี สิ่งนี้บ่งชี้ถึงการมุ่งเน้นไปที่การทำความเข้าใจไม่เพียงแต่ความหมายตามตัวอักษรของเนื้อหาเท่านั้น แต่ยังรวมถึงบริบททางวัฒนธรรมและสังคมด้วย
นอกจากนี้ Baidu ยังอ้างว่า ERNIE 4.5 มีแนวโน้มที่จะเกิด “ภาพหลอน” น้อยลง ซึ่งเป็นปัญหาทั่วไปใน AI ที่โมเดลสร้างข้อมูลเท็จหรือทำให้เข้าใจผิดที่อาจดูเหมือนเป็นไปได้ในแวบแรก นี่เป็นการปรับปรุงที่สำคัญ เนื่องจากภาพหลอนสามารถบ่อนทำลายความน่าเชื่อถือและความน่าเชื่อถือของระบบ AI
Baidu ให้เครดิตความก้าวหน้าเหล่านี้กับเทคโนโลยีหลักหลายประการ ได้แก่:
- Spatiotemporal Representation Compression: สิ่งนี้อาจหมายถึงเทคนิคสำหรับการแสดงและประมวลผลข้อมูลที่เปลี่ยนแปลงตามเวลาและพื้นที่อย่างมีประสิทธิภาพ เช่น เนื้อหาวิดีโอ
- Knowledge-Centric Training Data Construction: สิ่งนี้ชี้ให้เห็นถึงการมุ่งเน้นไปที่การสร้างชุดข้อมูลการฝึกอบรมที่อุดมไปด้วยความรู้ที่เป็นข้อเท็จจริง
- Self-Feedback Enhanced Post-Training: นี่หมายถึงกลไกที่โมเดลสามารถเรียนรู้จากผลลัพธ์ของตัวเองและปรับปรุงประสิทธิภาพเมื่อเวลาผ่านไป
- Heterogeneous Multimodal Mixture-of-Experts (MoE): แนวทางนี้ใช้โมเดล “ผู้เชี่ยวชาญ” ที่มีขนาดเล็กกว่าและมีความเชี่ยวชาญเฉพาะซึ่งเปิดใช้งานเมื่อจำเป็นเท่านั้น สิ่งนี้จะปรับประสิทธิภาพให้เหมาะสมและลดต้นทุนการคำนวณ โมเดล MoE มักจะมีขนาดเล็กกว่าและคุ้มค่ากว่าโมเดลที่ใช้ transformer แบบดั้งเดิม แต่สามารถบรรลุประสิทธิภาพที่เทียบเท่าหรือเหนือกว่าได้ ทำให้เป็นตัวเลือกที่น่าสนใจสำหรับการพัฒนา AI
เมื่อมองไปข้างหน้า รายงานระบุว่า Baidu วางแผนที่จะเปิดตัว ERNIE 5 ในภายหลังในปี 2025 โดยสัญญาว่าจะมี “การปรับปรุงครั้งใหญ่” ในความสามารถหลายรูปแบบ สิ่งนี้ชี้ให้เห็นถึงความมุ่งมั่นอย่างต่อเนื่องในการผลักดันขอบเขตของ AI หลายรูปแบบ
ERNIE 4.5: การวิเคราะห์เปรียบเทียบ
Baidu ได้เปรียบเทียบความสามารถหลายรูปแบบของ ERNIE 4.5 กับ GPT-4o ของ OpenAI โดยตรง บริษัทอ้างว่า ERNIE 4.5 มีประสิทธิภาพเหนือกว่า GPT-4o ในเกือบทุกเกณฑ์มาตรฐาน ยกเว้น MMU (Massive Multi-discipline Understanding) MMU ประเมินโมเดลในงานระดับวิทยาลัยที่หลากหลายซึ่งต้องการความรู้เชิงลึกในหัวข้อและการให้เหตุผลโดยเจตนา สิ่งนี้ชี้ให้เห็นว่าในขณะที่ ERNIE 4.5 เก่งในหลายๆ ด้าน GPT-4o อาจยังคงมีความได้เปรียบในงานที่ต้องการความรู้ทางวิชาการเฉพาะทาง
Baidu ยังนำเสนอผลการเปรียบเทียบที่บ่งชี้ว่า ERNIE 4.5 มีประสิทธิภาพเหนือกว่า GPT-4o และ GPT-4.5 ของ OpenAI รวมถึง V3 ของ DeepSeek ในด้านอื่นๆ อีกหลายด้าน ได้แก่:
- C-Eval: เกณฑ์มาตรฐานนี้ประเมินความรู้ขั้นสูงและความสามารถในการให้เหตุผลในสาขาวิชาต่างๆ ตั้งแต่มนุษยศาสตร์ไปจนถึงวิทยาศาสตร์และวิศวกรรม ประสิทธิภาพที่แข็งแกร่งของ ERNIE 4.5 ที่นี่ชี้ให้เห็นถึงความเข้าใจในวงกว้างของวิชาที่หลากหลาย
- CMMLU: เกณฑ์มาตรฐานนี้ประเมินความรู้และความสามารถในการให้เหตุผลภายในบริบทเฉพาะของภาษาและวัฒนธรรมจีน ความสำเร็จของ ERNIE 4.5 ที่นี่เน้นย้ำถึงความเชี่ยวชาญในโดเมนนี้
- GSM8K: เกณฑ์มาตรฐานนี้ประเมินการให้เหตุผลหลายขั้นตอนโดยใช้ปัญหาคณิตศาสตร์ระดับประถมศึกษา ประสิทธิภาพของ ERNIE 4.5 บ่งชี้ถึงความสามารถที่แข็งแกร่งในการให้เหตุผลทางคณิตศาสตร์
- DROP: เกณฑ์มาตรฐานนี้วัดความสามารถในการอ่านจับใจความของ LLM ผลลัพธ์ของ ERNIE 4.5 ชี้ให้เห็นถึงความเข้าใจข้อความในระดับสูง
อย่างไรก็ตาม สิ่งสำคัญคือต้องรับทราบว่าเกณฑ์มาตรฐานจำนวนมากที่ ERNIE 4.5 แสดงให้เห็นถึงประสิทธิภาพที่เหนือกว่านั้นมุ่งเน้นไปที่ภาษาและวัฒนธรรมจีนโดยเฉพาะ สิ่งนี้อาจอธิบายได้บางส่วนว่าทำไม GPT-4o และ GPT-4.5 ซึ่งเป็นโมเดลที่พัฒนาโดยบริษัทอเมริกันจึงทำงานได้ไม่ดีนัก อย่างไรก็ตาม ERNIE 4.5 ยังมีประสิทธิภาพเหนือกว่า DeepSeek-V3 ซึ่งเป็นโมเดลที่พัฒนาโดยบริษัทจีน ในเกณฑ์มาตรฐานเหล่านี้จำนวนมาก ซึ่งบ่งชี้ถึงความได้เปรียบในการแข่งขันอย่างแท้จริงในบริบทของจีน
ในทางกลับกัน มีรายงานว่า ERNIE 4.5 ทำงานได้ไม่ดีนักในเกณฑ์มาตรฐานอื่นๆ บางอย่าง ได้แก่:
- MMLU-Pro: เกณฑ์มาตรฐานนี้ประเมินความเข้าใจภาษาในชุดงานที่กว้างขึ้นและท้าทายมากขึ้น GPT-4.5 มีประสิทธิภาพเหนือกว่า ERNIE 4.5 ที่นี่ ซึ่งชี้ให้เห็นถึงความได้เปรียบที่อาจเกิดขึ้นในการทำความเข้าใจภาษาทั่วไป
- GPQA: เกณฑ์มาตรฐานนี้ประกอบด้วยชุดข้อมูลของคำถามแบบปรนัยที่เขียนโดยผู้เชี่ยวชาญด้านชีววิทยา ฟิสิกส์ และเคมี GPT-4.5 มีประสิทธิภาพเหนือกว่า ERNIE 4.5 อีกครั้ง ซึ่งบ่งชี้ถึงความเข้าใจที่แข็งแกร่งขึ้นเกี่ยวกับความรู้ทางวิทยาศาสตร์เฉพาะทาง
- Math-500: เกณฑ์มาตรฐานนี้ทดสอบความสามารถในการแก้ปัญหาคณิตศาสตร์ระดับมัธยมปลายที่ท้าทาย ทั้ง DeepSeek-V3 และ GPT-4.5 มีประสิทธิภาพเหนือกว่า ERNIE 4.5 ซึ่งชี้ให้เห็นถึงความจำเป็นในการปรับปรุงเพิ่มเติมในการให้เหตุผลทางคณิตศาสตร์ขั้นสูง
- LiveCodeBench: เกณฑ์มาตรฐานนี้วัดความสามารถในการเขียนโค้ด GPT-4.5 มีประสิทธิภาพเหนือกว่า ERNIE 4.5 ซึ่งบ่งชี้ถึงความได้เปรียบที่อาจเกิดขึ้นในการสร้างโค้ดและความเข้าใจ
แม้ว่า GPT-4.5 จะมีประสิทธิภาพที่เหนือกว่าในเกณฑ์มาตรฐานบางอย่าง แต่ Baidu เน้นย้ำว่า ERNIE 4.5 มีราคาเพียง 1% ของโมเดลของ OpenAI ความแตกต่างด้านต้นทุนที่สำคัญนี้อาจทำให้ ERNIE 4.5 เป็นตัวเลือกที่น่าสนใจอย่างยิ่งสำหรับธุรกิจและนักพัฒนาที่กำลังมองหาโซลูชัน AI หลายรูปแบบที่คุ้มค่า
การเข้าถึง ERNIE X1 และ ERNIE 4.5
ERNIE 4.5 สามารถเข้าถึงได้ในปัจจุบันผ่าน API และบนแพลตฟอร์ม MaaS (Model-as-a-Service) ของ Baidu AI Cloud, Qianfan ราคาอินพุตเริ่มต้นที่ 0.004 หยวนต่อพันโทเค็น และราคาเอาต์พุตเริ่มต้นที่ 0.016 หยวนต่อพันโทเค็น Baidu ระบุว่า ERNIE X1 จะพร้อมใช้งานบนแพลตฟอร์ม “เร็วๆ นี้” โดยราคาอินพุตเริ่มต้นที่ 0.002 หยวนต่อพันโทเค็น และราคาเอาต์พุตเริ่มต้นที่ 0.008 หยวนต่อพันโทเค็น
ผู้ใช้ยังสามารถโต้ตอบกับทั้งสองรุ่นผ่านแชทบอทของ Baidu, ERNIE Bot ซึ่งมีอินเทอร์เฟซที่สะดวกและใช้งานง่ายสำหรับการสำรวจความสามารถของพวกเขา
โครงสร้างราคาเฉพาะและรายละเอียดความพร้อมใช้งานเน้นย้ำถึงความมุ่งมั่นของ Baidu ในการทำให้โมเดล AI ขั้นสูงเหล่านี้เข้าถึงได้สำหรับผู้ใช้ในวงกว้าง ตั้งแต่นักพัฒนารายบุคคลไปจนถึงองค์กรขนาดใหญ่ การกำหนดราคาที่แข่งขันได้ โดยเฉพาะอย่างยิ่งสำหรับ ERNIE X1 ทำให้ Baidu เป็นคู่แข่งที่แข็งแกร่งในตลาด AI ทั่วโลก โดยนำเสนอทางเลือกที่น่าสนใจสำหรับโมเดลจากยักษ์ใหญ่ด้านเทคโนโลยีของอเมริกา