Alibaba บริษัทยักษ์ใหญ่ด้านเทคโนโลยีของจีน เพิ่งเปิดตัวนวัตกรรมล่าสุดในสาขาปัญญาประดิษฐ์: กลุ่มโมเดล AI Qwen3 ตามที่บริษัทระบุ โมเดลเหล่านี้ไม่เพียงแต่เทียบเคียงได้เท่านั้น แต่ในบางกรณี ยังเหนือกว่าความสามารถของโมเดล AI ชั้นนำจากบริษัทที่มีชื่อเสียง เช่น Google และ OpenAI
โมเดลเหล่านี้มีขนาดตั้งแต่พารามิเตอร์ขนาดกะทัดรัด 0.6 พันล้านพารามิเตอร์ ไปจนถึงพารามิเตอร์ขนาดใหญ่ 235 พันล้านพารามิเตอร์ ส่วนใหญ่สามารถดาวน์โหลดได้ภายใต้สัญญาอนุญาตโอเพนซอร์สจากแพลตฟอร์มการพัฒนา AI ยอดนิยม เช่น Hugging Face และ GitHub จำนวนพารามิเตอร์ในโมเดลมีความสัมพันธ์โดยประมาณกับความสามารถในการจัดการกับปัญหาที่ซับซ้อน โดยทั่วไป โมเดลที่มีพารามิเตอร์มากกว่าจะแสดงประสิทธิภาพที่เหนือกว่าเมื่อเทียบกับโมเดลที่มีพารามิเตอร์น้อยกว่า
การเกิดขึ้นของชุดโมเดลเช่น Qwen ที่มีต้นกำเนิดจากประเทศจีน ได้เพิ่มแรงกดดันต่อห้องปฏิบัติการวิจัย AI ของอเมริกา เช่น OpenAI เพื่อสร้างสรรค์สิ่งใหม่ ๆ และส่งมอบเทคโนโลยี AI ที่ซับซ้อนมากยิ่งขึ้น การพัฒนานี้ยังกระตุ้นให้ผู้กำหนดนโยบายกำหนดข้อจำกัด โดยมีเป้าหมายเพื่อจำกัดการเข้าถึงชิปขั้นสูงที่จำเป็นสำหรับการฝึกอบรมโมเดลที่ซับซ้อนเหล่านี้ของบริษัท AI ของจีน
ทำความเข้าใจ Qwen3: แนวทางไฮบริดสำหรับการให้เหตุผลของ AI
Alibaba อธิบายโมเดล Qwen3 ว่าเป็น ‘ไฮบริด’ เนื่องจากความสามารถในการตอบสนองต่อคำขออย่างรวดเร็ว และ ‘ให้เหตุผล’ อย่างเป็นระบบผ่านปัญหาที่ซับซ้อนมากขึ้น ความสามารถในการให้เหตุผลนี้ช่วยให้โมเดลทำการตรวจสอบตนเองได้อย่างมีประสิทธิภาพ คล้ายกับโมเดลเช่น o3 ของ OpenAI แม้ว่าจะมีการแลกเปลี่ยนในแง่ของเวลาแฝงที่สูงขึ้นก็ตาม
ในบล็อกโพสต์ ทีม Qwen อธิบายแนวทางของพวกเขาว่า “เราได้บูรณาการโหมดการคิดและโหมดไม่คิดอย่างราบรื่น ทำให้ผู้ใช้มีความยืดหยุ่นในการควบคุมงบประมาณการคิด การออกแบบนี้ช่วยให้ผู้ใช้สามารถกำหนดค่า งบประมาณเฉพาะงานได้ง่ายขึ้น” ซึ่งหมายความว่าผู้ใช้สามารถปรับ ‘การคิด’ ที่ AI ทำได้ตามงานที่ทำ โดยปรับให้เหมาะสมสำหรับความเร็วหรือความแม่นยำ
โมเดล Qwen3 บางรุ่นยังใช้สถาปัตยกรรม Mixture of Experts (MoE) อีกด้วย สถาปัตยกรรมนี้ช่วยเพิ่มประสิทธิภาพในการคำนวณโดยการแบ่งงานที่ซับซ้อนออกเป็นงานย่อย ๆ ที่เล็กลง และมอบหมายงานเหล่านั้นให้กับโมเดล ‘ผู้เชี่ยวชาญ’ เฉพาะทาง ซึ่งช่วยให้มีการกระจายทรัพยากรการคำนวณได้อย่างมีประสิทธิภาพมากขึ้น นำไปสู่ผลลัพธ์ที่เร็วขึ้นและแม่นยำยิ่งขึ้น
ความสามารถหลายภาษาและข้อมูลการฝึกอบรม
โมเดล Qwen3 รองรับภาษาที่น่าประทับใจถึง 119 ภาษา ซึ่งสะท้อนให้เห็นถึงความมุ่งมั่นของ Alibaba ในการเข้าถึงทั่วโลก โมเดลเหล่านี้ได้รับการฝึกฝนบนชุดข้อมูลขนาดใหญ่ที่มีโทเค็นเกือบ 36 ล้านล้านโทเค็น โทเค็นเป็นหน่วยข้อมูลพื้นฐานที่โมเดล AI ประมวลผล โทเค็นประมาณ 1 ล้านโทเค็นเทียบเท่ากับประมาณ 750,000 คำ Alibaba เปิดเผยว่าชุดข้อมูลการฝึกอบรมสำหรับ Qwen3 ประกอบด้วยแหล่งข้อมูลที่หลากหลาย เช่น ตำราเรียน คู่คำถาม-คำตอบ ข้อมูลโค้ด และแม้แต่ข้อมูลที่สร้างโดย AI
การปรับปรุงเหล่านี้ เมื่อรวมกับการปรับปรุงอื่น ๆ ได้เพิ่มขีดความสามารถของ Qwen3 อย่างมีนัยสำคัญเมื่อเทียบกับรุ่นก่อน Qwen2 ตามที่ Alibaba ระบุ แม้ว่าจะไม่มีโมเดล Qwen3 ใดที่ทำได้ดีกว่าโมเดลระดับบนสุด เช่น o3 และ o4-mini ของ OpenAI อย่างชัดเจน แต่ก็ยังคงเป็นคู่แข่งที่แข็งแกร่งในภูมิทัศน์ AI
เกณฑ์มาตรฐานประสิทธิภาพและการเปรียบเทียบ
บน Codeforces ซึ่งเป็นแพลตฟอร์มยอดนิยมสำหรับการแข่งขันการเขียนโปรแกรม โมเดล Qwen3 ที่ใหญ่ที่สุด Qwen-3-235B-A22B ทำได้ดีกว่า o3-mini ของ OpenAI และ Gemini 2.5 Pro ของ Google เล็กน้อย นอกจากนี้ Qwen-3-235B-A22B ยังเหนือกว่า o3-mini ใน AIME เวอร์ชันล่าสุด ซึ่งเป็นเกณฑ์มาตรฐานทางคณิตศาสตร์ที่ท้าทาย รวมถึง BFCL ซึ่งเป็นการทดสอบที่ออกแบบมาเพื่อประเมินความสามารถของโมเดลในการให้เหตุผลผ่านปัญหา
อย่างไรก็ตาม เป็นที่น่าสังเกตว่า Qwen-3-235B-A22B ยังไม่สามารถใช้งานได้แก่สาธารณชน
โมเดล Qwen3 ที่เปิดให้ใช้งานแก่สาธารณชนที่ใหญ่ที่สุด Qwen3-32B ยังคงสามารถแข่งขันกับโมเดล AI ที่เป็นกรรมสิทธิ์และโอเพนซอร์สที่หลากหลาย รวมถึง R1 จากห้องปฏิบัติการ AI ของจีน DeepSeek โดยเฉพาะอย่างยิ่ง Qwen3-32B ทำได้ดีกว่าโมเดล o1 ของ OpenAI ในเกณฑ์มาตรฐานหลายรายการ รวมถึงเกณฑ์มาตรฐานการเขียนโค้ด LiveCodeBench
ความสามารถในการเรียกใช้เครื่องมือและความพร้อมใช้งาน
Alibaba เน้นย้ำว่า Qwen3 ‘เก่ง’ ในความสามารถในการเรียกใช้เครื่องมือ รวมถึงในการทำตามคำแนะนำและการจำลองรูปแบบข้อมูลเฉพาะ ความสามารถรอบด้านนี้ทำให้เป็นทรัพย์สินที่มีค่าในการใช้งานที่หลากหลาย นอกเหนือจากการพร้อมสำหรับการดาวน์โหลดแล้ว Qwen3 ยังสามารถเข้าถึงได้ผ่านผู้ให้บริการคลาวด์ เช่น Fireworks AI และ Hyperbolic
มุมมองของอุตสาหกรรม
Tuhin Srivastava ผู้ร่วมก่อตั้งและซีอีโอของ AI cloud host Baseten มองว่า Qwen3 เป็นอีกหนึ่งตัวบ่งชี้ถึงแนวโน้มของโมเดลโอเพนซอร์สที่ตามทันระบบปิด เช่น ระบบจาก OpenAI
เขาบอกกับ TechCrunch ว่า ‘สหรัฐฯ กำลังเพิ่มการจำกัดการขายชิปให้กับจีนและการซื้อจากจีน แต่โมเดลอย่าง Qwen 3 ที่ทันสมัยและเปิด… จะถูกนำไปใช้ในประเทศอย่างไม่ต้องสงสัย สิ่งนี้สะท้อนให้เห็นถึงความเป็นจริงที่ว่าธุรกิจต่างๆ กำลังสร้างเครื่องมือของตนเอง [เช่นเดียวกับ] การซื้อจากชั้นวางผ่านบริษัทโมเดลปิด เช่น Anthropic และ OpenAI’ สิ่งนี้บ่งชี้ถึงแนวโน้มที่เพิ่มขึ้นของบริษัทต่างๆ ที่ใช้ประโยชน์จากเครื่องมือ AI ที่พัฒนาขึ้นภายในองค์กรและโซลูชันที่มีจำหน่ายในเชิงพาณิชย์ เพื่อตอบสนองความต้องการเฉพาะของตน
เจาะลึกสถาปัตยกรรมและฟังก์ชันการทำงานของ Qwen3
สถาปัตยกรรมของ Qwen3 แสดงถึงความก้าวหน้าครั้งสำคัญในการออกแบบโมเดล AI โดยเฉพาะอย่างยิ่งในแนวทาง ‘ไฮบริด’ ในการให้เหตุผล ด้วยการผสานรวมโหมดที่ไม่คิดอย่างรวดเร็วเข้ากับกระบวนการให้เหตุผลที่รอบคอบมากขึ้น Qwen3 สามารถปรับความเข้มข้นในการคำนวณตามความซับซ้อนของงานได้ ซึ่งช่วยให้สามารถจัดการคำขอได้หลากหลายอย่างมีประสิทธิภาพ ตั้งแต่แบบสอบถามง่ายๆ ไปจนถึงสถานการณ์การแก้ปัญหาที่ซับซ้อน
ความสามารถในการควบคุม ‘งบประมาณการคิด’ ตามที่ทีม Qwen อธิบายไว้ ทำให้ผู้ใช้มีความยืดหยุ่นอย่างที่ไม่เคยมีมาก่อนในการกำหนดค่าโมเดลสำหรับงานเฉพาะ การควบคุมอย่างละเอียดนี้ช่วยให้สามารถปรับให้เหมาะสมสำหรับความเร็วหรือความแม่นยำ ขึ้นอยู่กับข้อกำหนดของแอปพลิเคชัน
นอกจากนี้ การใช้งานสถาปัตยกรรม Mixture of Experts (MoE) ในโมเดล Qwen3 บางรุ่น ช่วยเพิ่มประสิทธิภาพในการคำนวณโดยการกระจายงานไปทั่วโมเดลย่อยเฉพาะทาง แนวทางแบบโมดูลาร์นี้ไม่เพียงแต่เร่งการประมวลผลเท่านั้น แต่ยังช่วยให้มีการจัดสรรทรัพยากรที่ตรงเป้าหมายมากขึ้น ปรับปรุงประสิทธิภาพโดยรวม
ความสำคัญของข้อมูลการฝึกอบรมในการพัฒนา Qwen3
ชุดข้อมูลขนาดใหญ่ที่ใช้ในการฝึกอบรม Qwen3 มีบทบาทสำคัญในการกำหนดขีดความสามารถ ด้วยโทเค็นเกือบ 36 ล้านล้านโทเค็น ชุดข้อมูลครอบคลุมแหล่งข้อมูลที่หลากหลาย รวมถึงตำราเรียน คู่คำถาม-คำตอบ ข้อมูลโค้ด และข้อมูลที่สร้างโดย AI ระบบการฝึกอบรมที่ครอบคลุมนี้ทำให้โมเดลได้รับความรู้และทักษะที่หลากหลาย ทำให้สามารถเก่งในโดเมนต่างๆ ได้
การรวมตำราเรียนไว้ในข้อมูลการฝึกอบรมทำให้ Qwen3 มีพื้นฐานที่มั่นคงของความรู้ข้อเท็จจริงและแนวคิดทางวิชาการ คู่คำถาม-คำตอบช่วยเพิ่มความสามารถของโมเดลในการทำความเข้าใจและตอบสนองต่อแบบสอบถามได้อย่างมีประสิทธิภาพ ข้อมูลโค้ดช่วยให้โมเดลมีทักษะการเขียนโปรแกรม ทำให้สามารถสร้างและทำความเข้าใจโค้ดได้ และการรวมข้อมูลที่สร้างโดย AI ทำให้ได้รับข้อมูลใหม่และสังเคราะห์ ขยายฐานความรู้ออกไปอีก
ขนาดที่แท้จริงของชุดข้อมูลการฝึกอบรม เมื่อรวมกับเนื้อหาที่หลากหลาย มีส่วนช่วยอย่างมากต่อความสามารถของ Qwen3 ในการทำงานได้ดีในงานและภาษาที่หลากหลาย
พินิจพิเคราะห์ประสิทธิภาพของ Qwen3 ในเกณฑ์มาตรฐาน
ประสิทธิภาพของ Qwen3 ในเกณฑ์มาตรฐานต่างๆ ให้ข้อมูลเชิงลึกที่มีค่าเกี่ยวกับจุดแข็งและจุดอ่อน บน Codeforces โมเดล Qwen3 ที่ใหญ่ที่สุด Qwen-3-235B-A22B แสดงให้เห็นถึงประสิทธิภาพที่แข่งขันได้กับโมเดลชั้นนำ เช่น o3-mini ของ OpenAI และ Gemini 2.5 Pro ของ Google ในการแข่งขันการเขียนโปรแกรม สิ่งนี้ชี้ให้เห็นว่า Qwen3 มีทักษะการเขียนโค้ดและความสามารถในการแก้ปัญหาที่แข็งแกร่ง
นอกจากนี้ ประสิทธิภาพของ Qwen-3-235B-A22B ใน AIME ซึ่งเป็นเกณฑ์มาตรฐานทางคณิตศาสตร์ที่ท้าทาย และ BFCL ซึ่งเป็นการทดสอบสำหรับการประเมินความสามารถในการให้เหตุผล เน้นถึงความถนัดสำหรับปัญหาทางคณิตศาสตร์ที่ซับซ้อนและการให้เหตุผลเชิงตรรกะ ผลลัพธ์เหล่านี้บ่งชี้ว่า Qwen3 ไม่เพียงแต่สามารถประมวลผลข้อมูลได้เท่านั้น แต่ยังสามารถนำไปใช้ในการแก้ปัญหาที่ซับซ้อนได้อีกด้วย
อย่างไรก็ตาม เป็นที่น่าสังเกตว่าโมเดล Qwen3 ที่ใหญ่ที่สุดยังไม่เปิดให้ใช้งานแก่สาธารณชน ซึ่งจำกัดการเข้าถึงขีดความสามารถเต็มรูปแบบ
โมเดล Qwen3-32B ที่เปิดให้ใช้งานแก่สาธารณชนยังคงสามารถแข่งขันกับโมเดล AI ที่เป็นกรรมสิทธิ์และโอเพนซอร์สอื่น ๆ แสดงให้เห็นถึงศักยภาพในฐานะทางเลือกที่ใช้งานได้จริงสำหรับโซลูชันที่มีอยู่ ประสิทธิภาพที่เหนือกว่าของโมเดล o1 ของ OpenAI ในเกณฑ์มาตรฐานการเขียนโค้ด LiveCodeBench ย้ำถึงความกล้าหาญในการเขียนโค้ด
ความสามารถในการเรียกใช้เครื่องมือของ Qwen3: ความแตกต่างที่สำคัญ
การเน้นย้ำของ Alibaba ในความสามารถในการเรียกใช้เครื่องมือของ Qwen3 เน้นถึงพื้นที่ที่สำคัญของความแตกต่าง การเรียกใช้เครื่องมือหมายถึงความสามารถของโมเดล AI ในการโต้ตอบกับเครื่องมือภายนอกและ API เพื่อทำงานเฉพาะ เช่น การเข้าถึงข้อมูล การเรียกใช้คำสั่ง หรือการควบคุมอุปกรณ์ ความสามารถนี้ช่วยให้ Qwen3 สามารถขยายฟังก์ชันการทำงานได้ไกลกว่าความรู้ภายในและความสามารถในการประมวลผล
ด้วยการผสานรวมกับเครื่องมือภายนอกอย่างราบรื่น Qwen3 สามารถทำงานเวิร์กโฟลว์ที่ซับซ้อนได้โดยอัตโนมัติ เข้าถึงข้อมูลแบบเรียลไทม์ และโต้ตอบกับโลกทางกายภาพ สิ่งนี้ทำให้เป็นทรัพย์สินที่มีค่าในการใช้งานที่หลากหลาย เช่น การบริการลูกค้า การวิเคราะห์ข้อมูล และหุ่นยนต์
ความเชี่ยวชาญของ Qwen3 ในการทำตามคำแนะนำและการจำลองรูปแบบข้อมูลเฉพาะ ช่วยเพิ่มความสามารถในการใช้งานและความสามารถในการปรับตัว สิ่งนี้ช่วยให้ผู้ใช้สามารถปรับแต่งโมเดลให้ตรงกับความต้องการเฉพาะของตนได้อย่างง่ายดาย และรวมเข้ากับระบบที่มีอยู่
ผลกระทบของ Qwen3 ต่อภูมิทัศน์ AI
การเกิดขึ้นของ Qwen3 มีความหมายสำคัญสำหรับภูมิทัศน์ AI ที่กว้างขึ้น ในฐานะที่เป็นโมเดลโอเพนซอร์ส ทำให้การเข้าถึงเทคโนโลยี AI ขั้นสูงเป็นประชาธิปไตย ช่วยให้ผู้ที่ทำการวิจัย นักพัฒนา และธุรกิจต่างๆ สามารถสร้างสรรค์สิ่งใหม่ ๆ และสร้างแอปพลิเคชันใหม่ ๆ ได้ ประสิทธิภาพที่แข่งขันได้กับโมเดลที่เป็นกรรมสิทธิ์ชั้นนำ ท้าทายการครอบงำของผู้เล่นที่จัดตั้งขึ้น และส่งเสริมตลาดที่มีการแข่งขันมากขึ้น
นอกจากนี้ การพัฒนา Qwen3 สะท้อนให้เห็นถึงความสามารถที่เพิ่มขึ้นของบริษัท AI ของจีนและการมีส่วนร่วมที่เพิ่มขึ้นต่อระบบนิเวศ AI ทั่วโลก แนวโน้มนี้มีแนวโน้มที่จะดำเนินต่อไปในอีกไม่กี่ปีข้างหน้า เนื่องจากจีนลงทุนอย่างหนักในการวิจัยและพัฒนา AI
ความพร้อมใช้งานของ Qwen3 ผ่านผู้ให้บริการคลาวด์ เช่น Fireworks AI และ Hyperbolic ช่วยขยายขอบเขตการเข้าถึงและความสามารถในการเข้าถึง ทำให้ผู้ใช้สามารถปรับใช้และปรับขนาดแอปพลิเคชัน AI ได้ง่ายขึ้น
บริบททางภูมิรัฐศาสตร์ของการพัฒนา Qwen3
การพัฒนา Qwen3 ยังเกิดขึ้นภายในบริบททางภูมิรัฐศาสตร์ที่ซับซ้อน สหรัฐอเมริกาได้กำหนดข้อจำกัดในการขายชิปขั้นสูงให้กับจีน โดยมีเป้าหมายเพื่อจำกัดความสามารถของประเทศในการพัฒนาและฝึกอบรมโมเดล AI ขั้นสูง อย่างไรก็ตาม ดังที่ Tuhin Srivastava ชี้ให้เห็น โมเดลเช่น Qwen3 ซึ่งทันสมัยและโอเพนซอร์ส จะถูกนำไปใช้ในประเทศอย่างไม่ต้องสงสัย
สิ่งนี้เน้นถึงความท้าทายในการควบคุมการแพร่กระจายของเทคโนโลยี AI ในโลกที่เชื่อมต่อกัน แม้ว่าข้อจำกัดอาจชะลอความคืบหน้าในบางพื้นที่ แต่ก็ไม่น่าจะป้องกันการพัฒนาขีดความสามารถ AI ขั้นสูงในจีนได้อย่างสมบูรณ์
การแข่งขันระหว่างสหรัฐอเมริกาและจีนในสาขา AI มีแนวโน้มที่จะทวีความรุนแรงขึ้นในอีกไม่กี่ปีข้างหน้า เนื่องจากทั้งสองประเทศตระหนักถึงความสำคัญเชิงกลยุทธ์ของเทคโนโลยีนี้ การแข่งขันนี้จะขับเคลื่อนนวัตกรรมและการลงทุน แต่ก็จะก่อให้เกิดความกังวลเกี่ยวกับความปลอดภัย ความเป็นส่วนตัว และข้อพิจารณาด้านจริยธรรมด้วย