Tencent ท้าชน DeepSeek-R1 ด้วย AI ใหม่

การใช้ประโยชน์จาก Reinforcement Learning

หัวใจหลักของ Hunyuan T1 ของ Tencent คือการใช้ large-scale reinforcement learning เทคนิคนี้ซึ่งเป็นรากฐานสำคัญของโมเดล R1 ของ DeepSeek ช่วยให้ AI เรียนรู้และปรับปรุงความสามารถในการให้เหตุผลผ่านการโต้ตอบและข้อเสนอแนะซ้ำๆ แนวทางนี้สะท้อนให้เห็นว่ามนุษย์เรียนรู้ผ่านการลองผิดลองถูกอย่างไร ทำให้โมเดลสามารถปรับแต่งความเข้าใจและกระบวนการตัดสินใจเมื่อเวลาผ่านไป

ประสิทธิภาพของ Benchmark: การเปรียบเทียบแบบตัวต่อตัว

ในโลกที่มีการแข่งขันสูงของ AI การทดสอบ benchmark ถือเป็นตัวบ่งชี้ที่สำคัญของความสามารถของโมเดล Hunyuan T1 ได้แสดงให้เห็นถึงความแข็งแกร่งใน benchmark หลักหลายประการ:

  • MMLU Pro: ใน benchmark Massive Multitask Language Understanding (MMLU) Pro ซึ่งประเมินฐานความรู้โดยรวมของโมเดล T1 ทำคะแนนได้น่าประทับใจที่ 87.2 ซึ่งสูงกว่าคะแนนของ DeepSeek-R1 ที่ 84 แม้ว่าจะน้อยกว่า o1 ของ OpenAI เล็กน้อย ซึ่งได้คะแนน 89.3

  • AIME 2024: ใน American Invitational Mathematics Examination (AIME) 2024, T1 ได้แสดงความสามารถทางคณิตศาสตร์ด้วยคะแนน 78.2 ซึ่งอยู่ด้านหลัง R1 เพียงเล็กน้อยที่ 79.8 และนำหน้า o1 เล็กน้อยที่ 79.2 แสดงให้เห็นถึงความสามารถในการแข่งขันในการแก้ปัญหาที่ซับซ้อน

  • C-Eval: เมื่อพูดถึงความสามารถทางภาษาจีน T1 ก็เปล่งประกายอย่างแท้จริง ในการประเมินชุด C-Eval ได้รับคะแนน 91.8 คะแนน ซึ่งตรงกับคะแนนของ R1 และมีประสิทธิภาพเหนือกว่า 87.8 ของ o1 สิ่งนี้เน้นย้ำถึงความแข็งแกร่งของ T1 ในการทำความเข้าใจและประมวลผลความแตกต่างของภาษาจีน

ราคา: ความได้เปรียบในการแข่งขัน

นอกเหนือจากประสิทธิภาพแล้ว การกำหนดราคายังมีบทบาทสำคัญในการนำไปใช้และการเข้าถึงโมเดล AI T1 ของ Tencent นำเสนอโครงสร้างราคาที่แข่งขันได้ซึ่งสอดคล้องกับข้อเสนอของ DeepSeek:

  • Input: T1 คิดค่าบริการ 1 หยวน (ประมาณ 0.14 ดอลลาร์สหรัฐ) ต่อ 1 ล้านโทเค็นของอินพุต อัตรานี้เหมือนกับอัตราเวลากลางวันของ R1 และต่ำกว่าอัตราเอาต์พุตเวลากลางวันอย่างมาก

  • Output: สำหรับเอาต์พุต T1 มีค่าใช้จ่าย 4 หยวนต่อล้านโทเค็น แม้ว่าอัตราเอาต์พุตเวลากลางวันของ R1 จะสูงกว่า (16 หยวนต่อล้านโทเค็น) แต่อัตราราคาข้ามคืนก็ตรงกับราคาของ T1

กลยุทธ์การกำหนดราคาที่แข่งขันได้นี้ทำให้ T1 เป็นตัวเลือกที่น่าสนใจสำหรับธุรกิจและนักพัฒนาที่กำลังมองหาโซลูชัน AI ที่คุ้มค่า

สถาปัตยกรรมแบบไฮบริด: แนวทางใหม่

Tencent ได้ใช้แนวทางที่เป็นนวัตกรรมใหม่ด้วยสถาปัตยกรรมของ T1 ซึ่งเป็นบริษัทแรกในอุตสาหกรรมที่นำโมเดลไฮบริดมาใช้โดยผสมผสาน Transformer ของ Google และ Mamba การผสมผสานที่เป็นเอกลักษณ์นี้นำเสนอข้อดีหลายประการ:

  • ลดต้นทุน: เมื่อเทียบกับสถาปัตยกรรม Transformer แบบ pure, Tencent อ้างว่าแนวทางแบบไฮบริด “ช่วยลดต้นทุนการฝึกอบรมและการอนุมานได้อย่างมาก” สิ่งนี้ทำได้โดยการเพิ่มประสิทธิภาพการใช้หน่วยความจำ ซึ่งเป็นปัจจัยสำคัญในการปรับใช้โมเดล AI ขนาดใหญ่

  • ปรับปรุงการจัดการข้อความยาว: T1 ได้รับการขนานนามว่ามีความสามารถในการ “ลดการใช้ทรัพยากรได้อย่างมากในขณะที่ยังคงความสามารถในการจับข้อมูลข้อความยาว” ซึ่งแปลว่าความเร็วในการถอดรหัสเพิ่มขึ้น 200% ทำให้เหมาะอย่างยิ่งสำหรับการประมวลผลเอกสารขนาดยาวและชุดข้อมูลที่ซับซ้อน

การทดสอบในโลกแห่งความเป็นจริง: จุดแข็งและจุดอ่อน

การทดสอบอิสระที่ดำเนินการโดยบล็อกเทคโนโลยีให้ข้อมูลเชิงลึกเพิ่มเติมเกี่ยวกับความสามารถและข้อจำกัดของ T1:

  • NCJRYDS: ในการเปรียบเทียบแบบตัวต่อตัวกับ R1 โดย NCJRYDS, T1 ได้แสดงให้เห็นทั้งจุดแข็งและจุดอ่อน แม้ว่าจะขาดความสามารถในการแต่งบทกวีจีนโบราณแต่ก็มีความโดดเด่นในการตีความคำภาษาจีนในบริบทต่างๆ สิ่งนี้เน้นย้ำถึงความเข้าใจที่แตกต่างกันของโมเดลเกี่ยวกับภาษา แม้ว่าทักษะการเขียนเชิงสร้างสรรค์จะต้องได้รับการปรับปรุงเพิ่มเติม

  • GoPlayAI: บล็อกอื่น GoPlayAI นำเสนอปัญหาทางคณิตศาสตร์สี่ข้อแก่ T1 โมเดลแก้ปัญหาได้สำเร็จสามข้อ แต่ประสบปัญหาในการแก้ปัญหาที่ท้าทายที่สุด ซึ่งในที่สุดก็ไม่สามารถให้คำตอบที่ถูกต้องได้หลังจากประมวลผลห้านาที สิ่งนี้ชี้ให้เห็นว่าในขณะที่ T1 มีความสามารถทางคณิตศาสตร์ที่แข็งแกร่ง แต่อาจพบข้อจำกัดเมื่อเผชิญกับปัญหาที่ซับซ้อนเป็นพิเศษ

AI เป็นแหล่งรายได้หลัก

Tencent กำลังวางตำแหน่ง AI เชิงกลยุทธ์ให้เป็นเสาหลักของการเติบโตในอนาคต การรวม DeepSeek-R1 เข้ากับแพลตฟอร์มคลาวด์และแชทบอท Yuanbao ควบคู่ไปกับโมเดล Hunyuan ของตัวเอง แสดงให้เห็นถึงความมุ่งมั่นของบริษัทในการให้บริการโซลูชั่น AI ที่หลากหลาย

กลยุทธ์ “Double-Core”

Pony Ma Huateng ประธานและซีอีโอของ Tencent ได้แสดงความชื่นชมต่อความมุ่งมั่นของ DeepSeek ในการสร้าง “ผลิตภัณฑ์โอเพนซอร์สที่เป็นอิสระอย่างแท้จริงและฟรี” ความรู้สึกนี้สะท้อนให้เห็นถึงกลยุทธ์ “double-core” ของ Tencent ในโดเมน AI โดยใช้ประโยชน์จากทั้งโมเดลของ DeepSeek และโมเดล Yuanbao ที่เป็นกรรมสิทธิ์ แนวทางนี้สะท้อนให้เห็นถึงกลยุทธ์ที่ประสบความสำเร็จของ Tencent ในอุตสาหกรรมวิดีโอเกม ซึ่งส่งเสริมทั้งเกมที่พัฒนาภายในและเกมจากสตูดิโออิสระ ส่งเสริมระบบนิเวศที่มีพลวัตและมีการแข่งขัน

เจาะลึก Reinforcement Learning

การใช้ large-scale reinforcement learning ในทั้ง Hunyuan T1 และ DeepSeek-R1 สมควรได้รับการสำรวจเพิ่มเติม เทคนิคนี้เหมาะอย่างยิ่งสำหรับงานที่เกี่ยวข้องกับการตัดสินใจตามลำดับ ซึ่งตัวแทน AI เรียนรู้ที่จะปรับการกระทำให้เหมาะสมตามข้อเสนอแนะที่ได้รับจากสภาพแวดล้อม

ในบริบทของการให้เหตุผล AI, reinforcement learning สามารถนำไปใช้กับงานต่างๆ เช่น:

  • การเล่นเกม: ฝึกอบรมตัวแทน AI ให้เก่งในเกมที่ซับซ้อน เช่น หมากล้อมหรือหมากรุก ซึ่งการวางแผนเชิงกลยุทธ์และการตัดสินใจระยะยาวมีความสำคัญ

  • หุ่นยนต์: ทำให้หุ่นยนต์สามารถนำทางในสภาพแวดล้อมที่ซับซ้อน โต้ตอบกับวัตถุ และทำงานที่ต้องปรับตัวให้เข้ากับสภาวะที่เปลี่ยนแปลง

  • การประมวลผลภาษาธรรมชาติ: ปรับปรุงความสามารถของโมเดล AI ในการทำความเข้าใจและสร้างภาษาของมนุษย์ รวมถึงงานต่างๆ เช่น การจัดการบทสนทนาและการสรุปข้อความ

ด้วยการใช้ประโยชน์จาก reinforcement learning, T1 และ R1 ได้รับการติดตั้งเพื่อรับมือกับความท้าทายในการให้เหตุผลที่ซับซ้อนซึ่งต้องการมากกว่าแค่การจดจำรูปแบบ พวกเขาสามารถเรียนรู้และปรับกลยุทธ์อย่างแข็งขันเพื่อให้ได้ผลลัพธ์ที่ดีที่สุด

ความสำคัญของสถาปัตยกรรมแบบไฮบริด

การใช้สถาปัตยกรรมแบบไฮบริดของ Tencent เป็นผู้บุกเบิกโดยผสมผสาน Transformer ของ Google และ Mamba แสดงถึงความก้าวหน้าครั้งสำคัญในการออกแบบโมเดล AI

  • Transformer: สถาปัตยกรรม Transformer ซึ่งเป็นที่รู้จักในด้านกลไก attention ได้ปฏิวัติการประมวลผลภาษาธรรมชาติ ช่วยให้โมเดลสามารถมุ่งเน้นไปที่ส่วนต่างๆ ของลำดับอินพุตเมื่อประมวลผลข้อมูล ซึ่งนำไปสู่การปรับปรุงความเข้าใจในบริบทและความสัมพันธ์ระหว่างคำ

  • Mamba: ในทางกลับกัน Mamba เป็นสถาปัตยกรรมที่ใหม่กว่าซึ่งแก้ไขข้อจำกัดบางประการของ Transformers โดยเฉพาะอย่างยิ่งในการจัดการลำดับที่ยาว มีประสิทธิภาพที่ดีขึ้นในแง่ของการใช้หน่วยความจำและต้นทุนการคำนวณ ทำให้เหมาะสำหรับการประมวลผลข้อมูลจำนวนมาก

ด้วยการรวมสถาปัตยกรรมทั้งสองนี้ T1 มีเป้าหมายที่จะใช้ประโยชน์จากจุดแข็งของทั้งสอง: ความเข้าใจตามบริบทของ Transformers และประสิทธิภาพของ Mamba แนวทางแบบไฮบริดนี้มีศักยภาพในการปลดล็อกความเป็นไปได้ใหม่ๆ ในการให้เหตุผล AI โดยเฉพาะอย่างยิ่งสำหรับงานที่เกี่ยวข้องกับการประมวลผลข้อความที่ยาวและซับซ้อน

ผลกระทบในวงกว้างของการผลักดัน AI ของ Tencent

การผลักดัน AI อย่างจริงจังของ Tencent มีผลกระทบในวงกว้างต่อภูมิทัศน์เทคโนโลยีระดับโลก:

  • การแข่งขันที่เพิ่มขึ้น: การเกิดขึ้นของ T1 ในฐานะคู่แข่งที่แข็งแกร่งของ DeepSeek-R1 ทำให้การแข่งขันในพื้นที่การให้เหตุผล AI รุนแรงขึ้น การแข่งขันครั้งนี้มีแนวโน้มที่จะขับเคลื่อนนวัตกรรมเพิ่มเติมและเร่งการพัฒนาโมเดล AI ที่ทรงพลังและมีประสิทธิภาพมากขึ้น

  • การทำให้ AI เป็นประชาธิปไตย: กลยุทธ์การกำหนดราคาที่แข่งขันได้ของ Tencent สำหรับ T1 มีส่วนช่วยในการทำให้ AI เป็นประชาธิปไตย ทำให้ความสามารถ AI ขั้นสูงสามารถเข้าถึงได้มากขึ้นสำหรับธุรกิจและนักพัฒนาในวงกว้างขึ้น สิ่งนี้อาจนำไปสู่การเพิ่มขึ้นของแอปพลิเคชันและบริการที่ขับเคลื่อนด้วย AI ในอุตสาหกรรมต่างๆ

  • ความทะเยอทะยานด้าน AI ของจีน: ความก้าวหน้าของ Tencent ในด้าน AI ตอกย้ำความทะเยอทะยานที่เพิ่มขึ้นของจีนในสาขานี้ ประเทศกำลังลงทุนอย่างมากในการวิจัยและพัฒนา AI โดยมีเป้าหมายที่จะเป็นผู้นำระดับโลกในด้านเทคโนโลยี AI

  • ข้อควรพิจารณาด้านจริยธรรม: เมื่อโมเดล AI มีประสิทธิภาพมากขึ้น ข้อควรพิจารณาด้านจริยธรรมเกี่ยวกับการพัฒนาและการปรับใช้จึงมีความสำคัญมากขึ้น ปัญหาต่างๆ เช่น อคติ ความยุติธรรม ความโปร่งใส และความรับผิดชอบจำเป็นต้องได้รับการแก้ไขเพื่อให้แน่ใจว่า AI ถูกใช้อย่างมีความรับผิดชอบและเพื่อประโยชน์ของสังคม

การเปิดตัว Hunyuan T1 ถือเป็นก้าวสำคัญในการเดินทาง AI ของ Tencent ประสิทธิภาพที่แข็งแกร่งของโมเดล ราคาที่แข่งขันได้ และสถาปัตยกรรมที่เป็นนวัตกรรมใหม่ ทำให้เป็นคู่แข่งที่น่าเกรงขามในสาขาการให้เหตุผล AI ที่มีการพัฒนาอย่างรวดเร็ว ในขณะที่ Tencent ยังคงลงทุนในการวิจัยและพัฒนา AI ก็พร้อมที่จะมีบทบาทสำคัญในการกำหนดอนาคตของเทคโนโลยีที่เปลี่ยนแปลงนี้