Tencent เปิดตัว Hunyuan T1 โมเดล AI เชิงเหตุผล ชนะหลาย Benchmark

คู่แข่งใหม่ในสังเวียน AI

Hunyuan T1 ไม่ได้เป็นเพียงแค่การเปิดตัวผลิตภัณฑ์เท่านั้น แต่เป็นการเคลื่อนไหวเชิงกลยุทธ์ที่รอบคอบ ضمنกลยุทธ์ที่กว้างขึ้นของ Tencent เพื่อเสริมความแข็งแกร่งในฐานะผู้นำด้าน AI โมเดลนี้ได้รับการพัฒนาขึ้นภายในบริษัททั้งหมดและปรับใช้อย่างราบรื่นบน Tencent Cloud ซึ่งแสดงถึงรากฐานสำคัญของวิสัยทัศน์ของบริษัทในการนำเสนอเครื่องมือ AI ที่แข็งแกร่งและใช้งานได้จริงในเชิงพาณิชย์ เครื่องมือเหล่านี้ได้รับการออกแบบมาโดยเฉพาะเพื่อตอบสนองความต้องการของธุรกิจที่ต้องการความสามารถในการให้เหตุผลที่มีประสิทธิภาพสูง โดยไม่ต้องแบกรับภาระการคำนวณที่สูงเกินไปหรือค่าลิขสิทธิ์ที่มักเกี่ยวข้องกับทางเลือกจากตะวันตก

Hunyuan T1 สามารถเข้าถึงได้ง่ายผ่าน API ซึ่งเป็นช่องทางที่คล่องตัวสำหรับนักพัฒนาในการผสานรวมความสามารถในการให้เหตุผลอันทรงพลังเข้ากับแอปพลิเคชันของตน นอกจากนี้ยังมีการเข้าถึงในตัวใน Tencent Docs ซึ่งช่วยเพิ่มประสิทธิภาพการทำงานและการทำงานร่วมกันภายในระบบนิเวศของ Tencent สำหรับผู้ที่กระตือรือร้นที่จะสัมผัสความสามารถของมันโดยตรง มีการสาธิตบน Hugging Face ซึ่งให้เหลือบมองเห็นศักยภาพของแบบจำลอง

การพัฒนาแบบจำลองได้รับคำแนะนำโดยหลักการของการเรียนรู้แบบเสริมกำลัง ซึ่งเป็นเทคนิคที่ช่วยให้เรียนรู้จากการโต้ตอบและปรับปรุงประสิทธิภาพเมื่อเวลาผ่านไป การเปรียบเทียบภายในที่เข้มงวดกับชุดข้อมูลการให้เหตุผลที่มีชื่อเสียง เช่น MMLU และ GPQA ได้ตรวจสอบจุดแข็งและรับประกันความพร้อมสำหรับการใช้งานจริง

Turbo S ปูทาง, T1 ลับคม

แม้ว่า Hunyuan T1 จะได้รับความสนใจในขณะนี้ แต่สิ่งสำคัญคือต้องรับทราบถึงรากฐานที่วางไว้โดยรุ่นก่อนอย่าง Hunyuan Turbo S ซึ่งเปิดตัวเมื่อวันที่ 27 กุมภาพันธ์ Turbo S เป็นเวทีสำหรับการบุกเบิกของ Tencent ในรูปแบบ AI ขั้นสูง แต่ T1 ยกระดับแนวคิดไปสู่ระดับใหม่ของความซับซ้อน

Hunyuan T1 แสดงถึงจุดสุดยอดของโมเดลที่ปรับให้เหมาะสมสำหรับการให้เหตุผลของ Tencent จนถึงปัจจุบัน ได้รับการออกแบบมาอย่างพิถีพิถันเพื่อตอบสนองความต้องการเฉพาะของผู้ใช้ระดับองค์กรที่ไม่เพียงต้องการตรรกะที่มีโครงสร้างเท่านั้น แต่ยังต้องการการสร้างแบบยาวที่สอดคล้องกันและการลดลงอย่างมีนัยสำคัญของการเกิดภาพหลอนที่เป็นข้อเท็จจริง ซึ่งเป็นความท้าทายทั่วไปในแบบจำลองภาษาขนาดใหญ่

คุณสมบัติหลักของ Hunyuan T1:

  • มุ่งเน้นที่การให้เหตุผลอย่างแน่วแน่: T1 สร้างขึ้นโดยมีวัตถุประสงค์เพื่อจัดการกับงานการให้เหตุผลที่ซับซ้อนซึ่งต้องการความแม่นยำและความลึกในการวิเคราะห์ในระดับสูง ซึ่งรวมถึงการแก้ปัญหาที่มีโครงสร้าง การวิเคราะห์ทางคณิตศาสตร์ที่ซับซ้อน และการสนับสนุนการตัดสินใจที่แข็งแกร่ง การประยุกต์ใช้เทคนิคการเรียนรู้แบบเสริมกำลังมีส่วนสำคัญในการบรรลุความสอดคล้องในรูปแบบยาวเป็นพิเศษ และลดการสร้างข้อมูลที่ไม่ถูกต้องหรือทำให้เข้าใจผิด

  • ความเชี่ยวชาญในภาษาจีน: ด้วยตระหนักถึงความสำคัญของตลาดในประเทศ Tencent ได้รับประกันว่า T1 จะเก่งในงานตรรกะและความเข้าใจในการอ่านภาษาจีน การจัดตำแหน่งเชิงกลยุทธ์นี้กับความต้องการขององค์กรจีนทำให้ตำแหน่งของตนเป็นสินทรัพย์ที่มีค่าสำหรับธุรกิจที่ดำเนินงานภายในภูมิภาค

  • การฝึกอบรมและโครงสร้างพื้นฐานภายใน: เส้นทางการพัฒนาของ T1 ได้รับการบรรจุไว้อย่างสมบูรณ์ภายในระบบนิเวศของ Tencent ได้รับการฝึกฝนตั้งแต่เริ่มต้นโดยใช้โครงสร้างพื้นฐาน Tencent Cloud รับประกันการคงอยู่ของข้อมูลและการปฏิบัติตามกฎระเบียบของจีนอย่างเคร่งครัด ความมุ่งมั่นในการควบคุมและการปฏิบัติตามข้อกำหนดนี้ช่วยเพิ่มความมั่นใจให้กับธุรกิจที่เกี่ยวข้องกับความปลอดภัยและความเป็นส่วนตัวของข้อมูล

การเปรียบเทียบความเป็นเลิศ: การวิเคราะห์เปรียบเทียบ

Hunyuan T1 ของ Tencent ได้กลายเป็นคู่แข่งที่น่าเกรงขามในขอบเขตของแบบจำลองการให้เหตุผลที่มีประสิทธิภาพสูง ซึ่งได้รับการปรับให้เหมาะสมเป็นพิเศษสำหรับงานระดับองค์กร โดยเน้นเป็นพิเศษในด้านภาษาจีนและคณิตศาสตร์ การพึ่งพา Tencent Cloud อย่างสมบูรณ์ของแบบจำลองสำหรับการฝึกอบรมและการโฮสต์ ตอกย้ำความมุ่งมั่นของบริษัทต่อระบบนิเวศ AI ที่มีอยู่ในตัวเองและปลอดภัย การเข้าถึงผ่าน API และการผสานรวมเข้ากับ Tencent Docs ได้อย่างราบรื่นช่วยเพิ่มความสามารถในการใช้งานจริงและความเป็นมิตรต่อผู้ใช้

จุดเน้นเชิงกลยุทธ์ของแบบจำลองนั้นชัดเจน: เพื่อให้บรรลุความเป็นเลิศที่เหนือชั้นในด้านความสามารถในการให้เหตุผลและคณิตศาสตร์ ในขณะที่ยังคงรักษาระดับประสิทธิภาพที่น่ายกย่องในการจัดตำแหน่ง การจัดการภาษา และการสร้างโค้ด สิ่งนี้เห็นได้ชัดในโปรไฟล์เกณฑ์มาตรฐาน ซึ่งให้การเปรียบเทียบโดยละเอียดกับรุ่นชั้นนำอื่นๆ

ไฮไลท์ประสิทธิภาพ:

  • ความสามารถด้านความรู้:

    • ในเกณฑ์มาตรฐาน MMLU PRO, Hunyuan T1 ทำคะแนนได้น่าประทับใจที่ 87.2 ซึ่งสูงกว่า DeepSeek R1 (84.0) และ GPT-4.5 (86.1) แม้ว่าจะตามหลัง o1 เล็กน้อย (89.3)
    • ในการประเมิน GPQA Diamond, T1 ทำคะแนนได้ 69.3 ซึ่งต่ำกว่า DeepSeek R1 (71.5) และ o1 (75.7)
    • สำหรับ C–SimpleQA, T1 ทำคะแนนได้ 67.9 ซึ่งตามหลัง DeepSeek R1 (73.4)
  • อำนาจสูงสุดในการให้เหตุผล:

    • T1 โดดเด่นอย่างแท้จริงในหมวดหมู่การให้เหตุผล โดยทำคะแนนสูงสุดใน DROP F1 ที่ 93.1 ที่น่าประทับใจ ซึ่งเหนือกว่าประสิทธิภาพของ DeepSeek R1 (92.2), GPT-4.5 (84.7) และ o1 (90.2)
    • ในเกณฑ์มาตรฐาน Zebra Logic ทำคะแนนได้น่ายกย่องที่ 79.6 ตามหลัง o1 (87.9) อย่างใกล้ชิด แต่มีประสิทธิภาพเหนือกว่า GPT-4.5 อย่างมาก (53.7)
  • ความเฉียบแหลมทางคณิตศาสตร์:

    • Hunyuan T1 แสดงให้เห็นถึงความสามารถทางคณิตศาสตร์ที่ยอดเยี่ยม โดยทำคะแนนได้ 96.2 ใน MATH–500 ซึ่งต่ำกว่า 97.3 ของ DeepSeek R1 เพียงเล็กน้อย และใกล้เคียงกับ 96.4 ของ o1
    • คะแนน AIME 2024 อยู่ที่ 78.2 ซึ่งต่ำกว่า DeepSeek R1 (79.8) และ o1 (79.2) เล็กน้อย แต่สูงกว่า GPT-4.5 อย่างมาก (50.0)
  • ความสามารถในการสร้างโค้ด:

    • แบบจำลองทำคะแนนได้ 64.9 ใน LiveCodeBench ซึ่งต่ำกว่า DeepSeek R1 (65.9) และ o1 (63.4) เล็กน้อย แต่สูงกว่า GPT-4.5 อย่างมาก (46.4) สิ่งนี้บ่งชี้ถึงความสามารถในการสร้างโค้ดที่น่านับถือ แม้ว่าจะไม่โดดเด่น
  • ความเชี่ยวชาญด้านความเข้าใจภาษาจีน:

    • Hunyuan T1 แสดงให้เห็นถึงความแข็งแกร่งในบริบทขององค์กรจีน โดยทำคะแนนได้น่าประทับใจที่ 91.8 ใน C-Eval และ 90.0 ใน CMMLU ประสิทธิภาพนี้เทียบเท่ากับ DeepSeek R1 ในทั้งสองเกณฑ์มาตรฐาน และเหนือกว่า GPT-4.5 เกือบ 10 คะแนน
  • การจัดตำแหน่งและความสอดคล้อง:

    • ใน ArenaHard, T1 ทำคะแนนได้ 91.9 ซึ่งตามหลัง GPT-4.5 (92.5) และ DeepSeek R1 (92.3) เล็กน้อย แต่สูงกว่า o1 (90.7) สิ่งนี้แสดงให้เห็นถึงการจัดตำแหน่งคุณค่าที่แข็งแกร่งและความสอดคล้องของคำแนะนำ ซึ่งบ่งชี้ว่าแบบจำลองนั้นสอดคล้องกับค่านิยมของมนุษย์เป็นอย่างดี และสามารถปฏิบัติตามคำแนะนำได้อย่างมีประสิทธิภาพ
  • ความสามารถในการปฏิบัติตามคำแนะนำ:

    • แบบจำลองทำคะแนนได้ 81.0 ใน CFBench ซึ่งต่ำกว่า DeepSeek R1 (81.9) และ GPT-4.5 (81.2) เล็กน้อย
    • ใน CELLO ทำคะแนนได้ 76.4 ซึ่งตามหลังทั้ง DeepSeek R1 (77.1) และ GPT-4.5 (81.4) ผลลัพธ์เหล่านี้ชี้ให้เห็นว่าในขณะที่แบบจำลองมีความเชี่ยวชาญในการปฏิบัติตามคำแนะนำ แต่ก็ไม่ได้ดีที่สุดในระดับเดียวกัน
  • ความสามารถในการใช้เครื่องมือ:

    • Hunyuan T1 ทำคะแนนได้ 68.8 ใน T-Eval ซึ่งเป็นเกณฑ์มาตรฐานที่ประเมินความสามารถของ AI ในการใช้เครื่องมือภายนอก มีประสิทธิภาพเหนือกว่า DeepSeek R1 (55.7) แต่ต่ำกว่า GPT-4.5 (81.9) และ o1 (75.7)

ประสิทธิภาพเป็นหลักการชี้นำ

ในขณะที่ Tencent ยังคงขยายพอร์ตโฟลิโอของแบบจำลอง AI ที่เป็นกรรมสิทธิ์ แต่ก็ตระหนักถึงความสำคัญของความร่วมมือเชิงกลยุทธ์และการใช้ประโยชน์จากแบบจำลองของบุคคลที่สาม เช่น DeepSeek เพื่อตอบสนองความต้องการด้านประสิทธิภาพที่ต้องการ ในขณะเดียวกันก็เพิ่มประสิทธิภาพต้นทุนโครงสร้างพื้นฐาน ในระหว่างการเรียกรายได้ Q4 2024 ผู้บริหารของ Tencent ได้ให้ความกระจ่างเกี่ยวกับแนวทางของพวกเขา โดยเน้นว่าประสิทธิภาพการอนุมาน แทนที่จะเป็นขนาดการคำนวณที่แท้จริง เป็นแรงผลักดันเบื้องหลังการตัดสินใจปรับใช้ของพวกเขา

Tencent เพิ่งยืนยันการใช้ประโยชน์จากแบบจำลองที่ปรับให้เหมาะสมกับสถาปัตยกรรมของ DeepSeek ซึ่งเป็นการเคลื่อนไหวเชิงกลยุทธ์ที่ออกแบบมาเพื่อลดการใช้ GPU และเพิ่มปริมาณงาน ดังที่ประธานเจ้าหน้าที่ฝ่ายกลยุทธ์ของบริษัทกล่าวไว้อย่างเหมาะสมว่า “บริษัทจีนโดยทั่วไปให้ความสำคัญกับประสิทธิภาพและการใช้ประโยชน์—การใช้ประโยชน์อย่างมีประสิทธิภาพของเซิร์ฟเวอร์ GPU และนั่นไม่จำเป็นต้องทำให้ประสิทธิภาพสูงสุดของเทคโนโลยีที่กำลังพัฒนาลดลง”

แนวทางนี้ช่วยให้ Tencent สามารถปรับแต่งแบบจำลองให้เข้ากับข้อจำกัดด้านโครงสร้างพื้นฐานเฉพาะ โดยมุ่งเน้นไปที่แบบจำลองที่ปรับให้เหมาะสมกับการอนุมานที่มีเวลาแฝงต่ำ ซึ่งใช้ทรัพยากรน้อยกว่าในการดำเนินการ กลยุทธ์นี้สอดคล้องกับวิธีการที่ได้รับการสนับสนุนจากการวิจัย เช่น “Sample, Scrutinize, and Scale” ซึ่งจัดลำดับความสำคัญของการตรวจสอบในระหว่างการอนุมาน แทนที่จะพึ่งพากระบวนการฝึกอบรมที่ใช้ทรัพยากรมากเพียงอย่างเดียว

อย่างไรก็ตาม การเน้นที่ประสิทธิภาพนี้ไม่ได้หมายความถึงการถอยห่างจากการลงทุนด้านฮาร์ดแวร์ ในความเป็นจริง รายงานของ TrendForce เปิดเผยว่า Tencent ได้สั่งซื้อชิป H20 ของ NVIDIA จำนวนมาก ซึ่งเป็น GPU เฉพาะที่ออกแบบมาสำหรับตลาดจีนโดยเฉพาะ ชิปเหล่านี้มีบทบาทสำคัญในการสนับสนุนการผสานรวมแบบจำลอง DeepSeek ของ Tencent เข้ากับบริการแบ็กเอนด์ รวมถึงบริการที่ขับเคลื่อนแพลตฟอร์ม WeChat ที่แพร่หลาย

การนำทางภูมิทัศน์ที่เปลี่ยนแปลงไป

การเปิดตัว Hunyuan T1 เกิดขึ้นพร้อมกับช่วงเวลาของการตรวจสอบเครื่องมือ AI ของจีนในตลาดต่างประเทศอย่างเข้มงวด ในเดือนมีนาคม 2025 กระทรวงพาณิชย์ของสหรัฐฯ ได้กำหนดข้อจำกัดในการใช้แอปพลิเคชันของ DeepSeek บนอุปกรณ์ของรัฐบาลกลาง โดยอ้างถึงความกังวลเกี่ยวกับความเสี่ยงด้านความเป็นส่วนตัวและการเชื่อมต่อที่อาจเกิดขึ้นกับโครงสร้างพื้นฐานที่ควบคุมโดยรัฐ ความเป็นไปได้ของข้อจำกัดเพิ่มเติมที่อาจเกิดขึ้น ซึ่งอาจทำให้การนำแบบจำลอง AI ที่พัฒนาในประเทศจีนไปใช้ข้ามพรมแดนมีความซับซ้อน

ในประเทศ รัฐบาลจีนกำลังส่งเสริมการเติบโตของสตาร์ทอัพ AI รุ่นใหม่อย่างแข็งขัน รายงานของ Reuters เน้นย้ำถึงการสนับสนุนของปักกิ่งสำหรับ Monica ผู้พัฒนา Manus ซึ่งเป็นตัวแทน AI อิสระ แม้ว่า Tencent จะไม่ได้มีส่วนร่วมโดยตรงในความคิดริเริ่มเฉพาะเหล่านี้ แต่ตำแหน่งที่โดดเด่นในตลาดคลาวด์และซอฟต์แวร์ในประเทศทำให้มั่นใจได้ว่ายังคงเป็นศูนย์กลางของระบบนิเวศ AI ที่กว้างขึ้น

ตำแหน่งเชิงกลยุทธ์ของ Tencent ดูเหมือนจะให้ผลลัพธ์ที่เป็นบวก ในไตรมาสที่ 4 ปี 2024 บริษัทรายงานรายได้เพิ่มขึ้น 11% เมื่อเทียบเป็นรายปี ซึ่งสูงถึง 172.45 พันล้านหยวน ส่วนสำคัญของการเติบโตนี้มาจาก