Ant Group ใช้ชิปในประเทศฝึก AI ท่ามกลางข้อจำกัด

เดิมพันสูงในการแข่งขันฮาร์ดแวร์ AI ระดับโลก

ภูมิทัศน์ของการพัฒนาปัญญาประดิษฐ์ (AI) ไม่ได้ถูกกำหนดโดยความก้าวหน้าทางอัลกอริทึมเพียงอย่างเดียว แต่ยังรวมถึงการเข้าถึงฮาร์ดแวร์ที่ซับซ้อนซึ่งจำเป็นสำหรับการฝึกฝนและใช้งานโมเดลขนาดใหญ่อีกด้วย หัวใจสำคัญของสมการฮาร์ดแวร์นี้คือหน่วยประมวลผลกราฟิก (GPU) ซึ่งเป็นส่วนประกอบที่ออกแบบมาเพื่อการเรนเดอร์ภาพในตอนแรก แต่ปัจจุบันกลายเป็นสิ่งที่ขาดไม่ได้สำหรับความต้องการในการประมวลผลแบบขนานของ AI เป็นเวลาหลายปีที่ Nvidia Corporation ยืนหยัดในฐานะยักษ์ใหญ่ที่ไม่มีใครโต้แย้งได้ในเวทีนี้ GPU ขั้นสูงของบริษัทกลายเป็นมาตรฐานทองคำ ขับเคลื่อนนวัตกรรมทั่ว Silicon Valley และที่อื่น ๆ อย่างไรก็ตาม การครอบงำนี้ทำให้บริษัทและลูกค้าตกอยู่ภายใต้เป้าเล็งของความตึงเครียดทางภูมิรัฐศาสตร์โดยตรง

การบังคับใช้มาตรการควบคุมการส่งออกที่เข้มงวดของวอชิงตันซึ่งมีเป้าหมายเพื่อจำกัดการเข้าถึงเทคโนโลยีเซมิคอนดักเตอร์ที่ล้ำสมัยของจีน ได้ปรับเปลี่ยนโฉมหน้าของตลาดไปโดยพื้นฐาน ข้อจำกัดเหล่านี้มุ่งเป้าไปที่ GPU ประสิทธิภาพสูงโดยเฉพาะ เช่น GPU ที่ผลิตโดย Nvidia ซึ่งถือว่ามีความสำคัญอย่างยิ่งต่อการใช้งาน AI ขั้นสูง รวมถึงการใช้งานที่อาจเกี่ยวข้องกับการทหาร ผลกระทบทันทีคือการแย่งชิงภายในภาคเทคโนโลยีที่กำลังเติบโตของจีน บริษัทที่ลงทุนอย่างหนักใน AI ตั้งแต่ยักษ์ใหญ่ที่มั่นคงไปจนถึงสตาร์ทอัพที่มีความทะเยอทะยาน ต้องเผชิญกับโอกาสที่จะถูกตัดขาดจากเครื่องมือที่จำเป็นซึ่งขับเคลื่อนความก้าวหน้าทางเทคโนโลยีระลอกต่อไป สิ่งนี้สร้างความจำเป็นเร่งด่วน: ค้นหาทางเลือกที่เป็นไปได้ มิฉะนั้นจะเสี่ยงต่อการล้าหลังในสนามแข่งขันระดับโลก ความท้าทายไม่ได้เป็นเพียงแค่การเปลี่ยนชิปตัวหนึ่งด้วยชิปอีกตัวหนึ่งเท่านั้น แต่ยังเกี่ยวข้องกับการนำทางผ่านเครือข่ายที่ซับซ้อนของความแตกต่างด้านประสิทธิภาพ ปัญหาความเข้ากันได้ของซอฟต์แวร์ และขนาดที่แท้จริงที่จำเป็นสำหรับการฝึกโมเดลที่มีพารามิเตอร์หลายแสนล้านหรือแม้กระทั่งหลายล้านล้านพารามิเตอร์

Ant Group กำหนดเส้นทางสู่ความเป็นอิสระด้านการประมวลผล

ท่ามกลางฉากหลังของความไม่แน่นอนของห่วงโซ่อุปทานและการแข่งขันทางเทคโนโลยีที่ทวีความรุนแรงขึ้น Ant Group ซึ่งเป็นบริษัทฟินเทคยักษ์ใหญ่ในเครือ Alibaba Group Holding ได้ส่งสัญญาณถึงความก้าวหน้าที่สำคัญสู่การพึ่งพาตนเองด้านการคำนวณที่มากขึ้น การเปิดเผยล่าสุด ซึ่งมีรายละเอียดอยู่ในเอกสารวิจัยโดยทีม Ling ของบริษัท ซึ่งเป็นแผนกที่ริเริ่มโครงการ large language model (LLM) ของบริษัท บ่งชี้ถึงความสำเร็จในการเบี่ยงเบนออกจากเส้นทางที่เน้น Nvidia เป็นศูนย์กลาง แก่นแท้ของความสำเร็จนี้อยู่ที่ความสามารถในการฝึกฝนโมเดล AI ที่ซับซ้อนได้อย่างมีประสิทธิภาพโดยใช้ GPU ที่ผลิตในประเทศ

โมเดลที่เป็นปัญหา ซึ่งมีชื่อว่า Ling-Plus-Base ไม่ใช่โมเดลธรรมดา มันถูกออกแบบโดยใช้สถาปัตยกรรม Mixture-of-Experts (MoE) ซึ่งเป็นเทคนิคที่ได้รับความนิยมเพิ่มขึ้นเนื่องจากประสิทธิภาพในการขยายขนาด LLM ด้วยพารามิเตอร์จำนวนมากถึง 3 แสนล้านพารามิเตอร์ Ling-Plus-Base ทำงานในระดับที่เทียบเคียงได้กับโมเดลชั้นนำระดับโลกอื่น ๆ อย่างไรก็ตาม ปัจจัยสร้างความแตกต่างที่สำคัญคือฮาร์ดแวร์ที่รองรับการฝึกฝน ตามผลการวิจัย โมเดลอันทรงพลังนี้สามารถพัฒนาให้เติบโตเต็มที่ได้บนสิ่งที่ทีมงานเรียกว่า “อุปกรณ์ประสิทธิภาพต่ำกว่า” วลีที่เลือกใช้อย่างระมัดระวังนี้ชี้ตรงไปที่การใช้หน่วยประมวลผลที่อยู่นอกขอบเขตของข้อจำกัดการส่งออกของสหรัฐฯ ซึ่งบ่งบอกอย่างชัดเจนถึงการใช้ชิปที่ออกแบบและผลิตภายในประเทศจีน

การพัฒนานี้เป็นมากกว่าแค่การแก้ปัญหาทางเทคนิค แต่ยังแสดงถึงการเปลี่ยนแปลงเชิงกลยุทธ์ที่อาจเกิดขึ้น ด้วยการแสดงให้เห็นถึงความสามารถในการฝึกฝนโมเดลที่ล้ำสมัยโดยไม่ต้องพึ่งพาฮาร์ดแวร์ต่างประเทศระดับสูงสุดที่ถูกจำกัดเพียงอย่างเดียว Ant Group ไม่เพียงแต่ลดความเสี่ยงของห่วงโซ่อุปทาน แต่ยังอาจปลดล็อกประสิทธิภาพด้านต้นทุนที่สำคัญอีกด้วย

สมการทางเศรษฐกิจ: การลดต้นทุนการฝึกอบรม

หนึ่งในตัวเลขที่น่าสนใจที่สุดที่เกิดขึ้นจากงานวิจัยของทีม Ling คือการรายงาน การลดต้นทุนการประมวลผลลง 20 เปอร์เซ็นต์ ในช่วง pre-training ที่สำคัญของโมเดล Ling-Plus-Base การ pre-training เป็นที่ทราบกันดีว่าใช้ทรัพยากรมาก เกี่ยวข้องกับการป้อนชุดข้อมูลขนาดใหญ่ให้กับโมเดลเพื่อเรียนรู้รูปแบบภาษา บริบท และความรู้ ซึ่งถือเป็นส่วนสำคัญของค่าใช้จ่ายโดยรวมที่เกี่ยวข้องกับการพัฒนา LLM พื้นฐาน ดังนั้น การลดต้นทุนลงหนึ่งในห้าในระยะนี้จึงหมายถึงการประหยัดได้อย่างมาก ซึ่งอาจช่วยเพิ่มทุนสำหรับการวิจัย พัฒนา หรือปรับใช้ในวงกว้างต่อไป

การประหยัดต้นทุนนี้เกิดขึ้นได้อย่างไร? แม้ว่าเอกสารจะไม่ได้ให้รายละเอียดการแบ่งต้นทุนที่แน่นอน แต่ปัจจัยหลายประการน่าจะมีส่วนช่วย:

  1. การจัดซื้อฮาร์ดแวร์: GPU ที่ผลิตในประเทศ แม้ว่าจะมีประสิทธิภาพน้อยกว่าเมื่อเทียบกับผลิตภัณฑ์ระดับบนสุดของ Nvidia แต่อาจมีราคาซื้อที่ต่ำกว่าหรือเสนอส่วนลดตามปริมาณที่ดีกว่าภายในตลาดจีน โดยเฉพาะอย่างยิ่งเมื่อพิจารณาถึงอุปทานที่จำกัดของชิป Nvidia ระดับไฮเอนด์
  2. ประสิทธิภาพการใช้พลังงาน: แม้ว่าจะไม่ได้ระบุไว้อย่างชัดเจน การปรับการฝึกอบรมให้เหมาะสมกับชิปในประเทศที่อาจใช้พลังงานน้อยกว่า (แม้ว่าอาจมีประสิทธิภาพต่อหน่วยน้อยกว่า) อาจส่งผลให้ต้นทุนพลังงานในการดำเนินงานลดลง ซึ่งเป็นปัจจัยสำคัญในการดำเนินงานศูนย์ข้อมูลขนาดใหญ่
  3. การปรับปรุงอัลกอริทึมและสถาปัตยกรรม: การใช้สถาปัตยกรรม MoE เองเป็นกุญแจสำคัญ โมเดล MoE จะเปิดใช้งานเฉพาะเครือข่ายย่อย ‘ผู้เชี่ยวชาญ’ ที่เฉพาะเจาะจงสำหรับอินพุตที่กำหนด แทนที่จะใช้ทั้งโมเดลเหมือนสถาปัตยกรรมแบบหนาแน่น (dense architectures) ความเบาบาง (sparsity) โดยธรรมชาตินี้สามารถลดภาระการคำนวณได้อย่างมากทั้งในระหว่างการฝึกอบรมและการอนุมาน (inference) ทำให้สามารถบรรลุผลลัพธ์ที่ดีได้แม้จะมีพลังการประมวลผลดิบต่อชิปน้อยลง ความสำเร็จของ Ant ชี้ให้เห็นถึงการปรับแต่งซอฟต์แวร์และอัลกอริทึมที่ซับซ้อนเพื่อเพิ่มประสิทธิภาพสูงสุดของฮาร์ดแวร์ในประเทศที่มีอยู่

การลดต้นทุนนี้ไม่ได้เป็นเพียงประโยชน์ทางบัญชีเท่านั้น แต่ยังช่วยลดอุปสรรคในการเข้าสู่การพัฒนาโมเดลขนาดใหญ่ และอาจเร่งความเร็วของนวัตกรรม AI ภายในบริษัทและอาจขยายไปสู่ระบบนิเวศเทคโนโลยีของจีนในวงกว้าง หากวิธีการดังกล่าวพิสูจน์ได้ว่าสามารถทำซ้ำได้

ความเท่าเทียมด้านประสิทธิภาพ: การลดช่องว่างด้านฮาร์ดแวร์?

การประหยัดต้นทุนเป็นสิ่งที่น่าดึงดูด แต่จะมีความหมายเพียงเล็กน้อยหากโมเดล AI ที่ได้มามีประสิทธิภาพต่ำกว่าอย่างมีนัยสำคัญ ทีม Ling ของ Ant กล่าวถึงเรื่องนี้โดยตรง โดยยืนยันว่า Ling-Plus-Base มีประสิทธิภาพเทียบเท่ากับโมเดลอื่น ๆ ที่ได้รับการยอมรับอย่างดีในสาขานี้ โดยเฉพาะอย่างยิ่ง พวกเขาได้ทำการเปรียบเทียบผลงานของพวกเขากับโมเดลเช่น Qwen2.5-72B-Instruct (พัฒนาโดยบริษัทแม่ Alibaba) และ DeepSeek-V2.5-1210-Chat ซึ่งเป็น LLM ที่โดดเด่นอีกตัวหนึ่งของจีน

การอ้างว่ามี ‘ประสิทธิภาพเทียบเท่า’ แม้จะใช้ ‘อุปกรณ์ประสิทธิภาพต่ำกว่า’ เป็นสิ่งที่น่าสังเกต มันชี้ให้เห็นว่า Ant อาจพบวิธีที่มีประสิทธิภาพในการชดเชยการขาดดุลด้านการคำนวณดิบผ่าน:

  • สถาปัตยกรรมโมเดลขั้นสูง: การออกแบบ MoE มีบทบาทสำคัญที่นี่ โดยกระจายภาระงานอย่างมีประสิทธิภาพ
  • การปรับปรุงซอฟต์แวร์: การปรับแต่งชุดซอฟต์แวร์การฝึกอบรม (เช่น เฟรมเวิร์กการทำงานแบบขนานและไลบรารีตัวเลข) ให้เหมาะกับสถาปัตยกรรมของ GPU ในประเทศที่ใช้อยู่โดยเฉพาะเป็นสิ่งสำคัญ ซึ่งมักต้องใช้ความพยายามทางวิศวกรรมอย่างมาก
  • การคัดสรรข้อมูลและเทคนิคการฝึกอบรม: วิธีการที่ซับซ้อนสำหรับการเลือกข้อมูลการฝึกอบรมและการปรับปรุงกระบวนการฝึกอบรมเองสามารถส่งผลกระทบอย่างมีนัยสำคัญต่อคุณภาพของโมเดลขั้นสุดท้าย ซึ่งบางครั้งสามารถชดเชยข้อจำกัดด้านฮาร์ดแวร์ได้

สิ่งสำคัญคือต้องพิจารณาการอ้างสิทธิ์ด้านประสิทธิภาพด้วยความละเอียดอ่อน ‘เทียบเท่า’ สามารถครอบคลุมผลลัพธ์ที่หลากหลายในเกณฑ์มาตรฐานต่าง ๆ (เช่น ความเข้าใจภาษา การให้เหตุผล การสร้างข้อความ การเขียนโค้ด) หากไม่มีการเข้าถึงผลการเปรียบเทียบโดยละเอียดจากการทดสอบมาตรฐานหลายรายการ การเปรียบเทียบที่แม่นยำยังคงเป็นเรื่องท้าทาย อย่างไรก็ตาม การยืนยันดังกล่าวเป็นการส่งสัญญาณถึงความเชื่อมั่นของ Ant ว่าแนวทางของพวกเขาไม่จำเป็นต้องแลกมาด้วยความสามารถที่ลดลงอย่างรุนแรงเพื่อแลกกับต้นทุน/การเข้าถึง มันแสดงให้เห็นถึงเส้นทางสู่การรักษาความสามารถในการแข่งขันแม้ภายใต้ข้อจำกัดที่เกิดจากข้อจำกัดด้านฮาร์ดแวร์

นักวิจัยเองได้เน้นย้ำถึงนัยยะที่กว้างขึ้น: “ผลลัพธ์เหล่านี้แสดงให้เห็นถึงความเป็นไปได้ในการฝึกฝนโมเดล MoE ขนาดใหญ่ที่ล้ำสมัยบนฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่า ทำให้เกิดแนวทางที่ยืดหยุ่นและคุ้มค่ามากขึ้นในการพัฒนาโมเดลพื้นฐานโดยคำนึงถึงการเลือกทรัพยากรการประมวลผล” สิ่งนี้ชี้ไปสู่การทำให้เป็นประชาธิปไตยในระดับหนึ่ง ทำให้การพัฒนา AI ที่ล้ำสมัยสามารถดำเนินต่อไปได้แม้ว่าการเข้าถึงพลังการประมวลผลระดับสูงสุดจะถูกจำกัด

ทำความเข้าใจข้อได้เปรียบของ Mixture-of-Experts (MoE)

สถาปัตยกรรม Mixture-of-Experts เป็นศูนย์กลางของความสำเร็จที่รายงานโดย Ant Group มันแสดงถึงการออกจากโมเดลโครงข่ายประสาทเทียมแบบ ‘หนาแน่น’ (dense) แบบดั้งเดิมที่ทุกอินพุตจะเปิดใช้งานทุกพารามิเตอร์ ในโมเดล MoE:

  • โมเดลประกอบด้วยเครือข่าย ‘ผู้เชี่ยวชาญ’ ขนาดเล็กและเชี่ยวชาญเฉพาะทางจำนวนมาก
  • กลไก ‘gating network’ หรือ ‘router’ จะเรียนรู้ที่จะส่งข้อมูลขาเข้า (โทเค็น ในกรณีของ LLM) ไปยังผู้เชี่ยวชาญที่เกี่ยวข้องมากที่สุดสำหรับการประมวลผล
  • เฉพาะผู้เชี่ยวชาญที่ถูกเลือกเท่านั้น ซึ่งมักจะเป็นเพียงหนึ่งหรือสองคนจากผู้เชี่ยวชาญหลายร้อยคนที่เป็นไปได้ ที่จะทำการคำนวณสำหรับข้อมูลเฉพาะชิ้นนั้น

แนวทางนี้มีข้อได้เปรียบที่สำคัญหลายประการ โดยเฉพาะอย่างยิ่งที่เกี่ยวข้องในบริบทของข้อจำกัดด้านฮาร์ดแวร์:

  1. ความสามารถในการขยายขนาด (Scalability): MoE ช่วยให้โมเดลสามารถเติบโตจนมีจำนวนพารามิเตอร์มหาศาล (ระดับล้านล้านกำลังเป็นไปได้) โดยไม่มีการเพิ่มขึ้นตามสัดส่วนของต้นทุนการคำนวณสำหรับการประมวลผลแต่ละโทเค็นอินพุตในระหว่างการอนุมาน (inference) หรือแม้แต่ในระหว่างขั้นตอนการฝึกอบรม นี่เป็นเพราะมีเพียงเศษเสี้ยวของพารามิเตอร์ทั้งหมดเท่านั้นที่ทำงานในเวลาใดก็ตาม
  2. ประสิทธิภาพการฝึกอบรม: แม้ว่าการฝึกอบรมโมเดล MoE จะมีความซับซ้อนในตัวเอง (เช่น การกระจายภาระงาน (load balancing) ระหว่างผู้เชี่ยวชาญ) การคำนวณที่ลดลงต่อโทเค็นสามารถแปลเป็นเวลาการฝึกอบรมที่เร็วขึ้น หรือดังที่ Ant แสดงให้เห็น ความสามารถในการฝึกอบรมอย่างมีประสิทธิภาพบนฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่าภายในกรอบเวลาที่เหมาะสม
  3. ความเชี่ยวชาญเฉพาะทาง: ผู้เชี่ยวชาญแต่ละคนสามารถเชี่ยวชาญในข้อมูลประเภทต่าง ๆ งาน หรือขอบเขตความรู้ที่แตกต่างกัน ซึ่งอาจนำไปสู่ผลลัพธ์ที่มีคุณภาพสูงขึ้นในด้านเฉพาะ

ห้องปฏิบัติการ AI ชั้นนำทั่วโลกได้นำ MoE มาใช้ รวมถึง Google (GShard, Switch Transformer), Mistral AI (โมเดล Mixtral) และภายในประเทศจีน บริษัทต่าง ๆ เช่น DeepSeek และ Alibaba (ซึ่งโมเดล Qwen ได้รวมองค์ประกอบ MoE ไว้ด้วย) Ling-Plus-Base ของ Ant ทำให้บริษัทอยู่ในแนวหน้าอย่างมั่นคง โดยใช้นวัตกรรมทางสถาปัตยกรรมเพื่อนำทางความเป็นจริงด้านฮาร์ดแวร์

ระบบนิเวศฮาร์ดแวร์ในประเทศ: การเติมเต็มช่องว่างของ Nvidia

แม้ว่าเอกสารวิจัยของ Ant จะไม่ได้ระบุชื่อฮาร์ดแวร์ที่ใช้อย่างชัดเจน แต่รายงานในภายหลัง โดยเฉพาะอย่างยิ่งจาก Bloomberg ระบุว่าความสำเร็จนี้เกี่ยวข้องกับ ชิปที่ออกแบบในประเทศ ซึ่งรวมถึงโปรเซสเซอร์ที่อาจมาจากบริษัทในเครือของ Ant คือ Alibaba ซึ่งมีหน่วยออกแบบชิปของตัวเองชื่อ T-Head (ผลิต CPU เช่น Yitian 710 และก่อนหน้านี้เคยสำรวจตัวเร่งความเร็ว AI) และที่สำคัญคือ Huawei Technologies

Huawei แม้จะเผชิญกับการคว่ำบาตรอย่างรุนแรงจากสหรัฐฯ เอง ก็ได้พัฒนาตัวเร่งความเร็ว AI ซีรีส์ Ascend (เช่น Ascend 910B) อย่างจริงจังเพื่อเป็นทางเลือกโดยตรงสำหรับผลิตภัณฑ์ของ Nvidia ภายในตลาดจีน มีรายงานว่าชิปเหล่านี้กำลังถูกนำไปใช้โดยบริษัทเทคโนโลยีรายใหญ่ของจีน ความสามารถของ Ant Group ในการใช้ฮาร์ดแวร์ดังกล่าวอย่างมีประสิทธิภาพสำหรับโมเดลขนาดใหญ่เท่า Ling-Plus-Base จะเป็นการยืนยันที่สำคัญสำหรับทางเลือกในประเทศเหล่านี้

สิ่งสำคัญคือต้องทราบว่า Ant Group ไม่ได้ละทิ้ง Nvidia โดยสิ้นเชิง รายงานชี้ให้เห็นว่าชิป Nvidia ยังคงเป็นส่วนหนึ่งของชุดเครื่องมือพัฒนา AI ของ Ant ซึ่งน่าจะใช้สำหรับงานที่ลักษณะเฉพาะด้านประสิทธิภาพหรือระบบนิเวศซอฟต์แวร์ที่สมบูรณ์ (เช่น CUDA) ให้ข้อได้เปรียบ หรือสำหรับระบบเดิม การเคลื่อนไหวนี้ไม่จำเป็นต้องเกี่ยวกับการทดแทนทั้งหมดในชั่วข้ามคืน แต่เป็นการ สร้างเส้นทางคู่ขนานที่เป็นไปได้ ซึ่งช่วยลดช่องโหว่เชิงกลยุทธ์และควบคุมต้นทุน แนวทางแบบผสมผสานนี้ช่วยให้บริษัทสามารถใช้ประโยชน์จากเครื่องมือที่ดีที่สุดที่มีอยู่ ในขณะเดียวกันก็ส่งเสริมความเป็นอิสระ Ant Group เองก็ยังคงรักษาความรอบคอบขององค์กร โดยปฏิเสธที่จะแสดงความคิดเห็นอย่างเป็นทางการเกี่ยวกับชิปเฉพาะที่ใช้

แนวโน้มที่กว้างขึ้น: การผลักดันร่วมกันของจีนเพื่อการพึ่งพาตนเองด้าน AI

ความคิดริเริ่มของ Ant Group ไม่ได้เกิดขึ้นอย่างโดดเดี่ยว มันสะท้อนให้เห็นถึงการผลักดันเชิงกลยุทธ์ที่กว้างขึ้นทั่วทั้งภาคเทคโนโลยีของจีนเพื่อสร้างนวัตกรรมภายใต้ข้อจำกัดที่กำหนดโดยมาตรการควบคุมการส่งออกของสหรัฐฯ ‘สงครามเทคโนโลยี’ ได้กระตุ้นความพยายามในการบรรลุการพึ่งพาตนเองที่มากขึ้นในเทคโนโลยีที่สำคัญ โดยเฉพาะอย่างยิ่งเซมิคอนดักเตอร์และ AI

ผู้เล่นรายใหญ่อื่น ๆ กำลังดำเนินการตามเป้าหมายที่คล้ายคลึงกัน:

  • ByteDance: บริษัทแม่ของ TikTok มีรายงานว่ากำลังทำงานเพื่อจัดหาและใช้ชิปทางเลือก รวมถึงตัวเลือกในประเทศ สำหรับความทะเยอทะยานด้าน AI ซึ่งครอบคลุมอัลกอริทึมแนะนำเนื้อหา AI เชิงสร้างสรรค์ และอื่น ๆ
  • DeepSeek: สตาร์ทอัพ AI แห่งนี้ ซึ่งเป็นที่รู้จักจากโมเดลโอเพนซอร์สอันทรงพลัง กล่าวถึงประสิทธิภาพการฝึกอบรมอย่างชัดเจนและได้พัฒนาโมเดลโดยใช้สถาปัตยกรรม MoE ซึ่งสอดคล้องกับกลยุทธ์ที่ไม่ต้องพึ่งพาการมีกองทัพ GPU ที่ทรงพลังที่สุดเพียงอย่างเดียว
  • Baidu, Tencent และอื่น ๆ: บริษัทคลาวด์และเทคโนโลยีรายใหญ่ของจีนทั้งหมดกำลังลงทุนอย่างหนักใน AI และหลีกเลี่ยงไม่ได้ที่จะสำรวจกลยุทธ์การกระจายฮาร์ดแวร์ รวมถึงการปรับให้เหมาะสมสำหรับชิปในประเทศ และอาจพัฒนาซิลิคอนที่กำหนดเองของตนเอง

ข้อความร่วมกันนั้นชัดเจน: ในขณะที่การเข้าถึงผลิตภัณฑ์ระดับบนสุดของ Nvidia ยังคงเป็นที่ต้องการ อุตสาหกรรมเทคโนโลยีของจีนกำลังพัฒนาและตรวจสอบโซลูชันทางเลือกอย่างแข็งขัน ซึ่งเกี่ยวข้องกับแนวทางหลายด้าน: การนำสถาปัตยกรรมโมเดลที่มีประสิทธิภาพมาใช้ เช่น MoE การปรับปรุงซอฟต์แวร์อย่างเข้มข้นสำหรับแบ็กเอนด์ฮาร์ดแวร์ที่แตกต่างกัน และการสนับสนุนการพัฒนาและการนำชิปที่ผลิตในประเทศมาใช้

นอกเหนือจากโมเดลภาษา: การขยายตัวด้าน AI ของ Ant ในด้านการดูแลสุขภาพ

ความพยายามด้าน AI ของ Ant Group ขยายไปไกลกว่า LLM พื้นฐาน ควบคู่ไปกับข่าวเกี่ยวกับประสิทธิภาพการฝึกอบรม บริษัทได้เปิดตัวการอัปเกรดที่สำคัญสำหรับชุดโซลูชัน AI ที่ปรับให้เหมาะกับ ภาคการดูแลสุขภาพ ความคิดริเริ่มนี้ใช้ประโยชน์จากโมเดล AI ที่เน้นการดูแลสุขภาพซึ่งพัฒนาขึ้นเองและมีความแตกต่าง

โซลูชันที่อัปเกรดแล้วมีความสามารถแบบ multimodal (ประมวลผลข้อมูลประเภทต่าง ๆ เช่น ข้อความ รูปภาพ และข้อมูลทางการแพทย์อื่น ๆ ที่อาจเกิดขึ้น) และการให้เหตุผลทางการแพทย์ที่ซับซ้อน สิ่งเหล่านี้ถูกรวมเข้ากับสิ่งที่ Ant อธิบายว่าเป็น ‘เครื่องจักรออลอินวัน’ ซึ่งน่าจะเป็นอุปกรณ์หรือแพลตฟอร์มที่ออกแบบมาสำหรับสถานพยาบาลหรือการจัดการสุขภาพ

แม้ว่าจะดูเหมือนแยกจากข่าว LLM ของ Ling-Plus-Base แต่ก็มีความเชื่อมโยงพื้นฐานที่เป็นไปได้ ความสามารถในการฝึกฝนโมเดล AI อันทรงพลังได้อย่างคุ้มค่ามากขึ้น โดยอาจใช้ฮาร์ดแวร์ผสมผสานรวมถึงตัวเลือกในประเทศ อาจเป็นรากฐานของความเป็นไปได้ทางเศรษฐกิจในการพัฒนาและปรับใช้โมเดลเฉพาะทางสำหรับภาคส่วนต่าง ๆ เช่น การดูแลสุขภาพ การลดต้นทุนพื้นฐานของการพัฒนา AI ช่วยให้สามารถนำทรัพยากรไปใช้กับแอปพลิเคชันเฉพาะโดเมน ซึ่งอาจเร่งการเปิดตัวเครื่องมือ AI ที่ใช้งานได้จริงในอุตสาหกรรมที่สำคัญ การผลักดันด้านการดูแลสุขภาพนี้ตอกย้ำความทะเยอทะยานของ Ant ในการนำความเชี่ยวชาญด้าน AI ไปใช้อย่างกว้างขวาง ก้าวข้ามรากฐานฟินเทคของตน

นัยยะสำหรับอนาคต: ทางแยกบนถนน AI?

ความสำเร็จของ Ant Group ในการฝึกฝนโมเดล MoE ขนาดใหญ่โดยใช้ GPU ที่ไม่ใช่ของ Nvidia ซึ่งน่าจะเป็นของในประเทศ มีนัยยะสำคัญดังนี้:

  • การยืนยันสำหรับชิปในประเทศ: ทำหน้าที่เป็นข้อพิสูจน์ที่สำคัญสำหรับความเป็นไปได้ของตัวเร่งความเร็ว AI ที่ออกแบบโดยจีน เช่น Ascend ของ Huawei ซึ่งอาจช่วยเพิ่มการยอมรับภายในประเทศจีน
  • ภูมิทัศน์การแข่งขัน: แสดงให้เห็นว่าบริษัทจีนสามารถแข่งขันในการพัฒนา AI ที่ล้ำสมัยได้แม้จะมีข้อจำกัด โดยใช้นวัตกรรมทางสถาปัตยกรรมและซอฟต์แวร์
  • พลวัตด้านต้นทุน: การลดต้นทุน 20% เน้นย้ำถึงความได้เปรียบทางการแข่งขันที่เป็นไปได้สำหรับบริษัทที่สามารถใช้ฮาร์ดแวร์ทางเลือกได้อย่างมีประสิทธิภาพ ซึ่งอาจส่งผลต่อราคาและการเข้าถึง AI ทั่วโลก
  • ตำแหน่งของ Nvidia: ในขณะที่ Nvidia ยังคงครองตลาดโลก แนวโน้มนี้ตอกย้ำถึงความท้าทายที่บริษัทเผชิญในตลาดจีนที่สำคัญเนื่องจากกฎระเบียบและการผงาดขึ้นของคู่แข่งในท้องถิ่น อาจเร่งการพัฒนาชิปที่สอดคล้องกับข้อกำหนดการส่งออกของ Nvidia ที่ปรับให้เหมาะกับจีน แต่ก็เป็นการยืนยันเส้นทางทางเลือกด้วย
  • การแบ่งแยกทางเทคโนโลยี?: ในระยะยาว ความแตกต่างอย่างต่อเนื่องในการเข้าถึงฮาร์ดแวร์และการปรับปรุงซอฟต์แวร์อาจนำไปสู่ระบบนิเวศ AI ที่แตกต่างกันบางส่วน โดยมีโมเดลและเครื่องมือที่ปรับให้เหมาะสมกับซิลิคอนพื้นฐานที่แตกต่างกัน

การเดินทางที่ทีม Ling ของ Ant Group ดำเนินการเป็นสัญลักษณ์ของความมีไหวพริบที่ถูกกระตุ้นโดยข้อจำกัดทางภูมิรัฐศาสตร์ ด้วยการผสมผสานอย่างชาญฉลาดระหว่างสถาปัตยกรรมโมเดลขั้นสูง เช่น MoE กับความเต็มใจที่จะปรับให้เหมาะสมและใช้ฮาร์ดแวร์ในประเทศที่มีอยู่ พวกเขาได้กำหนดเส้นทางที่รับประกันความก้าวหน้าอย่างต่อเนื่องในสาขาที่สำคัญของปัญญาประดิษฐ์ ซึ่งอาจปรับเปลี่ยนโครงสร้างต้นทุนและการพึ่งพาเชิงกลยุทธ์ที่กำหนดอุตสาหกรรม เป็นเครื่องพิสูจน์แนวคิดที่ว่านวัตกรรมมักจะเฟื่องฟูที่สุดภายใต้แรงกดดัน