ในสมรภูมิเดิมพันสูงของการพัฒนาปัญญาประดิษฐ์ (AI) การเข้าถึงเทคโนโลยีเซมิคอนดักเตอร์ที่ล้ำสมัยมักเป็นตัวกำหนดความเร็วของนวัตกรรม สำหรับยักษ์ใหญ่ด้านเทคโนโลยีของจีน การเข้าถึงนี้มีความซับซ้อนมากขึ้นเรื่อยๆ ซึ่งเป็นผลมาจากความตึงเครียดทางภูมิรัฐศาสตร์และการควบคุมการส่งออกที่เข้มงวดโดยสหรัฐอเมริกา (United States) ท่ามกลางภูมิทัศน์ที่ท้าทายนี้ Ant Group ซึ่งเป็นบริษัทฟินเทคในเครือของ Alibaba กำลังสร้างเส้นทางที่แตกต่าง บริษัทกำลังใช้กลยุทธ์การผสมผสานเซมิคอนดักเตอร์ที่หลากหลาย (heterogeneous mix) ซึ่งมาจากทั้งซัพพลายเออร์อเมริกันและในประเทศ เพื่อขับเคลื่อนความทะเยอทะยานด้าน AI โดยเฉพาะอย่างยิ่งการมุ่งเน้นไปที่การเพิ่มประสิทธิภาพและความคุ้มค่าในการฝึกอบรมโมเดล AI ที่ซับซ้อน
แนวทางที่คำนวณมาอย่างดีนี้เป็นมากกว่าแค่การแก้ปัญหาทางเทคนิค แต่ยังแสดงถึงการปรับตัวเชิงกลยุทธ์ขั้นพื้นฐาน ด้วยการผสานรวมชิปจากผู้ผลิตหลายรายอย่างจงใจ รวมถึงทางเลือกที่ผลิตในประเทศ Ant Group มีเป้าหมายเพื่อลดความเสี่ยงที่เกี่ยวข้องกับการหยุดชะงักของห่วงโซ่อุปทาน และลดการพึ่งพาผู้ค้ารายใดรายหนึ่ง โดยเฉพาะอย่างยิ่งผู้ที่อยู่ภายใต้ข้อจำกัดทางการค้าระหว่างประเทศ การกระจายความเสี่ยงนี้มีความสำคัญอย่างยิ่งต่อการสร้างความมั่นใจในความต่อเนื่องและความยืดหยุ่นของกระบวนการวิจัยและพัฒนา AI ของบริษัท วัตถุประสงค์หลักมีสองประการ: รักษาโมเมนตัมในนวัตกรรม AI พร้อมๆ กับการเพิ่มประสิทธิภาพต้นทุนจำนวนมหาศาลที่มักเกี่ยวข้องกับการฝึกโมเดลขนาดใหญ่
พลังแห่งความเชี่ยวชาญเฉพาะทาง: การนำ Mixture of Experts (MoE) มาใช้
หัวใจสำคัญของกลยุทธ์ฮาร์ดแวร์ของ Ant Group คือการนำสถาปัตยกรรม AI ขั้นสูงที่เรียกว่า Mixture of Experts (MoE) มาใช้ เทคนิคนี้แสดงถึงการเปลี่ยนแปลงที่สำคัญจากโมเดล AI แบบ monolithic ดั้งเดิม ซึ่งโครงข่ายประสาทเทียมขนาดใหญ่เพียงโครงข่ายเดียวพยายามเรียนรู้และจัดการทุกแง่มุมของงานที่กำหนด ในทางตรงกันข้าม แนวทาง MoE ใช้โครงสร้างแบบกระจายและเชี่ยวชาญเฉพาะทางมากขึ้น มันทำงานเหมือนกับคณะกรรมการผู้เชี่ยวชาญมากกว่าผู้เชี่ยวชาญทั่วไปเพียงคนเดียว
ลองนึกภาพปัญหาที่ซับซ้อนซึ่งต้องการความรู้ที่หลากหลาย แทนที่จะพึ่งพาผู้รู้รอบด้านเพียงคนเดียว คุณรวบรวมทีม: นักคณิตศาสตร์ นักภาษาศาสตร์ นักประวัติศาสตร์ และอาจจะเป็นนักฟิสิกส์ ‘gating network’ ทำหน้าที่เป็นผู้จัดส่ง วิเคราะห์งานหรือจุดข้อมูลที่เข้ามา และส่งต่อไปยังโมเดล ‘ผู้เชี่ยวชาญ’ ที่เหมาะสมที่สุดภายในระบบที่ใหญ่ขึ้นอย่างชาญฉลาด โมเดลผู้เชี่ยวชาญแต่ละโมเดลได้รับการฝึกฝนให้เก่งในอินพุตหรือภารกิจย่อยประเภทเฉพาะ ตัวอย่างเช่น ในโมเดลภาษา ผู้เชี่ยวชาญคนหนึ่งอาจเชี่ยวชาญในการทำความเข้าใจศัพท์เฉพาะทางเทคนิค อีกคนหนึ่งเชี่ยวชาญในรูปแบบการเขียนเชิงสร้างสรรค์ และคนที่สามเชี่ยวชาญในบทสนทนา
ข้อได้เปรียบที่สำคัญของการออกแบบแบบโมดูลาร์นี้อยู่ที่ประสิทธิภาพในการคำนวณ ในระหว่างการฝึกอบรมหรือการอนุมาน (inference) (เมื่อโมเดลทำการคาดการณ์) เฉพาะโมเดลผู้เชี่ยวชาญที่เกี่ยวข้องและ gating network เท่านั้นที่จะถูกเปิดใช้งานสำหรับอินพุตที่กำหนด การคำนวณแบบเลือกนี้แตกต่างอย่างสิ้นเชิงกับโมเดลแบบหนาแน่น (dense models) ซึ่งทั้งเครือข่าย ที่มีพารามิเตอร์นับพันล้านหรือล้านล้าน ต้องทำงานทุกครั้งที่มีการคำนวณ ด้วยเหตุนี้ โมเดล MoE จึงสามารถบรรลุประสิทธิภาพที่เทียบเท่าหรือเหนือกว่าโมเดลแบบหนาแน่นได้ ในขณะที่ต้องการพลังการประมวลผลน้อยลงอย่างมาก และใช้พลังงานน้อยลง
Ant Group ได้ใช้ประโยชน์จากข้อได้เปรียบทางสถาปัตยกรรมนี้อย่างมีประสิทธิภาพ การวิจัยภายในและการประยุกต์ใช้จริงได้แสดงให้เห็นว่า MoE ช่วยให้บริษัทบรรลุผลลัพธ์การฝึกอบรมที่แข็งแกร่งแม้ว่าจะใช้ฮาร์ดแวร์ที่มีประสิทธิภาพน้อยกว่า หาได้ง่ายกว่า หรือมีต้นทุนต่ำกว่าก็ตาม จากผลการวิจัยที่บริษัทแบ่งปัน การนำ MoE มาใช้อย่างมีกลยุทธ์นี้ช่วยให้สามารถลดต้นทุนการประมวลผลได้ถึง 20% ที่เกี่ยวข้องกับการฝึกอบรมโมเดล AI ของบริษัท การเพิ่มประสิทธิภาพด้านต้นทุนนี้ไม่ใช่แค่การประหยัดเพียงเล็กน้อย แต่เป็นตัวขับเคลื่อนเชิงกลยุทธ์ที่ช่วยให้ Ant สามารถดำเนินโครงการ AI ที่มีความทะเยอทะยานได้โดยไม่จำเป็นต้องพึ่งพาหน่วยประมวลผลกราฟิก (GPUs) ระดับบนสุดที่มีราคาแพงที่สุดเพียงอย่างเดียว ซึ่งบริษัทจีนจัดหาได้ยากขึ้นเรื่อยๆ การเพิ่มประสิทธิภาพนี้ตอบสนองโดยตรงต่อข้อจำกัดด้านฮาร์ดแวร์ที่เกิดจากสภาพแวดล้อมภายนอก
พรมแห่งซิลิคอน: พอร์ตโฟลิโอฮาร์ดแวร์ของ Ant
การนำกลยุทธ์ของ Ant Group ไปปฏิบัติจริงเกี่ยวข้องกับการนำทางในภูมิทัศน์เซมิคอนดักเตอร์ที่ซับซ้อน มีรายงานว่าโครงสร้างพื้นฐานการฝึกอบรม AI ของบริษัทขับเคลื่อนด้วยชิปที่หลากหลาย ซึ่งสะท้อนถึงความมุ่งมั่นในความยืดหยุ่นและความทนทาน ซึ่งรวมถึงซิลิคอนที่ออกแบบภายในโดยบริษัทในเครืออย่าง Alibaba ซึ่งน่าจะหมายถึงชิปที่พัฒนาโดยหน่วยเซมิคอนดักเตอร์ T-Head ของ Alibaba นอกจากนี้ Ant ยังรวมชิปจาก Huawei ซึ่งเป็นยักษ์ใหญ่ด้านเทคโนโลยีของจีนอีกรายที่ลงทุนอย่างหนักในการพัฒนาตัวเร่งความเร็ว AI ของตนเอง (เช่น ซีรีส์ Ascend) เพื่อตอบสนองต่อการคว่ำบาตรของ US
ในขณะที่ Ant Group เคยใช้ GPUs ประสิทธิภาพสูงจาก Nvidia ซึ่งเป็นผู้นำที่ไม่มีใครโต้แย้งในตลาดการฝึกอบรม AI การควบคุมการส่งออกของ US ที่เปลี่ยนแปลงไปทำให้จำเป็นต้องมีการเปลี่ยนแปลง กฎระเบียบเหล่านี้จำกัดการขายตัวเร่งความเร็ว AI ที่ทันสมัยที่สุดให้กับหน่วยงานของจีนโดยเฉพาะ โดยอ้างถึงข้อกังวลด้านความมั่นคงของชาติ แม้ว่า Nvidia จะยังคงสามารถจัดหาชิปที่มีคุณสมบัติต่ำกว่าให้กับตลาดจีนได้ แต่ Ant Group ดูเหมือนจะขยายฐานซัพพลายเออร์อย่างแข็งขันเพื่อชดเชยการเข้าถึงผลิตภัณฑ์ Nvidia ระดับบนสุดที่ถูกจำกัด
การกระจายความเสี่ยงนี้มีชิปจาก Advanced Micro Devices (AMD) เป็นส่วนสำคัญ AMD ได้กลายเป็นคู่แข่งสำคัญของ Nvidia ในด้านคอมพิวเตอร์ประสิทธิภาพสูงและพื้นที่ AI โดยนำเสนอ GPUs อันทรงพลังที่เป็นทางเลือกที่เป็นไปได้สำหรับภาระงานบางอย่าง ด้วยการรวมฮาร์ดแวร์ AMD เข้ากับตัวเลือกในประเทศจาก Alibaba และ Huawei ทำให้ Ant สร้างสภาพแวดล้อมการประมวลผลแบบ heterogeneous แนวทางการผสมผสานนี้ แม้ว่าอาจเพิ่มความซับซ้อนในการปรับแต่งซอฟต์แวร์และการจัดการภาระงาน แต่ก็ให้ความยืดหยุ่นที่สำคัญ ช่วยให้บริษัทสามารถปรับแต่งการใช้ฮาร์ดแวร์ตามความพร้อมใช้งาน ต้นทุน และความต้องการในการคำนวณเฉพาะของโมเดลและงาน AI ที่แตกต่างกัน ซึ่งจะช่วยหลีกเลี่ยงปัญหาคอขวดที่เกิดจากการพึ่งพาแหล่งเดียวที่ถูกจำกัด
เบื้องหลังของกลยุทธ์นี้คือเครือข่ายที่ซับซ้อนของการควบคุมการส่งออกของ US มาตรการเหล่านี้มีความเข้มงวดมากขึ้นเรื่อยๆ โดยมีเป้าหมายเพื่อควบคุมความก้าวหน้าของจีนในการผลิตเซมิคอนดักเตอร์ขั้นสูงและการพัฒนา AI ในขณะที่เริ่มแรกมุ่งเน้นไปที่ชิประดับสูงสุด ข้อจำกัดได้พัฒนาขึ้น ส่งผลกระทบต่อฮาร์ดแวร์และอุปกรณ์การผลิตเซมิคอนดักเตอร์ในวงกว้างขึ้น ตัวอย่างเช่น Nvidia ต้องสร้างชิป AI รุ่นเรือธงที่มีประสิทธิภาพต่ำกว่าโดยเฉพาะ (เช่น A800 และ H800 ซึ่งพัฒนามาจาก A100 และ H100) สำหรับตลาดจีนเพื่อให้สอดคล้องกับกฎระเบียบเหล่านี้ กลยุทธ์ของ Ant ในการยอมรับทางเลือกจาก AMD และผู้เล่นในประเทศเป็นการตอบสนองเชิงปฏิบัติโดยตรงต่อแรงกดดันด้านกฎระเบียบนี้ ซึ่งแสดงให้เห็นถึงความพยายามที่จะรักษาความสามารถในการแข่งขันด้าน AI ภายใต้ข้อจำกัดที่มีอยู่
AI ในการปฏิบัติ: การปฏิรูปบริการด้านสุขภาพ
ความก้าวหน้าของ Ant Group ในด้านประสิทธิภาพ AI ไม่ใช่แค่การฝึกฝนทางทฤษฎีเท่านั้น แต่กำลังถูกนำไปประยุกต์ใช้ในโลกแห่งความเป็นจริง โดยมุ่งเน้นที่ภาคการดูแลสุขภาพเป็นพิเศษ เมื่อเร็วๆ นี้ บริษัทได้เปิดตัวการปรับปรุงที่สำคัญสำหรับโซลูชัน AI ที่ปรับให้เหมาะกับการดูแลสุขภาพ ซึ่งตอกย้ำถึงผลกระทบในทางปฏิบัติของกลยุทธ์เทคโนโลยีพื้นฐาน
มีรายงานว่าความสามารถ AI ที่อัปเกรดเหล่านี้มีการใช้งานแล้วในสถาบันดูแลสุขภาพชั้นนำหลายแห่งในเมืองใหญ่ของจีน รวมถึง Beijing, Shanghai, Hangzhou (สำนักงานใหญ่ของ Ant) และ Ningbo โรงพยาบาลและองค์กรด้านการดูแลสุขภาพรายใหญ่เจ็ดแห่งกำลังใช้ประโยชน์จาก AI ของ Ant เพื่อปรับปรุงแง่มุมต่างๆ ของการดำเนินงานและการดูแลผู้ป่วย
รากฐานของโมเดล AI ด้านการดูแลสุขภาพของ Ant นั้นเป็นตัวอย่างของนวัตกรรมที่เกิดจากความร่วมมือและการใช้ประโยชน์จากจุดแข็งทางเทคโนโลยีที่หลากหลาย มันถูกสร้างขึ้นจากการผสมผสานระหว่างโมเดลภาษาขนาดใหญ่ (LLMs) ที่ทรงพลัง:
- โมเดล R1 และ V3 ของ DeepSeek: DeepSeek เป็นบริษัทวิจัย AI ของจีนที่มีชื่อเสียงในด้านการพัฒนาโมเดลโอเพนซอร์สที่มีความสามารถ ซึ่งมักจะบรรลุเกณฑ์มาตรฐานประสิทธิภาพที่แข็งแกร่ง
- Qwen ของ Alibaba: นี่คือตระกูลโมเดลภาษาขนาดใหญ่ที่เป็นกรรมสิทธิ์ซึ่งพัฒนาโดย Alibaba ซึ่งเป็นบริษัทในเครือของ Ant ครอบคลุมขนาดและความสามารถที่หลากหลาย
- โมเดล BaiLing ของ Ant เอง: สิ่งนี้บ่งชี้ถึงความพยายามภายในของ Ant Group ในการพัฒนาโมเดล AI ตามความต้องการเฉพาะ ซึ่งน่าจะรวมถึงข้อมูลและความเชี่ยวชาญเฉพาะด้านการเงินและอาจรวมถึงด้านการดูแลสุขภาพด้วย
รากฐานแบบหลายโมเดลนี้ช่วยให้โซลูชัน AI ด้านการดูแลสุขภาพสามารถดึงความรู้และความสามารถที่หลากหลายมาใช้ได้ ตามข้อมูลของ Ant Group ระบบมีความเชี่ยวชาญในการตอบคำถามในหัวข้อทางการแพทย์ที่หลากหลาย ซึ่งอาจทำหน้าที่เป็นเครื่องมือที่มีค่าสำหรับทั้งผู้เชี่ยวชาญด้านการดูแลสุขภาพที่ต้องการข้อมูลอย่างรวดเร็วและผู้ป่วยที่ต้องการความรู้ทางการแพทย์ทั่วไป (แม้ว่าการกำหนดบทบาทของมันเทียบกับคำแนะนำทางการแพทย์จากผู้เชี่ยวชาญอย่างระมัดระวังเป็นสิ่งสำคัญ)
นอกเหนือจากการดึงข้อมูลแล้ว บริษัทยังระบุว่าโมเดล AI ได้รับการออกแบบมาเพื่อปรับปรุงบริการผู้ป่วย แม้ว่ารายละเอียดเฉพาะกำลังจะเปิดเผย แต่สิ่งนี้อาจครอบคลุมการใช้งานที่หลากหลาย เช่น:
- การคัดแยกอัจฉริยะ (Intelligent Triage): ช่วยในการจัดลำดับความสำคัญความต้องการของผู้ป่วยตามอาการที่อธิบาย
- การจัดตารางนัดหมายและการจัดการ: ทำให้กระบวนการจองเป็นไปโดยอัตโนมัติและปรับให้เหมาะสม
- การติดตามผลหลังออกจากโรงพยาบาล: ให้การแจ้งเตือนอัตโนมัติหรือตรวจสอบความคืบหน้าในการฟื้นตัวของผู้ป่วย
- การสนับสนุนด้านธุรการ: ช่วยเหลือเจ้าหน้าที่ทางการแพทย์ในการจัดทำเอกสาร การสรุป หรือการป้อนข้อมูล ทำให้มีเวลามากขึ้นสำหรับการดูแลผู้ป่วยโดยตรง
การนำไปใช้ในโรงพยาบาลใหญ่ๆ ถือเป็นก้าวสำคัญในการตรวจสอบประโยชน์ของเทคโนโลยีและนำทางความซับซ้อนของขอบเขตการดูแลสุขภาพ ซึ่งเกี่ยวข้องกับข้อกำหนดที่เข้มงวดสำหรับความถูกต้อง ความน่าเชื่อถือ และความเป็นส่วนตัวของข้อมูล
การกำหนดเส้นทางที่นอกเหนือจาก Premium GPUs
เมื่อมองไปข้างหน้า กลยุทธ์ของ Ant Group ดูเหมือนจะสอดคล้องกับความทะเยอทะยานที่กว้างขึ้นในอุตสาหกรรมเทคโนโลยีของจีน: เพื่อให้ได้ประสิทธิภาพ AI ที่ล้ำสมัยโดยไม่ต้องพึ่งพา GPUs ที่ทันสมัยที่สุดซึ่งมักถูกจำกัดเพียงอย่างเดียว มีรายงานว่าบริษัทวางแผนที่จะเลียนแบบเส้นทางที่องค์กรต่างๆ เช่น DeepSeek ใช้ โดยมุ่งเน้นไปที่วิธีการขยายขนาดโมเดล AI ประสิทธิภาพสูง ‘โดยไม่ต้องใช้ premium GPUs’
ความทะเยอทะยานนี้ส่งสัญญาณความเชื่อที่ว่านวัตกรรมทางสถาปัตยกรรม (เช่น MoE) การปรับแต่งซอฟต์แวร์ และการใช้ฮาร์ดแวร์ที่หลากหลายและอาจมีประสิทธิภาพน้อยกว่าอย่างชาญฉลาด สามารถลดช่องว่างด้านประสิทธิภาพที่เกิดจากการเข้าถึงซิลิคอนระดับบนสุดที่จำกัดได้ เป็นกลยุทธ์ที่เกิดจากความจำเป็นส่วนหนึ่งเนื่องจากการควบคุมการส่งออก แต่ก็สะท้อนถึงเส้นทางที่อาจยั่งยืนไปสู่การพัฒนา AI ที่คุ้มค่าและเป็นประชาธิปไตยมากขึ้น
การบรรลุเป้าหมายนี้เกี่ยวข้องกับการสำรวจช่องทางต่างๆ นอกเหนือจาก MoE:
- ประสิทธิภาพของอัลกอริทึม (Algorithmic Efficiency): การพัฒนาอัลกอริทึม AI ใหม่ที่ต้องการพลังการประมวลผลน้อยลงสำหรับการฝึกอบรมและการอนุมาน
- เทคนิคการปรับแต่งโมเดล (Model Optimization Techniques): การใช้วิธีการต่างๆ เช่น quantization (การลดความแม่นยำของตัวเลขที่ใช้ในการคำนวณ) และ pruning (การลบส่วนที่ซ้ำซ้อนของโครงข่ายประสาทเทียม) เพื่อทำให้โมเดลเล็กลงและเร็วขึ้นโดยไม่สูญเสียประสิทธิภาพอย่างมีนัยสำคัญ
- เฟรมเวิร์กซอฟต์แวร์ (Software Frameworks): การสร้างซอฟต์แวร์ที่ซับซ้อนซึ่งสามารถจัดการและกระจายภาระงาน AI ได้อย่างมีประสิทธิภาพในสภาพแวดล้อมฮาร์ดแวร์แบบ heterogeneous เพิ่มการใช้ทรัพยากรคอมพิวเตอร์ที่มีอยู่ให้สูงสุด
- ฮาร์ดแวร์เฉพาะทางในประเทศ (Specialized Domestic Hardware): การลงทุนอย่างต่อเนื่องและการใช้ตัวเร่งความเร็ว AI ที่พัฒนาโดยบริษัทจีน เช่น Huawei (Ascend), Alibaba (T-Head) และอาจรวมถึงบริษัทอื่นๆ ที่ออกแบบมาสำหรับงาน AI โดยเฉพาะ
การแสวงหาเส้นทางนี้ของ Ant Group ควบคู่ไปกับผู้อื่นในระบบนิเวศเทคโนโลยีของจีน อาจมีนัยสำคัญ หากประสบความสำเร็จ อาจแสดงให้เห็นว่าความเป็นผู้นำในด้าน AI ไม่ได้ขึ้นอยู่กับการเข้าถึงชิปที่เร็วที่สุดเพียงอย่างเดียว แต่ยังขึ้นอยู่กับนวัตกรรมในซอฟต์แวร์ สถาปัตยกรรม และการเพิ่มประสิทธิภาพระดับระบบอีกด้วย มันแสดงถึงความพยายามอย่างแน่วแน่ในการสร้างความสามารถ AI ที่ยืดหยุ่นและพึ่งพาตนเองได้ นำทางความซับซ้อนของภูมิทัศน์เทคโนโลยีระดับโลกในปัจจุบันผ่านการกระจายความเสี่ยงเชิงกลยุทธ์และนวัตกรรมที่ไม่หยุดยั้ง การผสมผสานระหว่างเซมิคอนดักเตอร์ของ US และจีน ซึ่งปรับให้เหมาะสมผ่านเทคนิคต่างๆ เช่น MoE และนำไปใช้กับภาคส่วนที่สำคัญ เช่น การดูแลสุขภาพ แสดงให้เห็นถึงแนวทางเชิงปฏิบัติและปรับตัวได้เพื่อรักษาความก้าวหน้าของ AI ภายใต้แรงกดดัน