ความก้าวหน้าอย่างไม่หยุดยั้งในวงการปัญญาประดิษฐ์ (AI) ทำให้ความนิ่งเฉยไม่ใช่ทางเลือก เมื่อวิธีการที่ดูเหมือนจะมั่นคงแล้ว การพัฒนาใหม่ๆ ก็เกิดขึ้นมาท้าทายสถานะเดิม ตัวอย่างสำคัญเกิดขึ้นในช่วงต้นปี 2025 เมื่อ DeepSeek ห้องปฏิบัติการ AI ของจีนที่ไม่ค่อยมีใครรู้จัก ได้เปิดตัวโมเดลที่ไม่เพียงแต่ทำให้คนหันมาสนใจ แต่ยังส่งแรงสั่นสะเทือนที่สัมผัสได้ไปยังตลาดการเงิน การประกาศดังกล่าวตามมาด้วยการดิ่งลงอย่างน่าตกใจถึง 17% ของราคาหุ้น Nvidia ซึ่งฉุดบริษัทอื่นๆ ที่เกี่ยวข้องกับระบบนิเวศศูนย์ข้อมูล AI ที่กำลังเติบโตไปด้วย นักวิเคราะห์ตลาดรีบชี้ว่าปฏิกิริยาที่รุนแรงนี้เกิดจากความสามารถที่ DeepSeek แสดงให้เห็นในการสร้างโมเดล AI คุณภาพสูง โดยดูเหมือนจะไม่ต้องใช้งบประมาณมหาศาลเหมือนห้องปฏิบัติการวิจัยชั้นนำของ U.S. เหตุการณ์นี้จุดประกายการถกเถียงอย่างเข้มข้นทันทีเกี่ยวกับสถาปัตยกรรมและเศรษฐศาสตร์ในอนาคตของโครงสร้างพื้นฐาน AI
เพื่อให้เข้าใจถึงการเปลี่ยนแปลงที่อาจเกิดขึ้นจากการมาถึงของ DeepSeek อย่างถ่องแท้ จำเป็นต้องพิจารณาในบริบทที่กว้างขึ้น นั่นคือ ข้อจำกัดที่เปลี่ยนแปลงไปซึ่งส่งผลต่อกระบวนการพัฒนา AI ปัจจัยสำคัญที่มีอิทธิพลต่อทิศทางของอุตสาหกรรมคือความขาดแคลนข้อมูลการฝึกอบรม (training data) คุณภาพสูงและแปลกใหม่ที่เพิ่มมากขึ้น ผู้เล่นรายใหญ่ในวงการ AI ได้นำเข้าข้อมูลสาธารณะจำนวนมหาศาลบนอินเทอร์เน็ตมาใช้ฝึกโมเดลพื้นฐาน (foundational models) ของตนแล้ว ด้วยเหตุนี้ แหล่งข้อมูลที่เข้าถึงได้ง่ายจึงเริ่มเหือดแห้ง ทำให้การก้าวกระโดดครั้งสำคัญต่อไปในประสิทธิภาพของโมเดลด้วยวิธีการ pre-training แบบดั้งเดิมนั้นยากขึ้นและมีค่าใช้จ่ายสูงขึ้นเรื่อยๆ คอขวดที่เกิดขึ้นใหม่นี้กำลังบังคับให้เกิดการปรับเปลี่ยนเชิงกลยุทธ์ นักพัฒนาโมเดลกำลังสำรวจศักยภาพของ “test-time compute” (TTC) มากขึ้น แนวทางนี้เน้นการเพิ่มขีดความสามารถในการให้เหตุผลของโมเดล ระหว่าง ขั้นตอน inference ซึ่งโดยพื้นฐานแล้วคือการอนุญาตให้โมเดลใช้ความพยายามในการคำนวณมากขึ้นเพื่อ “คิด” และปรับปรุงการตอบสนองเมื่อได้รับคำถาม แทนที่จะอาศัยเพียงความรู้ที่ได้จากการ pre-trained เท่านั้น มีความเชื่อที่เพิ่มขึ้นในชุมชนวิจัยว่า TTC สามารถปลดล็อกกระบวนทัศน์การขยายขนาด (scaling paradigm) ใหม่ ซึ่งอาจสะท้อนถึงการเพิ่มขึ้นของประสิทธิภาพอย่างมากที่เคยทำได้ก่อนหน้านี้ผ่านการขยายขนาดข้อมูล pre-training และพารามิเตอร์ การมุ่งเน้นไปที่การประมวลผล ณ เวลา inference นี้อาจเป็นพรมแดนถัดไปสำหรับความก้าวหน้าครั้งสำคัญในปัญญาประดิษฐ์
เหตุการณ์ล่าสุดเหล่านี้ส่งสัญญาณถึงการเปลี่ยนแปลงพื้นฐานสองประการที่กำลังดำเนินอยู่ในภูมิทัศน์ AI ประการแรก เห็นได้ชัดเจนขึ้นว่าองค์กรที่ดำเนินงานด้วยทรัพยากรทางการเงินที่ค่อนข้างน้อยกว่า หรืออย่างน้อยก็ไม่ค่อยเปิดเผยต่อสาธารณะ สามารถพัฒนาและปรับใช้โมเดลที่เทียบเคียงได้กับเทคโนโลยีล้ำสมัย สนามแข่งขันซึ่งแต่เดิมถูกครอบงำโดยยักษ์ใหญ่ที่ได้รับทุนสนับสนุนจำนวนมากเพียงไม่กี่ราย ดูเหมือนจะมีความเท่าเทียมกันมากขึ้น ประการที่สอง การเน้นเชิงกลยุทธ์กำลังเปลี่ยนไปอย่างเด็ดขาดสู่การเพิ่มประสิทธิภาพการคำนวณ ณ จุด inference (TTC) ในฐานะเครื่องยนต์หลักสำหรับความก้าวหน้าของ AI ในอนาคต เรามาเจาะลึกแนวโน้มสำคัญทั้งสองนี้และสำรวจผลกระทบที่อาจเกิดขึ้นต่อการแข่งขัน พลวัตของตลาด และส่วนต่างๆ ภายในระบบนิเวศ AI ที่กว้างขึ้น
การปรับเปลี่ยนภูมิทัศน์ฮาร์ดแวร์
การปรับทิศทางเชิงกลยุทธ์ไปสู่ test-time compute ส่งผลกระทบอย่างลึกซึ้งต่อฮาร์ดแวร์ที่เป็นรากฐานของการปฏิวัติ AI ซึ่งอาจปรับเปลี่ยนข้อกำหนดสำหรับ GPUs, ซิลิคอนเฉพาะทาง และโครงสร้างพื้นฐานการคำนวณโดยรวม เราเชื่อว่าการเปลี่ยนแปลงนี้อาจปรากฏในหลายรูปแบบสำคัญ:
การเปลี่ยนจากศูนย์ฝึกอบรมเฉพาะทางไปสู่พลัง Inference แบบไดนามิก: จุดสนใจของอุตสาหกรรมอาจค่อยๆ เปลี่ยนจากการสร้างคลัสเตอร์ GPU ขนาดใหญ่ขึ้นเรื่อยๆ ที่มีลักษณะเป็นก้อนเดียว (monolithic) ซึ่งอุทิศให้กับงาน pre-training โมเดลที่ต้องใช้การคำนวณสูงโดยเฉพาะ ไปสู่การที่บริษัท AI อาจจัดสรรการลงทุนเชิงกลยุทธ์เพื่อเสริมสร้างขีดความสามารถด้าน inference ของตนแทน นี่ไม่ได้หมายความว่าจำนวน GPU โดยรวมจะลดลง แต่เป็นแนวทางที่แตกต่างในการปรับใช้และจัดการ การรองรับความต้องการที่เพิ่มขึ้นของ TTC จำเป็นต้องมีโครงสร้างพื้นฐาน inference ที่แข็งแกร่ง ซึ่งสามารถจัดการกับภาระงานแบบไดนามิกและมักคาดเดาไม่ได้ แม้ว่า GPU จำนวนมากจะยังคงจำเป็นสำหรับ inference อย่างไม่ต้องสงสัย แต่ลักษณะพื้นฐานของงานเหล่านี้แตกต่างอย่างมากจากการฝึกอบรม การฝึกอบรมมักเกี่ยวข้องกับงานประมวลผลแบบแบตช์ (batch processing) ขนาดใหญ่ที่คาดการณ์ได้ซึ่งทำงานเป็นระยะเวลานาน ในทางตรงกันข้าม Inference โดยเฉพาะอย่างยิ่งเมื่อเสริมด้วย TTC มีแนวโน้มที่จะ “ผันผวนสูง” (spikey) และไวต่อความหน่วง (latency-sensitive) มากกว่า โดยมีลักษณะของรูปแบบความต้องการที่ผันผวนตามปฏิสัมพันธ์ของผู้ใช้แบบเรียลไทม์ ความไม่แน่นอนโดยธรรมชาตินี้นำมาซึ่งความซับซ้อนใหม่ๆ ในการวางแผนความจุและการจัดการทรัพยากร ซึ่งต้องการโซลูชันที่คล่องตัวและปรับขนาดได้มากกว่าการตั้งค่าการฝึกอบรมที่เน้นแบตช์แบบดั้งเดิม
การผงาดขึ้นของตัวเร่งความเร็ว Inference เฉพาะทาง: เนื่องจากคอขวดด้านประสิทธิภาพเปลี่ยนไปสู่ inference มากขึ้น เราคาดว่าจะมีความต้องการฮาร์ดแวร์ที่ปรับให้เหมาะสมสำหรับงานนี้โดยเฉพาะเพิ่มขึ้นอย่างรวดเร็ว การเน้นการคำนวณที่มีความหน่วงต่ำและปริมาณงานสูง (low-latency, high-throughput) ในระหว่างขั้นตอน inference สร้างพื้นที่ที่อุดมสมบูรณ์สำหรับสถาปัตยกรรมทางเลือกนอกเหนือจาก GPU อเนกประสงค์ เราอาจเห็นการนำ Application-Specific Integrated Circuits (ASICs) ที่ออกแบบอย่างพิถีพิถันสำหรับภาระงาน inference มาใช้เพิ่มขึ้นอย่างมีนัยสำคัญ ควบคู่ไปกับตัวเร่งความเร็วประเภทใหม่อื่นๆ ชิปเฉพาะทางเหล่านี้มักให้คำมั่นสัญญาถึงประสิทธิภาพต่อวัตต์ (performance-per-watt) ที่เหนือกว่าหรือความหน่วงที่ต่ำกว่าสำหรับการดำเนินการ inference เฉพาะ เมื่อเทียบกับ GPU ที่มีความยืดหยุ่นมากกว่า หากความสามารถในการดำเนินงานการให้เหตุผลที่ซับซ้อน ณ เวลา inference (TTC) อย่างมีประสิทธิภาพกลายเป็นตัวสร้างความแตกต่างในการแข่งขันที่สำคัญกว่าความจุในการฝึกอบรมดิบ การครอบงำในปัจจุบันของ GPU อเนกประสงค์ ซึ่งมีคุณค่าในด้านความยืดหยุ่นทั้งในการฝึกอบรมและ inference อาจถูกกัดกร่อน ภูมิทัศน์ที่เปลี่ยนแปลงไปนี้อาจเป็นประโยชน์อย่างยิ่งต่อบริษัทที่พัฒนาและผลิตซิลิคอน inference เฉพาะทาง ซึ่งอาจสามารถแย่งชิงส่วนแบ่งการตลาดจำนวนมากได้
แพลตฟอร์มคลาวด์: สมรภูมิใหม่เพื่อคุณภาพและประสิทธิภาพ
ผู้ให้บริการคลาวด์ขนาดใหญ่ (hyperscale cloud providers) (เช่น AWS, Azure และ GCP) และบริการคลาวด์คอมพิวติ้งอื่นๆ ยืนอยู่ ณ จุดเชื่อมต่อของการเปลี่ยนแปลงนี้ การเปลี่ยนไปสู่ TTC และการแพร่กระจายของโมเดลการให้เหตุผลที่ทรงพลังมีแนวโน้มที่จะปรับเปลี่ยนความคาดหวังของลูกค้าและพลวัตการแข่งขันในตลาดคลาวด์:
คุณภาพการบริการ (Quality of Service - QoS) ในฐานะความได้เปรียบทางการแข่งขันที่ชัดเจน: ความท้าทายที่ยังคงขัดขวางการนำโมเดล AI ที่ซับซ้อนมาใช้ในองค์กรในวงกว้าง นอกเหนือจากความกังวลโดยธรรมชาติเกี่ยวกับความแม่นยำและความน่าเชื่อถือแล้ว ยังอยู่ที่ประสิทธิภาพที่มักคาดเดาไม่ได้ของ API สำหรับ inference ธุรกิจที่ต้องพึ่งพา API เหล่านี้มักประสบปัญหาที่น่าหงุดหงิด เช่น เวลาตอบสนองที่แปรปรวนอย่างมาก (latency), การจำกัดอัตราการใช้งาน (rate limiting) ที่ไม่คาดคิดซึ่งขัดขวางการใช้งาน, ความยากลำบากในการจัดการคำขอของผู้ใช้พร้อมกัน (concurrent user requests) อย่างมีประสิทธิภาพ และภาระในการดำเนินงานที่ต้องปรับตัวให้เข้ากับการเปลี่ยนแปลง endpoint ของ API บ่อยครั้ง โดยผู้ให้บริการโมเดล ความต้องการด้านการคำนวณที่เพิ่มขึ้นซึ่งเกี่ยวข้องกับเทคนิค TTC ที่ซับซ้อนอาจทำให้ปัญหาที่มีอยู่เหล่านี้รุนแรงขึ้น ในสภาพแวดล้อมเช่นนี้ แพลตฟอร์มคลาวด์ที่ไม่เพียงแต่ให้การเข้าถึงโมเดลที่ทรงพลัง แต่ยังให้ การรับประกันคุณภาพการบริการ (QoS) ที่แข็งแกร่ง—รับประกันความหน่วงต่ำที่สม่ำเสมอ, ปริมาณงาน (throughput) ที่คาดการณ์ได้, ความพร้อมใช้งาน (uptime) ที่เชื่อถือได้ และความสามารถในการปรับขนาด (scalability) ที่ราบรื่น—จะมีข้อได้เปรียบทางการแข่งขันที่น่าสนใจ องค์กรที่ต้องการปรับใช้แอปพลิเคชัน AI ที่มีความสำคัญต่อภารกิจ (mission-critical) จะหันไปหาผู้ให้บริการที่สามารถส่งมอบประสิทธิภาพที่เชื่อถือได้ภายใต้สภาวะการใช้งานจริงที่มีความต้องการสูง
ความขัดแย้งด้านประสิทธิภาพ: ขับเคลื่อนการบริโภคคลาวด์ที่เพิ่มขึ้น? อาจดูเหมือนขัดกับสัญชาตญาณ แต่การมาถึงของวิธีการที่มีประสิทธิภาพในการคำนวณมากขึ้นสำหรับทั้งการฝึกอบรมและที่สำคัญคือการทำ inference โมเดลภาษาขนาดใหญ่ (LLMs) อาจไม่นำไปสู่การลดลงของความต้องการโดยรวมสำหรับฮาร์ดแวร์ AI และทรัพยากรคลาวด์ แต่เราอาจเห็นปรากฏการณ์ที่คล้ายคลึงกับ Jevons Paradox หลักการทางเศรษฐศาสตร์นี้ ซึ่งสังเกตได้ในอดีต ชี้ให้เห็นว่าการเพิ่มประสิทธิภาพของทรัพกรมักนำไปสู่อัตราการบริโภคโดยรวมที่ สูงขึ้น เนื่องจากต้นทุนที่ต่ำลงหรือความสะดวกในการใช้งานที่มากขึ้นกระตุ้นให้เกิดการนำไปใช้ในวงกว้างและแอปพลิเคชันใหม่ๆ ในบริบทของ AI โมเดล inference ที่มีประสิทธิภาพสูง ซึ่งอาจเกิดขึ้นได้จากการพัฒนา TTC ที่บุกเบิกโดยห้องปฏิบัติการอย่าง DeepSeek สามารถลดต้นทุนต่อคำถามหรือต่อภารกิจลงได้อย่างมาก ความสามารถในการจ่ายนี้อาจกระตุ้นให้นักพัฒนาและองค์กรในวงกว้างมากขึ้นนำความสามารถในการให้เหตุผลที่ซับซ้อนมาใช้ในผลิตภัณฑ์และเวิร์กโฟลว์ของตน ผลกระทบสุทธิอาจเป็นการ เพิ่มขึ้น อย่างมากของความต้องการรวมสำหรับ AI compute บนคลาวด์ ซึ่งครอบคลุมทั้งการดำเนินการโมเดล inference ที่มีประสิทธิภาพเหล่านี้ในวงกว้าง และความต้องการอย่างต่อเนื่องสำหรับการฝึกอบรมโมเดลขนาดเล็กและเฉพาะทางมากขึ้นซึ่งปรับให้เหมาะกับงานหรือโดเมนเฉพาะ ดังนั้น ความก้าวหน้าล่าสุดอาจกระตุ้นการใช้จ่ายด้าน AI บนคลาวด์โดยรวม แทนที่จะลดลง
โมเดลพื้นฐาน: คูเมืองที่เปลี่ยนไป
เวทีการแข่งขันสำหรับผู้ให้บริการโมเดลพื้นฐาน (foundation model)—พื้นที่ซึ่งปัจจุบันถูกครอบงำโดยชื่ออย่าง OpenAI, Anthropic, Cohere, Google และ Meta ซึ่งขณะนี้มีผู้เล่นหน้าใหม่อย่าง DeepSeek และ Mistral เข้าร่วมด้วย—ก็พร้อมสำหรับการเปลี่ยนแปลงที่สำคัญเช่นกัน:
- การทบทวนความสามารถในการป้องกันของการ Pre-Training: ความได้เปรียบทางการแข่งขันแบบดั้งเดิม หรือ “คูเมือง” (moat) ที่ห้องปฏิบัติการ AI ชั้นนำมีอยู่ ได้พึ่งพาความสามารถในการรวบรวมชุดข้อมูลขนาดใหญ่และใช้ทรัพยากรการคำนวณมหาศาลสำหรับการ pre-training โมเดลที่ใหญ่ขึ้นเรื่อยๆ อย่างไรก็ตาม หากผู้เล่นที่สร้างความเปลี่ยนแปลงอย่าง DeepSeek สามารถแสดงให้เห็นถึงประสิทธิภาพที่เทียบเท่าหรือแม้กระทั่งระดับแนวหน้าด้วยค่าใช้จ่ายที่รายงานว่าต่ำกว่าอย่างมีนัยสำคัญ คุณค่าเชิงกลยุทธ์ของโมเดล pre-trained ที่เป็นกรรมสิทธิ์ในฐานะตัวสร้างความแตกต่างเพียงอย่างเดียวอาจลดลง ความสามารถในการฝึกโมเดลขนาดใหญ่อาจกลายเป็นข้อได้เปรียบที่ไม่เหมือนใครน้อยลง หากเทคนิคที่เป็นนวัตกรรมในสถาปัตยกรรมโมเดล, วิธีการฝึกอบรม หรือที่สำคัญคือ การเพิ่มประสิทธิภาพ test-time compute ช่วยให้ผู้อื่นสามารถบรรลุระดับประสิทธิภาพที่คล้ายคลึงกันได้อย่างมีประสิทธิภาพมากขึ้น เราควรคาดหวังนวัตกรรมที่รวดเร็วอย่างต่อเนื่องในการเพิ่มขีดความสามารถของโมเดล transformer ผ่าน TTC และดังที่การเกิดขึ้นของ DeepSeek แสดงให้เห็น การพัฒนาเหล่านี้สามารถเกิดขึ้นได้จากนอกวงการของยักษ์ใหญ่ในอุตสาหกรรมที่จัดตั้งขึ้นแล้ว สิ่งนี้ชี้ให้เห็นถึงศักยภาพในการทำให้การพัฒนา AI ที่ล้ำสมัยเป็นประชาธิปไตยมากขึ้น ส่งเสริมระบบนิเวศที่มีความหลากหลายและแข่งขันได้มากขึ้น
การนำ AI ไปใช้ในองค์กรและ Application Layer
ผลกระทบของการเปลี่ยนแปลงเหล่านี้ส่งผลกระทบออกไปสู่ภูมิทัศน์ซอฟต์แวร์ระดับองค์กรและการนำ AI ไปใช้ในวงกว้างภายในธุรกิจ โดยเฉพาะอย่างยิ่งเกี่ยวกับ Application Layer ของ Software-as-a-Service (SaaS):
การรับมือกับอุปสรรคด้านความปลอดภัยและความเป็นส่วนตัว: ต้นกำเนิดทางภูมิรัฐศาสตร์ของผู้เข้ามาใหม่เช่น DeepSeek นำมาซึ่งความซับซ้อนอย่างหลีกเลี่ยงไม่ได้ โดยเฉพาะอย่างยิ่งเกี่ยวกับความปลอดภัยของข้อมูลและความเป็นส่วนตัว เนื่องจากฐานที่ตั้งของ DeepSeek อยู่ในประเทศจีน ข้อเสนอของบริษัท โดยเฉพาะบริการ API โดยตรงและแอปพลิเคชันแชทบอท มีแนวโน้มที่จะเผชิญกับการตรวจสอบอย่างเข้มงวดจากลูกค้าองค์กรที่มีศักยภาพในอเมริกาเหนือ ยุโรป และประเทศตะวันตกอื่นๆ มีรายงานแล้วว่าองค์กรจำนวนมากกำลังบล็อกการเข้าถึงบริการของ DeepSeek เชิงรุกเพื่อเป็นมาตรการป้องกันไว้ก่อน แม้ว่าโมเดลของ DeepSeek จะโฮสต์โดยผู้ให้บริการคลาวด์บุคคลที่สามภายในศูนย์ข้อมูลตะวันตก ความกังวลที่ยังคงมีอยู่เกี่ยวกับการกำกับดูแลข้อมูล อิทธิพลที่อาจเกิดขึ้นจากรัฐ และการปฏิบัติตามกฎระเบียบด้านความเป็นส่วนตัวที่เข้มงวด (เช่น GDPR หรือ CCPA) อาจขัดขวางการนำไปใช้ในองค์กรอย่างแพร่หลาย นอกจากนี้ นักวิจัยกำลังตรวจสอบและเน้นย้ำถึงช่องโหว่ที่อาจเกิดขึ้นเกี่ยวกับ jailbreaking (การหลีกเลี่ยงการควบคุมความปลอดภัย), อคติที่มีอยู่ในผลลัพธ์ของโมเดล และการสร้างเนื้อหาที่อาจเป็นอันตรายหรือไม่เหมาะสม แม้ว่าการทดลองและการประเมินภายในทีม R&D ขององค์กรอาจเกิดขึ้นเนื่องจากความสามารถทางเทคนิคของโมเดล แต่ดูเหมือนไม่น่าเป็นไปได้ที่ผู้ซื้อระดับองค์กรจะละทิ้งผู้ให้บริการที่จัดตั้งขึ้นและเชื่อถือได้อย่างรวดเร็ว เช่น OpenAI หรือ Anthropic เพียงเพราะข้อเสนอปัจจุบันของ DeepSeek เมื่อพิจารณาถึงข้อกังวลด้านความน่าเชื่อถือและความปลอดภัยที่สำคัญเหล่านี้
ความเชี่ยวชาญเฉพาะทางแนวตั้ง (Vertical Specialization) พบจุดยืนที่มั่นคงขึ้น: ในอดีต นักพัฒนาที่สร้างแอปพลิเคชันที่ขับเคลื่อนด้วย AI สำหรับอุตสาหกรรมหรือฟังก์ชันทางธุรกิจเฉพาะ (vertical applications) ได้มุ่งเน้นไปที่การสร้างเวิร์กโฟลว์ที่ซับซ้อน รอบๆ โมเดลพื้นฐานอเนกประสงค์ที่มีอยู่ เทคนิคต่างๆ เช่น Retrieval-Augmented Generation (RAG) เพื่อใส่ความรู้เฉพาะโดเมน, การกำหนดเส้นทางโมเดลอัจฉริยะ (intelligent model routing) เพื่อเลือก LLM ที่ดีที่สุดสำหรับงานที่กำหนด, การเรียกใช้ฟังก์ชัน (function calling) เพื่อรวมเครื่องมือภายนอก และการใช้ guardrails ที่แข็งแกร่งเพื่อรับประกันผลลัพธ์ที่ปลอดภัยและเกี่ยวข้อง เป็นหัวใจสำคัญในการปรับโมเดลที่ทรงพลังแต่เป็นแบบทั่วไปเหล่านี้ให้เข้ากับความต้องการเฉพาะทาง แนวทางเหล่านี้ประสบความสำเร็จอย่างมาก อย่างไรก็ตาม ความวิตกกังวลที่คงอยู่ได้บดบัง application layer: ความกลัวว่าการก้าวกระโดดอย่างฉับพลันและน่าทึ่งในความสามารถของโมเดลพื้นฐานที่อยู่เบื้องหลังอาจทำให้ นวัตกรรมเฉพาะแอปพลิเคชันที่สร้างขึ้นอย่างระมัดระวังเหล่านี้ล้าสมัยไปในทันที—สถานการณ์ที่ Sam Altman จาก OpenAI เรียกอย่างโด่งดังว่า “steamrolling”
กระนั้น หากทิศทางความก้าวหน้าของ AI กำลังเปลี่ยนไปจริง โดยผลกำไรที่สำคัญที่สุดในขณะนี้คาดว่าจะมาจากการเพิ่มประสิทธิภาพ test-time compute แทนที่จะเป็นการปรับปรุงแบบทวีคูณในการ pre-training ภัยคุกคามต่อคุณค่าของ application layer ก็ลดน้อยลง ในภูมิทัศน์ที่ความก้าวหน้าได้มาจากการ ปรับปรุงประสิทธิภาพ TTC มากขึ้นเรื่อยๆ ช่องทางใหม่ๆ ก็เปิดขึ้นสำหรับบริษัทที่เชี่ยวชาญในโดเมนเฉพาะ นวัตกรรมที่มุ่งเน้นไปที่ อัลกอริทึมหลังการฝึกอบรมเฉพาะโดเมน (domain-specific post-training algorithms)—เช่น การพัฒนาเทคนิคการสร้างพรอมต์ที่มีโครงสร้าง (structured prompting) ที่ปรับให้เหมาะสมกับศัพท์เฉพาะของอุตสาหกรรมนั้นๆ, การสร้างกลยุทธ์การให้เหตุผลที่คำนึงถึงความหน่วง (latency-aware reasoning strategies) สำหรับแอปพลิเคชันแบบเรียลไทม์ หรือการออกแบบวิธีการสุ่มตัวอย่าง (sampling methods) ที่มีประสิทธิภาพสูงซึ่งปรับให้เหมาะกับข้อมูลประเภทเฉพาะ—อาจให้ข้อได้เปรียบด้านประสิทธิภาพอย่างมากภายในตลาดแนวตั้ง (vertical markets) ที่เป็นเป้าหมาย
ศักยภาพในการปรับให้เหมาะสมเฉพาะโดเมนนี้มีความเกี่ยวข้องอย่างยิ่งสำหรับโมเดลรุ่นใหม่ที่เน้นการให้เหตุผล เช่น GPT-4o ของ OpenAI หรือ R-series ของ DeepSeek ซึ่งแม้จะทรงพลัง แต่ก็มักแสดงความหน่วง (latency) ที่เห็นได้ชัดเจน บางครั้งใช้เวลาหลายวินาทีในการสร้างการตอบสนอง ในแอปพลิเคชันที่ต้องการปฏิสัมพันธ์เกือบเรียลไทม์ (เช่น บอทบริการลูกค้า, เครื่องมือวิเคราะห์ข้อมูลเชิงโต้ตอบ) การลดความหน่วงนี้และในขณะเดียวกันก็ปรับปรุงคุณภาพและความเกี่ยวข้องของผลลัพธ์ inference ภายในบริบทโดเมนเฉพาะ ถือเป็นตัวสร้างความแตกต่างทางการแข่งขันที่สำคัญ ด้วยเหตุนี้ บริษัทใน application layer ที่มีความเชี่ยวชาญแนวตั้งอย่างลึกซึ้งอาจพบว่าตนเองมีบทบาทสำคัญมากขึ้นเรื่อยๆ ไม่เพียงแต่ในการสร้างเวิร์กโฟลว์เท่านั้น แต่ยังรวมถึงการเพิ่มประสิทธิภาพ inference อย่างแข็งขันและปรับแต่งพฤติกรรมของโมเดลสำหรับกลุ่มเฉพาะของตน พวกเขากลายเป็นพันธมิตรที่ขาดไม่ได้ในการแปลพลัง AI ดิบให้เป็นมูลค่าทางธุรกิจที่จับต้องได้
การเกิดขึ้นของ DeepSeek เป็นตัวอย่างที่ชัดเจนของแนวโน้มที่กว้างขึ้น: การพึ่งพาขนาดที่แท้จริงในการ pre-training น้อยลงในฐานะเส้นทางพิเศษสู่คุณภาพโมเดลที่เหนือกว่า แต่ความสำเร็จของมันกลับตอกย้ำความสำคัญที่เพิ่มขึ้นของการเพิ่มประสิทธิภาพการคำนวณในระหว่างขั้นตอน inference—ยุคของ test-time compute แม้ว่าการนำโมเดลเฉพาะของ DeepSeek ไปใช้โดยตรงภายในซอฟต์แวร์ระดับองค์กรของตะวันตกอาจยังคงถูกจำกัดโดยการตรวจสอบด้านความปลอดภัยและภูมิรัฐศาสตร์อย่างต่อเนื่อง แต่อิทธิพลทางอ้อมของพวกเขาก็เริ่มปรากฏให้เห็นแล้ว เทคนิคและความเป็นไปได้ที่พวกเขาได้แสดงให้เห็นนั้น ไม่ต้องสงสัยเลยว่ากำลังกระตุ้นความพยายามด้านการวิจัยและวิศวกรรมภายในห้องปฏิบัติการ AI ที่จัดตั้งขึ้นแล้ว บังคับให้พวกเขารวมกลยุทธ์การเพิ่มประสิทธิภาพ TTC ที่คล้ายคลึงกันเพื่อเสริมข้อได้เปรียบที่มีอยู่เดิมในด้านขนาดและทรัพยากร แรงกดดันทางการแข่งขันนี้ ดังที่คาดการณ์ไว้ ดูเหมือนว่าจะพร้อมที่จะผลักดันต้นทุนที่มีประสิทธิภาพของการ inference โมเดลที่ซับซ้อนให้ลดลง ซึ่งสอดคล้องกับ Jevons Paradox มีแนวโน้มที่จะนำไปสู่การทดลองที่กว้างขวางขึ้นและการใช้งานความสามารถ AI ขั้นสูงโดยรวมที่เพิ่มขึ้นทั่วทั้งเศรษฐกิจดิจิทัล