โลกของปัญญาประดิษฐ์ในปัจจุบันเปรียบเสมือนเวทีแห่งความแตกต่างอย่างสุดขั้ว บนเวทีหนึ่ง เงินจำนวนมหาศาลกำลังถูกส่งไปยังบริษัทเทคโนโลยียักษ์ใหญ่ เติมเชื้อไฟให้กับความทะเยอทะยานในพลังการรับรู้ที่ไม่เคยมีมาก่อน และจุดประกายการถกเถียงเกี่ยวกับฟองสบู่การลงทุนที่อาจเกิดขึ้น การประเมินมูลค่าหลายพันล้านดอลลาร์กลายเป็นเรื่องปกติ พร้อมกับข่าวลือเรื่องรอบการระดมทุนที่แตะตัวเลขดาราศาสตร์ ทว่าบนเวทีคู่ขนานที่เงียบกว่า การปฏิวัติกำลังก่อตัวขึ้นในแวดวงวิชาการและชุมชนโอเพนซอร์ส ที่นี่ นักวิจัยกำลังแสดงให้เห็นถึงความเฉลียวฉลาดอันน่าทึ่ง สร้างโมเดล generative AI ที่มีความสามารถ ไม่ใช่ด้วยเงินหลายพันล้าน แต่บางครั้งด้วยเงินเพียงเล็กน้อย ท้าทายแนวคิดที่แพร่หลายว่าใหญ่กว่าย่อมดีกว่าเสมอไปในการแข่งขันเพื่อความเป็นใหญ่ด้านปัญญาประดิษฐ์
ความแตกต่างนี้กำลังเด่นชัดขึ้นเรื่อยๆ ลองพิจารณา OpenAI ผู้ทรงอิทธิพลเบื้องหลัง ChatGPT ซึ่งมีรายงานว่ากำลังแสวงหาการลงทุนเพิ่มเติมที่อาจผลักดันมูลค่าบริษัทให้สูงถึง 3 แสนล้านดอลลาร์ ตัวเลขดังกล่าว ควบคู่ไปกับการคาดการณ์รายได้ที่เพิ่มขึ้นอย่างรวดเร็ว วาดภาพของความมองโลกในแง่ดีอย่างไร้ขีดจำกัดและการเติบโตแบบก้าวกระโดด อย่างไรก็ตาม ในขณะเดียวกัน แรงสั่นสะเทือนแห่งความระมัดระวังก็กำลังเขย่ารากฐานของความอิ่มเอมใจใน AI นี้ หุ้นเทคโนโลยีที่เรียกว่า ‘Magnificent 7’ ซึ่งเป็นที่รักของตลาดมานาน ส่วนใหญ่เนื่องมาจากศักยภาพด้าน AI ได้ประสบกับช่วงเวลาที่ผลการดำเนินงานต่ำกว่าเป้าหมายอย่างมีนัยสำคัญ บ่งชี้ว่าความวิตกกังวลของนักลงทุนกำลังคืบคลานเข้ามา ความไม่สบายใจนี้ถูกขยายโดยคำเตือนจากผู้คร่ำหวอดในอุตสาหกรรม เช่น Joe Tsai ผู้ร่วมก่อตั้ง Alibaba ซึ่งเพิ่งชี้ให้เห็นถึงสัญญาณที่น่ากังวลของฟองสบู่ AI ที่อาจก่อตัวขึ้น โดยเฉพาะอย่างยิ่งในตลาดสหรัฐฯ ขนาดของการลงทุนที่ต้องการ โดยเฉพาะอย่างยิ่งสำหรับศูนย์ข้อมูลขนาดใหญ่ที่ขับเคลื่อนโมเดลที่ซับซ้อนเหล่านี้ กำลังถูกตรวจสอบอย่างเข้มข้น ระดับการใช้จ่ายในปัจจุบันยั่งยืนหรือไม่ หรือเป็นตัวบ่งชี้ถึงความกระตือรือร้นที่ไร้เหตุผลซึ่งตัดขาดจากความเป็นจริงในระยะใกล้?
เงาของฟองสบู่ AI ที่ปรากฏขึ้น
ความกังวลเกี่ยวกับฟองสบู่ AI ไม่ใช่แค่ความวิตกกังวลทางการเงินที่เป็นนามธรรมเท่านั้น แต่ยังสะท้อนถึงคำถามที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับจังหวะและทิศทางของการพัฒนา AI เอง เรื่องราวส่วนใหญ่ถูกครอบงำโดยผู้เล่นรายใหญ่เพียงไม่กี่รายที่ลงทุนหลายพันล้านเพื่อสร้าง Large Language Models (LLMs) ที่ใหญ่ขึ้นเรื่อยๆ สิ่งนี้ได้สร้างสภาพแวดล้อมที่ความเป็นผู้นำตลาดดูเหมือนจะขึ้นอยู่กับการมีกระเป๋าที่ลึกที่สุดและโครงสร้างพื้นฐานคอมพิวเตอร์ที่กว้างขวางที่สุด
- ความวิงเวียนจากการประเมินมูลค่า: มูลค่าที่เป็นไปได้ 3 แสนล้านดอลลาร์ของ OpenAI แม้จะสะท้อนถึงความเชื่อมั่นอย่างมหาศาลจากนักลงทุนบางราย แต่ก็ทำให้เกิดคำถามเช่นกัน ตัวเลขนี้สมเหตุสมผลกับความสามารถและกระแสรายได้ในปัจจุบันหรือไม่ หรือให้น้ำหนักอย่างมากกับการพัฒนาที่ก้าวหน้าในอนาคตซึ่งอาจไม่แน่นอน? การเปรียบเทียบทางประวัติศาสตร์กับช่วงบูมและช่วงตกต่ำของเทคโนโลยีก่อนหน้านี้ เช่น ยุคดอทคอม ย่อมผุดขึ้นมา กระตุ้นให้เกิดความระมัดระวัง
- การตรวจสอบการลงทุนโครงสร้างพื้นฐาน: เงินหลายพันล้านที่ทุ่มลงในศูนย์ข้อมูลเฉพาะสำหรับ AI และฮาร์ดแวร์พิเศษ เช่น GPUs ระดับไฮเอนด์ ถือเป็นค่าใช้จ่ายฝ่ายทุนมหาศาล คำเตือนของ Joe Tsai เน้นย้ำถึงความเสี่ยงที่เกี่ยวข้องกับการลงทุนล่วงหน้าจำนวนมหาศาลเช่นนี้ โดยเฉพาะอย่างยิ่งหากเส้นทางสู่การสร้างรายได้พิสูจน์ได้ว่ายาวนานหรือซับซ้อนกว่าที่คาดการณ์ไว้ ประสิทธิภาพและผลตอบแทนจากการลงทุนเหล่านี้กำลังกลายเป็นประเด็นสำคัญในการสนทนา
- สัญญาณตลาด: ผลการดำเนินงานที่ผันผวนของยักษ์ใหญ่ด้านเทคโนโลยีที่ลงทุนอย่างหนักใน AI บ่งชี้ถึงระดับความกังขาของตลาด แม้ว่าศักยภาพในระยะยาวยังคงเป็นแรงดึงดูดที่แข็งแกร่ง แต่ความผันผวนในระยะสั้นบ่งชี้ว่านักลงทุนกำลังประเมินความเสี่ยงอย่างแข็งขันและตั้งคำถามถึงความยั่งยืนของเส้นทางการเติบโตในปัจจุบัน ชะตากรรมของ IPO ที่กำลังจะเกิดขึ้นในพื้นที่ AI เช่น การเสนอขายที่คาดการณ์ไว้จาก CoreWeave ผู้เชี่ยวชาญด้านชิป AI กำลังถูกจับตามองอย่างใกล้ชิดในฐานะเครื่องวัดความเชื่อมั่นของตลาด มันจะจุดประกายความกระตือรือร้นอีกครั้งหรือยืนยันความกระวนกระวายใจที่ซ่อนอยู่?
- มิติทางภูมิรัฐศาสตร์: การแข่งขัน AI ยังมีนัยยะสำคัญทางภูมิรัฐศาสตร์ โดยเฉพาะอย่างยิ่งระหว่างสหรัฐฯ และจีน การใช้จ่ายมหาศาลในสหรัฐฯ ส่วนหนึ่งขับเคลื่อนโดยความปรารถนาที่จะรักษาความได้เปรียบในการแข่งขัน สิ่งนี้นำไปสู่การถกเถียงเชิงนโยบายที่ซับซ้อน รวมถึงการเรียกร้องให้มีการควบคุมการส่งออกเทคโนโลยีเซมิคอนดักเตอร์ขั้นสูงที่เข้มงวดขึ้นเพื่อชะลอความก้าวหน้าของจีน ในทางกลับกัน เงินทุนร่วมลงทุนยังคงไหลเข้าสู่สตาร์ทอัพ AI ของจีน บ่งชี้ถึงการแข่งขันระดับโลกที่ความสามารถทางเทคโนโลยีและกลยุทธ์ทางเศรษฐกิจเชื่อมโยงกันอย่างแน่นหนา
สภาพแวดล้อมที่มีเดิมพันสูงและใช้จ่ายสูงนี้เป็นเวทีสำหรับนวัตกรรมที่พลิกโฉมซึ่งท้าทายระเบียบที่เป็นอยู่ การเกิดขึ้นของทางเลือกที่ถูกกว่าอย่างมีนัยสำคัญบังคับให้มีการประเมินใหม่ว่าการคำนวณแบบ brute force และขนาดที่ใหญ่โตเป็นหนทางเดียวที่จะก้าวไปข้างหน้าหรือไม่
การอ้างสิทธิ์ที่พลิกโฉมของ DeepSeek และผลกระทบที่ตามมา
ท่ามกลางภูมิทัศน์ของการใช้จ่ายมหาศาลและความวิตกกังวลที่เพิ่มขึ้น DeepSeek ซึ่งเป็นหน่วยงานในจีนได้ก้าวเข้ามาพร้อมกับการอ้างสิทธิ์ที่น่าตกใจ: พวกเขาได้พัฒนาโมเดลภาษาขนาดใหญ่ R1 generative AI ด้วยเงินเพียง 6 ล้านดอลลาร์ ตัวเลขนี้ ซึ่งต่ำกว่าการลงทุนหลายพันล้านดอลลาร์ที่คาดการณ์ไว้โดยคู่แข่งชาวตะวันตกหลายเท่าตัว ได้ส่งแรงกระเพื่อมไปทั่วอุตสาหกรรมทันที
แม้ว่าจะยังคงมีความกังขาเกี่ยวกับการคำนวณ 6 ล้านดอลลาร์ – ตั้งคำถามว่ารวมและไม่รวมค่าใช้จ่ายใดบ้าง – ผลกระทบของการประกาศนั้นไม่อาจปฏิเสธได้ มันทำหน้าที่เป็นตัวเร่งปฏิกิริยาที่มีศักยภาพ บังคับให้มีการตรวจสอบโครงสร้างต้นทุนและวิธีการพัฒนาที่ใช้โดยผู้นำตลาดอย่างจริงจัง หากโมเดลที่มีความสามารถพอสมควรสามารถสร้างขึ้นได้ด้วยเงินหลายล้านแทนที่จะเป็นหลายพันล้าน นั่นหมายความว่าอย่างไรเกี่ยวกับประสิทธิภาพของแนวทางปัจจุบัน?
- ท้าทายเรื่องเล่า: การอ้างสิทธิ์ของ DeepSeek ไม่ว่าจะแม่นยำหรือไม่ก็ตาม ได้เจาะทะลุเรื่องเล่าที่แพร่หลายว่าการพัฒนา AI ที่ล้ำสมัยเป็นเพียงขอบเขตของบริษัทมูลค่าล้านล้านดอลลาร์ที่มีทรัพยากรไม่จำกัด มันแนะนำความเป็นไปได้ของภูมิทัศน์การพัฒนาที่เป็นประชาธิปไตยมากขึ้น
- กระตุ้นการตรวจสอบ: มันทวีความรุนแรงของการตรวจสอบที่มุ่งเน้นไปที่ค่าใช้จ่ายมหาศาลของบริษัทต่างๆ เช่น OpenAI ที่ได้รับการสนับสนุนจาก Microsoft นักลงทุน นักวิเคราะห์ และคู่แข่งเริ่มตั้งคำถามที่ยากขึ้นเกี่ยวกับการจัดสรรทรัพยากรและผลตอบแทนจากการลงทุนสำหรับโครงการที่ต้องใช้เงินทุนสูงเหล่านี้
- เสียงสะท้อนทางภูมิรัฐศาสตร์: การอ้างสิทธิ์ดังกล่าวยังสะท้อนก้องอยู่ในบริบทของการแข่งขันทางเทคโนโลยีระหว่างสหรัฐฯ และจีน มันชี้ให้เห็นว่าอาจมีเส้นทางทางเลือกที่อาจมีประสิทธิภาพด้านทรัพยากรมากกว่าสู่ความสามารถด้าน AI เพิ่มความซับซ้อนอีกชั้นให้กับการสนทนาเกี่ยวกับความเป็นผู้นำทางเทคโนโลยีและการแข่งขันเชิงกลยุทธ์ สิ่งนี้กระตุ้นให้เกิดการถกเถียงเพิ่มเติมเกี่ยวกับนโยบายต่างๆ เช่น การคว่ำบาตรชิป ขณะเดียวกันก็สนับสนุนให้นักลงทุนร่วมลงทุนพิจารณาผู้เล่นหน้าใหม่ในจีนอย่างใกล้ชิดซึ่งอาจมีรูปแบบการพัฒนาที่ประหยัดกว่า
แม้จะมีความกังขา การเปิดตัว DeepSeek R1 โดยเฉพาะอย่างยิ่งส่วนประกอบการวิจัยแบบเปิดที่มาพร้อมกัน ได้ให้ข้อมูลเชิงลึกที่สำคัญซึ่งจะเป็นแรงบันดาลใจให้ผู้อื่น ไม่ใช่แค่ต้นทุนที่อ้าง แต่เป็นวิธีการที่เป็นไปได้ที่บอกเป็นนัย ซึ่งจุดประกายความอยากรู้อยากเห็นและนวัตกรรมที่อื่น โดยเฉพาะอย่างยิ่งในห้องปฏิบัติการทางวิชาการที่ดำเนินงานภายใต้ข้อจำกัดทางการเงินที่แตกต่างกันอย่างมาก
การผงาดขึ้นของ AI ต้นทุนต่ำพิเศษ: การปฏิวัติในมหาวิทยาลัย
ในขณะที่บริษัทยักษ์ใหญ่ต่อสู้กับงบประมาณหลายพันล้านดอลลาร์และแรงกดดันจากตลาด การปฏิวัติ AI อีกรูปแบบหนึ่งกำลังก่อตัวขึ้นอย่างเงียบๆ ในห้องโถงของสถาบันการศึกษา นักวิจัย ซึ่งไม่ถูกผูกมัดด้วยความต้องการเชิงพาณิชย์ในทันที แต่ถูกจำกัดอย่างรุนแรงด้วยเงินทุน เริ่มสำรวจวิธีที่จะจำลอง หลักการ เบื้องหลัง AI ขั้นสูง หากไม่ใช่ขนาดที่แท้จริง โดยใช้ทรัพยากรน้อยที่สุด ตัวอย่างสำคัญเกิดขึ้นจาก University of California, Berkeley
ทีมงานที่ Berkeley ซึ่งสนใจความก้าวหน้าล่าสุดแต่ขาดเงินทุนมหาศาลของห้องปฏิบัติการอุตสาหกรรม ได้เริ่มโครงการที่เรียกว่า TinyZero เป้าหมายของพวกเขาทะเยอทะยาน: พวกเขาสามารถแสดงพฤติกรรม AI ที่ซับซ้อน โดยเฉพาะอย่างยิ่งประเภทของการให้เหตุผลที่ช่วยให้โมเดล ‘คิด’ ก่อนตอบ โดยใช้โมเดลและงบประมาณที่ลดขนาดลงอย่างมากได้หรือไม่? คำตอบพิสูจน์แล้วว่าเป็นใช่ที่ดังก้อง พวกเขาประสบความสำเร็จในการจำลองแง่มุมหลักของกระบวนทัศน์การให้เหตุผลที่สำรวจโดยทั้ง OpenAI และ DeepSeek ด้วยต้นทุนที่ต่ำอย่างน่าประหลาดใจ – ประมาณ 30 ดอลลาร์
สิ่งนี้ไม่ได้เกิดขึ้นจากการสร้างคู่แข่งโดยตรงกับ GPT-4 แต่โดยการลดความซับซ้อนของทั้งโมเดลและงานอย่างชาญฉลาด
- การทดลอง 30 ดอลลาร์: ตัวเลขนี้ส่วนใหญ่แสดงถึงค่าใช้จ่ายในการเช่า Nvidia H200 GPUs สองตัวบนแพลตฟอร์มคลาวด์สาธารณะสำหรับเวลาการฝึกอบรมที่จำเป็น มันแสดงให้เห็นถึงศักยภาพของการใช้ประโยชน์จากโครงสร้างพื้นฐานคลาวด์ที่มีอยู่สำหรับการวิจัยที่ล้ำสมัยโดยไม่ต้องลงทุนฮาร์ดแวร์ล่วงหน้าจำนวนมหาศาล
- การปรับขนาดโมเดล: โครงการ TinyZero ใช้โมเดล ‘3B’ ซึ่งหมายถึงพารามิเตอร์ประมาณสามพันล้านพารามิเตอร์ ซึ่งเล็กกว่า LLMs ที่ใหญ่ที่สุดอย่างมีนัยสำคัญ ซึ่งสามารถมีพารามิเตอร์หลายแสนล้านหรือแม้กระทั่งล้านล้านพารามิเตอร์ ข้อมูลเชิงลึกที่สำคัญคือพฤติกรรมที่ซับซ้อนอาจเกิดขึ้นได้แม้ในโมเดลขนาดเล็กหากงานได้รับการออกแบบอย่างเหมาะสม
- แรงบันดาลใจจากยักษ์ใหญ่และผู้ท้าทาย: Jiayi Pan ผู้นำโครงการ TinyZero ตั้งข้อสังเกตว่าความก้าวหน้าจาก OpenAI โดยเฉพาะแนวคิดเกี่ยวกับโมเดลที่ใช้เวลาประมวลผลมากขึ้นก่อนตอบ เป็นแรงบันดาลใจสำคัญ อย่างไรก็ตาม การวิจัยแบบเปิดของ DeepSeek R1 เป็นสิ่งที่ให้พิมพ์เขียวที่เป็นไปได้สำหรับ วิธี ที่จะบรรลุความสามารถในการให้เหตุผลที่ดีขึ้นนี้ แม้ว่าต้นทุนการฝึกอบรม 6 ล้านดอลลาร์ที่รายงานของ DeepSeek จะยังคงเกินเอื้อมของทีมมหาวิทยาลัยก็ตาม
ทีม Berkeley ตั้งสมมติฐานว่าโดยการลดทั้งขนาดโมเดลและความซับซ้อนของปัญหาที่ต้องแก้ไข พวกเขายังคงสามารถสังเกต ‘พฤติกรรมการให้เหตุผลที่เกิดขึ้นใหม่’ ที่ต้องการได้ แนวทางแบบลดทอนนี้เป็นกุญแจสำคัญในการลดต้นทุนลงอย่างมากในขณะที่ยังคงเปิดใช้งานการสังเกตทางวิทยาศาสตร์ที่มีค่า
ถอดรหัส ‘ช่วงเวลาแห่งความเข้าใจ’: การให้เหตุผลด้วยงบประมาณจำกัด
ความสำเร็จหลักของโครงการ TinyZero และโครงการริเริ่มต้นทุนต่ำที่คล้ายคลึงกัน อยู่ที่การแสดงให้เห็นถึงสิ่งที่นักวิจัยมักเรียกว่า ‘ช่วงเวลาแห่งความเข้าใจ’ (Aha moment) – จุดที่โมเดล AI เริ่มแสดงความสามารถในการให้เหตุผลและการแก้ปัญหาอย่างแท้จริง แทนที่จะเป็นเพียงการจับคู่รูปแบบหรือการดึงข้อมูลที่เก็บไว้ พฤติกรรมที่เกิดขึ้นใหม่นี้เป็นเป้าหมายสำคัญสำหรับนักพัฒนาแม้กระทั่งโมเดลที่ใหญ่ที่สุด
เพื่อทดสอบสมมติฐานและกระตุ้นพฤติกรรมนี้ในระดับเล็ก ทีม Berkeley ได้ใช้งานเฉพาะเจาะจงที่ถูกจำกัด: เกมคณิตศาสตร์ที่เรียกว่า ‘Countdown’
- เกม Countdown: เกมนี้ต้องการให้ AI ไปถึงหมายเลขเป้าหมายโดยใช้ชุดตัวเลขเริ่มต้นที่กำหนดและการดำเนินการทางคณิตศาสตร์พื้นฐาน (บวก ลบ คูณ หาร) ที่สำคัญ ความสำเร็จใน Countdown อาศัยการให้เหตุผลเชิงกลยุทธ์และการวางแผนอย่างมาก – การสำรวจการผสมผสานและลำดับของการดำเนินการที่แตกต่างกัน – มากกว่าการระลึกถึงความรู้ทางคณิตศาสตร์ที่มีอยู่เดิมจำนวนมหาศาล
- การเรียนรู้ผ่านการเล่น: ในตอนแรก โมเดล TinyZero เข้าหาเกมแบบสุ่ม ลองผสมผสานเกือบตามอำเภอใจ อย่างไรก็ตาม ผ่านกระบวนการ reinforcement learning (การเรียนรู้จากการลองผิดลองถูกและรางวัล) มันเริ่มแยกแยะรูปแบบและกลยุทธ์ มันเรียนรู้ที่จะปรับแนวทาง ละทิ้งเส้นทางที่ไม่มีประสิทธิภาพ และเข้าใกล้โซลูชันที่ถูกต้องได้เร็วขึ้น โดยพื้นฐานแล้วมันเรียนรู้ วิธี ที่จะให้เหตุผลภายในกฎที่กำหนดของเกม
- การตรวจสอบตนเองเกิดขึ้น: ที่สำคัญ โมเดลที่ผ่านการฝึกอบรมเริ่มแสดงสัญญาณของการตรวจสอบตนเอง – การประเมินขั้นตอนกลางและโซลูชันที่เป็นไปได้ของตนเองเพื่อพิจารณาว่ากำลังนำไปสู่หมายเลขเป้าหมายหรือไม่ ความสามารถในการประเมินและแก้ไขเส้นทางภายในนี้เป็นจุดเด่นของการให้เหตุผลขั้นสูง
ดังที่ Jiayi Pan อธิบายว่า “เราแสดงให้เห็นว่าด้วยโมเดลขนาดเล็กเพียง 3B มันสามารถเรียนรู้ที่จะให้เหตุผลเกี่ยวกับปัญหาง่ายๆ และเริ่มเรียนรู้ที่จะตรวจสอบตนเองและค้นหาโซลูชันที่ดีขึ้น” สิ่งนี้แสดงให้เห็นว่ากลไกพื้นฐานที่อยู่เบื้องหลังการให้เหตุผลและ ‘ช่วงเวลาแห่งความเข้าใจ’ ซึ่งก่อนหน้านี้เกี่ยวข้องกับโมเดลขนาดใหญ่และมีราคาแพงเป็นหลัก สามารถจำลองและศึกษาได้ในสภาพแวดล้อมที่มีทรัพยากรจำกัดอย่างมาก ความสำเร็จของ TinyZero พิสูจน์ให้เห็นว่าแนวคิด AI ชายขอบไม่ได้เป็นเพียงขอบเขตของยักษ์ใหญ่ด้านเทคโนโลยีเท่านั้น แต่สามารถเข้าถึงได้โดยนักวิจัย วิศวกร และแม้แต่งานอดิเรกที่มีงบประมาณจำกัด ส่งเสริมระบบนิเวศที่ครอบคลุมมากขึ้นสำหรับการสำรวจ AI การตัดสินใจของทีมที่จะแบ่งปันผลการค้นพบอย่างเปิดเผย โดยเฉพาะอย่างยิ่งผ่านแพลตฟอร์มเช่น GitHub ทำให้ผู้อื่นสามารถจำลองการทดลองและสัมผัสกับ ‘ช่วงเวลาแห่งความเข้าใจ’ นี้ได้โดยตรงด้วยต้นทุนที่น้อยกว่าค่าพิซซ่าไม่กี่ถาด
Stanford เข้าร่วมวง: การตรวจสอบการเรียนรู้ต้นทุนต่ำ
แรงกระเพื่อมที่เกิดจาก TinyZero แพร่กระจายอย่างรวดเร็วผ่านชุมชน AI เชิงวิชาการ นักวิจัยที่ Stanford University ซึ่งได้สำรวจแนวคิดที่คล้ายคลึงกันอยู่แล้วและเคยแนะนำเกม Countdown เป็นงานวิจัยก่อนหน้านี้ พบว่างานของทีม Berkeley มีความเกี่ยวข้องอย่างยิ่งและเป็นการยืนยัน
นำโดย Kanishk Gandhi ทีม Stanford กำลังเจาะลึกคำถามพื้นฐานที่เกี่ยวข้อง: เหตุใด LLMs บางตัวจึงแสดงการปรับปรุงความสามารถในการให้เหตุผลอย่างรวดเร็ว เกือบจะฉับพลัน ในระหว่างการฝึกอบรม ในขณะที่ตัวอื่นๆ ดูเหมือนจะคงที่? การทำความเข้าใจกลไกพื้นฐานที่ขับเคลื่อนการก้าวกระโดดของความสามารถเหล่านี้มีความสำคัญอย่างยิ่งต่อการสร้าง AI ที่มีประสิทธิภาพและเชื่อถือได้มากขึ้น
- ต่อยอดบนพื้นฐานร่วมกัน: Gandhi ยอมรับคุณค่าของ TinyZero โดยระบุว่ามัน ‘ยอดเยี่ยม’ ส่วนหนึ่งเป็นเพราะมันประสบความสำเร็จในการใช้งาน Countdown ที่ทีมของเขากำลังศึกษาอยู่ การบรรจบกันนี้ช่วยให้สามารถตรวจสอบและทำซ้ำแนวคิดได้เร็วขึ้นในกลุ่มวิจัยต่างๆ
- การเอาชนะอุปสรรคทางวิศวกรรม: นักวิจัยของ Stanford ยังเน้นย้ำว่าความคืบหน้าของพวกเขาเคยถูกขัดขวางโดยความท้าทายทางวิศวกรรมมาก่อน ความพร้อมใช้งานของเครื่องมือโอเพนซอร์สกลายเป็นเครื่องมือสำคัญในการเอาชนะอุปสรรคเหล่านี้
- พลังของเครื่องมือโอเพนซอร์ส: โดยเฉพาะอย่างยิ่ง Gandhi ให้เครดิตระบบ Volcano Engine Reinforcement Learning (VERL) ซึ่งเป็นโครงการโอเพนซอร์สที่พัฒนาโดย ByteDance (บริษัทแม่ของ TikTok) ว่า ‘จำเป็นสำหรับการทดลองของเรา’ การสอดคล้องกันระหว่างความสามารถของ VERL และความต้องการในการทดลองของทีม Stanford ช่วยเร่งวงจรการวิจัยของพวกเขาได้อย่างมีนัยสำคัญ
การพึ่งพาส่วนประกอบโอเพนซอร์สนี้เน้นย้ำถึงแง่มุมที่สำคัญของการเคลื่อนไหว AI ต้นทุนต่ำ ความก้าวหน้ามักสร้างขึ้นจากการทำงานร่วมกัน โดยใช้ประโยชน์จากเครื่องมือและข้อมูลเชิงลึกที่แบ่งปันกันอย่างอิสระภายในชุมชน Gandhi ยังให้ความเห็นเพิ่มเติมว่าความก้าวหน้าทางวิทยาศาสตร์ที่สำคัญในการทำความเข้าใจการให้เหตุผลและความฉลาดของ LLM อาจไม่จำเป็นต้องมาจากห้องปฏิบัติการอุตสาหกรรมขนาดใหญ่ที่มีทุนสนับสนุนดีอีกต่อไป เขาแย้งว่า ‘ความเข้าใจทางวิทยาศาสตร์เกี่ยวกับ LLMs ในปัจจุบันยังขาดหายไป แม้แต่ในห้องปฏิบัติการขนาดใหญ่’ ทำให้มีพื้นที่สำคัญสำหรับการมีส่วนร่วมจาก ‘DIY AI, โอเพนซอร์ส และสถาบันการศึกษา’ โครงการขนาดเล็กและคล่องตัวเหล่านี้สามารถสำรวจปรากฏการณ์เฉพาะในเชิงลึก สร้างข้อมูลเชิงลึกที่เป็นประโยชน์ต่อทั้งสาขา
ฮีโร่ที่ไม่มีใครร้องเพลงถึง: รากฐานโอเพนซอร์ส
ความสำเร็จอันน่าทึ่งของโครงการต่างๆ เช่น TinyZero ซึ่งแสดงให้เห็นพฤติกรรม AI ที่ซับซ้อนด้วยเงินหลายสิบดอลลาร์ อาศัยองค์ประกอบสำคัญที่มักถูกประเมินค่าต่ำไปอย่างมาก นั่นคือ ระบบนิเวศอันกว้างใหญ่ของโมเดลและเครื่องมือ AI แบบโอเพนซอร์สและโอเพนเวท (open-weight) แม้ว่าต้นทุนส่วนเพิ่มของการทดลองเฉพาะอาจต่ำ แต่ก็สร้างขึ้นบนรากฐานที่มักแสดงถึงการลงทุนก่อนหน้านี้หลายล้าน หรืออาจถึงหลายพันล้านดอลลาร์
Nina Singer นักวิทยาศาสตร์ข้อมูลการเรียนรู้ของเครื่องอาวุโสที่บริษัทที่ปรึกษาด้าน AI ชื่อ OneSix ให้บริบทที่สำคัญ เธอชี้ให้เห็นว่าต้นทุนการฝึกอบรม 30 ดอลลาร์ของ TinyZero แม้จะแม่นยำสำหรับงานเฉพาะที่ดำเนินการโดยทีม Berkeley แต่ก็ไม่ได้คำนึงถึงต้นทุนการพัฒนาเริ่มต้นของโมเดลพื้นฐานที่ใช้
- สร้างบนไหล่ของยักษ์ใหญ่: การฝึกอบรมของ TinyZero ไม่เพียงแต่ใช้ประโยชน์จากระบบ VERL ของ ByteDance เท่านั้น แต่ยังรวมถึง Qwen ของ Alibaba Cloud ซึ่งเป็น LLM แบบโอเพนซอร์สด้วย Alibaba ลงทุนทรัพยากรจำนวนมาก – น่าจะหลายล้าน – ในการพัฒนา Qwen ก่อนที่จะเผยแพร่ ‘weights’ (พารามิเตอร์ที่เรียนรู้ซึ่งกำหนดความสามารถของโมเดล) สู่สาธารณะ
- คุณค่าของ Open Weights: Singer เน้นย้ำว่านี่ไม่ใช่การวิจารณ์ TinyZero แต่เป็นการเน้นย้ำถึงคุณค่าและความสำคัญอันยิ่งใหญ่ของโมเดล open-weight โดยการเผยแพร่พารามิเตอร์โมเดล แม้ว่าชุดข้อมูลเต็มและสถาปัตยกรรมการฝึกอบรมจะยังคงเป็นกรรมสิทธิ์ บริษัทต่างๆ เช่น Alibaba ช่วยให้นักวิจัยและหน่วยงานขนาดเล็กสามารถต่อยอดงานของตน ทดลอง และสร้างสรรค์สิ่งใหม่ๆ ได้โดยไม่จำเป็นต้องทำซ้ำกระบวนการฝึกอบรมเริ่มต้นที่มีค่าใช้จ่ายสูงตั้งแต่ต้น
- การทำให้ Fine-Tuning เป็นประชาธิปไตย: แนวทางแบบเปิดนี้ส่งเสริมสาขาที่กำลังเติบโตของ ‘fine-tuning’ ซึ่งโมเดล AI ขนาดเล็กได้รับการปรับหรือเชี่ยวชาญสำหรับงานเฉพาะ ดังที่ Singer ตั้งข้อสังเกต โมเดลที่ปรับแต่งอย่างละเอียดเหล่านี้มักจะ ‘สามารถเทียบเคียงกับโมเดลที่ใหญ่กว่ามากด้วยขนาดและต้นทุนเพียงเศษเสี้ยว’ สำหรับวัตถุประสงค์ที่กำหนดไว้ มีตัวอย่างมากมาย เช่น Sky-T1 ที่ให้ผู้ใช้สามารถฝึกอบรมโมเดลขั้นสูงเวอร์ชันของตนเองได้ในราคาประมาณ 450 ดอลลาร์ หรือ Qwen ของ Alibaba เอง ที่ช่วยให้สามารถปรับแต่งอย่างละเอียดได้ในราคาเพียง 6 ดอลลาร์
การพึ่งพารากฐานแบบเปิดนี้สร้างระบบนิเวศแบบไดนามิกที่นวัตกรรมสามารถเกิดขึ้นได้หลายระดับ องค์กรขนาดใหญ่ลงทุนอย่างหนักในการสร้างโมเดลพื้นฐานที่ทรงพลัง ในขณะที่ชุมชนที่กว้างขึ้นใช้ประโยชน์จากสินทรัพย์เหล่านี้เพื่อสำรวจแอปพลิเคชันใหม่ๆ ทำการวิจัย และพัฒนาโซลูชันเฉพาะทางอย่างประหยัดมากขึ้น ความสัมพันธ์แบบพึ่งพาอาศัยกันนี้กำลังขับเคลื่อนความก้าวหน้าอย่างรวดเร็วและการทำให้เป็นประชาธิปไตยในสาขานี้
ท้าทายกระบวนทัศน์ ‘ใหญ่กว่าย่อมดีกว่า’
เรื่องราวความสำเร็จที่เกิดขึ้นจากโครงการต่างๆ เช่น TinyZero และแนวโน้มที่กว้างขึ้นของการปรับแต่งอย่างละเอียด (fine-tuning) ที่มีประสิทธิภาพและต้นทุนต่ำ กำลังท้าทายความเชื่อที่มีมานานในอุตสาหกรรมว่าความก้าวหน้าใน AI เป็นเพียงฟังก์ชันของขนาดเท่านั้น – ข้อมูลมากขึ้น พารามิเตอร์มากขึ้น พลังการประมวลผลมากขึ้น
หนึ่งในนัยยะที่ลึกซึ้งที่สุด ดังที่ Nina Singer เน้นย้ำคือ คุณภาพของข้อมูลและการฝึกอบรมเฉพาะงานมักมีความสำคัญมากกว่าขนาดของโมเดล การทดลอง TinyZero แสดงให้เห็นว่าแม้แต่โมเดลที่ค่อนข้างเล็ก (3 พันล้านพารามิเตอร์) ก็สามารถเรียนรู้พฤติกรรมที่ซับซ้อน เช่น การแก้ไขตนเองและการปรับปรุงซ้ำๆ เมื่อได้รับการฝึกอบรมอย่างมีประสิทธิภาพในงานที่กำหนดไว้อย่างดี
- ผลตอบแทนที่ลดลงจากขนาด?: การค้นพบนี้ตั้งคำถามโดยตรงกับข้อสันนิษฐานที่ว่ามีเพียงโมเดลขนาดใหญ่ เช่น ซีรีส์ GPT ของ OpenAI หรือ Claude ของ Anthropic ที่มีพารามิเตอร์หลายแสนล้านหรือล้านล้านเท่านั้นที่สามารถเรียนรู้ที่ซับซ้อนเช่นนี้ได้ Singer แนะนำว่า “โครงการนี้ชี้ให้เห็นว่าเราอาจข้ามเกณฑ์ที่พารามิเตอร์เพิ่มเติมให้ผลตอบแทนที่ลดลงแล้ว — อย่างน้อยก็สำหรับงานบางอย่าง” ในขณะที่โมเดลขนาดใหญ่อาจยังคงมีความได้เปรียบในด้านความทั่วไปและความกว้างของความรู้ สำหรับแอปพลิเคชันเฉพาะ โมเดลขนาดใหญ่พิเศษอาจเป็นการสิ้นเปลืองเกินความจำเป็น ทั้งในแง่ของต้นทุนและข้อกำหนดด้านการคำนวณ
- การเปลี่ยนไปสู่ประสิทธิภาพและความเฉพาะเจาะจง: ภูมิทัศน์ AI อาจกำลังอยู่ระหว่างการเปลี่ยนแปลงที่ละเอียดอ่อนแต่มีความสำคัญ แทนที่จะมุ่งเน้นเฉพาะการสร้างโมเดลพื้นฐานที่ใหญ่ขึ้นเรื่อยๆ ความสนใจที่เพิ่มขึ้นกำลังมุ่งไปที่ประสิทธิภาพ การเข้าถึงได้ และความฉลาดที่ตรงเป้าหมาย การสร้างโมเดลขนาดเล็กที่ปรับให้เหมาะสมอย่างยิ่งสำหรับโดเมนหรืองานเฉพาะกำลังพิสูจน์ให้เห็นว่าเป็นทางเลือกที่เป็นไปได้และน่าสนใจทางเศรษฐกิจ
- แรงกดดันต่อโมเดลปิด: ความสามารถที่เพิ่มขึ้นและความพร้อมใช้งานของโมเดล open-weight และเทคนิคการปรับแต่งอย่างละเอียดต้นทุนต่ำสร้างแรงกดดันทางการแข่งขันต่อบริษัทที่เสนอความสามารถ AI ของตนเป็นหลักผ่าน APIs (Application Programming Interfaces) ที่จำกัด ดังที่ Singer ตั้งข้อสังเกต บริษัทต่างๆ เช่น OpenAI และ Anthropic อาจต้องพิสูจน์คุณค่าของระบบนิเวศปิดของตนมากขึ้น โดยเฉพาะอย่างยิ่ง “เมื่อทางเลือกแบบเปิดเริ่มเทียบเท่าหรือเกินความสามารถของตนในโดเมนเฉพาะ”
นี่ไม่ได้หมายความว่าจุดสิ้นสุดของโมเดลพื้นฐานขนาดใหญ่ ซึ่งน่าจะยังคงทำหน้าที่เป็นจุดเริ่มต้นที่สำคัญต่อไป อย่างไรก็ตาม มันชี้ให้เห็นถึงอนาคตที่ระบบนิเวศ AI มีความหลากหลายมากขึ้นอย่างมาก โดยมีการผสมผสานระหว่างโมเดลทั่วไปขนาดใหญ่และการแพร่กระจายของโมเดลขนาดเล็ก เฉพาะทาง และมีประสิทธิภาพสูงที่ปรับให้เหมาะกับความต้องการเฉพาะ
คลื่นแห่งการทำให้เป็นประชาธิปไตย: AI สำหรับคนจำนวนมากขึ้น?
การบรรจบกันของการประมวลผลแบบคลาวด์ที่เข้าถึงได้ เครื่องมือโอเพนซอร์สที่ทรงพลัง และประสิทธิภาพที่พิสูจน์แล้วของโมเดลขนาดเล็กที่ปรับแต่งอย่างละเอียด (fine-tuned) กำลังเติมเชื้อเพลิงให้กับคลื่นแห่งการทำให้เป็นประชาธิปไตย (democratization) ทั่วทั้งภูมิทัศน์ AI สิ่งที่เคยเป็นขอบเขตเฉพาะของห้องปฏิบัติการวิจัยชั้นนำและบริษัทเทคโนโลยีที่มีงบประมาณหลายพันล้านดอลลาร์กำลังกลายเป็นสิ่งที่เข้าถึงได้มากขึ้นสำหรับผู้มีบทบาทที่หลากหลายขึ้น
บุคคล นักวิจัยเชิงวิชาการ สตาร์ทอัพ และบริษัทขนาดเล็กกำลังพบว่าพวกเขาสามารถมีส่วนร่วมอย่างมีความหมายกับแนวคิดและการพัฒนา AI ขั้นสูงได้โดยไม่ต้องลงทุนโครงสร้างพื้นฐานที่สูงเกินไป
- ลดอุปสรรคในการเข้า: ความสามารถในการปรับแต่งโมเดลที่มีความสามารถด้วยเงินหลายร้อยหรือแม้แต่หลายสิบดอลลาร์ โดยสร้างบนรากฐาน open-weight ช่วยลดอุปสรรคในการเข้าสู่การทดลองและการพัฒนาแอปพลิเคชันลงอย่างมาก
- ส่งเสริมนวัตกรรม: การเข้าถึงได้นี้กระตุ้นให้กลุ่มผู้มีความสามารถที่กว้างขึ้นเข้ามามีส่วนร่วมในสาขานี้ นักวิจัยสามารถทดสอบแนวคิดใหม่ๆ ได้ง่ายขึ้น ผู้ประกอบการสามารถพัฒนาโซลูชัน AI เฉพาะทางได้อย่างประหยัดมากขึ้น และผู้ที่ทำงานอดิเรกสามารถสำรวจเทคโนโลยีล้ำสมัยได้โดยตรง
- การปรับปรุงที่ขับเคลื่อนโดยชุมชน: ความสำเร็จของความพยายามที่ขับเคลื่อนโดยชุมชนในการปรับปรุงและเชี่ยวชาญโมเดล open-weight แสดงให้เห็นถึงพลังของการพัฒนาร่วมกัน ความฉลาดร่วมนี้บางครั้งสามารถก้าวล้ำวงจรการทำซ้ำภายในสภาพแวดล้อมขององค์กรที่ปิดกั้นมากขึ้นสำหรับงานเฉพาะ
- อนาคตแบบผสมผสาน?: วิถีที่เป็นไปได้ชี้ไปที่ระบบนิเวศแบบผสมผสาน โมเดลพื้นฐานขนาดยักษ์จะยังคงผลักดันขอบเขตความสามารถของ AI อย่างแท้จริง โดยทำหน้าที่เป็นแพลตฟอร์ม ในขณะเดียวกัน ระบบนิเวศที่มีชีวิตชีวาของโมเดลเฉพาะทาง ซึ่งปรับแต่งอย่างละเอียดโดยชุมชนที่หลากหลาย จะขับเคลื่อนนวัตกรรมในแอปพลิเคชันและอุตสาหกรรมเฉพาะ
การทำให้เป็นประชาธิปไตยนี้ไม่ได้ขจัดความจำเป็นในการลงทุนจำนวนมาก โดยเฉพาะอย่างยิ่งในการสร้างโมเดลพื้นฐานรุ่นต่อไป อย่างไรก็ตาม มันเปลี่ยนแปลงพลวัตของนวัตกรรมและการแข่งขันโดยพื้นฐาน ความสามารถในการบรรลุผลลัพธ์ที่น่าทึ่งด้วยงบประมาณจำกัด ดังตัวอย่างจากโครงการ TinyZero และการเคลื่อนไหวการปรับแต่งอย่างละเอียดที่กว้างขึ้น ส่งสัญญาณถึงการเปลี่ยนแปลงไปสู่อนาคตที่เข้าถึงได้ง่ายขึ้น มีประสิทธิภาพมากขึ้น และอาจมีความหลากหลายมากขึ้นสำหรับการพัฒนาปัญญาประดิษฐ์ ‘ช่วงเวลาแห่งความเข้าใจ’ ของการให้เหตุผลไม่ได้จำกัดอยู่เพียงในป้อมปราการซิลิคอนอีกต่อไป มันกำลังกลายเป็นประสบการณ์ที่เข้าถึงได้ด้วยต้นทุนที่น้อยกว่าค่าอาหารค่ำ จุดประกายความคิดสร้างสรรค์และผลักดันขอบเขตของสิ่งที่เป็นไปได้จากรากฐาน