การเกิดขึ้นของแนวคิด Agent
ในช่วงไม่กี่ปีที่ผ่านมา ตลาดให้ความสนใจในด้าน Agent (ตัวแทนอัจฉริยะ) อย่างที่ไม่เคยมีมาก่อน เนื่องจากการเปิดตัวเซิร์ฟเวอร์ GitHub MCP โดย Microsoft, การประกาศใช้โปรโตคอลการสื่อสารระหว่าง Agent อัจฉริยะ A2A โดย Google และการเปิดตัวเซิร์ฟเวอร์ MCP โดย Alipay แม้ว่าในปัจจุบันจะยังไม่มีข้อตกลงที่เป็นเอกฉันท์เกี่ยวกับคำจำกัดความของ Agent อย่างสมบูรณ์ แต่สามองค์ประกอบหลักที่เสนอโดย Lilian Weng อดีตนักวิจัยของ OpenAI ได้แก่ “การวางแผน” “ความทรงจำ” และ “การใช้เครื่องมือ” ได้รับการยอมรับอย่างกว้างขวางและกลายเป็นองค์ประกอบสำคัญในการทำความเข้าใจ Agent
ในด้านปัญญาประดิษฐ์ แนวคิดของ Agent ไม่ใช่เรื่องใหม่ แต่ด้วยการพัฒนาอย่างรวดเร็วของแบบจำลองภาษาขนาดใหญ่ (LLM) อนาคตของการประยุกต์ใช้ Agent ได้มาถึงจุดเปลี่ยนครั้งใหม่ Agent สามารถมองได้ว่าเป็นระบบอัจฉริยะที่สามารถรับรู้สภาพแวดล้อม วางแผนและดำเนินงานด้วยตนเอง ซึ่งหัวใจสำคัญคือความสามารถในการจำลองกระบวนการตัดสินใจของมนุษย์ และใช้เครื่องมือและทรัพยากรต่างๆ เพื่อให้บรรลุเป้าหมายที่กำหนดไว้
สถานะปัจจุบันของการพัฒนา Agent: ศักยภาพมหาศาล อัตราการแทรกซึมที่ต้องปรับปรุง
ในฐานะวิวัฒนาการของแชทบอท แอปพลิเคชัน Agent ในปัจจุบันส่วนใหญ่ถูกรวมเข้ากับบริการแบบชำระเงินของแบบจำลองขนาดใหญ่ มีเพียง Agent จำนวนน้อยเท่านั้น เช่น Manus และ Devin ที่ให้บริการแบบชำระเงินแยกต่างหาก อย่างไรก็ตาม Agent ที่มีความสามารถในการวางแผนตนเองเช่น Deep Research และ Manus ยังมีข้อจำกัดมากมายในการใช้งาน และจำนวนผู้ใช้ที่สามารถสัมผัสประสบการณ์จริงอาจมีไม่มากนัก และยังต้องมีการปรับปรุงอีกมากก่อนที่จะมีแอปพลิเคชัน “ยอดนิยม” เกิดขึ้น
อย่างไรก็ตาม ด้วยความสามารถในการให้เหตุผลของแบบจำลองขนาดใหญ่ที่เพิ่มขึ้นอย่างต่อเนื่อง Agent กำลังค่อยๆ กลายเป็นจุดสนใจของนวัตกรรมแอปพลิเคชัน นักพัฒนาและนักวิจัยจำนวนมากขึ้นเริ่มสำรวจการประยุกต์ใช้ Agent ในด้านต่างๆ เช่น ผู้ช่วยอัจฉริยะ กระบวนการอัตโนมัติ การวิเคราะห์ข้อมูล เป็นต้น ศักยภาพของ Agent กำลังถูกค้นพบทีละน้อย และพื้นที่สำหรับการพัฒนาในอนาคตนั้นกว้างขวางมาก
การประยุกต์ใช้ Agent ขนาดใหญ่ใกล้เข้ามาแล้ว: แรงผลักดันจากเงื่อนไขที่เป็นประโยชน์หลายประการ
ความก้าวหน้าในด้านการฝึกอบรมแบบจำลอง
- Context Window เติบโตอย่างรวดเร็ว: Context Window ของแบบจำลองขนาดใหญ่หมายถึงความยาวข้อความสูงสุดที่แบบจำลองสามารถพิจารณาได้เมื่อประมวลผลข้อความ ด้วยความก้าวหน้าทางเทคโนโลยี Context Window ของแบบจำลองกำลังเติบโตอย่างรวดเร็ว ซึ่งหมายความว่าแบบจำลองสามารถเข้าใจบริบทของข้อความยาวได้ดีขึ้น ทำให้สามารถตัดสินใจได้อย่างแม่นยำยิ่งขึ้น
- การประยุกต์ใช้ Reinforcement Learning อย่างลึกซึ้ง: Reinforcement Learning เป็นวิธีการฝึกอบรม Agent โดยการให้รางวัลและการลงโทษ ในช่วงไม่กี่ปีที่ผ่านมา Reinforcement Learning ได้รับการประยุกต์ใช้อย่างกว้างขวางในการฝึกอบรม Agent ทำให้ Agent สามารถปรับตัวเข้ากับสภาพแวดล้อมที่ซับซ้อนได้ดีขึ้น และเรียนรู้กลยุทธ์ที่ดีที่สุด
- แบบจำลองการให้เหตุผลมีความสมบูรณ์มากขึ้น: แบบจำลองการให้เหตุผลเป็นองค์ประกอบหลักของ Agent มีหน้าที่ให้เหตุผลและตัดสินตามข้อมูลที่ป้อนเข้ามา ด้วยการวิจัยที่ลึกซึ้งยิ่งขึ้น แบบจำลองการให้เหตุผลกำลังมีความสมบูรณ์มากขึ้น และสามารถรองรับการประยุกต์ใช้ Agent ต่างๆ ได้ดียิ่งขึ้น
การพัฒนาที่เฟื่องฟูของระบบนิเวศ
- MCP และ A2A และโปรโตคอลอื่นๆ พัฒนาอย่างรวดเร็ว: MCP (Model Communication Protocol) และ A2A (Agent-to-Agent) เป็นโปรโตคอลการสื่อสาร Agent ที่สำคัญสองโปรโตคอล การพัฒนาอย่างรวดเร็วของโปรโตคอลเหล่านี้ทำให้ Agent สามารถเรียกใช้เครื่องมือและบริการต่างๆ ได้สะดวกยิ่งขึ้น ทำให้สามารถทำงานที่ซับซ้อนยิ่งขึ้นได้
- Agent เรียกใช้เครื่องมือได้สะดวกยิ่งขึ้น: ด้วยความก้าวหน้าทางเทคโนโลยี วิธีการที่ Agent เรียกใช้เครื่องมือและบริการภายนอกกำลังสะดวกยิ่งขึ้น ตัวอย่างเช่น ผ่าน API (Application Programming Interface) Agent สามารถเข้าถึงแหล่งข้อมูลและบริการออนไลน์ต่างๆ ได้อย่างง่ายดาย ทำให้สามารถขยายความสามารถของตนเองได้
ในเดือนพฤศจิกายน 2024 Anthropic ได้เปิดตัวและเปิด source โปรโตคอล MCP ซึ่งมีเป้าหมายเพื่อกำหนดมาตรฐานว่าข้อมูลและเครื่องมือภายนอกสามารถให้บริบทแก่แบบจำลองได้อย่างไร การดำเนินการนี้จะส่งเสริมการพัฒนาระบบนิเวศของ Agent อย่างมาก ทำให้ Agent สามารถใช้ประโยชน์จากทรัพยากรภายนอกได้ดียิ่งขึ้น
MCP และ A2A: กุญแจสำคัญในการเชื่อมต่อ Agent
โปรโตคอล MCP: เชื่อมต่อ Agent กับโลกภายนอก
เป้าหมายหลักของโปรโตคอล MCP คือการตระหนักถึง “การเชื่อมต่อด้วยคลิกเดียว” ระหว่าง Agent กับข้อมูลและเครื่องมือภายนอก ด้วยโปรโตคอล MCP Agent สามารถเข้าถึงทรัพยากรภายนอกต่างๆ ได้อย่างสะดวกสบาย เช่น ฐานข้อมูล API บริการเว็บ เป็นต้น สิ่งนี้ทำให้ Agent สามารถเข้าใจสภาพแวดล้อมได้ดีขึ้น และทำการตัดสินใจที่ชาญฉลาดมากขึ้น
โปรโตคอล A2A: สร้างสะพานการสื่อสารระหว่าง Agent
เป้าหมายของโปรโตคอล A2A คือการตระหนักถึงการสื่อสารระหว่าง Agent ด้วยโปรโตคอล A2A Agent สามารถทำงานร่วมกันเพื่อทำภารกิจที่ซับซ้อนให้สำเร็จ สิ่งนี้มีความสำคัญอย่างยิ่งต่อการสร้างระบบอัจฉริยะแบบกระจาย
แม้ว่าเป้าหมายของโปรโตคอล A2A คือการสื่อสารระหว่าง Agent และ MCP คือ Agent กับเครื่องมือและข้อมูลภายนอก แต่ในสถานการณ์ที่ซับซ้อนที่ “เครื่องมืออาจถูกห่อหุ้มเป็น Agent” ฟังก์ชันทั้งสองอาจทับซ้อนกันได้ แต่การแข่งขันนี้ช่วยลดต้นทุนในการเรียกใช้เครื่องมือภายนอกและการสื่อสารของแบบจำลองขนาดใหญ่ การแข่งขันนี้จะขับเคลื่อนความก้าวหน้าทางเทคโนโลยี และในที่สุดก็จะได้รับประโยชน์จากระบบนิเวศ Agent ทั้งหมด
แนวโน้มการพัฒนา Agent
End-to-End Agent: ไม่ต้องมีการแทรกแซงจากมนุษย์
ปัจจุบัน มี “Agent อัจฉริยะ” จำนวนมากในตลาด แต่ส่วนใหญ่ได้รับการพัฒนาบนแพลตฟอร์มเช่น Coze และ Dify ซึ่งต้องให้มนุษย์เขียน Workflow ล่วงหน้า Agent เหล่านี้เปรียบเสมือนการซ้อนทับของ Prompt Engineering ซึ่งเป็น Agent ขั้นต้น
Agent ที่สูงกว่าคือ “End-to-End” ซึ่งหมายความว่า “ป้อนงานให้กับ Agent Agent จะทำงานที่มนุษย์ต้องการโดยอัตโนมัติ” ตัวอย่างเช่น ผู้ใช้เพียงแค่ป้อนเป้าหมายให้กับ Agent Agent ก็สามารถวางแผนและดำเนินงานด้วยตนเอง และในที่สุดก็บรรลุเป้าหมาย Agent ขั้นสูงเช่น L3/L4/L5 เป็นต้น สอดคล้องกับความต้องการของมนุษย์มากขึ้น และจะกลายเป็นทิศทางที่สำคัญของการพัฒนา Agent ในอนาคต
Agent ช่วยเหลือหุ่นยนต์และการขับขี่อัตโนมัติ
เมื่อนำคำจำกัดความของ Agent ไปใช้กับ Embodied Intelligence จะพบว่าหุ่นยนต์และยานพาหนะที่ถูกครอบงำโดยแบบจำลองขนาดใหญ่ก็เป็น Agent เช่นกัน โดยเฉพาะอย่างยิ่งหุ่นยนต์ ปัญหาคอขวดของการพัฒนาหุ่นยนต์ในปัจจุบันไม่ได้อยู่ที่ “วิธีการเคลื่อนไหวทางกายภาพ” ของ “สมองน้อย” แต่อยู่ที่การคิดว่า “จะเคลื่อนไหวทางกายภาพแบบใด” ของ “สมองใหญ่” ซึ่งตรงกับช่วงของ Agent
ในด้านหุ่นยนต์ Agent สามารถช่วยให้หุ่นยนต์เข้าใจสภาพแวดล้อมได้ดีขึ้น และทำการตัดสินใจที่สมเหตุสมผลมากขึ้น ตัวอย่างเช่น Agent สามารถวางแผนเส้นทางการเคลื่อนที่ของหุ่นยนต์ และดำเนินงานต่างๆ ได้อย่างอิสระตามวัตถุและบุคคลในสภาพแวดล้อม
ในด้านการขับขี่อัตโนมัติ Agent สามารถช่วยให้ยานพาหนะรับรู้สภาพแวดล้อมโดยรอบได้ดีขึ้น และทำการตัดสินใจในการขับขี่ที่ปลอดภัยยิ่งขึ้น ตัวอย่างเช่น Agent สามารถปรับความเร็วและทิศทางของยานพาหนะได้โดยอัตโนมัติตามสัญญาณไฟจราจร ยานพาหนะอื่นๆ และคนเดินเท้า เพื่อหลีกเลี่ยงอุบัติเหตุจราจร
Agent Interconnection และ AI Native Network
ในอนาคต Agent ทั้งหมดอาจสามารถสื่อสารกันได้ จัดระเบียบตนเอง เจรจาต่อรอง และสร้างเครือข่ายการทำงานร่วมกันที่มีต้นทุนต่ำกว่าและมีประสิทธิภาพสูงกว่าอินเทอร์เน็ตที่มีอยู่เดิม ชุมชนนักพัฒนาชาวจีนกำลังสร้างโปรโตคอลเช่น ANP ซึ่งมีเป้าหมายที่จะเป็นโปรโตคอล HTTP ในยุคอินเทอร์เน็ต Agent สำหรับการตรวจสอบสิทธิ์ประจำตัวระหว่าง Agent สามารถใช้เทคโนโลยีเช่น DID
- Agent Interconnection: Agent Interconnection สามารถตระหนักถึงการแบ่งปันทรัพยากรและการทำงานร่วมกัน เพื่อปรับปรุงประสิทธิภาพของระบบทั้งหมด ตัวอย่างเช่น Agent ที่แตกต่างกันสามารถแบ่งปันข้อมูล เครื่องมือ และบริการ เพื่อทำงานที่ซับซ้อนให้สำเร็จร่วมกัน
- AI Native Network: AI Native Network หมายถึงเครือข่ายที่ออกแบบมาเป็นพิเศษสำหรับแอปพลิเคชันปัญญาประดิษฐ์ เครือข่ายนี้สามารถให้แบนด์วิธที่สูงขึ้น ความหน่วงที่ต่ำกว่า และความปลอดภัยที่แข็งแกร่งกว่า เพื่อรองรับการประยุกต์ใช้ Agent ต่างๆ ได้ดียิ่งขึ้น
- เทคโนโลยี DID: DID (Decentralized Identifier) เป็นเทคโนโลยีการตรวจสอบสิทธิ์ประจำตัวแบบกระจายอำนาจ ด้วยเทคโนโลยี DID Agent สามารถมีเอกลักษณ์ของตนเอง เพื่อให้การสื่อสารที่ปลอดภัยและเชื่อถือได้มากขึ้น
การพัฒนาเทคโนโลยี Agent จะนำมาซึ่งการเปลี่ยนแปลงครั้งใหญ่ ในอนาคตอินเทอร์เน็ตจะไม่ใช่เครือข่ายการส่งข้อมูลที่เรียบง่ายอีกต่อไป แต่เป็นเครือข่ายการทำงานร่วมกันที่เต็มไปด้วยสติปัญญา