ถอดรหัส A2A และ MCP ในโลกของเอเจนต์

เมื่อเร็ว ๆ นี้ Google ได้เปิดตัวโปรโตคอลโอเพนซอร์สใหม่สำหรับเอเจนต์ที่เรียกว่า Agent2Agent หรือเรียกสั้น ๆ ว่า A2A ในขณะเดียวกัน Bailian ของ Alibaba Cloud ก็ได้ประกาศการเข้าสู่ MCP ลองมาเจาะลึกว่า A2A และ MCP คืออะไรกันแน่

เพื่อให้เข้าใจโปรโตคอลเหล่านี้ ลองพิจารณาการเปรียบเทียบกับการทูตระหว่างประเทศ ลองจินตนาการว่าเอเจนต์ AI แต่ละตัวเป็นประเทศเล็ก ๆ ที่มีภาษาและขนบธรรมเนียมของตนเอง “ประเทศ” เหล่านี้มีสถานทูตตั้งอยู่ในอาคารเดียวกัน พยายามสื่อสาร แลกเปลี่ยน และแลกเปลี่ยนข้อมูล

ในสถานการณ์ที่เหมาะสม ประเทศเหล่านี้จะรักษาความสัมพันธ์ฉันมิตรและปฏิบัติตามชุดกฎทางการทูตที่ชัดเจน ทำให้พวกเขาสามารถโต้ตอบ ลงนามในข้อตกลง และทำงานร่วมกันในโครงการระหว่างประเทศได้อย่างราบรื่นรอบโต๊ะประชุม

อย่างไรก็ตาม ความเป็นจริงคือสถานทูตแต่ละแห่งดำเนินการอย่างอิสระด้วยโปรโตคอลที่แตกต่างกัน ดังนั้น การเริ่มต้นข้อตกลงทางการค้าอย่างง่ายกับ “ประเทศ A” จึงต้องปฏิบัติตามข้อกำหนดมากมาย รวมถึงข้อกำหนด ใบรับรอง การแปล และคีย์เฉพาะ การมีส่วนร่วมกับ “ประเทศ B” และ “ประเทศ C” จำเป็นต้องทำซ้ำขั้นตอนที่คล้ายกันหลายครั้ง แนวทางเฉพาะกิจ กระจัดกระจาย และหลากหลายนี้ ทำให้ต้นทุนการสื่อสารสูงขึ้น โดยแต่ละปฏิสัมพันธ์ต้องเสีย “ภาษีข้อมูล” เพิ่มเติม

ในอดีต เอเจนต์ AI เผชิญกับสถานการณ์ที่คล้ายกันเมื่อพยายามทำงานร่วมกัน

ตัวอย่างเช่น คุณอาจมีเอเจนต์ที่ตอบกลับอีเมลโดยอัตโนมัติและอีกเอเจนต์หนึ่งที่รวมเข้ากับแอปพลิเคชันปฏิทินเพื่อช่วยในการจัดตารางเวลา อย่างไรก็ตาม เอนทิตี AI เหล่านี้พยายามที่จะสื่อสารโดยตรง จำเป็นต้องคัดลอกและวางข้อมูลด้วยตนเอง หรืออาศัยอินเทอร์เฟซที่สร้างขึ้นเอง

ผลที่ตามมาคือ เอเจนต์ AI ทำงานแยกกัน โดยแสดงความสามารถในการทำงานร่วมกันที่ไม่ดี การแบ่งส่วนข้อมูลนี้ทำให้ผู้ใช้ต้องนำทางระหว่างแอปพลิเคชัน AI หลายรายการ และจำกัดศักยภาพของ AI งานที่ซับซ้อนซึ่งสามารถทำได้ผ่านการทำงานร่วมกันของหลายเอเจนต์ถูกจำกัดไว้ในไซโลแต่ละรายการอย่างไม่เป็นธรรม

สถานการณ์นี้สะท้อนให้เห็นถึงภูมิทัศน์หลังสงครามโลกครั้งที่สอง ซึ่งเอเจนต์ AI แต่ละตัวทำหน้าที่อย่างอิสระ ขาดกฎเกณฑ์ที่เป็นเอกภาพ และเผชิญกับอุปสรรคในการสื่อสาร ระบบนิเวศ AI ในปัจจุบันมีลักษณะคล้ายกับดินแดนรกร้างหลังสงคราม ซึ่งต้องปฏิบัติตามอินเทอร์เฟซและโปรโตคอลเฉพาะสำหรับการเข้าถึงข้อมูลและฟังก์ชันการทำงาน การไม่มีมาตรฐานทำให้เกิด “ภาษี” เพิ่มเติมกับความสัมพันธ์ในการทำงานร่วมกันใหม่แต่ละครั้ง นำไปสู่ระบบนิเวศ AI ที่ขาดการเชื่อมต่อและไม่มีประสิทธิภาพซึ่งมีลักษณะเฉพาะคือการแยกตัวและความสนใจในตนเอง

อุตสาหกรรม AI กำลังสำรวจความเป็นไปได้ในการสร้างโปรโตคอลที่เป็นที่ยอมรับในระดับสากล เพื่ออำนวยความสะดวกในการโต้ตอบระหว่างเอเจนต์และเครื่องมือภายนอก Google และ Anthropic ได้กลายเป็นผู้นำ โดยแต่ละบริษัทเสนอแนวทางแก้ไข: โปรโตคอล A2A และโปรโตคอล MCP

โปรโตคอล A2A

โปรโตคอล A2A ซึ่งย่อมาจาก Agent2Agent ช่วยให้เอเจนต์ AI สามารถสื่อสารและทำงานร่วมกันได้โดยตรง

วัตถุประสงค์หลักของโปรโตคอล A2A คือการเปิดใช้งานเอเจนต์จากแหล่งกำเนิดและผู้ขายที่หลากหลาย เพื่อทำความเข้าใจและให้ความร่วมมือซึ่งกันและกัน คล้ายกับความพยายามขององค์การการค้าโลกในการลดอุปสรรคทางการค้า

ด้วยการนำ A2A มาใช้ เอเจนต์จากผู้ขายและเฟรมเวิร์กที่แตกต่างกันสามารถเข้าร่วมเขตการค้าเสรี สื่อสารโดยใช้ภาษากลาง และทำงานร่วมกันอย่างราบรื่น เพื่อทำงานที่ซับซ้อนเกินความสามารถของเอเจนต์แต่ละราย

เพื่อให้เห็นภาพว่า A2A ทำงานอย่างไร ลองพิจารณาการเปรียบเทียบต่อไปนี้:

1. เอเจนต์ = นักการทูตประจำชาติ

เอเจนต์แต่ละตัวทำหน้าที่เป็นนักการทูตที่เป็นตัวแทนของสถานทูตของประเทศ โปรโตคอล A2A มีเป้าหมายเพื่อสร้างมารยาททางการทูตและขั้นตอนการสื่อสารที่เป็นมาตรฐาน ก่อนหน้านี้ นักการทูตจาก “ประเทศ A” สื่อสารเป็นภาษาฝรั่งเศสเท่านั้น ในขณะที่นักการทูตจาก “ประเทศ B” ใช้สคริปต์ Cyrillic และ “ประเทศ C” ต้องการการติดต่อผ่านจดหมายทองคำโบราณ โปรโตคอล A2A ช่วยให้มั่นใจได้ว่าผู้เข้าร่วมทุกคนสามารถสื่อสารในภาษาที่ตกลงไว้ล่วงหน้า ส่งเอกสารในรูปแบบเดียวกัน และดำเนินการตามผลลัพธ์ที่ตกลงกันไว้

2. Agent Card = ข้อมูลรับรองทางการทูต / นามบัตรของทูต

ภายในเฟรมเวิร์ก A2A เอเจนต์แต่ละตัวจะต้องเผยแพร่ “Agent Card” ซึ่งคล้ายกับนามบัตรของนักการทูต ซึ่งมีรายละเอียด เช่น ชื่อ เวอร์ชัน ความสามารถ และภาษาหรือรูปแบบที่รองรับของเอเจนต์

เช่นเดียวกับที่นามบัตรของนักการทูตระบุบทบาทและสังกัดของพวกเขา Agent Card แสดงรายการทักษะ วิธีการตรวจสอบสิทธิ์ และรูปแบบอินพุต/เอาต์พุตของเอเจนต์ ซึ่งช่วยให้นักการทูตคนอื่น ๆ สามารถระบุและทำความเข้าใจความสามารถได้อย่างรวดเร็ว ลดอุปสรรคในการสื่อสาร

3. Task = โครงการทางการทูตทวิภาคีหรือพหุภาคี

แนวคิด Task เป็นศูนย์กลางของ A2A เมื่อเอเจนต์ตั้งใจที่จะมอบหมายงานให้กับเอเจนต์อื่น เอเจนต์นั้นจะออก “จดหมายแสดงเจตจำนงโครงการความร่วมมือ” เมื่อได้รับการยอมรับ ทั้งสองฝ่ายจะบันทึก Task ID เพื่อติดตามความคืบหน้าและแลกเปลี่ยนข้อมูลจนกว่าจะเสร็จสิ้น

ในแง่ทางการทูต ประเทศหนึ่งอาจเสนอให้ประเทศอื่นว่า “เราต้องการร่วมมือกันสร้างเส้นทางรถไฟความเร็วสูงข้ามพรมแดน โปรดส่งทีมวิศวกรของคุณ” นี่คือภาพสะท้อนของ A2A Task ซึ่งฝ่ายริเริ่มระบุข้อกำหนด เอเจนต์ระยะไกลยอมรับ และทั้งสองฝ่ายอัปเดตความคืบหน้าอย่างสม่ำเสมอตลอดทั้งโครงการ

ข้อความแสดงถึงการสื่อสารที่แลกเปลี่ยนระหว่างขั้นตอนเริ่มต้นหรือขั้นตอนกลางของโครงการ คล้ายกับโทรเลขทางการทูต บันทึก และการแลกเปลี่ยนทูต

4. Push Notifications = กระดานข่าวสถานทูตทางการทูต

ใน A2A หาก Task เป็นโครงการระยะยาวที่ต้องใช้เวลาดำเนินการนาน เอเจนต์ระยะไกลสามารถอัปเดตฝ่ายริเริ่มผ่านการแจ้งเตือนแบบพุช คล้ายกับประเทศที่ให้ข้อมูลอัปเดตเป็นระยะ ๆ เกี่ยวกับโครงการโครงสร้างพื้นฐานระยะยาว ซึ่งช่วยเพิ่มขีดความสามารถในการทำงานร่วมกันแบบอะซิงโครนัส

5. Authentication and Security = สิทธิพิเศษและโปรโตคอลทางการทูต

A2A ใช้กลยุทธ์การตรวจสอบสิทธิ์ระดับองค์กร โดยกำหนดให้ทั้งสองฝ่ายที่สื่อสารต้องตรวจสอบข้อมูลประจำตัวเพื่อป้องกันการแอบอ้างหรือการดักฟังที่เป็นอันตราย กลไกนี้เทียบเท่ากับสิทธิพิเศษและโปรโตคอลทางการทูต

โดยสรุป A2A สะท้อนถึงพลวัตของการทูตระหว่างประเทศหรือการทำงานร่วมกันทางธุรกิจ โดยเน้นที่การสื่อสารที่เป็นมาตรฐานและความปลอดภัย

โปรโตคอล MCP

โปรโตคอล MCP หรือ Model Context Protocol เป็นมาตรฐานที่ Anthropic เปิดตัวและโอเพนซอร์สในเดือนพฤศจิกายน 2024

ในขณะที่ A2A กล่าวถึงกระบวนการสื่อสารระหว่างนักการทูต AI ความท้าทายที่ยังคงอยู่คือการไม่มีแหล่งข้อมูลที่เชื่อถือได้ แม้แต่นักการทูตหรือผู้บริหารธุรกิจที่พูดจาไพเราะที่สุดก็ไม่สามารถทำงานได้อย่างมีประสิทธิภาพหากไม่มีข้อมูลที่ถูกต้องเกี่ยวกับภูมิทัศน์ระหว่างประเทศและการจัดสรรทรัพยากร

นักการทูตสมัยใหม่พึ่งพาเครื่องมือภายนอก เช่น ระบบวีซ่า ระบบการชำระบัญชีระหว่างประเทศ และฐานข้อมูลข่าวกรอง เพื่อปฏิบัติหน้าที่ ในทำนองเดียวกัน เอเจนต์ที่รับผิดชอบที่ซับซ้อนจะต้องเชื่อมต่อกับฐานข้อมูล ระบบเอกสาร แอปพลิเคชันระดับองค์กร และแม้แต่อุปกรณ์ฮาร์ดแวร์ต่างๆ

สิ่งนี้สามารถเปรียบได้กับการจัดตั้งหน่วยงานข่าวกรองที่ครอบคลุมสำหรับนักการทูตและให้สิทธิ์พวกเขาในการเข้าถึงเครื่องมือเพื่ออำนวยความสะดวกในการทำงานของพวกเขา

ก่อนหน้านี้ เอเจนต์ต้องพัฒนาปลั๊กอินที่กำหนดเองและผสานรวมกับเครื่องมือต่าง ๆ อย่างลึกซึ้ง ซึ่งต้องใช้แรงงานและใช้เวลานาน อย่างไรก็ตาม ตอนนี้ MCP พร้อมใช้งานเพื่อปรับปรุงกระบวนการ

MCP สร้างมาตรฐานการโต้ตอบระหว่างโมเดลภาษาขนาดใหญ่และแหล่งข้อมูลและเครื่องมือภายนอก Anthropic เปรียบ MCP กับพอร์ต USB-C สำหรับแอปพลิเคชัน AI

USB-C ทำหน้าที่เป็นอินเทอร์เฟซสากลสำหรับอุปกรณ์ จัดการการชาร์จและการถ่ายโอนข้อมูลผ่านพอร์ตเดียว MCP มีเป้าหมายเพื่อสร้างอินเทอร์เฟซสากลในโดเมน AI ช่วยให้โมเดลและระบบภายนอกต่างๆ สามารถเชื่อมต่อโดยใช้โปรโตคอลเดียวกัน แทนที่จะพัฒนาโซลูชันการผสานรวมแบบกำหนดเองในแต่ละครั้ง

โมเดล AI ที่เชื่อมต่อกับฐานข้อมูล เสิร์ชเอ็นจิน หรือแอปพลิเคชันของบุคคลที่สามสามารถสื่อสารได้อย่างราบรื่น หากทั้งหมดรองรับ MCP

MCP ใช้สถาปัตยกรรมไคลเอ็นต์-เซิร์ฟเวอร์:

1. MCP Server = หน่วยงานข่าวกรองแบบรวม

องค์กรหรือบุคคลสามารถห่อหุ้มฐานข้อมูล ระบบไฟล์ ปฏิทิน และบริการของบุคคลที่สามลงใน MCP Server เซิร์ฟเวอร์เหล่านี้ปฏิบัติตามโปรโตคอล MCP โดยเปิดเผยจุดสิ้นสุดการเข้าถึงที่จัดรูปแบบอย่างสม่ำเสมอ ทำให้เอเจนต์ใด ๆ ที่สอดคล้องกับมาตรฐาน MCP ไคลเอ็นต์สามารถส่งคำขอ ดึงข้อมูล หรือดำเนินการได้

2. MCP Client = อุปกรณ์ปลายทางที่นักการทูตใช้

นักการทูตเอเจนต์พกพาอุปกรณ์ปลายทางเฉพาะ ช่วยให้พวกเขาสามารถป้อนคำสั่ง เช่น “ดึงข้อมูลสินค้าคงคลังจากระบบการเงิน” “ส่งคำขอไปยัง API” หรือ “ดึงเอกสาร PDF”

หากไม่มี MCP การผสานรวมกับระบบต่างๆ ต้องเขียนโค้ดการเข้าถึงที่แตกต่างกัน ซึ่งเป็นเรื่องยุ่งยาก อย่างไรก็ตาม ด้วย MCP ไคลเอ็นต์ที่รองรับโปรโตคอลสามารถสลับระหว่าง MCP Server ที่แตกต่างกันได้อย่างง่ายดาย ดึงข้อมูล และดำเนินการตามกระบวนการทางธุรกิจ

โดยสรุป MCP อำนวยความสะดวกในการผสานรวมอย่างราบรื่นระหว่างเอเจนต์ AI และทรัพยากรภายนอก

ความแตกต่างระหว่าง A2A และ MCP

เพื่อให้เข้าใจความแตกต่างระหว่าง A2A และ MCP อย่างชัดเจน ลองพิจารณาการประชุมสุดยอดนานาชาติสมมติที่ประมุขแห่งรัฐ (เป็นตัวแทนของเอเจนต์ AI ของบริษัท) มารวมตัวกันเพื่อทำงานร่วมกันในงานข้ามชาติ เช่น การจัดทำรายงานวิเคราะห์เศรษฐกิจโลก

หากไม่มีโปรโตคอลสากล การประชุมดังกล่าวแทบจะเป็นไปไม่ได้เลย เนื่องจากตัวแทนแต่ละคนพูดภาษาที่แตกต่างกัน อย่างไรก็ตาม ด้วยโปรโตคอล A2A ตัวแทนทั้งหมดจะลงนามใน “อนุสัญญากรุงเวียนนาทางการทูต A2A” ก่อนเข้าสู่การประชุม โดยตกลงที่จะสื่อสารโดยใช้รูปแบบที่สอดคล้องกัน ระบุตัวเอง ระบุความตั้งใจ และอ้างอิง ID คำพูดก่อนหน้าเมื่อตอบสนอง

สิ่งนี้ช่วยให้ “Agent G” สามารถส่งข้อความถึง “Agent O” ในรูปแบบ A2A และ “Agent O” ตอบสนองตามนั้น นี่ถือเป็นกรณีแรกของการสื่อสารที่ไม่มีอุปสรรคระหว่างเอเจนต์ AI จากบริษัทต่างๆ

ระหว่างการอภิปราย ตัวแทน AI จำเป็นต้องปรึกษาข้อมูลหรือใช้เครื่องมือสำหรับการวิเคราะห์ “Agent A” จาก Anthropic แนะนำให้ใช้ระบบ MCP สำหรับข้อมูลภายนอกหรือการสนับสนุนเครื่องมือ

“ห้องล่ามพร้อมกัน MCP” ถูกตั้งขึ้นข้างห้องประชุม โดยมีผู้เชี่ยวชาญที่สามารถตอบสนองในภาษาสากลผ่าน MCP เมื่อได้รับการร้องขอ

ตัวอย่างเช่น “Agent Q” ต้องการเข้าถึงฐานข้อมูลคลาวด์ของตนเองสำหรับการคำนวณ แทนที่จะส่งใครบางคนกลับประเทศ พวกเขาส่งคำขอ MCP สำหรับข้อมูลจากฐานข้อมูล X ผู้ดูแลระบบฐานข้อมูล MCP แปลคำขอ ดึงผลลัพธ์ และตอบกลับ “Agent Q” ในภาษา MCP กระบวนการทั้งหมดโปร่งใสสำหรับเอเจนต์อื่น ๆ ที่เข้าใจข้อมูลที่ “Agent Q” อ้างถึง เนื่องจากคำแปล MCP อยู่ในรูปแบบที่ได้รับการยอมรับ

เมื่อการเขียนรายงานคืบหน้า “Agent G” และ “Agent A” ตระหนักว่าพวกเขาต้องรวมผลงานของตนเข้าด้วยกัน “Agent G” เชี่ยวชาญด้านการวิเคราะห์เชิงตัวเลข ในขณะที่ “Agent A” เก่งในการสรุปภาษา

“Agent G” สื่อสารข้อมูลอัตราการเติบโตของ GDP ผ่าน A2A และ “Agent A” เชื่อมต่อกับปลั๊กอินสเปรดชีต Excel ผ่าน MCP ตรวจสอบแนวโน้มของข้อมูล และตอบกลับด้วยย่อหน้าสรุป

ในสถานการณ์นี้ A2A อำนวยความสะดวกในการสื่อสารระหว่างเอเจนต์ ในขณะที่ MCP ช่วยให้เอเจนต์สามารถเข้าถึงเครื่องมือและข้อมูลภายนอกได้ เมื่อรวมกันแล้ว โปรโตคอลเหล่านี้จะสร้างข้อตกลงการสื่อสารที่ปรับให้เหมาะกับ AI ในเวอร์ชันสหประชาชาติ ด้วยโปรโตคอลเหล่านี้ เอเจนต์ AI สามารถทำงานร่วมกันได้อย่างมีประสิทธิภาพ ก่อตัวเป็นระบบนิเวศ AI ที่เชื่อมต่อกัน

A2A เปรียบเสมือนสายด่วนเฉพาะสำหรับการสื่อสารทางการทูต ซึ่งจัดการกับการสื่อสารโดยตรงของเอเจนต์ MCP คล้ายกับระบบการตีความพร้อมกันและการแบ่งปันทรัพยากร ซึ่งจัดการกับปัญหาของเอนทิตีอัจฉริยะที่เชื่อมต่อกับข้อมูลภายนอก

การเกิดขึ้นของ A2A และ MCP เป็นสัญญาณของการพัฒนาอุตสาหกรรม AI ไปสู่การทำงานร่วมกันมากกว่าการแข่งขัน เอเจนต์ AI จำนวนนับไม่ถ้วนจะถูกปรับใช้เหมือนเว็บไซต์ ค้นพบและสื่อสารผ่าน A2A และเข้าถึงทรัพยากรและแบ่งปันความรู้ผ่าน MCP