เปิดตัว Agent2Agent Protocol ของ Google | th

AI กำลังพัฒนาอย่างรวดเร็ว โดย AI Agents กลายเป็นส่วนประกอบสำคัญ AI Agent ผสานรวมความสามารถทางปัญญาของ Large Language Model (LLM) เข้ากับชุดเครื่องมือที่ช่วยให้สามารถดำเนินการคำสั่ง ดึงข้อมูล และทำงานต่างๆ ได้โดยอัตโนมัติ Agents เหล่านี้ตอบสนองต่อคำขอจากผู้ใช้หรือโต้ตอบกับ agents อื่นๆ ศักยภาพของ AI agents อยู่ที่ความสามารถในการปรับขนาดการดำเนินงาน ทำให้กระบวนการที่ซับซ้อนเป็นไปโดยอัตโนมัติ และเพิ่มประสิทธิภาพในการทำงานต่างๆ ซึ่งช่วยเพิ่มผลผลิตของแต่ละบุคคลอย่างมีนัยสำคัญ

ฉันทามติคือ agent ‘one-size-fits-all’ แบบสากลไม่สามารถจัดการงานที่หลากหลายและซับซ้อนที่คาดหวังจาก AI agents ได้อย่างมีประสิทธิภาพ ทางออกอยู่ที่ Agentic Workflows ซึ่งสร้างขึ้นโดยเครือข่ายของ AI Agents ที่เป็นอิสระซึ่งสามารถตัดสินใจ ดำเนินการ และประสานงานโดยมีการกำกับดูแลจากมนุษย์น้อยที่สุด

วิสัยทัศน์ของ Google เกี่ยวกับการทำงานร่วมกันของ Agent: Agent2Agent Protocol (A2A)

Google ได้เปิดตัว Agent2Agent (A2A) protocol ในวันที่ 9 เมษายน 2025 โดยได้รับการออกแบบมาเพื่ออำนวยความสะดวกในการสื่อสารระหว่าง AI agents อย่างราบรื่น ช่วยให้สามารถแลกเปลี่ยนข้อมูลได้อย่างปลอดภัยและทำให้ workflows ทางธุรกิจที่ซับซ้อนเป็นไปโดยอัตโนมัติ สิ่งนี้ทำได้โดยการโต้ตอบกับระบบองค์กรและแพลตฟอร์มของบุคคลที่สาม

A2A protocol เป็นผลมาจากการทำงานร่วมกันระหว่าง Google และพันธมิตรในอุตสาหกรรมกว่า 50 ราย ซึ่งทั้งหมดนี้มีวิสัยทัศน์ร่วมกันสำหรับอนาคตของการทำงานร่วมกันของ AI Agent ที่สำคัญคือ การทำงานร่วมกันนี้ก้าวข้ามเทคโนโลยีเฉพาะและมีพื้นฐานมาจากมาตรฐานที่เปิดกว้างและปลอดภัย

หลักการออกแบบหลักของ A2A

ในระหว่างการพัฒนา A2A protocol Google และพันธมิตรได้รับคำแนะนำจากหลักการพื้นฐานหลายประการ:

เปิดกว้างและไม่ขึ้นกับผู้ขาย: A2A protocol ต้องเปิดกว้าง หมายความว่าข้อกำหนดสามารถเข้าถึงได้แบบสาธารณะ สิ่งนี้ทำให้มั่นใจได้ว่านักพัฒนาหรือองค์กรใดๆ สามารถนำ protocol ไปใช้ได้โดยไม่มีข้อจำกัดที่เป็นกรรมสิทธิ์ Vendor-agnostic หมายถึง protocol ไม่ได้ผูกติดอยู่กับเทคโนโลยีของผู้ขายรายใดรายหนึ่ง สิ่งนี้ส่งเสริมสนามแข่งขันที่เท่าเทียมกันสำหรับผู้เข้าร่วมทั้งหมด
Natural Modalities สำหรับการทำงานร่วมกัน: A2A ช่วยให้ agents สามารถทำงานร่วมกันโดยใช้วิธีการสื่อสารที่ไม่เป็นทางการโดยธรรมชาติ สิ่งนี้ทำให้ agents แตกต่างจากเครื่องมือและแยก A2A ออกจาก Model Context Protocol (MCP)
สร้างขึ้นจากมาตรฐานที่มีอยู่: เพื่อลดความซับซ้อนในการผสานรวมกับโครงสร้างพื้นฐานด้าน IT ที่มีอยู่ protocol สร้างขึ้นจากมาตรฐานที่กำหนดไว้ เช่น HTTP, Server-Sent Events (SSE) และ JSON-RPC
ปลอดภัยโดยค่าเริ่มต้น: ความปลอดภัยเป็นข้อกังวลสูงสุด A2A รวมกลไกการตรวจสอบสิทธิ์และการให้สิทธิ์ระดับองค์กรเพื่อปกป้องข้อมูลที่ละเอียดอ่อนและรับประกันการโต้ตอบที่ปลอดภัย
Data Modality Agnostic: A2A ไม่ได้จำกัดอยู่แค่การสื่อสารด้วยข้อความ สามารถจัดการประเภทข้อมูลต่างๆ ได้ รวมถึงรูปภาพ เสียง และสตรีมวิดีโอ

ฟังก์ชันการทำงานของ A2A: เสริมสร้างการทำงานร่วมกันของ Agent

A2A มีฟังก์ชันการทำงานในตัวมากมายเพื่อปรับปรุงการโต้ตอบของ agent:

Capability Discovery: สิ่งนี้ช่วยให้ agents สามารถโฆษณาความสามารถของตนได้ ลูกค้าสามารถระบุได้อย่างง่ายดายว่า agent ใดเหมาะสมที่สุดสำหรับงานเฉพาะ คิดว่ามันเหมือนกับตลาดดิจิทัลที่ agents แสดงทักษะและความเชี่ยวชาญของตน
Task and State Management: การสื่อสารระหว่าง client และ agent หมุนรอบการดำเนินการ Tasks Tasks เหล่านี้กำหนดโดย protocol และมีวงจรชีวิตที่กำหนดไว้อย่างดี ผลลัพธ์ของ task เรียกว่า Artifact การจัดการทั้ง tasks และ states ทำให้มั่นใจได้ถึง workflow ที่น่าเชื่อถือและตรวจสอบได้
Secure Collaboration: Agents สามารถแลกเปลี่ยนข้อความอย่างปลอดภัยเพื่อแบ่งปันบริบท ให้การตอบสนอง ส่งมอบ artifacts หรือถ่ายทอดคำแนะนำของผู้ใช้ สิ่งนี้อำนวยความสะดวกในสภาพแวดล้อมการทำงานร่วมกันที่ agents สามารถทำงานร่วมกันได้อย่างราบรื่น
User Experience Negotiation: ทุกข้อความมี ‘parts’ ซึ่งเป็นส่วนเนื้อหาที่อยู่ในตัวเอง เช่น รูปภาพที่สร้างขึ้น แต่ละส่วนมีประเภทเนื้อหาที่ระบุไว้ ซึ่งช่วยให้ทั้ง client และ remote agent ตกลงในรูปแบบที่ต้องการได้ คุณสมบัตินี้ยังครอบคลุมถึงการเจรจาต่อรองความสามารถของ UI ของผู้ใช้ เช่น iframes วิดีโอ และ web forms

คุณสมบัติ Capability Discovery และ User Experience Negotiation นั้นน่าสนใจเป็นพิเศษ เนื่องจากเป็นการปูทางไปสู่การสร้าง Agent Marketplaces ในตลาดเหล่านี้ ผู้ให้บริการสามารถแสดงรายการ agents ของตน และลูกค้าสามารถเลือก agent ที่เหมาะสมที่สุดเพื่อทำงานเฉพาะได้

แม้ว่าแนวคิดนี้จะมีแนวโน้มอย่างมากและอาจมีความสำคัญอย่างยิ่งต่อการเติบโตของตลาด AI Agents แต่การทำให้วิสัยทัศน์นี้เป็นจริงต้องใช้มากกว่าแค่การกำหนด interaction protocol

การถอดรหัสแนวคิด Agent2Agent Protocol

การทำความเข้าใจแนวคิดหลักที่เป็นรากฐานของ protocol เป็นสิ่งสำคัญสำหรับการนำไปใช้และการใช้งานอย่างมีประสิทธิภาพ แนวคิดเหล่านี้จะเป็นที่คุ้นเคยกับนักพัฒนา AI Agents หลายคนอยู่แล้ว:

Agent Card: นี่คือไฟล์ metadata สาธารณะที่ให้รายละเอียดเกี่ยวกับความสามารถ ทักษะ URL ปลายทาง และข้อกำหนดการตรวจสอบสิทธิ์ของ agent Agent Card มีบทบาทสำคัญในระยะการค้นพบ ช่วยให้ผู้ใช้สามารถเลือก agent ที่เหมาะสมและทำความเข้าใจวิธีโต้ตอบกับ agent
Server: Agent ที่ใช้ A2A protocol methods ตามที่กำหนดไว้ใน JSON specification โดยพื้นฐานแล้ว Server คือ agent ที่เสนอบริการผ่าน A2A protocol
Client: นี่อาจเป็นแอปพลิเคชันหรือ agent อื่นที่ใช้บริการ A2A Client เริ่มต้นคำขอและใช้ความสามารถที่ Server นำเสนอ
Task: หน่วยงานพื้นฐานของการทำงานสำหรับ Agent Client เป็นผู้เริ่มต้นและ Server เป็นผู้ดำเนินการ โดยจะดำเนินการผ่าน states ต่างๆ ตลอดวงจรชีวิต
Message: แสดงถึงการแลกเปลี่ยนการสื่อสารระหว่าง Client และ Agent แต่ละ Message มี role ที่กำหนดไว้และประกอบด้วย Parts
Part: นี่คือหน่วยเนื้อหาพื้นฐานภายใน Message หรือ Artifact Part อาจเป็นข้อความ ไฟล์ หรือข้อมูลที่มีโครงสร้าง สิ่งนี้ช่วยให้การสื่อสารประเภทข้อมูลต่างๆ มีความยืดหยุ่น
Artifact: แสดงถึงผลลัพธ์ที่ agent สร้างขึ้นขณะทำงาน Task ให้เสร็จสมบูรณ์ เช่นเดียวกับ Messages Artifacts มี Parts
Streaming: Protocol รองรับ streaming ช่วยให้ Server สามารถอัปเดต Client เกี่ยวกับสถานะของ tasks ที่ใช้เวลานานแบบเรียลไทม์ สิ่งนี้ช่วยเพิ่มประสบการณ์การใช้งานโดยให้ feedback อย่างต่อเนื่อง

ภูมิทัศน์ปัจจุบันของ Agent2Agent Project

A2A เพิ่งเปิดตัวต่อสาธารณชน และข้อกำหนดต่างๆ พร้อมใช้งานแล้วบน GitHub ขณะนี้ยังไม่มี roadmap อย่างเป็นทางการหรือการใช้งาน protocol ที่พร้อมใช้งานจริง อย่างไรก็ตาม Google กำลังทำงานร่วมกับพันธมิตรเพื่อเปิดตัวเวอร์ชันที่พร้อมใช้งานจริงในปลายปี 2025

A2A GitHub repository มี code samples หลายรายการในทั้ง TypeScript และ Python พร้อมกับ demo application ที่ครอบคลุม แอปพลิเคชันนี้แสดงให้เห็นถึง interaction ระหว่าง agents ที่พัฒนาโดยใช้ Agent Development Kits (ADK) ที่แตกต่างกัน

แม้ว่าสิ่งนี้จะเป็นรากฐานสำหรับการทดลอง แต่ A2A จะต้องรวมเข้ากับระบบนิเวศที่มีอยู่ของ frameworks และเครื่องมือที่ใช้สำหรับการปรับใช้ Agentic Workflows ก่อนที่จะสามารถนำไปใช้ในแอปพลิเคชันที่มีความสำคัญต่อภารกิจ

การสนับสนุนจากผู้เล่นรายใหญ่จำนวนมาก (โดยเฉพาะอย่างยิ่ง ไม่มีบริษัทใดที่ให้บริการ foundation models) ที่ทำงานร่วมกับ Google ในการกำหนด protocol แสดงให้เห็นอย่างชัดเจนว่าเครื่องมือที่จำเป็นจะพร้อมใช้งานในเร็วๆ นี้ และ A2A จะถูกรวมเข้ากับ agent frameworks ชั้นนำ

A2A vs. Model Context Protocol (MCP): ทำความเข้าใจความแตกต่าง

Model Context Protocol (MCP) ที่พัฒนาโดย Anthropic ช่วยให้แอปพลิเคชันสามารถให้บริบทแก่ Large Language Models Anthropic อธิบาย MCP ว่าเป็น ‘พอร์ต USB-C สำหรับแอปพลิเคชัน AI’ โดยนำเสนอวิธีที่ได้มาตรฐานในการเชื่อมต่อ LLMs กับแหล่งข้อมูลและเครื่องมือ คล้ายกับ USB ที่เชื่อมต่ออุปกรณ์ต่อพ่วงต่างๆ กับอุปกรณ์

ตาม Google A2A ไม่ได้มีวัตถุประสงค์เพื่อแทนที่ MCP มีความทับซ้อนกันน้อยที่สุดระหว่างทั้งสอง protocols พวกเขาแก้ไขปัญหาที่แตกต่างกันและทำงานในระดับ abstraction ที่แตกต่างกัน A2A อำนวยความสะดวกในการ interaction ระหว่าง Agents ในขณะที่ MCP เชื่อมต่อ Large Language Models กับเครื่องมือ ซึ่งจะเชื่อมต่อกับบริการและข้อมูลในทางกลับกัน ดังนั้นทั้งสอง protocols จึงเป็นส่วนประกอบซึ่งกันและกัน

Agent2Agent และ Model Context Protocol เป็นสองส่วนของปริศนาเดียวกัน และทั้งสองจะต้องใช้เพื่อทำให้วิสัยทัศน์ในอนาคตสำหรับ agentic workflows และ AI ที่แพร่หลายเป็นจริง

อัปเดตเมื่อ 2025-04-19

# Google # Gemini # Agent