رمزگشایی پروتکل‌های A2A و MCP در دنیای Agent

اخیراً، گوگل پروتکل باز جدیدی برای Agentها با نام Agent2Agent یا به اختصار A2A معرفی کرده است. همزمان، Bailian متعلق به Alibaba Cloud نیز از ورود خود به MCP خبر داده است. بیایید به بررسی این که A2A و MCP دقیقاً چه هستند بپردازیم.

برای درک این پروتکل‌ها، از تشبیه دیپلماسی بین کشورها استفاده می‌کنیم. تصور کنید هر Agent هوش مصنوعی یک کشور کوچک با زبان و آداب و رسوم خاص خود است. این ‘کشورها’ سفارتخانه‌هایی در یک ساختمان دارند و تلاش می‌کنند با هم ارتباط برقرار کنند، تجارت کنند و تبادل اطلاعات داشته باشند.

در یک سناریوی ایده‌آل، این کشورها روابط دوستانه‌ای داشته باشند و از مجموعه‌ای واضح از قوانین دیپلماتیک پیروی کنند، که به آن‌ها امکان می‌دهد به طور یکپارچه با یکدیگر تعامل داشته باشند، توافق‌نامه امضا کنند و در پروژه‌های بین‌المللی حول یک میز کنفرانس همکاری کنند.

با این حال، واقعیت این است که هر سفارتخانه به طور مستقل و با پروتکل‌های متفاوت عمل می‌کند. در نتیجه، شروع یک توافقنامه تجاری ساده با ‘کشور الف’ مستلزم برآورده کردن انبوهی از الزامات، از جمله تدارکات، گواهینامه‌ها، ترجمه‌ها و کلیدهای تخصصی است. تعامل با ‘کشور ب’ و ‘کشور ج’ مستلزم تکرار رویه‌های مشابه به دفعات است. این رویکرد موقت، پراکنده و چندوجهی هزینه‌های ارتباطی را افزایش می‌دهد و هر تعامل هزینه ‘تعرفه اطلاعاتی’ اضافی را به همراه دارد.

در گذشته، Agentهای هوش مصنوعی هنگام تلاش برای همکاری با معضلات مشابهی روبرو بودند.

به عنوان مثال، ممکن است Agentای داشته باشید که به طور خودکار به ایمیل‌ها پاسخ می‌دهد و Agent دیگری که در یک برنامه تقویم برای کمک به زمان‌بندی ادغام شده است. با این حال، این موجودیت‌های هوش مصنوعی برای برقراری ارتباط مستقیم با مشکل مواجه می‌شوند و نیاز به کپی و چسباندن دستی اطلاعات یا تکیه بر رابط‌های سفارشی‌سازی شده دارند.

در نتیجه، Agentهای هوش مصنوعی به صورت جداگانه عمل می‌کنند و قابلیت همکاری ضعیفی از خود نشان می‌دهند. این پراکندگی کاربران را که باید بین چندین برنامه هوش مصنوعی حرکت کنند، ناامید می‌کند و پتانسیل هوش مصنوعی را محدود می‌کند. وظایف پیچیده‌ای که می‌توانند از طریق همکاری چند Agent انجام شوند، به طور مصنوعی در داخل سیلوهای فردی محدود می‌شوند.

این وضعیت منعکس کننده چشم انداز پس از جنگ جهانی دوم است، جایی که هر Agent هوش مصنوعی به طور مستقل عمل می‌کند، فاقد قوانین متحد است و با موانع ارتباطی روبرو است. اکوسیستم فعلی هوش مصنوعی شبیه به یک سرزمین بایر پس از جنگ است و برای دسترسی به داده‌ها و عملکردها نیاز به رعایت رابط‌ها و پروتکل‌های خاص دارد. عدم وجود استانداردها ‘تعرفه‌های’ اضافی را با هر رابطه همکاری جدید تحمیل می‌کند و منجر به یک اکوسیستم هوش مصنوعی گسسته و ناکارآمد می‌شود که با انزوا و منافع شخصی مشخص می‌شود.

صنعت هوش مصنوعی در حال بررسی امکان ایجاد یک پروتکل پذیرفته شده جهانی برای تسهیل تعامل یکپارچه بین Agentها و ابزارهای خارجی است. گوگل و Anthropic به عنوان پیشرو ظاهر شده‌اند و هر کدام راه حلی را پیشنهاد می‌کنند: پروتکل A2A و پروتکل MCP.

پروتکل A2A

پروتکل A2A، مخفف Agent2Agent، Agentهای هوش مصنوعی را قادر می‌سازد تا به طور مستقیم با یکدیگر ارتباط برقرار کرده و همکاری کنند.

هدف اصلی پروتکل A2A این است که Agentها با منشاء و فروشندگان مختلف بتوانند یکدیگر را درک کنند و با یکدیگر همکاری کنند، شبیه به تلاش‌های سازمان تجارت جهانی برای کاهش موانع تجاری.

با اتخاذ A2A، Agentها از فروشندگان و چارچوب‌های مختلف می‌توانند به یک منطقه تجارت آزاد بپیوندند، با استفاده از یک زبان مشترک ارتباط برقرار کنند و به طور یکپارچه برای انجام وظایف پیچیده‌ای که فراتر از توانایی‌های Agentهای فردی است، همکاری کنند.

برای نشان دادن نحوه عملکرد A2A، آنالوژی‌های زیر را در نظر بگیرید:

1. Agent = دیپلمات ملی

هر Agent به عنوان یک دیپلمات نماینده سفارت یک کشور عمل می‌کند. هدف پروتکل A2A ایجاد آداب و رسوم دیپلماتیک و رویه‌های ارتباطی یکسان است. پیش از این، دیپلمات‌ها از ‘کشور الف’ منحصراً به زبان فرانسوی ارتباط برقرار می‌کردند، در حالی که دیپلمات‌ها از ‘کشور ب’ از خط سیریلیک استفاده می‌کردند و ‘کشور ج’ خواستار مکاتبه از طریق نامه‌های باستانی با برگ طلایی بود. پروتکل A2A اطمینان می‌دهد که همه شرکت‌کنندگان می‌توانند به زبان از پیش توافق شده ارتباط برقرار کنند، اسناد را در همان قالب ارسال کنند و نتایج مورد توافق را اجرا کنند.

2. Agent Card = اعتبارات دیپلماتیک / کارت ویزیت سفیر

در چارچوب A2A، هر Agent ملزم به انتشار ‘Agent Card’ است، مشابه کارت ویزیت یک دیپلمات، که حاوی جزئیاتی مانند نام Agent، نسخه، قابلیت‌ها و زبان‌ها یا قالب‌های پشتیبانی شده است.

مشابه اینکه کارت ویزیت یک دیپلمات نقش و وابستگی آن‌ها را مشخص می‌کند، Agent Card مهارت‌ها، روش‌های احراز هویت و قالب‌های ورودی/خروجی Agent را فهرست می‌کند. این امر دیپلمات‌های دیگر را قادر می‌سازد تا به سرعت قابلیت‌ها را شناسایی کرده و درک کنند و موانع ارتباطی را به حداقل برسانند.

3. Task = پروژه دیپلماتیک دوجانبه یا چندجانبه

مفهوم Task برای A2A محوری است. هنگامی که یک Agent قصد دارد وظیفه‌ای را به Agent دیگری محول کند، ‘نامه اعلامیه پروژه همکاری’ صادر می‌کند. پس از پذیرش، هر دو طرف یک Task ID را برای پیگیری پیشرفت و تبادل اطلاعات تا تکمیل ثبت می‌کنند.

به عبارت دیپلماتیک، یک ملت ممکن است به دیگری پیشنهاد کند، ‘ما می‌خواهیم در ساخت یک خط راه‌آهن پرسرعت فرامرزی همکاری کنیم؛ لطفاً تیم مهندسی خود را اعزام کنید.’ این آینه یک A2A Task است، جایی که طرف آغاز کننده الزامات را مشخص می‌کند، Agent راه دور می‌پذیرد و هر دو طرف به طور منظم پیشرفت را در طول پروژه به روز می‌کنند.

Messages نشان دهنده ارتباطاتی است که در مراحل اولیه یا میانی پروژه تبادل می‌شوند، شبیه به تلگرام‌های دیپلماتیک، یادداشت‌ها و تبادلات فرستادگان.

4. Push Notifications = بولتن‌های سفارت دیپلماتیک

در A2A، اگر یک Task یک پروژه طولانی مدت باشد که نیاز به زمان تکمیل طولانی‌تری داشته باشد، Agent راه دور می‌تواند طرف آغاز کننده را از طریق Push Notifications به روز کند، شبیه به اینکه یک کشور به طور دوره‌ای به روز رسانی‌هایی در مورد یک پروژه زیربنایی بلند مدت ارائه می‌دهد. این امر قابلیت‌های همکاری ناهمزمان را افزایش می‌دهد.

5. Authentication and Security = امتیازات و پروتکل‌های دیپلماتیک

A2A از استراتژی‌های احراز هویت در سطح سازمانی استفاده می‌کند و از هر دو طرف ارتباطی می‌خواهد که اعتبارنامه را برای جلوگیری از جعل هویت یا استراق سمع مخرب تأیید کنند. این مکانیسم موازی با امتیازات و پروتکل‌های دیپلماتیک است.

در اصل، A2A پویایی دیپلماسی بین‌المللی یا همکاری تجاری را منعکس می‌کند و بر ارتباطات استاندارد و امنیت تأکید دارد.

پروتکل MCP

پروتکل MCP یا Model Context Protocol، استانداردی است که در نوامبر 2024 توسط Anthropic معرفی و متن باز شد.

در حالی که A2A به فرآیند ارتباط بین دیپلمات‌های هوش مصنوعی می‌پردازد، یک چالش پایدار باقی می‌ماند: عدم وجود منابع اطلاعاتی قابل اعتماد. حتی فصیح‌ترین دیپلمات یا مدیر تجاری بدون اطلاعات دقیق در مورد چشم انداز بین‌المللی و تخصیص منابع، برای فعالیت مؤثر مجهز نیست.

دیپلمات‌های مدرن برای انجام وظایف خود به ابزارهای خارجی، مانند سیستم‌های ویزا، سیستم‌های تسویه بین‌المللی و پایگاه‌های اطلاعاتی اطلاعاتی متکی هستند. به طور مشابه، یک Agent که مسئولیت‌های پیچیده‌ای را بر عهده می‌گیرد باید به پایگاه‌های داده مختلف، سیستم‌های مستندسازی، برنامه‌های کاربردی سازمانی و حتی دستگاه‌های سخت افزاری متصل شود.

این را می‌توان تشبیه کرد به ایجاد یک آژانس اطلاعاتی جامع برای دیپلمات‌ها و اعطای دسترسی به ابزارها برای تسهیل کار آن‌ها.

پیش از این، Agentها مجبور بودند افزونه‌های سفارشی توسعه دهند و به طور عمیق با ابزارهای مختلف ادغام شوند، که هم پر زحمت و هم وقت گیر بود. با این حال، MCP اکنون برای ساده کردن این فرآیند در دسترس است.

MCP تعاملات بین مدل‌های زبانی بزرگ و منابع و ابزارهای داده خارجی را استاندارد می‌کند. Anthropic، MCP را به یک پورت USB-C برای برنامه‌های هوش مصنوعی تشبیه می‌کند.

USB-C به عنوان یک رابط جهانی برای دستگاه‌ها عمل می‌کند و از طریق یک پورت واحد، شارژ و انتقال داده را انجام می‌دهد. هدف MCP ایجاد یک رابط جهانی در دامنه هوش مصنوعی است که مدل‌ها و سیستم‌های خارجی مختلف را قادر می‌سازد با استفاده از یک پروتکل مشابه به هم متصل شوند، به جای توسعه راه‌حل‌های ادغام سفارشی هر بار.

مدل‌های هوش مصنوعی که به پایگاه‌های داده، موتورهای جستجو یا برنامه‌های شخص ثالث متصل می‌شوند، در صورت پشتیبانی از MCP، می‌توانند به طور یکپارچه ارتباط برقرار کنند.

MCP از یک معماری کلاینت-سرور استفاده می‌کند:

1. MCP Server = آژانس اطلاعاتی تجمیع شده

سازمان‌ها یا افراد می‌توانند پایگاه‌های داده، سیستم‌های فایل، تقویم‌ها و خدمات شخص ثالث را در MCP Servers کپسوله کنند. این سرورها از پروتکل MCP پیروی می‌کنند و نقاط پایانی دسترسی با قالب یکنواخت را در معرض دید قرار می‌دهند و هر Agent سازگار با استانداردهای کلاینت MCP را قادر می‌سازند تا درخواست ارسال کند، اطلاعات بازیابی کند یا عملیات را اجرا کند.

2. MCP Client = تجهیزات ترمینال مورد استفاده دیپلمات‌ها

یک دیپلمات Agent تجهیزات ترمینال اختصاصی را حمل می‌کند که آن‌ها را قادر می‌سازد تا دستوراتی مانند ‘بازیابی داده‌های موجودی از سیستم مالی’، ‘ارسال درخواست به یک API’ یا ‘بازیابی یک سند PDF’ را وارد کنند.

بدون MCP، ادغام با سیستم‌های مختلف مستلزم نوشتن کدهای دسترسی مختلف است که دشوار است. با این حال، با MCP، کلاینت‌هایی که از این پروتکل پشتیبانی می‌کنند، می‌توانند به راحتی بین MCP Servers مختلف جابجا شوند، اطلاعات را بازیابی کرده و فرآیندهای تجاری را اجرا کنند.

در اصل، MCP ادغام یکپارچه بین Agentهای هوش مصنوعی و منابع خارجی را تسهیل می‌کند.

تفاوت بین A2A و MCP

برای روشن کردن تفاوت بین A2A و MCP، یک اجلاس بین‌المللی فرضی را در نظر بگیرید که در آن سران کشورها (نماینده Agentهای هوش مصنوعی شرکت‌ها) گرد هم می‌آیند تا در یک وظیفه فراملی، مانند تهیه گزارش تحلیل اقتصادی جهانی، همکاری کنند.

بدون یک پروتکل جهانی، چنین جلسه‌ای عملاً غیرممکن خواهد بود، زیرا هر نماینده به زبان متفاوتی صحبت می‌کند. با این حال، با پروتکل A2A، همه نمایندگان قبل از ورود به جلسه ‘کنوانسیون دیپلماتیک وین A2A’ را امضا می‌کنند و موافقت می‌کنند که با استفاده از یک فرمت یکنواخت ارتباط برقرار کنند، خود را معرفی کنند، اهداف خود را بیان کنند و هنگام پاسخ دادن به IDهای اظهارات قبلی استناد کنند.

این امر ‘Agent G’ را قادر می‌سازد تا پیامی را در قالب A2A به ‘Agent O’ ارسال کند و ‘Agent O’ مطابق با آن پاسخ دهد. این نشان دهنده اولین نمونه ارتباط بدون مانع بین Agentهای هوش مصنوعی از شرکت‌های مختلف است.

در طول بحث‌ها، نمایندگان هوش مصنوعی باید با داده‌ها مشورت کنند یا از ابزارها برای تجزیه و تحلیل استفاده کنند. ‘Agent A’ از Anthropic پیشنهاد می‌کند از سیستم MCP برای داده‌های خارجی یا پشتیبانی ابزار استفاده شود.

یک ‘اتاق تفسیر همزمان MCP’ در کنار سالن کنفرانس ایجاد شده است که توسط متخصصانی اداره می‌شود که می‌توانند در صورت دریافت درخواست‌ها از طریق MCP به زبان یکنواخت پاسخ دهند.

به عنوان مثال، ‘Agent Q’ نیاز به دسترسی به پایگاه داده ابری خود برای محاسبات دارد. به جای فرستادن شخصی به کشور، آن‌ها یک درخواست MCP برای داده‌ها از پایگاه داده X ارسال می‌کنند. مدیر پایگاه داده MCP درخواست را ترجمه می‌کند، نتایج را بازیابی می‌کند و به زبان MCP به ‘Agent Q’ پاسخ می‌دهد. کل فرآیند برای سایر Agentها شفاف است، که داده‌های ذکر شده توسط ‘Agent Q’ را درک می‌کنند زیرا ترجمه MCP در یک قالب شناخته شده است.

با پیشرفت نوشتن گزارش، ‘Agent G’ و ‘Agent A’ متوجه می‌شوند که باید مشارکت‌های مربوطه خود را ادغام کنند. ‘Agent G’ در تجزیه و تحلیل عددی تخصص دارد، در حالی که ‘Agent A’ در خلاصه سازی زبان عالی است.

‘Agent G’ داده‌های نرخ رشد GDP را از طریق A2A منتقل می‌کند و ‘Agent A’ از طریق MCP به یک افزونه صفحه گسترده اکسل متصل می‌شود، روند داده‌ها را تأیید می‌کند و با یک پاراگراف خلاصه پاسخ می‌دهد.

در این سناریو، A2A ارتباط بین Agentها را تسهیل می‌کند، در حالی که MCP Agentها را قادر می‌سازد تا به ابزارها و اطلاعات خارجی دسترسی داشته باشند. این پروتکل‌ها با هم یک توافقنامه ارتباطی متناسب برای نسخه هوش مصنوعی سازمان ملل متحد ایجاد می‌کنند. با وجود این پروتکل‌ها، Agentهای هوش مصنوعی می‌توانند به طور موثر همکاری کنند و یک اکوسیستم هوش مصنوعی به هم پیوسته را تشکیل دهند.

A2A شبیه به یک خط تلفن اختصاصی برای ارتباطات دیپلماتیک است که به ارتباط مستقیم Agent می‌پردازد. MCP مشابه یک سیستم تفسیر همزمان و اشتراک منابع است که به موضوع اتصال موجودیت‌های هوشمند با اطلاعات خارجی می‌پردازد.

ظهور A2A و MCP از تکامل صنعت هوش مصنوعی به سمت همکاری به جای رقابت خبر می‌دهد. Agentهای هوش مصنوعی بی‌شماری مانند وب‌سایت‌ها مستقر خواهند شد، از طریق A2A کشف و ارتباط برقرار می‌کنند و از طریق MCP به منابع دسترسی پیدا می‌کنند و دانش را به اشتراک می‌گذارند.