اخیراً، گوگل پروتکل باز جدیدی برای Agentها با نام Agent2Agent یا به اختصار A2A معرفی کرده است. همزمان، Bailian متعلق به Alibaba Cloud نیز از ورود خود به MCP خبر داده است. بیایید به بررسی این که A2A و MCP دقیقاً چه هستند بپردازیم.
برای درک این پروتکلها، از تشبیه دیپلماسی بین کشورها استفاده میکنیم. تصور کنید هر Agent هوش مصنوعی یک کشور کوچک با زبان و آداب و رسوم خاص خود است. این ‘کشورها’ سفارتخانههایی در یک ساختمان دارند و تلاش میکنند با هم ارتباط برقرار کنند، تجارت کنند و تبادل اطلاعات داشته باشند.
در یک سناریوی ایدهآل، این کشورها روابط دوستانهای داشته باشند و از مجموعهای واضح از قوانین دیپلماتیک پیروی کنند، که به آنها امکان میدهد به طور یکپارچه با یکدیگر تعامل داشته باشند، توافقنامه امضا کنند و در پروژههای بینالمللی حول یک میز کنفرانس همکاری کنند.
با این حال، واقعیت این است که هر سفارتخانه به طور مستقل و با پروتکلهای متفاوت عمل میکند. در نتیجه، شروع یک توافقنامه تجاری ساده با ‘کشور الف’ مستلزم برآورده کردن انبوهی از الزامات، از جمله تدارکات، گواهینامهها، ترجمهها و کلیدهای تخصصی است. تعامل با ‘کشور ب’ و ‘کشور ج’ مستلزم تکرار رویههای مشابه به دفعات است. این رویکرد موقت، پراکنده و چندوجهی هزینههای ارتباطی را افزایش میدهد و هر تعامل هزینه ‘تعرفه اطلاعاتی’ اضافی را به همراه دارد.
در گذشته، Agentهای هوش مصنوعی هنگام تلاش برای همکاری با معضلات مشابهی روبرو بودند.
به عنوان مثال، ممکن است Agentای داشته باشید که به طور خودکار به ایمیلها پاسخ میدهد و Agent دیگری که در یک برنامه تقویم برای کمک به زمانبندی ادغام شده است. با این حال، این موجودیتهای هوش مصنوعی برای برقراری ارتباط مستقیم با مشکل مواجه میشوند و نیاز به کپی و چسباندن دستی اطلاعات یا تکیه بر رابطهای سفارشیسازی شده دارند.
در نتیجه، Agentهای هوش مصنوعی به صورت جداگانه عمل میکنند و قابلیت همکاری ضعیفی از خود نشان میدهند. این پراکندگی کاربران را که باید بین چندین برنامه هوش مصنوعی حرکت کنند، ناامید میکند و پتانسیل هوش مصنوعی را محدود میکند. وظایف پیچیدهای که میتوانند از طریق همکاری چند Agent انجام شوند، به طور مصنوعی در داخل سیلوهای فردی محدود میشوند.
این وضعیت منعکس کننده چشم انداز پس از جنگ جهانی دوم است، جایی که هر Agent هوش مصنوعی به طور مستقل عمل میکند، فاقد قوانین متحد است و با موانع ارتباطی روبرو است. اکوسیستم فعلی هوش مصنوعی شبیه به یک سرزمین بایر پس از جنگ است و برای دسترسی به دادهها و عملکردها نیاز به رعایت رابطها و پروتکلهای خاص دارد. عدم وجود استانداردها ‘تعرفههای’ اضافی را با هر رابطه همکاری جدید تحمیل میکند و منجر به یک اکوسیستم هوش مصنوعی گسسته و ناکارآمد میشود که با انزوا و منافع شخصی مشخص میشود.
صنعت هوش مصنوعی در حال بررسی امکان ایجاد یک پروتکل پذیرفته شده جهانی برای تسهیل تعامل یکپارچه بین Agentها و ابزارهای خارجی است. گوگل و Anthropic به عنوان پیشرو ظاهر شدهاند و هر کدام راه حلی را پیشنهاد میکنند: پروتکل A2A و پروتکل MCP.
پروتکل A2A
پروتکل A2A، مخفف Agent2Agent، Agentهای هوش مصنوعی را قادر میسازد تا به طور مستقیم با یکدیگر ارتباط برقرار کرده و همکاری کنند.
هدف اصلی پروتکل A2A این است که Agentها با منشاء و فروشندگان مختلف بتوانند یکدیگر را درک کنند و با یکدیگر همکاری کنند، شبیه به تلاشهای سازمان تجارت جهانی برای کاهش موانع تجاری.
با اتخاذ A2A، Agentها از فروشندگان و چارچوبهای مختلف میتوانند به یک منطقه تجارت آزاد بپیوندند، با استفاده از یک زبان مشترک ارتباط برقرار کنند و به طور یکپارچه برای انجام وظایف پیچیدهای که فراتر از تواناییهای Agentهای فردی است، همکاری کنند.
برای نشان دادن نحوه عملکرد A2A، آنالوژیهای زیر را در نظر بگیرید:
1. Agent = دیپلمات ملی
هر Agent به عنوان یک دیپلمات نماینده سفارت یک کشور عمل میکند. هدف پروتکل A2A ایجاد آداب و رسوم دیپلماتیک و رویههای ارتباطی یکسان است. پیش از این، دیپلماتها از ‘کشور الف’ منحصراً به زبان فرانسوی ارتباط برقرار میکردند، در حالی که دیپلماتها از ‘کشور ب’ از خط سیریلیک استفاده میکردند و ‘کشور ج’ خواستار مکاتبه از طریق نامههای باستانی با برگ طلایی بود. پروتکل A2A اطمینان میدهد که همه شرکتکنندگان میتوانند به زبان از پیش توافق شده ارتباط برقرار کنند، اسناد را در همان قالب ارسال کنند و نتایج مورد توافق را اجرا کنند.
2. Agent Card = اعتبارات دیپلماتیک / کارت ویزیت سفیر
در چارچوب A2A، هر Agent ملزم به انتشار ‘Agent Card’ است، مشابه کارت ویزیت یک دیپلمات، که حاوی جزئیاتی مانند نام Agent، نسخه، قابلیتها و زبانها یا قالبهای پشتیبانی شده است.
مشابه اینکه کارت ویزیت یک دیپلمات نقش و وابستگی آنها را مشخص میکند، Agent Card مهارتها، روشهای احراز هویت و قالبهای ورودی/خروجی Agent را فهرست میکند. این امر دیپلماتهای دیگر را قادر میسازد تا به سرعت قابلیتها را شناسایی کرده و درک کنند و موانع ارتباطی را به حداقل برسانند.
3. Task = پروژه دیپلماتیک دوجانبه یا چندجانبه
مفهوم Task برای A2A محوری است. هنگامی که یک Agent قصد دارد وظیفهای را به Agent دیگری محول کند، ‘نامه اعلامیه پروژه همکاری’ صادر میکند. پس از پذیرش، هر دو طرف یک Task ID را برای پیگیری پیشرفت و تبادل اطلاعات تا تکمیل ثبت میکنند.
به عبارت دیپلماتیک، یک ملت ممکن است به دیگری پیشنهاد کند، ‘ما میخواهیم در ساخت یک خط راهآهن پرسرعت فرامرزی همکاری کنیم؛ لطفاً تیم مهندسی خود را اعزام کنید.’ این آینه یک A2A Task است، جایی که طرف آغاز کننده الزامات را مشخص میکند، Agent راه دور میپذیرد و هر دو طرف به طور منظم پیشرفت را در طول پروژه به روز میکنند.
Messages نشان دهنده ارتباطاتی است که در مراحل اولیه یا میانی پروژه تبادل میشوند، شبیه به تلگرامهای دیپلماتیک، یادداشتها و تبادلات فرستادگان.
4. Push Notifications = بولتنهای سفارت دیپلماتیک
در A2A، اگر یک Task یک پروژه طولانی مدت باشد که نیاز به زمان تکمیل طولانیتری داشته باشد، Agent راه دور میتواند طرف آغاز کننده را از طریق Push Notifications به روز کند، شبیه به اینکه یک کشور به طور دورهای به روز رسانیهایی در مورد یک پروژه زیربنایی بلند مدت ارائه میدهد. این امر قابلیتهای همکاری ناهمزمان را افزایش میدهد.
5. Authentication and Security = امتیازات و پروتکلهای دیپلماتیک
A2A از استراتژیهای احراز هویت در سطح سازمانی استفاده میکند و از هر دو طرف ارتباطی میخواهد که اعتبارنامه را برای جلوگیری از جعل هویت یا استراق سمع مخرب تأیید کنند. این مکانیسم موازی با امتیازات و پروتکلهای دیپلماتیک است.
در اصل، A2A پویایی دیپلماسی بینالمللی یا همکاری تجاری را منعکس میکند و بر ارتباطات استاندارد و امنیت تأکید دارد.
پروتکل MCP
پروتکل MCP یا Model Context Protocol، استانداردی است که در نوامبر 2024 توسط Anthropic معرفی و متن باز شد.
در حالی که A2A به فرآیند ارتباط بین دیپلماتهای هوش مصنوعی میپردازد، یک چالش پایدار باقی میماند: عدم وجود منابع اطلاعاتی قابل اعتماد. حتی فصیحترین دیپلمات یا مدیر تجاری بدون اطلاعات دقیق در مورد چشم انداز بینالمللی و تخصیص منابع، برای فعالیت مؤثر مجهز نیست.
دیپلماتهای مدرن برای انجام وظایف خود به ابزارهای خارجی، مانند سیستمهای ویزا، سیستمهای تسویه بینالمللی و پایگاههای اطلاعاتی اطلاعاتی متکی هستند. به طور مشابه، یک Agent که مسئولیتهای پیچیدهای را بر عهده میگیرد باید به پایگاههای داده مختلف، سیستمهای مستندسازی، برنامههای کاربردی سازمانی و حتی دستگاههای سخت افزاری متصل شود.
این را میتوان تشبیه کرد به ایجاد یک آژانس اطلاعاتی جامع برای دیپلماتها و اعطای دسترسی به ابزارها برای تسهیل کار آنها.
پیش از این، Agentها مجبور بودند افزونههای سفارشی توسعه دهند و به طور عمیق با ابزارهای مختلف ادغام شوند، که هم پر زحمت و هم وقت گیر بود. با این حال، MCP اکنون برای ساده کردن این فرآیند در دسترس است.
MCP تعاملات بین مدلهای زبانی بزرگ و منابع و ابزارهای داده خارجی را استاندارد میکند. Anthropic، MCP را به یک پورت USB-C برای برنامههای هوش مصنوعی تشبیه میکند.
USB-C به عنوان یک رابط جهانی برای دستگاهها عمل میکند و از طریق یک پورت واحد، شارژ و انتقال داده را انجام میدهد. هدف MCP ایجاد یک رابط جهانی در دامنه هوش مصنوعی است که مدلها و سیستمهای خارجی مختلف را قادر میسازد با استفاده از یک پروتکل مشابه به هم متصل شوند، به جای توسعه راهحلهای ادغام سفارشی هر بار.
مدلهای هوش مصنوعی که به پایگاههای داده، موتورهای جستجو یا برنامههای شخص ثالث متصل میشوند، در صورت پشتیبانی از MCP، میتوانند به طور یکپارچه ارتباط برقرار کنند.
MCP از یک معماری کلاینت-سرور استفاده میکند:
1. MCP Server = آژانس اطلاعاتی تجمیع شده
سازمانها یا افراد میتوانند پایگاههای داده، سیستمهای فایل، تقویمها و خدمات شخص ثالث را در MCP Servers کپسوله کنند. این سرورها از پروتکل MCP پیروی میکنند و نقاط پایانی دسترسی با قالب یکنواخت را در معرض دید قرار میدهند و هر Agent سازگار با استانداردهای کلاینت MCP را قادر میسازند تا درخواست ارسال کند، اطلاعات بازیابی کند یا عملیات را اجرا کند.
2. MCP Client = تجهیزات ترمینال مورد استفاده دیپلماتها
یک دیپلمات Agent تجهیزات ترمینال اختصاصی را حمل میکند که آنها را قادر میسازد تا دستوراتی مانند ‘بازیابی دادههای موجودی از سیستم مالی’، ‘ارسال درخواست به یک API’ یا ‘بازیابی یک سند PDF’ را وارد کنند.
بدون MCP، ادغام با سیستمهای مختلف مستلزم نوشتن کدهای دسترسی مختلف است که دشوار است. با این حال، با MCP، کلاینتهایی که از این پروتکل پشتیبانی میکنند، میتوانند به راحتی بین MCP Servers مختلف جابجا شوند، اطلاعات را بازیابی کرده و فرآیندهای تجاری را اجرا کنند.
در اصل، MCP ادغام یکپارچه بین Agentهای هوش مصنوعی و منابع خارجی را تسهیل میکند.
تفاوت بین A2A و MCP
برای روشن کردن تفاوت بین A2A و MCP، یک اجلاس بینالمللی فرضی را در نظر بگیرید که در آن سران کشورها (نماینده Agentهای هوش مصنوعی شرکتها) گرد هم میآیند تا در یک وظیفه فراملی، مانند تهیه گزارش تحلیل اقتصادی جهانی، همکاری کنند.
بدون یک پروتکل جهانی، چنین جلسهای عملاً غیرممکن خواهد بود، زیرا هر نماینده به زبان متفاوتی صحبت میکند. با این حال، با پروتکل A2A، همه نمایندگان قبل از ورود به جلسه ‘کنوانسیون دیپلماتیک وین A2A’ را امضا میکنند و موافقت میکنند که با استفاده از یک فرمت یکنواخت ارتباط برقرار کنند، خود را معرفی کنند، اهداف خود را بیان کنند و هنگام پاسخ دادن به IDهای اظهارات قبلی استناد کنند.
این امر ‘Agent G’ را قادر میسازد تا پیامی را در قالب A2A به ‘Agent O’ ارسال کند و ‘Agent O’ مطابق با آن پاسخ دهد. این نشان دهنده اولین نمونه ارتباط بدون مانع بین Agentهای هوش مصنوعی از شرکتهای مختلف است.
در طول بحثها، نمایندگان هوش مصنوعی باید با دادهها مشورت کنند یا از ابزارها برای تجزیه و تحلیل استفاده کنند. ‘Agent A’ از Anthropic پیشنهاد میکند از سیستم MCP برای دادههای خارجی یا پشتیبانی ابزار استفاده شود.
یک ‘اتاق تفسیر همزمان MCP’ در کنار سالن کنفرانس ایجاد شده است که توسط متخصصانی اداره میشود که میتوانند در صورت دریافت درخواستها از طریق MCP به زبان یکنواخت پاسخ دهند.
به عنوان مثال، ‘Agent Q’ نیاز به دسترسی به پایگاه داده ابری خود برای محاسبات دارد. به جای فرستادن شخصی به کشور، آنها یک درخواست MCP برای دادهها از پایگاه داده X ارسال میکنند. مدیر پایگاه داده MCP درخواست را ترجمه میکند، نتایج را بازیابی میکند و به زبان MCP به ‘Agent Q’ پاسخ میدهد. کل فرآیند برای سایر Agentها شفاف است، که دادههای ذکر شده توسط ‘Agent Q’ را درک میکنند زیرا ترجمه MCP در یک قالب شناخته شده است.
با پیشرفت نوشتن گزارش، ‘Agent G’ و ‘Agent A’ متوجه میشوند که باید مشارکتهای مربوطه خود را ادغام کنند. ‘Agent G’ در تجزیه و تحلیل عددی تخصص دارد، در حالی که ‘Agent A’ در خلاصه سازی زبان عالی است.
‘Agent G’ دادههای نرخ رشد GDP را از طریق A2A منتقل میکند و ‘Agent A’ از طریق MCP به یک افزونه صفحه گسترده اکسل متصل میشود، روند دادهها را تأیید میکند و با یک پاراگراف خلاصه پاسخ میدهد.
در این سناریو، A2A ارتباط بین Agentها را تسهیل میکند، در حالی که MCP Agentها را قادر میسازد تا به ابزارها و اطلاعات خارجی دسترسی داشته باشند. این پروتکلها با هم یک توافقنامه ارتباطی متناسب برای نسخه هوش مصنوعی سازمان ملل متحد ایجاد میکنند. با وجود این پروتکلها، Agentهای هوش مصنوعی میتوانند به طور موثر همکاری کنند و یک اکوسیستم هوش مصنوعی به هم پیوسته را تشکیل دهند.
A2A شبیه به یک خط تلفن اختصاصی برای ارتباطات دیپلماتیک است که به ارتباط مستقیم Agent میپردازد. MCP مشابه یک سیستم تفسیر همزمان و اشتراک منابع است که به موضوع اتصال موجودیتهای هوشمند با اطلاعات خارجی میپردازد.
ظهور A2A و MCP از تکامل صنعت هوش مصنوعی به سمت همکاری به جای رقابت خبر میدهد. Agentهای هوش مصنوعی بیشماری مانند وبسایتها مستقر خواهند شد، از طریق A2A کشف و ارتباط برقرار میکنند و از طریق MCP به منابع دسترسی پیدا میکنند و دانش را به اشتراک میگذارند.