عصر اتصال عامل های هوش مصنوعی: MCP و A2A

ظهور مفهوم عامل

در سال‌های اخیر، با رویدادهایی مانند معرفی سرور GitHub MCP توسط مایکروسافت، انتشار پروتکل ارتباطی بین عوامل هوشمند A2A توسط گوگل و راه‌اندازی سرور MCP توسط Alipay، حوزه Agent (عامل هوشمند) توجه بی‌سابقه‌ای را از سوی بازار دریافت کرده است. اگرچه هنوز تعریف کاملاً یکسانی از Agent وجود ندارد، اما سه جزء اصلی ‘برنامه‌ریزی’، ‘حافظه’ و ‘استفاده از ابزار’ که توسط Lilian Weng، محقق سابق OpenAI، پیشنهاد شده‌اند، به طور گسترده‌ای مورد پذیرش قرار گرفته و به عناصر کلیدی در درک Agent تبدیل شده‌اند.

در حوزه هوش مصنوعی، مفهوم Agent چیز جدیدی نیست، اما با توسعه سریع مدل‌های زبانی بزرگ (LLM)، چشم‌انداز کاربرد Agent با پیشرفت‌های جدیدی روبرو شده است. Agent را می‌توان به عنوان یک سیستم هوشمند در نظر گرفت که می‌تواند محیط را حس کند، به طور مستقل برنامه‌ریزی کند و وظایف را انجام دهد. هسته اصلی آن توانایی شبیه‌سازی فرآیند تصمیم‌گیری انسان و استفاده از ابزارها و منابع مختلف برای دستیابی به اهداف تعیین‌شده است.

وضعیت فعلی توسعه Agent: پتانسیل عظیم، نفوذ پایین

برنامه‌های کاربردی Agent فعلی به عنوان نسخه تکامل‌یافته چت‌بات‌ها، بیشتر در خدمات پولی مدل‌های بزرگ ادغام شده‌اند و تنها تعداد معدودی از Agentها مانند Manus و Devin خدمات پولی مستقلی ارائه می‌دهند. با این وجود، Agentهایی مانند Deep Research و Manus که توانایی برنامه‌ریزی مستقل دارند، هنوز محدودیت‌های زیادی در استفاده دارند و تعداد کاربرانی که واقعاً می‌توانند آنها را تجربه کنند ممکن است زیاد نباشد و هنوز فاصله زیادی تا ظهور برنامه‌های ‘پرطرفدار’ وجود دارد.

با این حال، با بهبود مستمر توانایی استنتاج مدل‌های بزرگ، Agent به تدریج به کانون نوآوری کاربردی تبدیل شده است. توسعه‌دهندگان و محققان بیشتری شروع به بررسی کاربرد Agent در زمینه‌های مختلف مانند دستیارهای هوشمند، فرآیندهای خودکار، تجزیه و تحلیل داده‌ها و غیره کرده‌اند. پتانسیل Agent به تدریج در حال کشف شدن است و فضای توسعه آینده بسیار گسترده است.

کاربرد گسترده Agent در شرف وقوع است: عوامل چندگانه محرک

پیشرفت در بخش آموزش مدل

  • رشد سریع پنجره متن : پنجره متن (Context Window) مدل‌های بزرگ به حداکثر طول متنی اشاره دارد که مدل می‌تواند هنگام پردازش متن در نظر بگیرد. با پیشرفت فناوری، پنجره متن مدل به سرعت در حال رشد است، به این معنی که مدل می‌تواند متن طولانی را بهتر درک کند و در نتیجه تصمیمات دقیق‌تری بگیرد.
  • کاربرد عمیق یادگیری تقویتی : یادگیری تقویتی روشی برای آموزش Agent از طریق پاداش و تنبیه است. در سال‌های اخیر، یادگیری تقویتی به طور گسترده‌ای در آموزش Agent مورد استفاده قرار گرفته است و Agent را قادر می‌سازد تا بهتر با محیط‌های پیچیده سازگار شود و بهترین استراتژی‌ها را یاد بگیرد.
  • مدل استنتاج به طور فزاینده‌ای بالغ می‌شود : مدل استنتاج جزء اصلی Agent است که مسئول استنتاج و قضاوت بر اساس اطلاعات ورودی است. با تعمیق تحقیقات، مدل استنتاج به طور فزاینده‌ای بالغ می‌شود و می‌تواند از برنامه‌های مختلف Agent بهتر پشتیبانی کند.

توسعه پررونق اکوسیستم

  • توسعه سریع پروتکل‌هایی مانند MCP و A2A : MCP (Model Communication Protocol) و A2A (Agent-to-Agent) دو پروتکل مهم ارتباطی Agent هستند. توسعه سریع این پروتکل‌ها باعث می‌شود Agent بتواند ابزارها و خدمات مختلف را راحت‌تر فراخوانی کند و در نتیجه عملکردهای پیچیده‌تری را پیاده‌سازی کند.
  • فراخوانی ابزار توسط Agent راحت‌تر می‌شود : با پیشرفت فناوری، روش فراخوانی ابزارها و خدمات خارجی توسط Agent به طور فزاینده‌ای راحت می‌شود. به عنوان مثال، از طریق API (Application Programming Interface)، Agent می‌تواند به راحتی به منابع داده مختلف و خدمات آنلاین دسترسی داشته باشد و در نتیجه توانایی‌های خود را گسترش دهد.

در نوامبر 2024، Anthropic پروتکل MCP را منتشر و منبع باز کرد که هدف آن استانداردسازی نحوه ارائه زمینه توسط داده‌ها و ابزارهای خارجی به مدل است. این اقدام به شدت توسعه اکوسیستم Agent را ترویج می‌کند و Agent را قادر می‌سازد تا از منابع خارجی بهتر استفاده کند.

MCP و A2A: کلید اتصال Agent

پروتکل MCP: اتصال Agent به دنیای خارج

هدف اصلی پروتکل MCP تحقق ‘اتصال با یک کلیک’ بین Agent و داده‌ها و ابزارهای خارجی است. از طریق پروتکل MCP، Agent می‌تواند به راحتی به منابع خارجی مختلف مانند پایگاه‌های داده، APIها، خدمات وب و غیره دسترسی داشته باشد. این امر Agent را قادر می‌سازد تا محیط را بهتر درک کند و تصمیمات آگاهانه‌تری بگیرد.

پروتکل A2A: ایجاد پلی ارتباطی بین Agentها

هدف پروتکل A2A تحقق ارتباط بین Agentها است. از طریق پروتکل A2A، Agentها می‌توانند با یکدیگر همکاری کنند و وظایف پیچیده را به طور مشترک انجام دهند. این برای ساخت سیستم‌های هوشمند توزیع‌شده از اهمیت زیادی برخوردار است.

اگرچه هدف پروتکل A2A ارتباط بین Agentها و MCP برای Agent با ابزارها و داده‌های خارجی است، اما در وضعیت پیچیده ‘ابزارها نیز ممکن است به عنوان Agent بسته‌بندی شوند’، عملکرد این دو ممکن است همپوشانی داشته باشد، اما این رقابت به کاهش هزینه فراخوانی ابزارها و ارتباطات خارجی توسط مدل‌های بزرگ کمک می‌کند. این رقابت پیشرفت فناوری را پیش خواهد برد و در نهایت به نفع کل اکوسیستم Agent خواهد بود.

چشم‌انداز توسعه Agent

Agent سرتاسری: بدون دخالت انسانی

در حال حاضر، تعداد زیادی ‘عامل هوشمند’ در بازار وجود دارد، اما بیشتر آنها بر اساس پلتفرم‌هایی مانند Coze، Dify و غیره توسعه یافته‌اند و نیاز به نوشتن گردش کار توسط انسان از قبل دارند. این Agentها بیشتر شبیه به ترکیب مهندسی اعلان هستند و به Agentهای نسبتاً ابتدایی تعلق دارند.

Agentهای پیشرفته‌تر ‘سرتاسری’ هستند، به این معنی که ‘وظیفه به Agent وارد می‌شود و Agent به طور خودکار نتایج مورد نیاز انسان را تکمیل می‌کند’. به عنوان مثال، کاربر فقط باید هدفی را به Agent وارد کند، Agent می‌تواند به طور مستقل برنامه‌ریزی کرده و وظایف را انجام دهد و در نهایت هدف را تکمیل کند. Agentهای پیشرفته مانند L3/L4/L5 بیشتر با نیازهای انسان مطابقت دارند و به جهت مهمی برای توسعه Agent در آینده تبدیل خواهند شد.

Agent به ربات و رانندگی خودکار کمک می‌کند

هنگامی که تعریف Agent را در هوش تجسم یافته به کار می‌بریم، متوجه می‌شویم که ربات‌ها و وسایل نقلیه‌ای که توسط مدل‌های بزرگ کنترل می‌شوند نیز Agent هستند. به ویژه ربات‌ها، گلوگاه فعلی توسعه ربات‌ها در ‘چگونگی انجام حرکات فیزیکی’ ‘مخچه’ نیست، بلکه در تفکر ‘چه نوع حرکات فیزیکی انجام شود’ ‘مغز’ است، و این دقیقاً در محدوده Agent قرار می‌گیرد.

در حوزه رباتیک، Agent می‌تواند به ربات‌ها کمک کند تا محیط را بهتر درک کنند و تصمیمات منطقی‌تری بگیرند. به عنوان مثال، Agent می‌تواند بر اساس اشیاء و افراد موجود در محیط، به طور مستقل مسیر حرکت ربات را برنامه‌ریزی کرده و وظایف مختلف را انجام دهد.

در حوزه رانندگی خودکار، Agent می‌تواند به وسایل نقلیه کمک کند تا محیط اطراف را بهتر حس کنند و تصمیمات رانندگی ایمن‌تری بگیرند. به عنوان مثال، Agent می‌تواند بر اساس علائم راهنمایی و رانندگی، وسایل نقلیه دیگر و عابران پیاده، به طور مستقل سرعت و جهت وسیله نقلیه را تنظیم کند و از وقوع تصادفات رانندگی جلوگیری کند.

اتصال Agent و شبکه بومی هوش مصنوعی

در آینده، شاید همه Agentها باید بتوانند با یکدیگر ارتباط برقرار کنند، خود سازماندهی و خود مذاکره کنند و شبکه‌ای مشارکتی با هزینه کمتر و کارایی بالاتر از اینترنت موجود بسازند. جامعه توسعه‌دهندگان چینی نیز در حال ساخت پروتکل‌هایی مانند ANP است که هدف آن تبدیل شدن به پروتکل HTTP در عصر اینترنت Agent است. و در مورد احراز هویت بین Agentها، می‌توان از فناوری‌هایی مانند DID کمک گرفت.

  • اتصال Agent: اتصال بین Agentها می‌تواند تحقق اشتراک منابع و همکاری را ممکن سازد و در نتیجه کارایی کل سیستم را بهبود بخشد. به عنوان مثال، Agentهای مختلف می‌توانند داده‌ها، ابزارها و خدمات را به اشتراک بگذارند و در نتیجه وظایف پیچیده را به طور مشترک انجام دهند.
  • شبکه بومی هوش مصنوعی: شبکه بومی هوش مصنوعی به شبکه‌ای اشاره دارد که به طور خاص برای برنامه‌های کاربردی هوش مصنوعی طراحی شده است. این نوع شبکه می‌تواند پهنای باند بالاتر، تأخیر کمتر و امنیت قوی‌تری را ارائه دهد و در نتیجه از برنامه‌های مختلف Agent بهتر پشتیبانی کند.
  • فناوری DID: DID (Decentralized Identifier) یک فناوری احراز هویت غیرمتمرکز است. از طریق فناوری DID، Agent می‌تواند هویت خود را داشته باشد و در نتیجه ارتباط ایمن‌تر و مطمئن‌تری را تحقق بخشد.

توسعه فناوری Agent تحولات عظیمی را به همراه خواهد داشت، اینترنت آینده دیگر یک شبکه انتقال اطلاعات ساده نخواهد بود، بلکه یک شبکه مشارکتی پر از هوش خواهد بود.