ظهور مفهوم عامل
در سالهای اخیر، با رویدادهایی مانند معرفی سرور GitHub MCP توسط مایکروسافت، انتشار پروتکل ارتباطی بین عوامل هوشمند A2A توسط گوگل و راهاندازی سرور MCP توسط Alipay، حوزه Agent (عامل هوشمند) توجه بیسابقهای را از سوی بازار دریافت کرده است. اگرچه هنوز تعریف کاملاً یکسانی از Agent وجود ندارد، اما سه جزء اصلی ‘برنامهریزی’، ‘حافظه’ و ‘استفاده از ابزار’ که توسط Lilian Weng، محقق سابق OpenAI، پیشنهاد شدهاند، به طور گستردهای مورد پذیرش قرار گرفته و به عناصر کلیدی در درک Agent تبدیل شدهاند.
در حوزه هوش مصنوعی، مفهوم Agent چیز جدیدی نیست، اما با توسعه سریع مدلهای زبانی بزرگ (LLM)، چشمانداز کاربرد Agent با پیشرفتهای جدیدی روبرو شده است. Agent را میتوان به عنوان یک سیستم هوشمند در نظر گرفت که میتواند محیط را حس کند، به طور مستقل برنامهریزی کند و وظایف را انجام دهد. هسته اصلی آن توانایی شبیهسازی فرآیند تصمیمگیری انسان و استفاده از ابزارها و منابع مختلف برای دستیابی به اهداف تعیینشده است.
وضعیت فعلی توسعه Agent: پتانسیل عظیم، نفوذ پایین
برنامههای کاربردی Agent فعلی به عنوان نسخه تکاملیافته چتباتها، بیشتر در خدمات پولی مدلهای بزرگ ادغام شدهاند و تنها تعداد معدودی از Agentها مانند Manus و Devin خدمات پولی مستقلی ارائه میدهند. با این وجود، Agentهایی مانند Deep Research و Manus که توانایی برنامهریزی مستقل دارند، هنوز محدودیتهای زیادی در استفاده دارند و تعداد کاربرانی که واقعاً میتوانند آنها را تجربه کنند ممکن است زیاد نباشد و هنوز فاصله زیادی تا ظهور برنامههای ‘پرطرفدار’ وجود دارد.
با این حال، با بهبود مستمر توانایی استنتاج مدلهای بزرگ، Agent به تدریج به کانون نوآوری کاربردی تبدیل شده است. توسعهدهندگان و محققان بیشتری شروع به بررسی کاربرد Agent در زمینههای مختلف مانند دستیارهای هوشمند، فرآیندهای خودکار، تجزیه و تحلیل دادهها و غیره کردهاند. پتانسیل Agent به تدریج در حال کشف شدن است و فضای توسعه آینده بسیار گسترده است.
کاربرد گسترده Agent در شرف وقوع است: عوامل چندگانه محرک
پیشرفت در بخش آموزش مدل
- رشد سریع پنجره متن : پنجره متن (Context Window) مدلهای بزرگ به حداکثر طول متنی اشاره دارد که مدل میتواند هنگام پردازش متن در نظر بگیرد. با پیشرفت فناوری، پنجره متن مدل به سرعت در حال رشد است، به این معنی که مدل میتواند متن طولانی را بهتر درک کند و در نتیجه تصمیمات دقیقتری بگیرد.
- کاربرد عمیق یادگیری تقویتی : یادگیری تقویتی روشی برای آموزش Agent از طریق پاداش و تنبیه است. در سالهای اخیر، یادگیری تقویتی به طور گستردهای در آموزش Agent مورد استفاده قرار گرفته است و Agent را قادر میسازد تا بهتر با محیطهای پیچیده سازگار شود و بهترین استراتژیها را یاد بگیرد.
- مدل استنتاج به طور فزایندهای بالغ میشود : مدل استنتاج جزء اصلی Agent است که مسئول استنتاج و قضاوت بر اساس اطلاعات ورودی است. با تعمیق تحقیقات، مدل استنتاج به طور فزایندهای بالغ میشود و میتواند از برنامههای مختلف Agent بهتر پشتیبانی کند.
توسعه پررونق اکوسیستم
- توسعه سریع پروتکلهایی مانند MCP و A2A : MCP (Model Communication Protocol) و A2A (Agent-to-Agent) دو پروتکل مهم ارتباطی Agent هستند. توسعه سریع این پروتکلها باعث میشود Agent بتواند ابزارها و خدمات مختلف را راحتتر فراخوانی کند و در نتیجه عملکردهای پیچیدهتری را پیادهسازی کند.
- فراخوانی ابزار توسط Agent راحتتر میشود : با پیشرفت فناوری، روش فراخوانی ابزارها و خدمات خارجی توسط Agent به طور فزایندهای راحت میشود. به عنوان مثال، از طریق API (Application Programming Interface)، Agent میتواند به راحتی به منابع داده مختلف و خدمات آنلاین دسترسی داشته باشد و در نتیجه تواناییهای خود را گسترش دهد.
در نوامبر 2024، Anthropic پروتکل MCP را منتشر و منبع باز کرد که هدف آن استانداردسازی نحوه ارائه زمینه توسط دادهها و ابزارهای خارجی به مدل است. این اقدام به شدت توسعه اکوسیستم Agent را ترویج میکند و Agent را قادر میسازد تا از منابع خارجی بهتر استفاده کند.
MCP و A2A: کلید اتصال Agent
پروتکل MCP: اتصال Agent به دنیای خارج
هدف اصلی پروتکل MCP تحقق ‘اتصال با یک کلیک’ بین Agent و دادهها و ابزارهای خارجی است. از طریق پروتکل MCP، Agent میتواند به راحتی به منابع خارجی مختلف مانند پایگاههای داده، APIها، خدمات وب و غیره دسترسی داشته باشد. این امر Agent را قادر میسازد تا محیط را بهتر درک کند و تصمیمات آگاهانهتری بگیرد.
پروتکل A2A: ایجاد پلی ارتباطی بین Agentها
هدف پروتکل A2A تحقق ارتباط بین Agentها است. از طریق پروتکل A2A، Agentها میتوانند با یکدیگر همکاری کنند و وظایف پیچیده را به طور مشترک انجام دهند. این برای ساخت سیستمهای هوشمند توزیعشده از اهمیت زیادی برخوردار است.
اگرچه هدف پروتکل A2A ارتباط بین Agentها و MCP برای Agent با ابزارها و دادههای خارجی است، اما در وضعیت پیچیده ‘ابزارها نیز ممکن است به عنوان Agent بستهبندی شوند’، عملکرد این دو ممکن است همپوشانی داشته باشد، اما این رقابت به کاهش هزینه فراخوانی ابزارها و ارتباطات خارجی توسط مدلهای بزرگ کمک میکند. این رقابت پیشرفت فناوری را پیش خواهد برد و در نهایت به نفع کل اکوسیستم Agent خواهد بود.
چشمانداز توسعه Agent
Agent سرتاسری: بدون دخالت انسانی
در حال حاضر، تعداد زیادی ‘عامل هوشمند’ در بازار وجود دارد، اما بیشتر آنها بر اساس پلتفرمهایی مانند Coze، Dify و غیره توسعه یافتهاند و نیاز به نوشتن گردش کار توسط انسان از قبل دارند. این Agentها بیشتر شبیه به ترکیب مهندسی اعلان هستند و به Agentهای نسبتاً ابتدایی تعلق دارند.
Agentهای پیشرفتهتر ‘سرتاسری’ هستند، به این معنی که ‘وظیفه به Agent وارد میشود و Agent به طور خودکار نتایج مورد نیاز انسان را تکمیل میکند’. به عنوان مثال، کاربر فقط باید هدفی را به Agent وارد کند، Agent میتواند به طور مستقل برنامهریزی کرده و وظایف را انجام دهد و در نهایت هدف را تکمیل کند. Agentهای پیشرفته مانند L3/L4/L5 بیشتر با نیازهای انسان مطابقت دارند و به جهت مهمی برای توسعه Agent در آینده تبدیل خواهند شد.
Agent به ربات و رانندگی خودکار کمک میکند
هنگامی که تعریف Agent را در هوش تجسم یافته به کار میبریم، متوجه میشویم که رباتها و وسایل نقلیهای که توسط مدلهای بزرگ کنترل میشوند نیز Agent هستند. به ویژه رباتها، گلوگاه فعلی توسعه رباتها در ‘چگونگی انجام حرکات فیزیکی’ ‘مخچه’ نیست، بلکه در تفکر ‘چه نوع حرکات فیزیکی انجام شود’ ‘مغز’ است، و این دقیقاً در محدوده Agent قرار میگیرد.
در حوزه رباتیک، Agent میتواند به رباتها کمک کند تا محیط را بهتر درک کنند و تصمیمات منطقیتری بگیرند. به عنوان مثال، Agent میتواند بر اساس اشیاء و افراد موجود در محیط، به طور مستقل مسیر حرکت ربات را برنامهریزی کرده و وظایف مختلف را انجام دهد.
در حوزه رانندگی خودکار، Agent میتواند به وسایل نقلیه کمک کند تا محیط اطراف را بهتر حس کنند و تصمیمات رانندگی ایمنتری بگیرند. به عنوان مثال، Agent میتواند بر اساس علائم راهنمایی و رانندگی، وسایل نقلیه دیگر و عابران پیاده، به طور مستقل سرعت و جهت وسیله نقلیه را تنظیم کند و از وقوع تصادفات رانندگی جلوگیری کند.
اتصال Agent و شبکه بومی هوش مصنوعی
در آینده، شاید همه Agentها باید بتوانند با یکدیگر ارتباط برقرار کنند، خود سازماندهی و خود مذاکره کنند و شبکهای مشارکتی با هزینه کمتر و کارایی بالاتر از اینترنت موجود بسازند. جامعه توسعهدهندگان چینی نیز در حال ساخت پروتکلهایی مانند ANP است که هدف آن تبدیل شدن به پروتکل HTTP در عصر اینترنت Agent است. و در مورد احراز هویت بین Agentها، میتوان از فناوریهایی مانند DID کمک گرفت.
- اتصال Agent: اتصال بین Agentها میتواند تحقق اشتراک منابع و همکاری را ممکن سازد و در نتیجه کارایی کل سیستم را بهبود بخشد. به عنوان مثال، Agentهای مختلف میتوانند دادهها، ابزارها و خدمات را به اشتراک بگذارند و در نتیجه وظایف پیچیده را به طور مشترک انجام دهند.
- شبکه بومی هوش مصنوعی: شبکه بومی هوش مصنوعی به شبکهای اشاره دارد که به طور خاص برای برنامههای کاربردی هوش مصنوعی طراحی شده است. این نوع شبکه میتواند پهنای باند بالاتر، تأخیر کمتر و امنیت قویتری را ارائه دهد و در نتیجه از برنامههای مختلف Agent بهتر پشتیبانی کند.
- فناوری DID: DID (Decentralized Identifier) یک فناوری احراز هویت غیرمتمرکز است. از طریق فناوری DID، Agent میتواند هویت خود را داشته باشد و در نتیجه ارتباط ایمنتر و مطمئنتری را تحقق بخشد.
توسعه فناوری Agent تحولات عظیمی را به همراه خواهد داشت، اینترنت آینده دیگر یک شبکه انتقال اطلاعات ساده نخواهد بود، بلکه یک شبکه مشارکتی پر از هوش خواهد بود.