Ерата на AI Агенти: MCP и A2A

Възходът на концепцията за Agent

През последните години, с пускането на GitHub MCP сървъра от Microsoft, A2A протокола за комуникация между интелигентни агенти от Google и MCP сървъра от Alipay, областта на агентите (интелигентните агенти) получава безпрецедентно внимание от пазара. Въпреки че все още няма напълно съгласувано определение за Agent, трите основни компонента, предложени от бившия изследовател на OpenAI Lilian Weng – „планиране“, „памет“ и „използване на инструменти“, са широко признати и се превръщат в ключови елементи за разбиране на Agent.

В областта на изкуствения интелект концепцията за Agent не е новост, но с бързото развитие на големите езикови модели (LLM), перспективите за приложение на Agent претърпяват нови пробиви. Agent може да се разглежда като интелигентна система, която може да възприема околната среда, да планира автономно и да изпълнява задачи. Нейната същност е в способността да симулира процеса на вземане на решения от човека и да използва различни инструменти и ресурси за постигане на поставените цели.

Състояние на развитието на Agent: Огромен потенциал, нисък процент на проникване

Като еволюирала версия на чатботовете, настоящите приложения на Agent са предимно интегрирани в платени услуги на големи модели, а само малцина, като Manus и Devin, предлагат независими платени услуги. Независимо от това, Agent като Deep Research и Manus, които имат възможност за автономно планиране, все още имат много ограничения при използването, а броят на потребителите, които наистина могат да ги изпитат, може да не е голям и има много място за подобрение, преди да се появи “хитов” продукт.

Въпреки това, с непрекъснатото подобряване на възможностите за заключение на големите модели, Agent постепенно се превръща във фокус на иновациите в приложенията. Все повече разработчици и изследователи започват да проучват приложението на Agent в различни области, като например интелигентни асистенти, автоматизирани процеси, анализ на данни и др. Потенциалът на Agent постепенно се разкрива и бъдещото пространство за развитие е много широко.

Предстои масово приложение на Agent: Водено от множество благоприятни условия

Пробив в края на обучението намодела

  • Бърз растеж на контекстуалния прозорец: Контекстуалният прозорец на големите модели е максималната дължина на текста, която моделът може да вземе предвид при обработката на текст. С напредъка на технологиите контекстуалният прозорец на модела се разраства бързо, което означава, че моделът може да разбере по-добре контекста на дълъг текст, за да взема по-точни решения.
  • Дълбоко приложение на обучението с подсилване: Обучението с подсилване е метод за обучение на Agent чрез награди и наказания. През последните години обучението с подсилване е широко използвано в обучението на Agent, което позволява на Agent да се адаптира по-добре към сложни среди и да научи оптимални стратегии.
  • Моделът за разсъждения става все по-зрял: Моделът за разсъждения е основен компонент на Agent, който отговаря за разсъждения и преценка въз основа на въведената информация. С задълбочаването на изследванията, моделът за разсъждения става все по-зрял и може по-добре да поддържа различните приложения на Agent.

Процъфтяваща екосистема

  • MCP и A2A и други протоколи се развиват бързо: MCP (Model Communication Protocol) и A2A (Agent-to-Agent) са два важни протокола за комуникация на Agent. Бързото развитие на тези протоколи улеснява Agent да извиква различни инструменти и услуги, за да постига по-сложни функции.
  • Agent става по-удобен за извикване на инструменти: С напредъка на технологиите, начинът, по който Agent извиква външни инструменти и услуги, става все по-удобен. Например, чрез API (Application Programming Interface), Agent може лесно да получи достъп до различни източници на данни и онлайн услуги, за да разшири собствените си възможности.

През ноември 2024 г. Anthropic пусна и отвори MCP протокола, който има за цел да стандартизира как външни данни и инструменти предоставят контекст на моделите. Тази мярка значително ще насърчи развитието на екосистемата на Agent, позволявайки на Agent да използва по-добре външни ресурси.

MCP и A2A: Ключът към свързването на Agent

MCP протокол: Свързване на Agent с външния свят

Основната цел на MCP протокола е да реализира ‘свързване с един клик’ на Agent с външни данни и инструменти. Чрез MCP протокола Agent може лесно да получи достъп до различни външни ресурси, като бази данни, API, уеб услуги и др. Това позволява на Agent да разбира по-добре околната среда и да взема по-разумни решения.

A2A протокол: Изграждане на комуникационен мост между Agent

Целта на A2A протокола е да реализира комуникация между Agent. Чрез A2A протокола Agent могат да си сътрудничат помежду си, за да изпълняват заедно сложни задачи. Това е от голямо значение за изграждането на разпределени интелигентни системи.

Въпреки че целта на A2A протокола е комуникация между Agent, а MCP е за Agent с външни инструменти и данни, в сложната ситуация, в която ‘инструментите също могат да бъдат капсулирани като Agent’, функциите на двете може да се припокриват, но тази конкуренция помага за намаляване на разходите за извикване на външни инструменти и комуникация на големите модели. Тази конкуренция ще стимулира напредъка на технологиите и в крайна сметка ще бъде от полза за цялата екосистема на Agent.

Перспективи за развитие на Agent

End-to-end Agent: Без човешка намеса

Понастоящем на пазара има голям брой ‘интелигентни агенти’, но значителна част от тях са разработени на платформи като Coze, Dify и др. и изискват хората предварително да пишат работни потоци. Тези Agent са по-скоро суперпозиция на инженеринг на подкани и принадлежат към по-начален Agent.

По-усъвършенстваният Agent е ‘end-to-end’, което означава ‘въвеждане на задача в Agent и Agent автоматично изпълнява резултатите от задачите, необходими на хората’. Например, потребителят трябва само да въведе цел в Agent и Agent може автономно да планира и изпълнява задачата и в крайна сметка да завърши целта. L3/L4/L5 и други такива усъвършенствани Agent по-добре отговарят на човешките нужди и ще се превърнат във важна посока за развитието на Agent в бъдеще.

Agent помага на роботите и автономното шофиране

Когато приложите дефиницията на Agent към въплътената интелигентност, ще откриете, че роботите и превозните средства, доминирани от големи модели, също са Agent. Особено за роботите, текущото ограничение на развитието на роботите не е в ‘как да се правят физически движения’ ‘малкия мозък’, а в мисленето ‘какви физически движения да се правят’ ‘големия мозък’, което точно попада в обхвата на Agent.

В областта на роботиката Agent могат да помогнат на роботите да разбират по-добре околната среда и да вземат по-разумни решения. Например, Agent могат автономно да планират маршрута на движение на робота и да изпълняват различни задачи според обектите и хората в околната среда.

В областта на автономното шофиране Agent могат да помогнат на превозните средства да възприемат по-добре околната среда и да вземат по-безопасни решения за шофиране. Например, Agent могат автономно да регулират скоростта и посоката на превозното средство според пътните сигнали, други превозни средства и пешеходци, за да избегнат пътнотранспортни произшествия.

Agent свързаност и AI Native Network

В бъдеще, може би всички Agent трябва да могат да комуникират помежду си, да се самоорганизират и самодоговарят, за да изградят мрежа за сътрудничество с по-ниски разходи и по-висока ефективност от съществуващия интернет. Китайската общност на разработчиците също изгражда ANP и други протоколи, които имат за цел да станат HTTP протоколът в ерата на Agent Internet. А относно удостоверяването на самоличността между Agent, може да се използва DID и други технологии.

  • Agent свързаност: Свързаността между Agent може да реализира споделянето на ресурси и сътрудничеството, като по този начин се подобри ефективността на цялата система. Например, различните Agent могат да споделят данни, инструменти и услуги, за да изпълняват заедно сложни задачи.
  • AI Native Network: AI Native Network е мрежа, специално проектирана за приложения с изкуствен интелект. Тази мрежа може да осигури по-голяма честотна лента, по-ниска латентност и по-голяма сигурност, за да поддържа по-добре различните приложения на Agent.
  • DID технология: DID (Decentralized Identifier) е децентрализирана технология за удостоверяване на самоличността. Чрез DID технологията Agent могат да имат собствена самоличност, за да реализират по-сигурна и надеждна комуникация.

Развитието на Agent технологията ще донесе огромни промени, а бъдещият интернет вече няма да бъде проста мрежа за предаване на информация, а мрежа за сътрудничество, пълна с интелигентност.