AI एजेंट: MCP और A2A से नया युग

एजेंट अवधारणा का उदय

हाल के वर्षों में, माइक्रोसॉफ्ट द्वारा GitHub MCP सर्वर लॉन्च करने, गूगल द्वारा A2A इंटेलिजेंट बॉडी कम्युनिकेशन प्रोटोकॉल जारी करने और अलीपे द्वारा MCP सर्वर लॉन्च करने जैसी घटनाओं की एक श्रृंखला के साथ, एजेंट (इंटेलिजेंट बॉडी) क्षेत्र को बाजार से अभूतपूर्व ध्यान मिल रहा है। हालांकि अभी तक एजेंट की परिभाषा पर पूरी सहमति नहीं बन पाई है, लेकिन पूर्व OpenAI शोधकर्ता लिलियन वेंग द्वारा प्रस्तावित ‘योजना’, ‘स्मृति’ और ‘उपकरण उपयोग’ जैसे तीन प्रमुख घटकों को व्यापक रूप से मान्यता दी गई है, जो एजेंट को समझने के लिए महत्वपूर्ण तत्व हैं।

कृत्रिम बुद्धिमत्ता के क्षेत्र में, एजेंट की अवधारणा कोई नई बात नहीं है, लेकिन बड़े भाषा मॉडल (LLM) के तेजी से विकास के साथ, एजेंट के अनुप्रयोग की संभावनाएं नई सफलताएं लेकर आई हैं। एजेंट को एक बुद्धिमान प्रणाली के रूप में माना जा सकता है जो पर्यावरण को समझने, स्वायत्त रूप से योजना बनाने और कार्यों को निष्पादित करने में सक्षम है। इसका मूल मानव निर्णय लेने की प्रक्रिया का अनुकरण करने और निर्धारित लक्ष्यों को प्राप्त करने के लिए विभिन्न उपकरणों और संसाधनों का उपयोग करने की क्षमता में निहित है।

एजेंट का विकास परिदृश्य: विशाल क्षमता, प्रवेश दर में सुधार की प्रतीक्षा

चैटबॉट के एक विकसित संस्करण के रूप में, वर्तमान एजेंट एप्लिकेशन ज्यादातर बड़े मॉडल की सशुल्क सेवाओं में एकीकृत होते हैं, और Manus और Devin जैसे कुछ ही एजेंट स्वतंत्र सशुल्क सेवाएं प्रदान करते हैं। फिर भी, डीप रिसर्च और Manus जैसे स्वायत्त योजना क्षमता वाले एजेंटों के उपयोग पर अभी भी कई प्रतिबंध हैं, और वास्तव में इसका अनुभव करने वाले उपयोगकर्ताओं की संख्या शायद अधिक नहीं है, और ‘ब्लॉकबस्टर’ एप्लिकेशन की उपस्थिति के लिए अभी भी सुधार की बहुत गुंजाइश है।

हालांकि, बड़े मॉडल की अनुमान क्षमता में निरंतर सुधार के साथ, एजेंट धीरे-धीरे एप्लिकेशन नवाचार का केंद्र बन रहा है। अधिक से अधिक डेवलपर और शोधकर्ता विभिन्न क्षेत्रों जैसे बुद्धिमान सहायक, स्वचालित प्रक्रिया, डेटा विश्लेषण आदि में एजेंट के अनुप्रयोगों की खोज शुरू कर रहे हैं। एजेंट की क्षमता धीरे-धीरे खोजी जा रही है, और भविष्य में विकास की काफी गुंजाइश है।

एजेंट का बड़े पैमाने पर अनुप्रयोग आसन्न: कई अनुकूल स्थितियां ड्राइविंग

मॉडल प्रशिक्षण अंत का ब्रेकथ्रू

  • संदर्भ विंडो तेजी से बढ़ रही है: बड़े मॉडल की संदर्भ विंडो (Context Window) उस पाठ की अधिकतम लंबाई को संदर्भित करती है जिसे मॉडल पाठ को संसाधित करते समय विचार कर सकता है। प्रौद्योगिकी में प्रगति के साथ, मॉडल की संदर्भ विंडो तेजी से बढ़ रही है, जिसका अर्थ है कि मॉडल लंबी पाठ्य सामग्री के संदर्भ को बेहतर ढंग से समझ सकता है, जिससे अधिक सटीक निर्णय लिए जा सकते हैं।
  • सुदृढीकरण सीखने का गहन अनुप्रयोग: सुदृढीकरण सीखना एक एजेंट को प्रशिक्षित करने का एक तरीका है जो पुरस्कार और दंड के माध्यम से किया जाता है। हाल के वर्षों में, सुदृढीकरण सीखने का व्यापक रूप से एजेंट प्रशिक्षण में उपयोग किया गया है, जिससे एजेंट जटिल वातावरण के अनुकूल होने और इष्टतम रणनीतियों को सीखने में सक्षम हो गया है।
  • अनुमान मॉडल तेजी से परिपक्व हो रहा है: अनुमान मॉडल एजेंट का एक मुख्य घटक है, जो इनपुट जानकारी के आधार पर अनुमान और निर्णय लेने के लिए जिम्मेदार है। अनुसंधान में गहराई के साथ, अनुमान मॉडल तेजी से परिपक्व हो रहा है, जो एजेंट के विभिन्न अनुप्रयोगों को बेहतर ढंग से समर्थन करने में सक्षम है।

पारिस्थितिकी तंत्र का फलना-फूलना

  • MCP और A2A जैसे प्रोटोकॉल का तेजी से विकास: MCP (Model Communication Protocol) और A2A (Agent-to-Agent) दो महत्वपूर्ण एजेंट संचार प्रोटोकॉल हैं। इन प्रोटोकॉल के तेजी से विकास के कारण एजेंट विभिन्न उपकरणों और सेवाओं को अधिक आसानी से कॉल करने में सक्षम हैं, जिससे अधिक जटिल कार्यों को साकार किया जा सकता है।
  • एजेंट के लिए उपकरण कॉल करना अधिक सुविधाजनक हो गया है: प्रौद्योगिकी में प्रगति के साथ, एजेंट के लिए बाहरी उपकरणों और सेवाओं को कॉल करने के तरीके अधिक से अधिक सुविधाजनक होते जा रहे हैं। उदाहरण के लिए, API (Application Programming Interface) के माध्यम से, एजेंट विभिन्न डेटा स्रोतों और ऑनलाइन सेवाओं को आसानी से एक्सेस कर सकता है, जिससे अपनी क्षमताओं का विस्तार हो सके।

नवंबर 2024 में, Anthropic ने MCP प्रोटोकॉल जारी और ओपन-सोर्स किया, जिसका उद्देश्य मानकीकृत करना है कि बाहरी डेटा और उपकरण मॉडल को संदर्भ कैसे प्रदान करते हैं। यह कदम एजेंट पारिस्थितिकी तंत्र के विकास को बहुत बढ़ावा देगा, जिससे एजेंट बाहरी संसाधनों का बेहतर उपयोग कर सकेंगे।

MCP और A2A: एजेंट इंटरकनेक्शन की कुंजी

MCP प्रोटोकॉल: एजेंट को बाहरी दुनिया से जोड़ना

MCP प्रोटोकॉल का मुख्य लक्ष्य एजेंट और बाहरी डेटा और उपकरणों के ‘वन-क्लिक इंटरकनेक्शन’ को साकार करना है। MCP प्रोटोकॉल के माध्यम से, एजेंट विभिन्न बाहरी संसाधनों जैसे डेटाबेस, API, वेब सेवाओं आदि को आसानी से एक्सेस कर सकता है। यह एजेंट को पर्यावरण को बेहतर ढंग से समझने और अधिक समझदारी से निर्णय लेने में सक्षम बनाता है।

A2A प्रोटोकॉल: एजेंटों के बीच संचार पुल का निर्माण

A2A प्रोटोकॉल का लक्ष्य एजेंटों के बीच संचार को साकार करना है। A2A प्रोटोकॉल के माध्यम से, एजेंट जटिल कार्यों को पूरा करने के लिए एक-दूसरे के साथ सहयोग कर सकते हैं। वितरित बुद्धिमान प्रणालियों के निर्माण के लिए इसका बहुत महत्व है।

हालांकि A2A प्रोटोकॉल का लक्ष्य एजेंटों के बीच संचार है, और MCP एजेंटों और बाहरी उपकरणों और डेटा के लिए है, लेकिन ‘उपकरण को एजेंट के रूप में भी संलग्न किया जा सकता है’ की जटिल स्थिति के तहत, दोनों कार्यों में ओवरलैप हो सकता है, लेकिन यह प्रतिस्पर्धा बड़े मॉडल को बाहरी उपकरणों और संचार लागतों को कम करने में मदद करती है। यह प्रतिस्पर्धा प्रौद्योगिकी की प्रगति को बढ़ावा देगी और अंततः पूरे एजेंट पारिस्थितिकी तंत्र को लाभान्वित करेगी।

एजेंट विकास परिदृश्य

एंड-टू-एंड एजेंट: मानव हस्तक्षेप की आवश्यकता नहीं

वर्तमान में, बाजार में बड़ी संख्या में ‘इंटेलिजेंट बॉडी’ मौजूद हैं, लेकिन उनमें से काफी हिस्सा Coze, Dify जैसे प्लेटफार्मों पर विकसित किया गया है, जिसके लिए मनुष्यों को पहले से वर्कफ़्लो लिखने की आवश्यकता होती है। ये एजेंट संकेत शब्द इंजीनियरिंग के सुपरइम्पोजिशन की तरह अधिक हैं, और अपेक्षाकृत प्राथमिक एजेंट हैं।

और अधिक उन्नत एजेंट ‘एंड-टू-एंड’ हैं, जिसका अर्थ है ‘एजेंट को एक कार्य इनपुट करना, एजेंट स्वचालित रूप से मानव को आवश्यक कार्य परिणाम को पूरा करता है’। उदाहरण के लिए, उपयोगकर्ता को केवल एजेंट को एक लक्ष्य इनपुट करने की आवश्यकता होती है, और एजेंट स्वायत्त रूप से योजना बना सकता है और कार्य को निष्पादित कर सकता है, और अंततः लक्ष्य को पूरा कर सकता है। L3/L4/L5 जैसे इस तरह के उन्नत एजेंट मानव आवश्यकताओं के अनुरूप हैं और भविष्य में एजेंट विकास की एक महत्वपूर्ण दिशा बन जाएंगे।

एजेंट रोबोट और स्वायत्त ड्राइविंग में मदद करता है

जब एजेंट की परिभाषा को इम्बोडिड इंटेलिजेंस पर लागू किया जाता है, तो यह पाया जाएगा कि बड़े मॉडल द्वारा हावी रोबोट और वाहन भी एजेंट हैं। विशेष रूप से रोबोट, वर्तमान रोबोट विकास की बाधा ‘शारीरिक क्रियाओं को कैसे किया जाए’ का ‘सेरिबैलम’ नहीं है, बल्कि ‘कौन सी शारीरिक क्रियाएं करनी हैं’ के ‘दिमाग’ में है, और यह एजेंट की पहुंच में आता है।

रोबोटिक्स के क्षेत्र में, एजेंट रोबोट को पर्यावरण को बेहतर ढंग से समझने और अधिक उचित निर्णय लेने में मदद कर सकते हैं। उदाहरण के लिए, एजेंट पर्यावरण में वस्तुओं और कर्मियों के आधार पर रोबोट के आंदोलन पथ की स्वायत्त रूप से योजना बना सकते हैं और विभिन्न कार्यों को निष्पादित कर सकते हैं।

स्वायत्त ड्राइविंग के क्षेत्र में, एजेंट वाहनों को आसपास के वातावरण को बेहतर ढंग से समझने और अधिक सुरक्षित ड्राइविंग निर्णय लेने में मदद कर सकते हैं। उदाहरण के लिए, एजेंट यातायात संकेतों, अन्य वाहनों और पैदल चलने वालों के आधार पर वाहन की गति और दिशा को स्वायत्त रूप से समायोजित कर सकते हैं, जिससे यातायात दुर्घटनाओं से बचा जा सके।

एजेंट इंटरकनेक्शन और AI मूल नेटवर्क

भविष्य में, शायद सभी एजेंटों को एक दूसरे के साथ संवाद करने, आत्म-संगठित होने, आत्म-बातचीत करने और मौजूदा इंटरनेट की तुलना में कम लागत और उच्च दक्षता वाला सहयोग नेटवर्क बनाने में सक्षम होना चाहिए। चीनी डेवलपर समुदाय ANP जैसे प्रोटोकॉल का भी निर्माण कर रहा है, जिसका उद्देश्य एजेंट इंटरनेट युग का HTTP प्रोटोकॉल बनना है। और एजेंटों के बीच पहचान प्रमाणीकरण के लिए, DID जैसी तकनीकों की मदद ली जा सकती है।

  • एजेंट इंटरकनेक्शन: एजेंटों के बीच इंटरकनेक्शन संसाधनों को साझा करने और सहयोग को साकार कर सकता है, जिससे पूरे सिस्टम की दक्षता में सुधार होता है। उदाहरण के लिए, विभिन्न एजेंट डेटा, उपकरण और सेवाओं को साझा कर सकते हैं, जिससे जटिल कार्यों को पूरा किया जा सके।
  • AI मूल नेटवर्क: AI मूल नेटवर्क एक प्रकार का नेटवर्क है जिसे विशेष रूप से कृत्रिम बुद्धिमत्ता अनुप्रयोगों के लिए डिज़ाइन किया गया है। यह नेटवर्क उच्च बैंडविड्थ, कम विलंबता और मजबूत सुरक्षा प्रदान कर सकता है, जिससे एजेंट के विभिन्न अनुप्रयोगों का बेहतर समर्थन किया जा सके।
  • DID तकनीक: DID (Decentralized Identifier) एक विकेंद्रीकृत पहचान प्रमाणीकरण तकनीक है। DID तकनीक के माध्यम से, एजेंट अपनी पहचान रख सकते हैं, जिससे अधिक सुरक्षित और विश्वसनीय संचार को साकार किया जा सकता है।

एजेंट प्रौद्योगिकी का विकास भारी परिवर्तन लाएगा, और भविष्य का इंटरनेट अब एक साधारण सूचना हस्तांतरण नेटवर्क नहीं होगा, बल्कि बुद्धिमान सहयोग से भरा एक नेटवर्क होगा।