एआय एजंट्स: नवीन आर्किटेक्चर

डिजिटल जग हे मानवी वेब ब्राउझिंगच्या पलीकडे जाऊन स्वायत्त एजंट्सच्या क्षेत्रात विकसित होत आहे, जे विविध प्रणालींमध्ये अखंडपणे सहयोग करतात. या बदलासाठी एका नवीन पायाभूत संरचनेची आवश्यकता आहे आणि एक आकर्षक उपाय आकार घेत आहे, ज्यामध्ये चार प्रमुख ओपन-सोर्स घटकांचा समावेश आहे.

  • गुगलचे Agent2Agent (A2A): एजंट शोध आणि संवाद सुलभ करण्यासाठी डिझाइन केलेले प्रोटोकॉल.
  • अँथ्रोपिकचे मॉडेल कॉन्टेक्स्ट प्रोटोकॉल (MCP): एजंट साधने आणि बाह्य संदर्भात्मक डेटा कसा वापरतात हे परिभाषित करणारे मानक.
  • Apache Kafka: एक मजबूत, इव्हेंट-चालित कम्युनिकेशन बॅकबोन जे विश्वसनीय आणि डीकपल्ड समन्वय सक्षम करते.
  • Apache Flink: रिअल-टाइम प्रोसेसिंग इंजिन, एजंट क्रियाकलापांच्या प्रवाहांचे संवर्धन, निरीक्षण आणि त्यावर कृती करण्यासाठी महत्वाचे आहे.

हा लेख या तंत्रज्ञानामधील सहकार्याचे संबंध शोधतो, केवळ प्रोटोकॉलवर अवलंबून राहण्याच्या मर्यादा दर्शवितो आणि हे आर्किटेक्चर डायनॅमिक, इंटेलिजेंट एजंट इकोसिस्टममध्ये एकाकी बॉट्समधून संक्रमणासाठी पाया कसा घालते हे स्पष्ट करते.

संघटनांमध्ये एआय एजंट्सची अपेक्षित वाढ दर्शवते की बहुतेक कंपन्या एकच सर्वसमावेशक एजंटऐवजी अनेक विशिष्ट एजंट्स तैनात करतील. हे एजंट्स कोड जनरेशन, सपोर्ट तिकीट व्यवस्थापन, ग्राहक डेटा विश्लेषण, कर्मचारी ऑनबोर्डिंग आणि इन्फ्रास्ट्रक्चर मॉनिटरिंग यासारखी कार्ये स्वयंचलित करतील.

तथापि, सध्याची साधने अशा भविष्यास समर्थन देण्यासाठी अपुरी आहेत.

हे आव्हान केवळ ‘एजंट्सचे बेट’ या समस्येच्या पलीकडे जाते, जिथे एजंट्स silos मध्ये कार्य करतात आणि त्यांच्यात संवाद क्षमता नसते. यात अधिक विस्तृत इकोसिस्टम विखंडनाचा समावेश आहे:

  • एजंट-मधील संवादाचा अभाव: एजंट्स सामान्यत: अलग वातावरणात कार्य करतात. ग्राहक संबंध व्यवस्थापन (CRM) एजंटला डेटा वेअरहाउस एजंटद्वारे प्राप्त झालेल्या माहितीची जाणीव नसते. मॉनिटरिंग एजंटने शोधलेल्या विसंगतींना सपोर्ट एजंट प्रतिसाद देऊ शकत नाही.
  • ठिसूळ आणि सानुकूलित साधन वापर: साधने किंवा बाह्य ॲप्लिकेशन प्रोग्रामिंग इंटरफेस (APIs) ॲक्सेस करण्यासाठी प्रमाणित पद्धती नसल्यामुळे, एजंट्स हार्डकोडेड इंटिग्रेशन आणि गैर-पुनर्वापर करण्यायोग्य लॉजिकवर अवलंबून असतात.
  • असंगत फ्रेमवर्क: भिन्न एजंट रनटाइम विविध मॉडेल्स वापरतात, एजंट्सना चॅटबॉट्स, डायरेक्टेड ॲसायक्लिक ग्राफ (DAGs) किंवा रिकर्सिव्ह प्लॅनर म्हणून वागवतात. यामुळे पोर्टेबल एक्झिक्यूशन लेयर किंवा सामायिक स्थितीचा अभाव होतो.
  • नोटबुक वातावरणावर लक्ष केंद्रित केलेले डिझाइन: अनेक एजंट्स एक-वेळचे प्रोटोटाइप म्हणून विकसित केले जातात, जे लिनियर, सिंक्रोनस आणि एफेमरल ऑपरेशन्सद्वारे दर्शविले जातात. तथापि, वास्तविक जगातील प्रणालींना रिट्राय, अपयश, समन्वय, लॉगिंग आणि स्केलिंगच्या मजबूत हाताळणीची आवश्यकता असते, ज्यासाठी सहाय्यक पायाभूत सुविधा आवश्यक आहेत.
  • सहयोगी बॅकबोनचा अभाव: एजंट क्रियाकलाप आणि तर्काचा कोणताही इव्हेंट बस, सामायिक मेमरी किंवा शोधण्यायोग्य इतिहास नाही. माहिती थेट HTTP कॉल्समध्ये किंवा लॉगमध्ये दफन केली जाते.

12-फॅक्टर एजंट्स प्रकल्पाने जोर दिल्याप्रमाणे, एजंट्सनी क्लाउड-नेटिव्ह तत्त्वांचे पालन केले पाहिजे, जसे की निरीक्षणक्षमता, लूज कपलिंग, पुनरुत्पादकता आणि पायाभूत सुविधा जागरूकता दर्शविणे आवश्यक आहे. दुर्दैवाने, बहुतेक एजंट्स नाजूक स्क्रिप्ट म्हणून तयार केले जातात, जे व्यक्तिचलितपणे एकत्र केले जातात आणि स्वतंत्रपणे कार्य करण्यासाठी गृहीत धरले जातात.

यामुळे अक्षमता, प्रयत्नांची पुनरावृत्ती आणि नाजूकपणा येतो.

एजंट2एजंट एजंट्सना शोध आणि संवादासाठी प्रमाणित प्रोटोकॉल प्रदान करून अंशतः या समस्येचे निराकरण करते. तथापि, केवळ प्रात्यक्षिकांच्या पलीकडे जाऊन उत्पादन प्रणालीद्वारे मागणीनुसार स्केलेबिलिटी आणि विश्वासार्हतेकडे संक्रमण करण्यासाठी प्रोटोकॉलपेक्षा अधिक आवश्यक आहे. यासाठी एका व्यापक पायाभूत सुविधांची आवश्यकता आहे.

सध्याचे एजंट इकोसिस्टम वेबच्या सुरुवातीच्या टप्प्यांचे प्रतिबिंब आहे, जे शक्तिशाली परंतु एकाकी आणि विसंगत प्रणालींद्वारे दर्शविले जाते. मानक प्रोटोकॉलशिवाय सर्व्हरशी संवाद साधणाऱ्या ब्राउझरला ज्या सुरुवातीच्या अडचणींचा सामना करावा लागला, त्याचप्रमाणे आज एआय एजंट्सना एकमेकांना प्रभावीपणे शोधण्यात, संवाद साधण्यात आणि सहयोग करण्यात संघर्ष करावा लागत आहे.

गुगलचे एजंट2एजंट (A2A): एजंट संवादासाठी एक सार्वत्रिक प्रोटोकॉल

गुगलचा A2A प्रोटोकॉल हे या समस्येचे निराकरण करण्याचा एक महत्त्वपूर्ण प्रयत्न आहे. हे स्वतःला आणखी एक एजंट फ्रेमवर्क बनण्यापासून वेगळे करते, त्याऐवजी कोणत्याही एजंटला, त्याच्या उत्पत्ती किंवा तैनाती वातावरणाकडे दुर्लक्ष करून कनेक्ट करण्यासाठी डिझाइन केलेले एक सार्वत्रिक प्रोटोकॉल आहे.

HTTP ने वेबसाइट संवादाचे मानकीकरण केले, त्याचप्रमाणे A2A एजंट्ससाठी एक सामान्य भाषा परिभाषित करते, त्यांना हे सक्षम करते:

  • क्षमता जाहीर करणे: AgentCard द्वारे, एक JSONDescriptor जे एजंटच्या क्षमता आणि संवाद पद्धतींची रूपरेषा देते.
  • कार्ये पाठवणे आणि प्राप्त करणे: JSON-RPC चा उपयोग करून संरचित संवादाद्वारे, जिथे एक एजंट मदतीची विनंती करतो आणि दुसरा निकाल किंवा ‘आर्टिफॅक्ट्स’ सह प्रतिसाद देतो.
  • Server-Sent Events (SSEs) सह अपडेट्स स्ट्रीम करणे: लांब किंवा सहयोगी कार्यादरम्यान रिअल-टाइम फीडबॅक सुलभ करणे.
  • रिच कंटेंटची देवाणघेवाण करणे: साध्या टेक्स्टच्या पलीकडे जाऊन फाइल्स, स्ट्रक्चर्ड डेटा आणि फॉर्म्सच्या देवाणघेवाणीस समर्थन देणे.
  • सुरक्षा डीफॉल्टनुसार राखणे: HTTPS, प्रमाणीकरण आणि परवानग्यांसाठी अंगभूत समर्थनाचा समावेश करणे.

A2A ची ताकद स्थापित उपायांचा पुनर्विचार टाळण्यात आहे. हे HTTP आणि SMTP प्रमाणेच, चांगल्या प्रकारे स्थापित वेब मानकांचा लाभ घेते, ज्यामुळे सोपे अवलंब आणि जलद एकत्रीकरण सुलभ होते.

तथापि, A2A संपूर्ण उपायाचा फक्त एक पैलू दर्शवते.

अँथ्रोपिकचा मॉडेल कॉन्टेक्स्ट प्रोटोकॉल (MCP): साधन वापर आणि संदर्भ ॲक्सेसचे मानकीकरण

अँथ्रोपिकचा MCP एजंट्स साधने कसे वापरतात आणि संदर्भात्मक माहिती ॲक्सेस करतात या महत्त्वाच्या पैलूला संबोधित करतो. MCP एजंट्स API कसे कार्यान्वित करतात, फंक्शन्स कसे कॉल करतात आणि बाह्य प्रणालींशी कसे एकत्रित होतात याची प्रक्रिया प्रमाणित करते, आवश्यकतेनुसार ते त्यांच्या वातावरणात कसे कार्य करतात हे परिभाषित करते. A2A एजंट-मधील संवादावर नियंत्रण ठेवते, तर MCP एजंटच्या बाह्य जगाशी असलेल्या संवादावर लक्ष केंद्रित करते.

थोडक्यात:

  • MCP वैयक्तिक एजंट बुद्धिमत्तेला सक्षम करते.
  • A2A सामूहिक बुद्धिमत्तेला सक्षम करते.

HTTP आणि SMTP ला व्यापक यश मिळवण्यासाठी ज्याप्रमाणे विस्तृत अवलंब, पायाभूत सुविधा आणि डेव्हलपर टूलिंगची आवश्यकता होती, त्याचप्रमाणे A2A आणि MCP ला त्यांची क्षमता पूर्णपणे साकार करण्यासाठी एका मजबूत इकोसिस्टमची आवश्यकता असेल.

A2A आणि MCP सारख्या मानकीकरण प्रयत्नांनंतरही, एक महत्त्वाचा प्रश्न कायम आहे: जटिल आणि डायनॅमिक एंटरप्राइझ वातावरणात एजंट संवाद प्रभावीपणे कसा वाढवता येईल? केवळ या प्रोटोकॉलद्वारे परिभाषित केलेल्या थेट, पॉइंट-टू-पॉइंट कनेक्शनवर अवलंबून राहिल्यास स्केलेबिलिटी, लवचिकता आणि निरीक्षणक्षमतेशी संबंधित आव्हाने निर्माण होतात. हे एका मजबूत अंतर्निहित संप्रेषण पायाभूत सुविधांची आवश्यकता अधोरेखित करते.

एका कंपनीचा विचार करा जिथे कर्मचारी केवळ थेट, समोरासमोर संदेशाद्वारे संवाद साधू शकतात. अपडेट शेअर करण्यासाठी प्रत्येक व्यक्तीला स्वतंत्रपणे संदेश पाठवणे आवश्यक आहे. एका प्रकल्पाचे समन्वय अनेक टीममध्ये करण्यासाठी प्रत्येक गटादरम्यान व्यक्तिचलितपणे माहिती रिले करणे आवश्यक आहे.

अशा प्रणालीला शेकडो कर्मचाऱ्यांपर्यंत वाढवल्यास गोंधळ निर्माण होईल.

हे दृश्य थेट कनेक्शनवर आधारित एजंट इकोसिस्टममध्ये येणाऱ्या आव्हानांचे प्रतिबिंब आहे. प्रत्येक एजंटला कोणत्या एजंटशी संपर्क साधायचा, त्यांच्यापर्यंत कसे पोहोचायचे आणि त्यांची उपलब्धता काय आहे हे माहित असणे आवश्यक आहे. एजंटची संख्या वाढल्यामुळे, आवश्यक कनेक्शनची संख्या मोठ्या प्रमाणात वाढते, परिणामी एक ठिसूळ, व्यवस्थापित करण्यास कठीण आणि स्केलेबल नसलेली प्रणाली तयार होते.

A2A आणि MCP एजंट्सना संवाद आणि कृती करण्यासाठी भाषा आणि संरचना प्रदान करतात. तथापि, केवळ भाषा पुरेशी नाही. एंटरप्राइझमध्ये असंख्य एजंट्सचे समन्वय साधण्यासाठी, संदेश प्रवाह आणि एजंट प्रतिसादांचे व्यवस्थापन करण्यासाठी पायाभूत सुविधा आवश्यक आहेत.

Apache Kafka आणि Apache Flink ही महत्त्वपूर्ण पायाभूत सुविधा प्रदान करतात.

Apache Kafka, मूळतः लिंक्डइन (LinkedIn) येथे विकसित केले आणि आता Apache Software Foundation प्रकल्प आहे, हे एक वितरित इव्हेंट स्ट्रीमिंग प्लॅटफॉर्म आहे. हे टिकाऊ, उच्च-थ्रूपुट मेसेज बस म्हणून कार्य करते, ज्यामुळे प्रणालींना रिअल-टाइम इव्हेंट स्ट्रीम्स प्रकाशित आणि सब्सक्राइब करता येतात. Kafka चा उपयोग विविध ॲप्लिकेशन्समध्ये मोठ्या प्रमाणावर केला जातो, ज्यात वित्तीय प्रणाली, फसवणूक शोधणे आणि टेलीमेट्री पाइपलाइनचा समावेश आहे, कारण ते उत्पादकांना ग्राहकांपासून वेगळे ठेवण्यास आणि डेटा टिकाऊपणा, रिप्लेबिलिटी आणि स्केलेबिलिटी सुनिश्चित करण्यास सक्षम आहे.

Flink, हा आणखी एक Apache प्रकल्प आहे, जो स्टेटफुल, उच्च-थ्रूपुट, कमी-लेटन्सी इव्हेंट प्रोसेसिंगसाठी डिझाइन केलेले रिअल-टाइम स्ट्रीम-प्रोसेसिंग इंजिन आहे. Kafka डेटा हालचालीचे व्यवस्थापन करते, तर Flink डेटा सिस्टममधून जात असताना त्याचे रूपांतरण, संवर्धन, निरीक्षण आणि ऑर्केस्ट्रेशन हाताळते.

Kafka आणि Flink एकत्रितपणे एक शक्तिशाली संयोजन तयार करतात. Kafka रक्तप्रवाहासारखे कार्य करते, तर Flink प्रतिक्षेप प्रणालीसारखे कार्य करते.

एजंट जगात A2A च्या भूमिकेप्रमाणे, Kafka आणि Flink स्केलेबल एजंट कम्युनिकेशन आणि संगणनासाठी इव्हेंट-चालित आधार प्रदान करतात, थेट, पॉइंट-टू-पॉइंट कम्युनिकेशनमध्ये न येणाऱ्या समस्यांचे निराकरण करतात:

  • डीकपलिंग: Kafka सह, एजंट्सना त्यांच्या आउटपुटचे ग्राहक कोण आहेत हे माहित असणे आवश्यक नाही. ते एका टॉपिकवर इव्हेंट्स (उदा. "TaskCompleted", "InsightGenerated") प्रकाशित करतात, ज्यामुळे कोणताही इच्छुक एजंट किंवा सिस्टम सब्सक्राइब करू शकतो.
  • निरीक्षणक्षमता आणि रिप्लेबिलिटी: Kafka सर्व इव्हेंट्सचा टिकाऊ, वेळेनुसार क्रमबद्ध केलेला लॉग राखतो, हे सुनिश्चित करतो की एजंट वर्तन पूर्णपणे शोधण्यायोग्य, ऑडिट करण्यायोग्य आणि रिप्ले करण्यायोग्य आहे.
  • रिअल-टाइम डिसिजनिंग: Flink एजंट्सना इव्हेंट स्ट्रीम्सवर रिअल-टाइममध्ये प्रतिक्रिया देण्यास, डायनॅमिक परिस्थितींवर आधारित फिल्टरिंग, संवर्धन, सामील होण्यास किंवा क्रिया ट्रिगर करण्यास अनुमती देते.
  • लवचिकता आणि स्केलिंग: Flink जॉब्स स्वतंत्रपणे स्केल करू शकतात, अपयशातून सावरू शकतात आणि दीर्घकाळ चालणाऱ्या वर्कफ्लोमध्ये स्थिती राखू शकतात, जे जटिल, मल्टी-स्टेप कार्ये करणाऱ्या एजंट्ससाठी आवश्यक आहे.
  • स्ट्रीम-नेटिव्ह समन्वय: सिंक्रोनस प्रतिसादांची प्रतीक्षा करण्याऐवजी, एजंट्स इव्हेंट स्ट्रीमद्वारे समन्वय साधू शकतात, अपडेट्स प्रकाशित करू शकतात, वर्कफ्लो सब्सक्राइब करू शकतात आणि एकत्रितपणे स्थिती वाढवू शकतात.

थोडक्यात:

  • A2A एजंट्स कसा संवाद साधतात हे परिभाषित करते.
  • MCP ते बाह्य साधनांशी कसे संवाद साधतात हे परिभाषित करते.
  • Kafka त्यांचे संदेश कसे प्रवाहित होतात हे परिभाषित करते.
  • Flink ते प्रवाह कसे प्रक्रिया केले जातात, रूपांतरित केले जातात आणि निर्णय घेण्यासाठी वापरले जातात हे परिभाषित करते.

A2A आणि MCP सारखे प्रोटोकॉल एजंट वर्तन आणि संवादाचे मानकीकरण करण्यासाठी महत्त्वपूर्ण आहेत. तथापि, Kafka सारख्या इव्हेंट-चालित सब्सट्रेट आणि Flink सारख्या स्ट्रीम-नेटिव्ह रनटाइमशिवाय, एजंट्स एकाकी राहतात, प्रभावीपणे समन्वय साधण्यास, कार्यक्षमतेने स्केल करण्यास किंवा वेळेनुसार तर्क करण्यास अक्षम असतात.

एंटरप्राइज-ग्रेड एआय एजंट्ससाठी चार-लेयर आर्किटेक्चर

एंटरप्राइज-ग्रेड, इंटरऑपरेबल एआय एजंट्सची दृष्टी पूर्णपणे साकार करण्यासाठी, चार-लेयर आर्किटेक्चर आवश्यक आहे:

  • प्रोटोकॉल: A2A, MCP – काय परिभाषित करतात.
  • फ्रेमवर्क: LangGraph, CrewAI, ADK – कसे परिभाषित करतात.
  • संदेश पायाभूत सुविधा: Apache Kafka – प्रवाहाचे समर्थन करतात.
  • रिअल-टाइम संगणना: Apache Flink – विचारांना समर्थन देतात.

हे स्तर एकत्रितपणे एआय एजंट्ससाठी नवीन इंटरनेट स्टॅक तयार करतात, जे केवळ बुद्धिमानच नव्हे तर सहयोगी, निरीक्षण करण्यायोग्य आणि उत्पादन-तयार प्रणाली तयार करण्यासाठी आधार प्रदान करतात.

आम्ही सध्या सॉफ्टवेअरच्या उत्क्रांतीतील एका महत्त्वपूर्ण टप्प्यावर आहोत.

ज्याप्रमाणे मूळ इंटरनेट स्टॅक - HTTP आणि SMTP सारख्या प्रोटोकॉल आणि TCP/IP सारख्या पायाभूत सुविधांनी - जागतिक कनेक्टिव्हिटीच्या युगाची सुरुवात केली, त्याचप्रमाणे एआय एजंट्ससाठी एक नवीन स्टॅक उदयास येत आहे. तथापि, मानव वेब पेजेस नेव्हिगेट करण्याऐवजी किंवा ईमेल पाठवण्याऐवजी, हा स्टॅक स्वायत्त प्रणालींसाठी डिझाइन केला आहे, जे तर्क करण्यासाठी, निर्णय घेण्यासाठी आणि कृती करण्यासाठी सहयोग करतात.

A2A आणि MCP एजंट कम्युनिकेशन आणि टूल वापरासाठी प्रोटोकॉल प्रदान करतात, तर Kafka आणि Flink रिअल-टाइम समन्वय, निरीक्षणक्षमता आणि लवचिकतेसाठी पायाभूत सुविधा प्रदान करतात. एकत्रितपणे, ते डिस्कनेक्ट केलेल्या एजंट प्रात्यक्षिकांकडून स्केलेबल, इंटेलिजेंट, उत्पादन-ग्रेड इकोसिस्टममध्ये संक्रमणास सक्षम करतात.

ही उत्क्रांती केवळ अभियांत्रिकी आव्हानांना संबोधित करण्याबद्दल नाही. हे सॉफ्टवेअरच्या एका नवीन प्रतिमानाला सक्षम करण्याबद्दल आहे जिथे एजंट्स सीमा ओलांडून सहयोग करतात, रिअल टाइममध्ये अंतर्दृष्टी प्रदान करतात आणि कृती करतात, ज्यामुळे बुद्धिमत्ता वितरित प्रणाली बनते.

तथापि, या दृष्टीसाठी सक्रिय विकासाची आवश्यकता आहे, जे खुल्या, इंटरऑपरेबिलिटीवर जोर देते आणि मागील इंटरनेट क्रांतीतून शिकलेले धडे वापरते.

त्यामुळे, एजंट विकसित करताना, व्यापक प्रणालीमध्ये त्याचे एकत्रीकरण विचारात घेणे महत्वाचे आहे. ते प्रभावीपणे संवाद साधू शकते का? ते इतर एजंट्सशी समन्वय साधू शकते का? ते बदलत्या परिस्थितीशी जुळवून घेऊ शकते आणि विकसित होऊ शकते का?

भविष्य केवळ एजंट-पॉवर्ड नाही; ते एजंट-कनेक्टेड आहे.