कृत्रिम बुद्धिमत्तेचे (AI) क्षेत्र सतत विकसित होत आहे, आणि हार्डवेअरमधील प्रगती नवीन शक्यतांना अनलॉक करण्यात महत्त्वाची भूमिका बजावते. AI नवोपक्रमात अग्रेसर असलेल्या गूगलने नुकतेच त्याचे सातव्या पिढीचे टेन्सर प्रोसेसिंग युनिट (TPU), Ironwood कोडनेम असलेले, सादर केले आहे, जे AI गणना क्षमतेतील एक महत्त्वपूर्ण पाऊल आहे. हे अत्याधुनिक AI ॲक्सिलरेटर मोठ्या प्रमाणात उपयोजनांमध्ये जगातील सर्वात वेगवान सुपरकॉम्प्युटरपेक्षाही २४ पट जास्त शक्तिशाली आहे.
गूगल क्लाउड नेक्स्ट ‘25 परिषदेत घोषित केलेले, Ironwood हे गूगलच्या AI चिप विकासाच्या दशकाहून अधिक वर्षांच्या प्रवासातील एक धोरणात्मक बदल दर्शवते. त्याच्या पूर्वीच्या आवृत्त्यांच्या विपरीत, जे प्रामुख्याने AI प्रशिक्षण आणि अनुमान वर्कलोडसाठी डिझाइन केलेले होते, Ironwood विशेषतः अनुमान कार्यांमध्ये उत्कृष्ट कामगिरी करण्यासाठी इंजिनीअर केलेले आहे, जे AI-आधारित ॲप्लिकेशन्सच्या एका नवीन युगाची सुरुवात करते.
गूगलमधील मशीन लर्निंग, सिस्टम्स आणि क्लाउड AI चे उपाध्यक्ष आणि महाव्यवस्थापक अमीन वहादत यांच्या मते, ‘Ironwood हे जनरेटिव्ह AI च्या पुढील टप्प्याला आणि त्याच्या प्रचंड गणना आणि संप्रेषण आवश्यकतांना समर्थन देण्यासाठी डिझाइन केलेले आहे. याला आम्ही ‘अनुमान युग’ म्हणतो, जिथे AI एजंट केवळ डेटाच नव्हे, तर अंतर्दृष्टी आणि उत्तरे देण्यासाठी सक्रियपणे डेटा पुनर्प्राप्त आणि तयार करतील.’
Ironwood ची अभूतपूर्व क्षमता
Ironwood ची तांत्रिक वैशिष्ट्ये खरोखरच असाधारण आहेत. ९,२१६ चिप्सच्या पॉडमध्ये स्केल केल्यावर, ते AI गणना शक्तीचे ४२.५ एक्झाफ्लॉप्स वितरित करू शकते. ही आकृती जगातील सर्वात वेगवान सुपरकॉम्प्युटर El Capitan द्वारे देऊ केलेल्या १.७ एक्झाफ्लॉप्सपेक्षा खूप मोठी आहे. प्रत्येक वैयक्तिक Ironwood चिपमध्ये ४,६१४ TFLOPs ची पीक गणना क्षमता आहे.
केवळ प्रक्रिया शक्तीच्या पलीकडे, Ironwood मध्ये मेमरी आणि बँडविड्थमध्ये देखील लक्षणीय सुधारणा आहेत. प्रत्येक चिपमध्ये १९२ GB उच्च-बँडविड्थ मेमरी (HBM) आहे, जी मागील पिढीच्या TPU, Trillium पेक्षा सहापट जास्त आहे, जी गेल्या वर्षी रिलीज झाली होती. याव्यतिरिक्त, प्रति चिप मेमरी बँडविड्थ ७.२ टेराबिट्स/सेकंद आहे, जी Trillium पेक्षा ४.५ पट सुधारणा दर्शवते.
ज्या युगात डेटा सेंटर्स वाढत आहेत आणि वीज वापर एक गंभीर चिंतेचा विषय बनला आहे, Ironwood त्याच्या ऊर्जा कार्यक्षमतेसाठी देखील खास आहे. Trillium च्या तुलनेत त्याची प्रति वॅट कार्यक्षमता दुप्पट आहे आणि २०१८ मध्ये सादर केलेल्या पहिल्या TPU पेक्षा जवळपास ३० पट जास्त आहे.
अनुमान ऑप्टिमायझेशनवर भर AI लँडस्केपमधील एका महत्त्वपूर्ण बदलाचे प्रतीक आहे. अलिकडच्या वर्षांमध्ये, आघाडीच्या AI प्रयोगशाळांनी वाढत्या पॅरामीटर संख्यसह अधिकाधिक मोठे फाउंडेशन मॉडेल्स तयार करण्यावर लक्ष केंद्रित केले आहे. गूगलचा अनुमान ऑप्टिमायझेशनवर असलेला भरdeployment कार्यक्षमतेवर आणि अनुमान क्षमतांवर केंद्रित असलेल्या एका नवीन टप्प्याकडे संक्रमण दर्शवितो.
मॉडेल प्रशिक्षण महत्त्वाचे असले तरी, प्रशिक्षणाच्या पुनरावृत्त्यांची संख्या मर्यादित आहे. याउलट, AI तंत्रज्ञान अधिकाधिक विविध ॲप्लिकेशन्समध्ये एकत्रित होत असल्याने, दररोज अब्जावधी वेळा अनुमान ऑपरेशन्स होण्याची अपेक्षा आहे. मॉडेल्स जसजसे अधिक जटिल होत जातील, तसतसे या ॲप्लिकेशन्सची आर्थिक व्यवहार्यता मोठ्या प्रमाणात अनुमान खर्चाशी जोडली जाईल.
गेल्या आठ वर्षांत, गूगलच्या AI गणनेची मागणी दहा पटीने वाढली आहे, जी आश्चर्यकारकपणे १० कोटींवर पोहोचली आहे. Ironwood सारख्या विशेष आर्किटेक्चरशिवाय, मूरचा नियम (Moore’s Law) च्या अथक प्रगतीला देखील या प्रचंड वाढीशी जुळवून घेणे कठीण जाईल.
विशेष म्हणजे, गूगलची घोषणा साध्या पॅटर्न ओळखीऐवजी (pattern recognition) जटिल तर्क क्षमता (reasoning tasks) असलेल्या ‘मानसिक मॉडेल्स’ (mental models) वर लक्ष केंद्रित करते. यावरून असे सूचित होते की गूगल अशा भविष्याची कल्पना करते जिथे AI केवळ मोठ्या मॉडेल्सच्या पलीकडे जाईल आणि अशा मॉडेल्सचा समावेश करेल जे समस्यांचे विभाजन करू शकतात, बहु-चरणांचे तर्क करू शकतात आणि मानवासारख्या विचार प्रक्रियांचे अनुकरण करू शकतात.
मोठ्या मॉडेल्सच्या पुढील पिढीला शक्ती देणे
गूगलने Ironwood ला Gemini 2.5 सह त्याच्या सर्वात प्रगत AI मॉडेल्ससाठी पायाभूत सुविधा म्हणून स्थान दिले आहे, ज्यामध्ये मूळतः अंगभूत तर्क क्षमता आहेत.
गूगलने अलीकडेच Gemini 2.5 Flash सादर केले आहे, जे त्याच्या फ्लॅगशिप मॉडेलचे (flagship model) एक लहान रूप आहे, जे कमी लेटेंसी असलेल्या (latency-sensitive) दैनंदिन ॲप्लिकेशन्ससाठी डिझाइन केलेले आहे. Gemini 2.5 Flash प्रॉम्प्टच्या (prompt) जटिलतेवर आधारित त्याच्या तर्कशक्तीची खोली गतिशीलपणे समायोजित करू शकते.
गूगलने टेक्स्ट-टू-इमेज (text-to-image), टेक्स्ट-टू-व्हिडिओ (text-to-video) आणि नव्याने अनावरण केलेले टेक्स्ट-टू-म्युझिक (text-to-music) वैशिष्ट्य Lyria यासह मल्टीमॉडल जनरेटिव्ह मॉडेल्सचा (multimodal generative models) एक व्यापक संच देखील सादर केला. एका डेमोमध्ये (demo) हे स्पष्ट केले की ही साधने एकत्रितपणे मैफिलीसाठी संपूर्ण प्रमोशनल व्हिडिओ (promotional video) कसा तयार करू शकतात.
Ironwood हे गूगलच्या विस्तृत AI पायाभूत सुविधा धोरणाचा एक भाग आहे. गूगलने क्लाउड WAN ची देखील घोषणा केली, जी एक व्यवस्थापित वाइड एरिया नेटवर्क सेवा आहे जी उद्योगांना गूगलच्या जागतिक स्तरावरील खाजगी नेटवर्क पायाभूत सुविधांमध्ये प्रवेश करण्यास सक्षम करते.
याव्यतिरिक्त, गूगल AI वर्कलोडसाठी (workload) त्याचे सॉफ्टवेअर (software) ऑफरिंग्ज (offerings) वाढवत आहे, ज्यात गूगल डीपमाइंडने (Google DeepMind) विकसित केलेले मशीन लर्निंग रनटाइम (machine learning runtime) Pathways चा समावेश आहे. Pathways आता ग्राहकांना शेकडो TPUs मध्ये मॉडेल सर्व्हिंग स्केल (model serving scale) करण्यास अनुमती देते.
A2A सह AI एजंट सहकार्याला प्रोत्साहन
हार्डवेअरमधील प्रगती व्यतिरिक्त, गूगलने मल्टी-एजंट सिस्टम्सवर (multi-agent systems) केंद्रित असलेल्या AI इकोसिस्टमसाठी (ecosystem) त्याची दृष्टीरेखा देखील स्पष्ट केली आहे. इंटेलिजेंट एजंट्सच्या (intelligent agents) विकासास मदत करण्यासाठी, गूगलने Agent-to-Agent (A2A) प्रोटोकॉल (protocol) सादर केला आहे, जो वेगवेगळ्या AI एजंट्समध्ये सुरक्षित आणि प्रमाणित संवाद सक्षम करण्यासाठी डिझाइन केलेला आहे.
गूगलचा असा विश्वास आहे की २०२५ हे वर्ष AI साठी परिवर्तनकारी ठरेल, कारण जनरेटिव्ह AI ॲप्लिकेशन्स (generative AI applications) केवळ एका प्रश्नाचे उत्तर देण्याऐवजी एजंट सिस्टम्सद्वारे जटिल समस्या सोडवण्याकडे विकसित होतील.
A2A प्रोटोकॉल विविध प्लॅटफॉर्म आणि फ्रेमवर्कमधील (framework) एजंट्समध्ये आंतरकार्यक्षमता (interoperability) सक्षम करतो, त्यांना एक सामान्य ‘भाषा’ आणि सुरक्षित संवाद चॅनेल (channels) प्रदान करतो. हा प्रोटोकॉल इंटेलिजेंट एजंट्ससाठी (intelligent agents) नेटवर्क लेयर (network layer) म्हणून पाहिला जाऊ शकतो, ज्याचा उद्देश जटिल वर्कफ्लोमध्ये (workflow) एजंटचे (agent) सहकार्य सुलभ करणे आहे. वेगवेगळ्या जटिलता आणि कालावधीच्या कार्यांवर एकत्रितपणे कार्य करण्यासाठी विशेष AI एजंट्सना सक्षम करून, A2A सहकार्याने एकूण क्षमता वाढवण्याचा प्रयत्न करते.
A2A एजंट्सना अंतर्निहित कोड किंवा डेटा स्ट्रक्चर्स (data structures) सामायिक करण्याची आवश्यकता न ठेवता माहितीची देवाणघेवाण आणि कृती समन्वयित करण्याचा एक प्रमाणित मार्ग स्थापित करून कार्य करते. हे अधिक मॉड्यूलर (modular) आणि लवचिक AI सिस्टम्स तयार करण्यास अनुमती देते, जिथे आवश्यकतेनुसार एजंट्स सहजपणे जोडले, काढले किंवा पुनर्रचना करता येतात.
गूगलने एका ब्लॉग पोस्टमध्ये MCP आणि A2A प्रोटोकॉलची तुलना केली आहे.
- MCP (Model Context Protocol) हे साधन आणि संसाधन व्यवस्थापनासाठी डिझाइन केलेले आहे.
- हे एजंट्सना साधने, APIs आणि संरचित इनपुट/आउटपुटद्वारे संसाधनांशी जोडते.
- गूगल ADK MCP साधनांना समर्थन देते, ज्यामुळे विविध MCP सर्व्हर एजंट्ससोबत कार्य करू शकतात.
- A2A (Agent2Agent Protocol) हे एजंट्समधील सहकार्यासाठी डिझाइन केलेले आहे.
- हे मेमरी, संसाधने किंवा साधने सामायिक न करता एजंट्समध्ये डायनॅमिक, मल्टी-मॉडल (multi-modal) संवाद सक्षम करते.
- हे समुदायाद्वारे चालविले जाणारे एक खुले मानक आहे.
- गूगल ADK, LangGraph, Crew.AI आणि इतर साधनांचा वापर करून उदाहरणे पाहिली जाऊ शकतात.
थोडक्यात, A2A आणि MCP पूरक आहेत: MCP एजंट्सना साधन समर्थन पुरवते, तर A2A या साधन-सज्ज एजंट्सना एकमेकांशी संवाद साधण्यास आणि सहयोग करण्यास सक्षम करते.
सुरुवातीच्या भागीदारांवरून (partners) अंदाज लावता, A2A ला MCP प्रमाणेच लक्ष मिळण्याची शक्यता आहे. आघाडीच्या टेक कंपन्या आणि शीर्ष जागतिक सल्लागार आणि सिस्टम इंटिग्रेशन (system integration) सेवा प्रदात्यांसह ५० हून अधिक कंपन्या सुरुवातीच्या सहकार्यात सामील झाल्या आहेत.
गूगल प्रोटोकॉलच्या (protocol) खुल्या असण्यावर जोर देते, हे तंत्रज्ञान फ्रेमवर्क (framework) किंवा सेवा प्रदाता (service provider) काहीही असले तरी, एजंट्सना सहयोग करण्याचा एक मानक मार्ग म्हणून स्थान देते. गूगलने आपल्या भागीदारांच्या सहकार्याने प्रोटोकॉलच्या डिझाइनला मार्गदर्शन करणारी पाच प्रमुख तत्त्वेoutlined केली:
- एजंट क्षमतांचा स्वीकार करा: A2A एजंट्सना त्यांची मेमरी, साधने आणि संदर्भ सामायिक नसतानाही, त्यांच्या नैसर्गिक, असंरचित मार्गाने सहयोग करण्यास सक्षम करण्यावर लक्ष केंद्रित करते. प्रोटोकॉलचा उद्देश एजंट्सना केवळ ‘साधने’ बनण्यापुरते मर्यादित न ठेवता खऱ्या मल्टी-एजंट (multi-agent) परिस्थितींना सक्षम करणे आहे.
- विद्यमान मानकांवर आधारित: प्रोटोकॉल HTTP, SSE आणि JSON-RPC यांसारख्या विद्यमान लोकप्रिय मानकांवर आधारित आहे, ज्यामुळे एंटरप्राइजेसद्वारे (enterprises) सामान्यतः वापरल्या जाणाऱ्या विद्यमान IT स्टॅक्स (stacks) मध्ये समाकलित करणे सोपे होते.
- सुरक्षिततेने डिफॉल्ट: A2A हे एंटरप्राइज-ग्रेड (enterprise-grade) प्रमाणीकरण (authentication) आणि अधिकृतता (authorization) समर्थनासाठी डिझाइन केलेले आहे, जे लॉन्चच्या वेळी OpenAPI च्या प्रमाणीकरण योजनांशी तुलना करता येते.
- दीर्घकाळ चालणाऱ्या कार्यांना समर्थन: A2A लवचिक करण्यासाठी डिझाइन केलेले आहे, जे जलद कार्यांपासून ते सखोल संशोधनापर्यंत (ज्यात मानवांचा सहभाग असू शकतो) अनेक परिस्थितींना समर्थन देते, ज्यास तास किंवा दिवस लागू शकतात. संपूर्ण प्रक्रियेदरम्यान, A2A वापरकर्त्यांना रिअल-टाइम (real-time) फीडबॅक (feedback), सूचना आणि स्टेटस अपडेट्स (status updates) प्रदान करू शकते.
- मोडॅलिटी एग्नॉस्टिक (Modality Agnostic): एजंट्सचे जग केवळ टेक्स्टपुरते मर्यादित नाही, म्हणूनच A2A ऑडिओ (audio) आणि व्हिडिओ (video) स्ट्रीम्ससह (streams) विविध मोडॅलिटीजना (modalities) समर्थन देण्यासाठी डिझाइन केलेले आहे.
A2A भर्ती प्रक्रियेला (hiring process) कशा प्रकारे सुव्यवस्थित करू शकते याचे गूगल एक उदाहरण देते.
एजेंटस्पेससारख्या (Agentspace) एकात्मिक इंटरफेसमध्ये (unified interface), भरती व्यवस्थापक (hiring manager) नोकरीच्या आवश्यकतांवर आधारित योग्य उमेदवार शोधण्यासाठी एका एजंटला नियुक्त करू शकतो. हा एजंट उमेदवार शोधण्यासाठी, मुलाखतींचे वेळापत्रक (schedule interviews) तयार करण्यासाठी आणि पार्श्वभूमी तपासणीसाठी (background checks) मदत करण्यासाठी इतर विशेष एजंट्सना सहभागी करण्यासाठी विशेष एजंट्सशी संवाद साधू शकतो, ज्यामुळे वेगवेगळ्या सिस्टम्समध्ये संपूर्ण भरती प्रक्रियेचे इंटेलिजेंट ऑटोमेशन (intelligent automation) सक्षम होते.
मॉडेल कॉन्टेक्स्ट प्रोटोकॉलचा (MCP) स्वीकार
A2A विकसित करण्याच्या प्रयत्नांव्यतिरिक्त, गूगल मॉडेल कॉन्टेक्स्ट प्रोटोकॉलचा (MCP) देखील स्वीकार करत आहे. OpenAI ने MCP स्वीकारल्याच्या काही आठवड्यांनंतर, गूगलने त्याचे अनुसरण केले.
गूगल डीपमाइंडचे (Google DeepMind) CEO डेमिस हसाबिस (Demis Hassabis) यांनी अलीकडेच X वर घोषणा केली की गूगल MCP साठी समर्थन त्याच्या Gemini मॉडेल्स (models) आणि SDKs मध्ये जोडेल. तथापि, त्यांनी कोणतीही विशिष्ट कालमर्यादा दिली नाही.
हसाबिस यांनी म्हटले आहे की ‘MCP हा एक उत्कृष्ट प्रोटोकॉल आहे जो AI एजंट युगासाठी झपाट्याने एक खुले मानक बनत आहे. MCP टीम (team) आणि उद्योगातील इतर भागीदारांसोबत हे तंत्रज्ञान पुढे नेण्यासाठी मी उत्सुक आहे.’
नोव्हेंबर २०२४ मध्ये रिलीज झाल्यापासून, MCP ने झपाट्याने लोकप्रियता मिळवली आहे, ज्यामुळे भाषा मॉडेल्सना (language models) साधने आणि डेटाशी कनेक्ट करण्याचा एक सोपा आणि प्रमाणित मार्ग बनला आहे.
MCP AI मॉडेल्सना कार्ये पूर्ण करण्यासाठी एंटरप्राइज (enterprise) साधने आणि सॉफ्टवेअरसारख्या (software) स्त्रोतांकडून डेटा ॲक्सेस (access) करण्यास तसेच सामग्री लायब्ररी (content library) आणि ॲप्लिकेशन डेव्हलपमेंट एन्व्हायरन्मेंटमध्ये (application development environment) प्रवेश करण्यास सक्षम करते. प्रोटोकॉल डेव्हलपर्सना (developers) डेटा स्त्रोत आणि AI-शक्तीवर चालणाऱ्या ॲप्लिकेशन्स (applications) जसे की चॅटबॉट्स (chatbots) यांच्यात द्वि-दिशात्मक कनेक्शन (bidirectional connections) स्थापित करण्यास अनुमती देतो.
डेव्हलपर्स MCP सर्व्हरद्वारे डेटा इंटरफेस (data interface) उघड करू शकतात आणि या सर्व्हरशी कनेक्ट (connect) होण्यासाठी MCP क्लायंट (client) (जसे की ॲप्लिकेशन्स (applications) आणि वर्कफ्लो (workflow)) तयार करू शकतात. अँथ्रोपिकने (Anthropic) MCP ओपन-सोर्स (open-source) केल्यापासून, अनेक कंपन्यांनी MCP समर्थनाला त्यांच्या प्लॅटफॉर्ममध्ये समाकलित केले आहे.