पुढील सीमा: Amazon चे Nova Act वेब ऑटोमेशनमध्ये AI ला आव्हान

कृत्रिम बुद्धिमत्ता (Artificial intelligence) आता काल्पनिक कथांच्या पलीकडे जाऊन आपल्या दैनंदिन डिजिटल जीवनाचा अविभाज्य भाग बनली आहे. अनेक वर्षांपासून, जनरेटिव्ह मॉडेल्स (generative models) – मानवासारखे मजकूर तयार करणारे किंवा अत्यंत गुंतागुंतीचे प्रतिमा निर्माण करणारे अल्गोरिदम्स – चर्चेच्या केंद्रस्थानी होते. तथापि, तंत्रज्ञानाची दिशा आता एका नवीन, कदाचित अधिक परिवर्तनकारी अनुप्रयोगाकडे वळत आहे: AI एजंट्स जे केवळ तयार करण्यासाठी नाहीत, तर कृती करण्यासाठी डिझाइन केलेले आहेत. लक्ष निष्क्रिय निर्मितीवरून सक्रिय अंमलबजावणीकडे वळत आहे, ज्यामुळे सॉफ्टवेअर वेबच्या गुंतागुंतीमध्ये नेव्हिगेट करू शकेल आणि वापरकर्त्यांच्या वतीने स्वायत्तपणे कार्ये करू शकेल. हे वाढणारे क्षेत्र एक महत्त्वपूर्ण झेप दर्शवते, अभूतपूर्व सोयी आणि कार्यक्षमतेचे वचन देते, आणि तंत्रज्ञान क्षेत्रातील दिग्गज कंपन्या यात आपले स्थान निर्माण करण्यासाठी धडपडत आहेत. या धावपळीत, Amazon ने एका उल्लेखनीय नवीन उपक्रमाने या क्षेत्रात प्रवेश केला आहे.

जरी यामागील तंत्रज्ञान दशकांपासून संशोधन प्रयोगशाळांमध्ये विकसित होत असले तरी, साथीच्या रोगानंतरच्या काळात, विशेषतः वापरकर्ता-केंद्रित अनुप्रयोगांमध्ये, यात प्रचंड आवड आणि विकास दिसून आला. आता जवळपास प्रत्येक मोठी तंत्रज्ञान कंपनी आपली क्षमता दाखवत आहे, कार्यप्रवाह सुलभ करण्यासाठी, उत्पादकता वाढवण्यासाठी किंवा फक्त दैनंदिन डिजिटल संवाद सुलभ करण्यासाठी तयार केलेले AI मॉडेल्स सादर करत आहे. Amazon, जी गुंतागुंतीच्या लॉजिस्टिकल आणि डिजिटल ऑपरेशन्सला ऑप्टिमाइझ करण्यावर आधारित कंपनी आहे, या बदलत्या परिस्थितीत नैसर्गिकरित्या एक प्रमुख खेळाडू आहे. तथापि, तिचा नवीनतम प्रयत्न केवळ विद्यमान नमुन्यांची पुनरावृत्ती नाही; वेब-आधारित कार्य ऑटोमेशनच्या आव्हानात्मक क्षेत्रात थेट प्रवेश आहे.

Amazon चे आगमन: Nova Act उपक्रम

या नवीन लाटेतील Amazon चे योगदान Nova Act मध्ये दिसून येते. हा केवळ दुसरा चॅटबॉट किंवा इमेज जनरेटर नाही; हे विकासकांना सक्षम करण्यासाठी तयार केलेले एक मूलभूत तंत्रज्ञान आहे. Nova Act चा मुख्य उद्देश अत्याधुनिक AI एजंट्स तयार करण्यासाठी आवश्यक बिल्डिंग ब्लॉक्स प्रदान करणे आहे, जे वेब ब्राउझर वातावरणात स्वतंत्रपणे कार्य करू शकतील. अशा सहाय्यकाची कल्पना करा जो एका बहु-चरण विनंतीला समजू शकेल आणि नंतर सतत मानवी हस्तक्षेपाशिवाय विविध वेबसाइट्सवर ती कार्यान्वित करू शकेल.

एका उदाहरणाने याची क्षमता दर्शविली: एका एजंटला विशिष्ट रेल्वे स्टेशनच्या योग्य बाइकिंग त्रिज्येमध्ये उपलब्ध अपार्टमेंट्स ओळखण्याची सूचना देणे. हे कार्य, मानवासाठी सोपे वाटणारे, AI साठी एका गुंतागुंतीच्या क्रमाचा समावेश करते: भौगोलिक मर्यादा समजून घेणे, अपार्टमेंट लिस्टिंग वेबसाइट्सवर नेव्हिगेट करणे, स्थान निकषांवर आधारित परिणाम फिल्टर करणे (संभाव्यतः नकाशा डेटाचा अर्थ लावणे), उपलब्धता आणि किंमत यासारखी संबंधित माहिती काढणे आणि निष्कर्ष सुसंगतपणे सादर करणे. Nova Act विकासकांना अशा प्रकारच्या गुंतागुंतीच्या, बहु-स्तरीय ऑपरेशन्स करण्यास सक्षम एजंट्स तयार करण्यासाठी साधने पुरवण्याचे उद्दिष्ट ठेवते.

Nova Act सुरुवातीला विकासकांसाठी एक साधन म्हणून लॉन्च करण्याचे महत्त्व कमी लेखता येणार नाही. हे एक मजबूत इकोसिस्टम तयार करण्यावर केंद्रित धोरणात्मक दृष्टिकोन सूचित करते. तृतीय-पक्ष निर्मात्यांना सक्षम करून, Amazon केवळ अंतर्गत विकासाद्वारे शक्य असलेल्या अनुप्रयोगांच्या विस्तृत श्रेणीचा शोध घेऊ शकते आणि नवकल्पनांना प्रोत्साहन देऊ शकते. ही रणनीती व्यापक ग्राहक-केंद्रित रोलआउटपूर्वी वास्तविक-जगातील अंमलबजावणी आव्हानांवर आधारित मौल्यवान अभिप्राय गोळा करण्यास आणि तंत्रज्ञान सुधारण्यास देखील अनुमती देते.

गर्दीचे रणांगण: प्रतिस्पर्धी एजंट्स उदयास येत आहेत

साध्या मजकूर किंवा प्रतिमा आउटपुटच्या पलीकडे जाणाऱ्या AI एजंट्समध्ये आवड वाढत असताना, स्पर्धात्मक लँडस्केप अधिकाधिक घनदाट होत आहे. थेट मानवी देखरेखीशिवाय गुंतागुंतीच्या ऑपरेशन्स कार्यान्वित करण्यास सक्षम असलेल्या स्वायत्त एजंट्सचे आकर्षण अप्रतिरोधक ठरत आहे आणि Amazon या संभाव्यतेला ओळखण्यात एकटी नाही. अनेक जबरदस्त स्पर्धक या जागेत वर्चस्वासाठी आधीच स्पर्धा करत आहेत.

OpenAI, जी AI संशोधन आणि विकासात दीर्घकाळापासून अग्रणी मानली जाते, विशेषतः ChatGPT च्या सनसनाटी पदार्पणानंतर, तिने महत्त्वपूर्ण प्रगती केली आहे. Microsoft कडून भरीव गुंतवणुकीमुळे बळकट झालेल्या OpenAI ने या वर्षाच्या सुरुवातीला ‘Operator’ म्हणून ओळखल्या जाणाऱ्या वैशिष्ट्याची योजना उघड केली. वर्णनांनुसार, हा एजंट गुंतागुंतीचे प्रवास नियोजन, स्वयंचलित फॉर्म भरणे, रेस्टॉरंट आरक्षण सुरक्षित करणे आणि ऑनलाइन किराणा ऑर्डर व्यवस्थापित करणे यासारखी कार्ये हाताळण्यासाठी डिझाइन केलेला आहे. कंपनीने स्पष्टपणे या क्षमतेला वापरकर्त्याची उद्दिष्ट्ये पूर्ण करण्यासाठी वेबचा फायदा घेणारा एजंट म्हणून फ्रेम केले, जे कृती-केंद्रित AI कडे स्पष्ट धोरणात्मक वळण दर्शवते.

तथापि, टाइमलाइन अधिक गुंतागुंतीची कथा उघड करते. Anthropic, एक AI स्टार्टअप ज्याची पार्श्वभूमी आकर्षक आहे – माजी OpenAI संशोधकांनी स्थापन केलेली आणि विशेषतः Amazon कडूनच महत्त्वपूर्ण गुंतवणुकीद्वारे समर्थित – ने यापूर्वीच अशीच संकल्पना मांडली होती. मागील वर्षी ऑक्टोबरमध्ये, Anthropic ने आपले ‘Computer Use’ टूल सादर केले. हे तंत्रज्ञान विशेषतः AI मॉडेल्सना संगणकाच्या ग्राफिकल यूजर इंटरफेसशी थेट संवाद साधण्यास सक्षम करण्यासाठी डिझाइन केले गेले होते. यात बटणांवर क्लिक करणे, फील्डमध्ये मजकूर प्रविष्ट करणे, विविध वेबसाइट्सवर नेव्हिगेट करणे आणि विविध सॉफ्टवेअर अनुप्रयोगांमध्ये कार्ये कार्यान्वित करणे समाविष्ट आहे, हे सर्व करताना रिअल-टाइम इंटरनेट डेटा डायनॅमिकरित्या ऍक्सेस करणे शक्य होते. OpenAI च्या प्रस्तावित ‘Operator’ शी कार्यात्मक समानता धक्कादायक आहे, जी उद्योगात घडणाऱ्या तीव्र समांतर विकासावर प्रकाश टाकते. Amazon-Anthropic कनेक्शन आणखी एक कुतूहलाचा थर जोडते, जे Amazon च्या व्यापक AI धोरणात संभाव्य समन्वय किंवा अंतर्गत स्पर्धेचे संकेत देते.

OpenAI ने आपल्या सुरुवातीच्या घोषणांनंतर विश्रांती घेतली नाही. Anthropic च्या घोषणेनंतर लगेचच ‘Deep Research’ सादर करण्यासह अद्यतने दिली. हे टूल AI एजंटला गुंतागुंतीचे संशोधन कार्य करण्यास सक्षम करते, वापरकर्त्याने निर्दिष्ट केलेल्या विषयांवर तपशीलवार अहवाल संकलित करते आणि सखोल विश्लेषण करते, जे अत्याधुनिक, ज्ञान-आधारित कार्यांकडे ढकलले जात असल्याचे दर्शवते.

या स्पर्धेत मागे न राहता, Google, वेब इंडेक्सिंग आणि डेटा विश्लेषणातील एक शक्तिशाली कंपनी, देखील या रिंगणात उतरली. गेल्या डिसेंबरमध्ये, Google ने स्वतःचे तुलनीय टूल लॉन्च केले, जे एक शक्तिशाली ‘संशोधन सहाय्यक’ म्हणून स्थित आहे. हा एजंट वापरकर्त्यांना गुंतागुंतीच्या विषयांचा शोध घेण्यास, वेबवर माहिती एक्सप्लोर करण्यास आणि निष्कर्ष व्यापक अहवालांमध्ये संश्लेषित करण्यास मदत करण्याचे उद्दिष्ट ठेवतो, जे त्याच्या प्रतिस्पर्धकांनी दावा केलेल्या क्षमतांचे अनुकरण करते.

अशा दिग्गज कंपन्या समान तंत्रज्ञान तैनात करत असल्याने, अंतिम विजेता कोण असेल हे निश्चित नाही. यश बहुधा अनेक घटकांच्या संगमावर अवलंबून असेल: शाश्वत संशोधन आणि विकासासाठी उपलब्ध निधीची खोली, तांत्रिक प्रगतीची गती आणि गुणवत्ता, वापरकर्ता इंटरफेसची अंतर्ज्ञानी रचना आणि, महत्त्वाचे म्हणजे, सध्याच्या AI मॉडेल्सना त्रास देणाऱ्या मूळ आव्हानांवर मात करण्याची क्षमता – विशेषतः गुंतागुंतीच्या किंवा सूक्ष्म सूचनांचा अचूक अर्थ लावण्यात आणि त्यांचे सातत्याने पालन करण्यात त्यांचे अधूनमधून येणारे अपयश.

एजंटचे डिकोडिंग: क्षमता आणि गुंतागुंत

हे उदयोन्मुख AI एजंट्स प्रत्यक्षात काय करतात हे समजून घेण्यासाठी साध्या कमांड्सच्या पलीकडे पाहणे आवश्यक आहे. त्यांची क्षमता बहु-चरण ऑपरेशन्स (multi-step operations) कार्यान्वित करण्यात आहे जी डिजिटल इंटरफेससह मानवी संवादाचे अनुकरण करतात. यात अनेक प्रमुख क्षमतांचा समावेश आहे:

  1. वेब नेव्हिगेशन आणि इंटरॅक्शन: एजंट्सना वेबपृष्ठाची रचना ‘पाहणे’ आणि त्याचा अर्थ लावणे आवश्यक आहे – मजकूर फील्ड, बटणे, ड्रॉपडाउन मेनू, लिंक्स आणि इतर परस्परसंवादी घटक ओळखणे. त्यांना क्लिक करणे, टाइप करणे, स्क्रोल करणे आणि पर्याय निवडणे यासारख्या क्रियांचे अनुकरण करणे आवश्यक आहे.
  2. संदर्भात्मक समज: फक्त संवाद साधणे पुरेसे नाही. एजंटला कार्याच्या व्यापक संदर्भात त्याच्या कृतींचा उद्देश समजून घेणे आवश्यक आहे. ‘प्रस्थान शहर’ फील्ड भरणे म्हणजे ते प्रवास नियोजनाशी संबंधित आहे, ऑनलाइन खरेदीशी नाही, हे समजून घेणे आवश्यक आहे.
  3. माहिती काढणे: एजंट्सना वेबपृष्ठांवरून विशिष्ट डेटाचे तुकडे ओळखणे आणि काढणे आवश्यक आहे – किंमत, फ्लाइटची वेळ, पत्ता, उपलब्धतेची स्थिती – आणि ही माहिती अर्थपूर्णपणे संग्रहित करणे किंवा त्यावर प्रक्रिया करणे.
  4. क्रॉस-प्लॅटफॉर्म ऑपरेशन: अनेक कार्यांमध्ये एकाधिक वेबसाइट्स किंवा अगदी भिन्न प्रकारच्या अनुप्रयोगांशी संवाद साधणे समाविष्ट असते (उदा. फ्लाइट बुक करताना पुष्टीकरण कोडसाठी ईमेल तपासणे). या प्लॅटफॉर्म्समध्ये अखंड संक्रमण महत्त्वपूर्ण आहे.
  5. समस्या सोडवणे आणि जुळवून घेणे: वेबसाइट्स वारंवार बदलतात. एजंट्सना लेआउटमधील फरक किंवा अनपेक्षित त्रुटी (उदा. बटण प्रतिसाद देत नाही, पृष्ठ लोड होत नाही) हाताळण्यासाठी काही प्रमाणात लवचिकतेची आवश्यकता असते. त्यांना पर्यायी दृष्टिकोन वापरण्याची किंवा अपयश व्यवस्थितपणे कळवण्याची आवश्यकता असू शकते.

संभाव्य वापर प्रकरणे (use cases) विस्तृत स्पेक्ट्रममध्ये पसरलेली आहेत:

  • वैयक्तिक उत्पादकता: गुंतागुंतीच्या प्रवासाच्या योजनांचे व्यवस्थापन (प्राधान्यांनुसार फ्लाइट्स, हॉटेल्स, कार भाड्याने देणे, क्रियाकलाप), वेगवेगळ्या पोर्टल्सवर बिल पेमेंट स्वयंचलित करणे, विविध खात्यांमधून आर्थिक माहिती एकत्रित करणे, कॅलेंडर उपलब्धता आणि आवश्यक पूर्व-भेट फॉर्मवर आधारित भेटींचे वेळापत्रक ठरवणे.
  • ई-कॉमर्स: विशिष्ट उत्पादनांसाठी एकाधिक विक्रेत्यांमध्ये किंमतींची तुलना करणे, दुर्मिळ किंवा स्टॉक नसलेल्या वस्तूंचा मागोवा घेणे, परतावा प्रक्रिया स्वयंचलितपणे व्यवस्थापित करणे.
  • व्यवसाय ऑपरेशन्स: स्वयंचलित बाजार संशोधन (स्पर्धकांच्या किंमती, ग्राहक पुनरावलोकने, उद्योग ट्रेंड गोळा करणे), लीड जनरेशन (ऑनलाइन डिरेक्टरीजमधून विशिष्ट निकषांवर आधारित संभाव्य ग्राहक ओळखणे), वेब-आधारित प्रणालींमध्ये डेटा एंट्री आणि स्थलांतर, विविध ऑनलाइन डॅशबोर्डवरून डेटा एकत्रित करून नियमित अहवाल तयार करणे.
  • सामग्री व्यवस्थापन: वेगवेगळ्या सोशल मीडिया प्लॅटफॉर्मवर सामग्री पोस्ट करण्याची प्रक्रिया स्वयंचलित करणे, बाह्य डेटा स्रोतांवर आधारित वेबसाइट माहिती डायनॅमिकरित्या अद्यतनित करणे.

गुंतागुंत या परस्परसंवादांना विश्वसनीय, सुरक्षित आणि खऱ्या अर्थाने स्वायत्त बनवण्यात आहे, ज्यामुळे वापरकर्त्याला कंटाळवाण्या, पुनरावृत्ती होणाऱ्या डिजिटल कामांपासून मुक्तता मिळेल.

अडथळ्यांवर मात करणे: विश्वसनीय स्वायत्ततेचे आव्हान

प्रचंड आश्वासने असूनही, खऱ्या अर्थाने स्वायत्त आणि विश्वसनीय वेब एजंट्सकडे जाणारा मार्ग आव्हानांनी भरलेला आहे. ‘सूचनांचे पालन करण्यात अडचण’, जी सध्याच्या AI ची मर्यादा म्हणून अनेकदा उद्धृत केली जाते, ती केवळ हिमनगाचे टोक आहे. अनेक महत्त्वपूर्ण अडथळ्यांवर मात करणे आवश्यक आहे:

  • अस्पष्टता आणि अर्थ लावणे: मानवी भाषा मूळतः संदिग्ध असते. ‘पुढील महिन्यात पॅरिससाठी स्वस्त फ्लाइट शोधा’ यासारख्या सूचनेसाठी AI ला ‘स्वस्त’ (कशाच्या तुलनेत?), ‘पुढील महिना’ (कोणत्या विशिष्ट तारखा?), आणि संभाव्यतः एअरलाइन्स, थांबे किंवा प्रस्थानाच्या वेळांबद्दल प्राधान्ये अनुमानित करणे आवश्यक आहे. चुकीचा अर्थ लावल्यास पूर्णपणे चुकीच्या कृती होऊ शकतात.
  • डायनॅमिक आणि विसंगत वेब वातावरण: वेबसाइट्स स्थिर नसतात. लेआउट बदलतात, घटकांची नावे बदलली जातात, कार्यप्रवाह अद्यतनित केले जातात. साइटच्या एका आवृत्तीवर प्रशिक्षित केलेला एजंट पुन्हा डिझाइन केलेल्या इंटरफेसचा सामना करताना पूर्णपणे अयशस्वी होऊ शकतो. अशा बदलांविरुद्ध टिकाऊपणा हे एक मोठे तांत्रिक आव्हान आहे.
  • त्रुटी हाताळणी आणि पुनर्प्राप्ती: जेव्हा एखादी वेबसाइट बंद असते, लॉगिन अयशस्वी होते किंवा अनपेक्षित पॉप-अप दिसतो तेव्हा काय होते? एजंटला अत्याधुनिक त्रुटी शोधणे आणि पुनर्प्राप्ती यंत्रणेची आवश्यकता असते. त्याने पुन्हा प्रयत्न करावा का? त्याने वापरकर्त्याला मदतीसाठी विचारावे का? त्याने कार्य सोडून द्यावे का? हे प्रोटोकॉल परिभाषित करणे गुंतागुंतीचे आहे.
  • सुरक्षा आणि परवानग्या: AI एजंटला खात्यांमध्ये लॉग इन करण्याची, वैयक्तिक डेटासह फॉर्म भरण्याची आणि संभाव्यतः खरेदी करण्याची स्वायत्तता देणे महत्त्वपूर्ण सुरक्षा चिंता निर्माण करते. एजंट परिभाषित सीमांमध्ये कार्य करतो, सहजपणे हॅक केला जाऊ शकत नाही आणि संवेदनशील माहिती सुरक्षितपणे हाताळतो याची खात्री करणे अत्यंत महत्त्वाचे आहे. वापरकर्त्याचा विश्वास निर्माण करणे आवश्यक आहे.
  • स्केलेबिलिटी आणि खर्च: रिअल-टाइम वेब इंटरॅक्शन करण्यास सक्षम असलेल्या जटिल AI मॉडेल्स चालवणे संगणकीयदृष्ट्या महाग असू शकते. या एजंट्सना व्यापक वापरासाठी प्रवेशयोग्य आणि परवडणारे बनवण्यासाठी अल्गोरिदम आणि अंतर्निहित पायाभूत सुविधा या दोन्हींचे सतत ऑप्टिमायझेशन आवश्यक आहे.
  • नैतिक विचार: एजंट्स अधिक सक्षम होत असताना, त्यांच्या संभाव्य गैरवापराबद्दल (उदा. स्पॅम स्वयंचलित करणे, कॉपीराइट केलेला डेटा स्क्रॅप करणे) आणि मॅन्युअल वेब-आधारित कार्यांवर अवलंबून असलेल्या क्षेत्रांमधील रोजगारावरील परिणामाबद्दल प्रश्न उद्भवतात.

Amazon ने सुरुवातीला Nova Act विकासकांसाठी संशोधन पूर्वावलोकन (research preview for developers) म्हणून लॉन्च करण्याचा निर्णय या आव्हानांच्या प्रकाशात एक विवेकी धोरण असल्याचे दिसते. हा दृष्टिकोन कंपनीला तांत्रिकदृष्ट्या जाणकार वापरकर्त्यांकडून महत्त्वपूर्ण अभिप्राय गोळा करण्यास अनुमती देतो जे बग ओळखण्यास, एज केसेसची चाचणी घेण्यास आणि रचनात्मक टीका प्रदान करण्यास अधिक सुसज्ज आहेत. हे तंत्रज्ञान सुधारण्यासाठी, सूचना-पालनाची क्षमता सुधारण्यासाठी आणि सामान्य ग्राहक बाजाराच्या कमी अंदाजित मागण्या आणि संभाव्यतः त्रुटींसाठी कमी सहनशीलतेसमोर आणण्यापूर्वी सुरक्षा उपाय मजबूत करण्यासाठी एक नियंत्रित वातावरण तयार करते. हा पुनरावृत्ती, विकसक-केंद्रित दृष्टिकोन Amazon ला व्यापक बाजार प्रकाशनापूर्वी ‘त्यांचे सर्व काही व्यवस्थित करण्यास’, त्रुटी दूर करण्यास आणि टिकाऊपणा निर्माण करण्यास अनुमती देतो.

Amazon ची भव्य रणनीती: Nova Act च्या पलीकडे

Nova Act, महत्त्वपूर्ण असले तरी, त्याला एकाकीपणे पाहू नये. हे Amazon च्या जनरेटिव्ह AI आणि इंटेलिजेंट ऑटोमेशनमधील खूप व्यापक आणि वेगाने वाढणाऱ्या गुंतवणुकीतील एक महत्त्वपूर्ण घटक दर्शवते. कंपनी एका बहु-आयामी धोरणाद्वारे AI ला तिच्या ऑपरेशन्स आणि उत्पादन ऑफरिंगच्या अगदी गाभ्यामध्ये विणत आहे:

  • पायाभूत सुविधा आणि मूलभूत मॉडेल्स: Amazon स्वतःचे कस्टम सिलिकॉन विकसित करत आहे, जसे की Trainium चिप्स, जे विशेषतः मोठ्या प्रमाणात AI मॉडेल्सचे प्रशिक्षण कार्यक्षमतेने आणि किफायतशीरपणे ऑप्टिमाइझ करण्यासाठी डिझाइन केलेले आहेत. शिवाय, तिचे Bedrock प्लॅटफॉर्म एक बाजारपेठ म्हणून काम करते, जे केवळ Amazon च्या स्वतःच्या मूलभूत मॉडेल्स (जसे की Titan) साठीच नव्हे तर तृतीय-पक्ष AI कंपन्यांच्या (Anthropic सह) आघाडीच्या मॉडेल्ससाठी देखील प्रवेश प्रदान करते. हे Amazon Web Services (AWS) ला AI विकासासाठी एक केंद्रीय केंद्र म्हणून स्थान देते.
  • अनुप्रयोग-विशिष्ट AI: कंपनी तिच्या विद्यमान व्यवसायांना वाढवण्यासाठी AI तैनात करत आहे. उदाहरणांमध्ये AI-चालित शॉपिंग सहाय्यक समाविष्ट आहेत जे शिफारसी वैयक्तिकृत करण्यासाठी आणि ग्राहकांचा अनुभव सुधारण्यासाठी डिझाइन केलेले आहेत, आणि AI-शक्तीवर चालणारे आरोग्य सहाय्यक ज्यांचा उद्देश आरोग्य-संबंधित कार्ये आणि माहिती प्रवेश सुलभ करणे आहे.
  • मूळ उत्पादनांचा विकास: Alexa, Amazon चा व्हॉइस असिस्टंट जो दशकापूर्वी लॉन्च झाला होता, तो प्रगत जनरेटिव्ह AI क्षमतांनी युक्त महत्त्वपूर्ण अपग्रेडमधून जात आहे. याचा उद्देश संवाद अधिक संवादात्मक, संदर्भ-जागरूक आणि अधिक जटिल विनंत्या हाताळण्यास सक्षम बनवणे आहे, संभाव्यतः Nova Act सारख्या तंत्रज्ञानाचा वापर करून तयार केलेल्या एजंट्ससह अखंडपणे एकत्रित करणे.

या संदर्भात, Nova Act एक महत्त्वपूर्ण पूल म्हणून काम करते. हे Bedrock द्वारे उपलब्ध असलेल्या मूलभूत मॉडेल्सचा (संभाव्यतः Trainium सारख्या ऑप्टिमाइझ केलेल्या हार्डवेअरवर चालणाऱ्या) फायदा घेते आणि या मॉडेल्सना वेब वातावरणात कृती करण्यासाठी विशिष्ट क्षमता प्रदान करते. ही कृती-केंद्रित क्षमता Alexa च्या कार्यक्षमतेत नाट्यमयरीत्या वाढ करू शकते, तिच्या ई-कॉमर्स प्लॅटफॉर्ममध्ये अत्याधुनिक नवीन वैशिष्ट्ये सक्षम करू शकते किंवा AWS द्वारे ऑफर केलेल्या पूर्णपणे नवीन सेवा सक्षम करू शकते. हे एका मोठ्या कोड्याचा एक भाग आहे ज्याचा उद्देश एक इकोसिस्टम तयार करणे आहे जिथे AI केवळ समजत नाही आणि निर्माण करत नाही तर डिजिटल लँडस्केपवर कार्ये देखील कार्यान्वित करते, ज्यामुळे क्लाउड कंप्यूटिंग आणि ई-कॉमर्समध्ये Amazon चे वर्चस्व मजबूत होते.

काय पणाला लागले आहे: डिजिटल लँडस्केपची पुनर्रचना

Nova Act, Operator, Computer Use आणि Google च्या उपक्रमांद्वारे वचन दिलेल्या सक्षम AI वेब एजंट्सचा विकास केवळ एका वाढीव तांत्रिक प्रगतीपेक्षा अधिक दर्शवतो. मानव डिजिटल जगाशी कसा संवाद साधतो यात संभाव्य प्रतिमान बदलाचे संकेत देतो. जर हे एजंट्स त्यांच्या क्षमतेनुसार जगले, तर त्याचे परिणाम गहन असू शकतात:

  • वापरकर्ता अनुभवाची पुनर्परिभाषित: कंटाळवाण्या, बहु-चरण ऑनलाइन प्रक्रिया सहज होऊ शकतात. प्रवास बुकिंग किंवा उत्पादन संशोधनासाठी एकाधिक वेबसाइट्सवर मॅन्युअली नेव्हिगेट करण्याऐवजी, वापरकर्ते फक्त त्यांचे ध्येय सांगू शकतील आणि एजंटला अंमलबजावणी हाताळू देतील. हे डिजिटल सोयीसाठीच्या अपेक्षांना मूलभूतपणे बदलू शकते.
  • उद्योग व्यत्यय: मॅन्युअल वेब-आधारित कार्यांवर किंवा मध्यस्थ म्हणून काम करण्यावर जास्त अवलंबून असलेल्या क्षेत्रांना महत्त्वपूर्ण व्यत्ययाचा सामना करावा लागू शकतो. ट्रॅव्हल एजन्सी, मॅन्युअल डेटा संकलनावर अवलंबून असलेल्या बाजार संशोधन कंपन्या, नियमित प्रशासकीय कार्ये करणाऱ्या व्हर्च्युअल असिस्टंट सेवा – या सर्वांना जुळवून घ्यावे लागेल कारण AI एजंट्स मुख्य कार्ये स्वयंचलित करतात.
  • उत्पादकता वाढ: व्यक्ती आणि व्यवसाय दोघेही पुनरावृत्ती होणारे डिजिटल काम AI एजंट्सना सोपवून भरीव उत्पादकता वाढ मिळवू शकतात. यामुळे मानवी प्रयत्न अधिक जटिल, सर्जनशील किंवा धोरणात्मक कामासाठी मोकळे होऊ शकतात.
  • नवीन व्यवसाय मॉडेल्स: जटिल वेब परस्परसंवाद स्वयंचलित करण्याची क्षमता हायपर-पर्सनलाइज्ड ऑटोमेशन, अत्याधुनिक डेटा एकत्रीकरण आणि सक्रिय डिजिटल सहाय्याभोवती तयार केलेल्या पूर्णपणे नवीन सेवा आणि व्यवसाय मॉडेल्सना जन्म देऊ शकते.
  • प्रवेशयोग्यता: विशिष्ट अपंगत्व असलेल्या व्यक्तींसाठी, AI एजंट्स जटिल वेब इंटरफेस नेव्हिगेट करण्यात अमूल्य सहाय्य प्रदान करू शकतात, ज्यामुळे डिजिटल समावेश वाढेल.

तथापि, हे भविष्य साकार करण्यासाठी पूर्वी चर्चा केलेल्या भरीव तांत्रिक आणि नैतिक अडथळ्यांवर मात करणे आवश्यक आहे. Amazon, OpenAI, Anthropic, Google आणि संभाव्यतः इतर खेळाडूंमधील शर्यत केवळ तांत्रिक बढाई मारण्यापुरती नाही; ती मानके परिभाषित करणे, विश्वास निर्माण करणे आणि शेवटी वेब संवादाचे भविष्य घडवण्याबद्दल आहे. जी कंपनी शक्तिशाली क्षमतांना विश्वसनीयता, सुरक्षा आणि अंतर्ज्ञानी वापरकर्ता अनुभवासह यशस्वीरित्या एकत्रित करते, तिला कृत्रिम बुद्धिमत्तेच्या पुढील युगात महत्त्वपूर्ण धोरणात्मक फायदा मिळण्याची शक्यता आहे. Amazon चा Nova Act हा एक स्पष्ट संकेत आहे की ई-कॉमर्स आणि क्लाउड क्षेत्रातील ही दिग्गज कंपनी तो पुढील अध्याय लिहिण्यात एक केंद्रीय खेळाडू बनण्याचा इरादा ठेवते.