OpenAI चा दुसरा एजंट
तीन आठवड्यांपूर्वी, OpenAI ने डीप रिसर्च (Deep Research) सादर केले, जो त्यांचा दुसरा एजंट आहे. हा एजंट अनेक वेबसाइट्स शोधू शकतो आणि 5-30 मिनिटांत व्यापक ऑनलाइन संशोधन पूर्ण करू शकतो, माहिती एकत्रित करू शकतो आणि संदर्भांसह तपशीलवार अहवाल देऊ शकतो.
हा लेख सेक्वॉया कॅपिटल (Sequoia Capital) द्वारे इसा फुलफोर्ड (Isa Fulford) आणि जोश टॉबिन (Josh Tobin) यांच्यासोबतच्या मुलाखतीचे संकलन आणि आयोजन करतो, जे OpenAI च्या डीप रिसर्चचे प्रमुख आहेत. हे दोन सदस्य डीप रिसर्च मागील तांत्रिक तपशील आणि उत्पादन विचार, तसेच ते सध्या पाहत असलेल्या वापराच्या प्रकरणांबद्दल तपशीलवार माहिती देतात.
डीप रिसर्चची सुरुवात OpenAI च्या मॉडेलच्या दीर्घ-क्षितिज कार्ये हाताळण्याच्या क्षमतेच्या अंतर्गत शोधातून झाली. टीमचे दीर्घकालीन ध्येय भविष्यात वापरकर्त्यांना अंतिम एजंट प्रदान करणे आहे: वेब शोध, संगणक वापर किंवा त्यांना एजंटने पूर्ण करायच्या असलेल्या इतर कोणत्याही कार्यांसाठी एक नैसर्गिक ऑल-इन-वन सोल्यूशन.
डीप रिसर्चला उत्पादन स्तरावर विशेषतः ऑप्टिमाइझ (optimize) केले गेले आहे. उदाहरणार्थ, आमच्या डीपसीक (DeepSeek) विश्लेषणात नमूद केल्याप्रमाणे, डीप रिसर्च स्पष्ट संदर्भांद्वारे आणि चेन-ऑफ-थॉट (CoT) द्वारे वापरकर्त्याचा विश्वास वाढवते. टीमने कार्याची सातत्यपूर्ण समज सुनिश्चित करण्यासाठी एक स्पष्टीकरण प्रवाह देखील डिझाइन केला आहे. डीप रिसर्च माहिती पुनर्प्राप्ती आणि संघटनेमध्ये AI शोध आणि ChatGPT पेक्षा श्रेष्ठ आहे. तथापि, या टप्प्यावर, डीप रिसर्च विद्यमान माहितीमधून नवीन अंतर्दृष्टी काढण्यात तितके प्रभावी नाही आणि अद्याप नवीन वैज्ञानिक शोध लावू शकत नाही.
महत्वाचे मुद्दे:
- OpenAI ने आपला दुसरा एजंट, डीप रिसर्च लाँच केला आहे, जो सखोल ऑनलाइन तपासणी करण्यास सक्षम आहे.
- एजंटची क्षमता मॉडेलच्या एंड-टू-एंड प्रशिक्षणातून येते.
- डीप रिसर्च माहिती संश्लेषण आणि अस्पष्ट तथ्ये शोधण्यात उत्कृष्ट आहे.
- वापराची प्रकरणे व्यावसायिक कार्य, वैयक्तिक जीवन, प्रोग्रामिंग आणि शिक्षण यामध्ये విస్తৃত आहेत.
- टीम 2025 मध्ये एजंटसाठी महत्त्वपूर्ण प्रगतीची अपेक्षा करते.
एजंट क्षमता एंड-टू-एंड मॉडेल प्रशिक्षणातून उद्भवतात
डीप रिसर्च हा एक एजंट आहे जो अनेक ऑनलाइन वेबसाइट्स शोधण्यास आणि सर्वसमावेशक अहवाल तयार करण्यास सक्षम आहे, अशी अनेक कार्ये पूर्ण करतो जी मानवांना तास लागतील. ChatGPT मध्ये कार्यरत, ते अंदाजे 5-30 मिनिटांत प्रश्नांची उत्तरे देते, सखोल संशोधनास सक्षम करते आणि मानक ChatGPT पेक्षा अधिक तपशीलवार आणि विशिष्ट उत्तरे प्रदान करते. OpenAI ने पूर्वी ऑपरेटर (Operator) लाँच केले होते आणि डीप रिसर्च हा त्याचा दुसरा एजंट आहे, आणि अजून बरेच येणार आहेत.
उत्पत्ती
सुमारे एक वर्षापूर्वी, OpenAI ने अंतर्गत स्तरावर एक तर्क (reasoning) प्रतिमान स्वीकारण्यास सुरुवात केली, ज्याचा उद्देश मॉडेलला उत्तर देण्यापूर्वी विचार करण्यास प्रशिक्षित करणे हा होता. हा दृष्टिकोन अत्यंत यशस्वी ठरला.
सुरुवातीला, OpenAI ने गणित आणि विज्ञानावर लक्ष केंद्रित केले. तथापि, त्यांना असे आढळले की या नवीन तर्क मॉडेल आर्किटेक्चरने एजंट क्षमतांचा समावेश असलेल्या दीर्घकालीन कार्ये हाताळण्याची क्षमता देखील उघड केली.
त्याच वेळी, OpenAI ने ओळखले की अनेक कार्यांसाठी व्यापक ऑनलाइन संशोधन किंवा बाह्य संदर्भ, मजबूत तर्क क्षमता, माहिती स्रोतांचे विवेचन आणि सर्जनशीलतेची आवश्यकता असते. शेवटी, OpenAI ने मॉडेल प्रशिक्षण पद्धती विकसित केल्या ज्या या कार्यांना हाताळण्यास सक्षम आहेत. त्यांनी मॉडेलला ब्राउझिंग कार्ये करण्यासाठी प्रशिक्षित करण्याचे ठरवले, त्याच पद्धतींचा वापर करून तर्क मॉडेल प्रशिक्षित करण्यासाठी, परंतु अधिक वास्तविक-जगातील कार्यांसाठी लागू केले.
डीप रिसर्च प्रकल्पाची सुरुवात इसा फुलफोर्ड आणि यश पाटील (Yash Patil) यांच्या मूळ डेमोने झाली. जोश टॉबिन सुमारे सहा महिन्यांपूर्वी एका स्टार्टअपमध्ये काम केल्यानंतर OpenAI मध्ये पुन्हा सामील झाले, त्यांना मूलभूत कामात खूप रस निर्माण झाला आणि ते डीप रिसर्च प्रकल्पात सामील झाले.
महत्त्वाची व्यक्ती:
- इसा फुलफोर्ड: OpenAI च्या पोस्ट-ट्रेनिंग टीममधील AI संशोधक, ChatGPT रिट्रीव्हल प्लगइनमध्ये (Retrieval Plugin) प्रमुख योगदान देणारे.
- यश पाटील: OpenAI च्या पोस्ट-ट्रेनिंग टीममधील कोअर मॉडेल टीमचे सदस्य, स्टॅनफोर्डमधून बाहेर पडलेले.
- जोश टॉबिन: पूर्वी OpenAI मध्ये संशोधन शास्त्रज्ञ, नंतर गॅन्ट्री (Gantry) (विश्लेषण, सूचना आणि मानवी प्रतिक्रियांद्वारे ML सुधारण्यासाठी एक उत्पादन) ची स्थापना केली. ते OpenAI मध्ये पुन्हा सामील झाले आणि सध्या एजंट्स उत्पादन संशोधन संघाचे नेतृत्व करत आहेत.
स्पष्टीकरण प्रवाह
डीप रिसर्चमध्ये एक खास रचना आहे: स्पष्टीकरण प्रवाह. संशोधन सुरू करण्यापूर्वी, डीप रिसर्च मॉडेल वापरकर्त्याला प्रश्न विचारते. सामान्यतः, ChatGPT फक्त उत्तराच्या शेवटी फॉलो-अप प्रश्न विचारते किंवा उत्तर समाधानकारक आहे का असे विचारते, डीप रिसर्चच्या विपरीत, जे सुरुवातीलाच या वर्तनात गुंतलेले असते.
ही टीमची हेतुपुरस्सर डिझाइन निवड होती. वापरकर्त्यांना डीप रिसर्च मॉडेलकडून सर्वोत्तम प्रतिसाद तेव्हाच मिळतात जेव्हा त्यांचे प्रॉम्प्ट (prompt) खूप स्पष्ट आणि तपशीलवार असतात. तथापि, वापरकर्ते अनेकदा त्यांच्या सुरुवातीच्या प्रॉम्प्टमध्ये सर्व माहिती देत नाहीत. म्हणून, OpenAI ला हे सुनिश्चित करायचे होते की 5 किंवा 30 मिनिटे प्रतीक्षा केल्यानंतर, वापरकर्त्यांना पुरेसे तपशीलवार आणि समाधानकारक उत्तर मिळेल. मॉडेलसाठी वापरकर्त्यांनी सर्व आवश्यक तपशील प्रदान करावेत यासाठी हे अतिरिक्त पाऊल जोडले गेले.
X वरील अनेक वापरकर्त्यांनी त्यांच्या प्रॉम्प्ट्सना परिष्कृत करण्यासाठी प्रथम o1 किंवा o1 Pro शी संवाद साधल्याचा उल्लेख केला आहे. एकदा समाधान झाल्यावर, ते प्रॉम्प्ट डीप रिसर्चला पाठवतात.
एजंट्सचे अंतिम स्वरूप
गेल्या काही महिन्यांत, OpenAI ने डीप रिसर्चच्या तीन वेगवेगळ्या आवृत्त्या लाँच केल्या आहेत, ज्या सर्वांची नावे डीप रिसर्च आहेत. जोश टॉबिनचा असा विश्वास आहे की प्रत्येक उत्पादनाची स्वतःची बलस्थाने आणि कमतरता असताना, त्यांच्यामधील गुणवत्तेतील फरक स्पष्ट आहेत. शेवटी, हे मॉडेल कसे तयार केले जातात, डेटासेट तयार करण्यासाठी गुंतवलेले प्रयत्न आणि O-सिरीज मॉडेलचा इंजिन म्हणून वापर यामुळे होते. हे डीप रिसर्च मॉडेलला ऑप्टिमाइझ (optimize) करण्याची परवानगी देते, ज्यामुळे अत्यंत बुद्धिमान आणि उच्च-गुणवत्तेची साधने तयार होतात.
सध्या, डीप रिसर्च, O3 आणि ऑपरेटर तुलनेने स्वतंत्र आहेत. तथापि, OpenAI चे उद्दिष्ट आहे की वापरकर्त्यांकडे शेवटी एकच, अंतिम एजंट असावा जो वेब शोध करू शकेल, संगणक वापरू शकेल किंवा इतर इच्छित कार्ये पूर्ण करू शकेल, या सर्व फंक्शन्सना अधिक नैसर्गिक मार्गाने एकत्रित करू शकेल.
एंड-टू-एंड प्रशिक्षण हे मॉडेलच्या सामर्थ्याचे मूलभूत कारण आहे
डीप रिसर्चचे अंतर्निहित मॉडेल O3 ची फाइन-ट्यून (fine-tuned) केलेली आवृत्ती आहे. O3 हे OpenAI चे सर्वात प्रगत तर्क मॉडेल आहे आणि डीप रिसर्चची बहुतेक विश्लेषणात्मक क्षमता त्यातून येते. OpenAI ने विशेषतः डीप रिसर्च मॉडेलला जटिल ब्राउझिंग कार्ये आणि इतर तर्क कार्यांवर प्रशिक्षित केले आहे. म्हणून, डीप रिसर्च ब्राउझिंग साधने आणि पायथन (Python) साधने देखील वापरू शकते. या कार्यांवर एंड-टू-एंड प्रशिक्षणाद्वारे, डीप रिसर्चने त्यांना हाताळण्यासाठी धोरणे शिकली, ज्यामुळे शेवटी मॉडेल ऑनलाइन शोध विश्लेषणात उत्कृष्ट ठरले.
सहजपणे, वापरकर्ता विनंती करतो आणि मॉडेल प्रथम त्याबद्दल काळजीपूर्वक विचार करते. मग, ते संबंधित माहिती शोधते, ती काढते आणि वाचते. ही माहिती विनंतीशी कशी संबंधित आहे हे समजल्यानंतर, मॉडेल वापरकर्त्याच्या इच्छित अंतिम उत्तराच्या जवळ जाण्यासाठी पुढे काय शोधायचे ते ठरवते. डीप रिसर्च ही सर्व माहिती एका व्यवस्थित अहवालात एकत्रित करू शकते, ज्यामध्ये मूळ स्त्रोतांकडे निर्देश करणारे संदर्भ आहेत.
डीप रिसर्चला त्याची एजंट क्षमता देणारी नवकल्पना OpenAI च्या मॉडेलच्या एंड-टू-एंड प्रशिक्षणामध्ये आहे. याचा अर्थ असा की संशोधन प्रक्रियेदरम्यान अनेक ऑपरेशन्सचा (operations) अंदाज अगोदरच लावता येत नाही. मॉडेल प्रशिक्षणाद्वारे मिळवणारी लवचिकता भाषा मॉडेल, प्रोग्राम किंवा स्क्रिप्ट लिहून साध्य करणे शक्य नाही. प्रशिक्षणाद्वारे, डीप रिसर्च मॉडेलने रिअल-टाइम वेब माहितीला कसा प्रतिसाद द्यावा आणि ते जे पाहते त्यावर आधारित त्वरित धोरणे कशी समायोजित करावी हे शिकले. म्हणून, डीप रिसर्च मॉडेल प्रत्यक्षात खूप सर्जनशील शोध घेत आहे. वापरकर्ते पाहू शकतात की मॉडेल पुढील काय शोधायचे किंवा CoT चा सारांश वाचून विशिष्ट समस्या कशा टाळायच्या हे ठरवण्यात किती बुद्धिमान आहे.
डीप रिसर्च आणि AI शोधांमधील फरक
जॉन कॉलिझनच्या (John Collison) डीप रिसर्चची किती क्षमता वेब सामग्रीच्या रिअल-टाइम प्रवेशातून येते आणि किती CoT मधून येते या प्रश्नाबाबत, दोन OpenAI संशोधकांचा असा विश्वास आहे की डीप रिसर्चची उत्कृष्ट क्षमता या दोन्हींच्या संयोजनाचा परिणाम आहे.
इतर AI शोध उत्पादने एंड-टू-एंड प्रशिक्षित नाहीत, म्हणून ते डीप रिसर्चप्रमाणे माहितीला प्रतिसाद देण्यात लवचिक नाहीत, किंवा विशिष्ट समस्या सोडवण्यात ते तितके सर्जनशील नाहीत.
OpenAI मध्ये सामील होण्यापूर्वी, जोश टॉबिनने एका स्टार्टअपमध्ये काम केले आणि बहुतेक लोक एजंट तयार करण्याचे वर्णन ज्या प्रकारे करतात त्या मार्गाने एजंट तयार करण्याचा प्रयत्न केला, मूलत: काही नोड्सवर LLMs हस्तक्षेप करून एक ऑपरेशन आलेख तयार केला. LLM पुढील काय करायचे ते ठरवू शकते, परंतु चरणांच्या संपूर्ण क्रमाचे तर्कशास्त्र मानवांनी परिभाषित केले आहे.
जोश टॉबिनला जलद प्रोटोटाइपिंगसाठी (prototyping) ही एक शक्तिशाली पद्धत असल्याचे आढळले, परंतु वास्तविक जगात त्याला लवकरच समस्या आल्या. मॉडेलला सामोरे जावे लागणाऱ्या सर्व परिस्थितींचा अंदाज घेणे आणि ते घेऊ इच्छित असलेल्या मार्गांच्या सर्व भिन्न शाखांचा विचार करणे कठीण आहे. शिवाय, ही मॉडेल विशेषतः निर्णय घेण्यासाठी प्रशिक्षित नसल्यामुळे, ते अनेकदा नोड्सवर सर्वोत्तम निर्णय घेणारे नसतात; त्यांना निर्णय घेण्यासारखे काहीतरी करण्यासाठी प्रशिक्षित केले जाते.
हे पुन्हा सांगते की डीप रिसर्च मॉडेलची खरी शक्ती थेट एंड-टू-एंड प्रशिक्षणातून येते, ज्याचा उद्देश वापरकर्त्यांना प्रत्यक्षात सोडवण्याची गरज असलेली कार्ये सोडवणे आहे. म्हणून, ऑपरेशन आलेख सेट करण्याची किंवा पार्श्वभूमी आर्किटेक्चरमध्ये नोड निर्णय घेण्याची आवश्यकता नाही; सर्व काही मॉडेलद्वारेच चालवले जाते.
शिवाय, जर वापरकर्त्याकडे खूप विशिष्ट आणि अंदाज लावता येण्याजोगा वर्कफ्लो (workflow) असेल, तर जोश टॉबिनने वर वर्णन केल्याप्रमाणे करणे मौल्यवान आहे. परंतु जर खूप लवचिक प्रक्रिया आवश्यक असेल, तर डीप रिसर्चसारखा दृष्टिकोन सर्वोत्तम पर्याय असू शकतो.
जोश टॉबिन सुचवतात की काही कठोर नियम मॉडेलमध्ये हार्ड-कोड (hard-code) केलेले नसावेत. जर ‘मॉडेलने विशिष्ट डेटाबेसमध्ये प्रवेश करू नये’ अशी गरज असेल, तर ते हाताने लिहिलेल्या तर्काने लागू करणे चांगले. लोक अनेकदा विचार करतात की ते कोड लिहून मॉडेलपेक्षा हुशार होऊ शकतात, परंतु प्रत्यक्षात, जसजसे क्षेत्र विकसित होते, तसतसे मॉडेल सहसा मानवांपेक्षा चांगले उपाय घेऊन येतात.
मशीन लर्निंगच्या (machine learning) सर्वात महत्त्वाच्या धड्यांपैकी एक म्हणजे तुम्हाला मिळणारे परिणाम तुम्ही कशासाठी ऑप्टिमाइझ (optimize) करता यावर अवलंबून असतात. म्हणून, जर वापरकर्ते इच्छित परिणाम थेट ऑप्टिमाइझ करण्यासाठी सिस्टम सेट करू शकत असतील, तर ते संपूर्ण कार्याला बसत नसलेल्या मॉडेलला एकत्र करण्याचा प्रयत्न करण्यापेक्षा खूप चांगले होईल. म्हणून, एकूण मॉडेल आधारावर RL ट्यूनिंग (tuning) सर्वात शक्तिशाली एजंट तयार करण्याचा एक महत्त्वाचा भाग बनू शकतो.
उच्च-गुणवत्तेचा डेटा मॉडेलच्या यशासाठी महत्त्वाच्या घटकांपैकी एक आहे
डीप रिसर्च मॉडेलच्या यशासाठी उच्च-गुणवत्तेचा डेटासेट (dataset) असणे हे एक महत्त्वाचे घटक आहे. मॉडेलमध्ये इनपुट केलेल्या डेटाची गुणवत्ता मॉडेलची गुणवत्ता निर्धारित करणारा महत्त्वाचा घटक आहे. डीप रिसर्च प्रकल्पात, एडवर्ड सन (Edward Sun) सर्व डेटासेट ऑप्टिमाइझ करतात.
डीप रिसर्चचे फायदे
डीप रिसर्चची ताकद वापरकर्त्यांना त्यांच्या गरजांचे तपशीलवार वर्णन केल्यावर सर्वोत्तम उत्तरे देण्याच्या क्षमतेमध्ये आहे. तथापि, वापरकर्त्याचा प्रश्न अस्पष्ट असला तरीही, डीप रिसर्च इच्छित माहिती स्पष्ट करू शकते. जेव्हा वापरकर्ते माहितीचा विशिष्ट संच शोधत असतात तेव्हा ते सर्वात शक्तिशाली असते.
डीप रिसर्च केवळ स्त्रोताबद्दलची सर्व माहिती व्यापकपणे गोळा करण्यास सक्षम नाही, तर ते खूप अस्पष्ट तथ्ये शोधण्यात देखील उत्कृष्ट आहे, जसे की लाँग-टेल (long-tail) सामग्री जी पारंपारिक शोधात पहिल्या काही पृष्ठांवर दिसणार नाही, अस्पष्ट टीव्ही शोच्या विशिष्ट भागाचे तपशील इत्यादी. ऑस्ट्रियन जनरलच्या प्रश्नात, ChatGPT ने एकदा चुकीचे उत्तर दिले, तर डीप रिसर्चने यशस्वीरित्या योग्य उत्तर शोधले.
डीप रिसर्च माहिती एकत्रित करण्यात खूप चांगले आहे, विशेषत: विशिष्ट, शोधायला कठीण माहिती शोधण्यात. तथापि, डीप रिसर्च विद्यमान माहितीमधून नवीन अंतर्दृष्टी काढण्यात तितके प्रभावी नाही आणि अद्याप नवीन वैज्ञानिक शोध लावू शकत नाही.
डीप रिसर्चच्या वापराची प्रकरणे
लक्ष्यित वापरकर्ते
डीप रिसर्च त्यांच्या दैनंदिन कामात किंवा जीवनात ज्ञानाचे काम करणाऱ्या प्रत्येकासाठी डिझाइन केलेले आहे, विशेषत: ज्यांना मोठ्या प्रमाणात माहिती गोळा करणे, डेटाचे विश्लेषण करणे आणि निर्णय घेणे आवश्यक आहे. अनेक वापरकर्ते डीप रिसर्चला त्यांच्या कामासाठी लागू करतात, जसे की संशोधनात, बाजार, कंपन्या आणि रिअल इस्टेट (real estate) यासारख्या क्षेत्रांमधील परिस्थिती समजून घेण्यासाठी.
वापराची प्रकरणे
OpenAI ला आशा आहे की डीप रिसर्च व्यवसाय आणि वैयक्तिक जीवन दोन्ही परिस्थितींमध्ये काम करू शकेल, कारण ते प्रत्यक्षात एक अतिशय बहुमुखी क्षमता आहे जी काम आणि वैयक्तिक जीवन दोन्हीसाठी लागू आहे. डीप रिसर्चचे आकर्षण खूप वेळ वाचवण्याच्या क्षमतेमध्ये आहे. काही कार्ये ज्यांना तास किंवा दिवस लागले असतील ते आता डीप रिसर्चसह 90% पूर्ण होऊ शकतात. OpenAI चा विश्वास आहे की व्यवसाय परिस्थितीत अधिक समान कार्ये असतील, परंतु डीप रिसर्च लोकांच्या वैयक्तिक जीवनाचा देखील एक भाग बनेल.
डीप रिसर्च हे मनुष्यबळाची जागा घेणे नाही. ज्ञानाच्या कामासाठी, विशेषत: अशी कार्ये ज्यांना माहिती शोधण्यासाठी आणि निष्कर्ष काढण्यासाठी खूप वेळ लागतो, डीप रिसर्च लोकांना महासत्ता (superpowers) देईल, 4 किंवा 8 तास लागणारी कार्ये 5 मिनिटांत पूर्ण करण्यास सक्षम करेल, ज्यामुळे वापरकर्त्यांना अधिक साध्य करता येईल.
मुलाखतीत वैद्यकीय, गुंतवणूक आणि इतर व्यावसायिक कामाची परिस्थिती; खरेदी, प्रवास आणि इतर कौटुंबिक परिस्थिती; प्रोग्रामिंग आणि वैयक्तिकृत शिक्षण यासह वापराच्या प्रकरणांचा उल्लेख आहे.
वैद्यकीय, गुंतवणूक आणि इतर व्यावसायिक कामाची परिस्थिती
औषधांमध्ये, डीप रिसर्च एखाद्या विशिष्ट रोगाचे सर्व साहित्य किंवा अलीकडील प्रकरणे शोधण्यात मदत करू शकते, ज्यामुळे वेळ वाचतो.
गुंतवणुकीमध्ये, डीप रिसर्चच्या मदतीने, गुंतवणूकदार प्रत्येक संभाव्य स्टार्टअपमध्ये (startup) संशोधन करणे निवडू शकतात, ज्यामध्ये ते गुंतवणूक करू शकतात, फक्त त्यांना भेटायला वेळ असलेल्या कंपन्यांमध्येच नाही.
कंपनीच्या कामकाजात, एक वापरकर्ता जो कंझ्युमर गुड्स (consumer goods) कंपनी सुरू करण्याचा विचार करत आहे, विशिष्ट ब्रँडची नावे आधीच नोंदणीकृत आहेत की नाही, डोमेन नावे (domain names) व्यापलेली आहेत की नाही, बाजाराचा आकार आणि इतर विविध माहिती निश्चित करण्यासाठी डीप रिसर्चचा मोठ्या प्रमाणावर वापर करत आहे.
खरेदी, प्रवास आणि इतर कौटुंबिक परिस्थिती
नवीन कार खरेदी करण्याचा विचार करणाऱ्या एका वापरकर्त्याला पुढील मॉडेल कधी रिलीज होईल हे जाणून घ्यायचे होते. ऑनलाइन अनेक सट्टा लेख होते, म्हणून वापरकर्त्याने डीप रिसर्चला सर्व संबंधित अफवा संकलित करण्यास सांगितले. डीप रिसर्चने एक उत्कृष्ट अहवाल तयार केला, वापरकर्त्याला माहिती दिली की पुढील काही महिन्यांत नवीन कार रिलीज होऊ शकते.
जेव्हा डीप रिसर्च जपानमध्ये लाँच केले गेले, तेव्हा वापरकर्त्यांना विशिष्ट आवश्यकता पूर्ण करणारी रेस्टॉरंट शोधण्यात ते खूप उपयुक्त ठरले आणि वापरकर्त्यांना अन्यथा सापडल्या नसलेल्या गोष्टी शोधण्यात देखील मदत करू शकले.
जेव्हा वापरकर्त्यांना एखादी महागडी वस्तू खरेदी करायची असते, विशेष सहलीची योजना करायची असते किंवा एखाद्या समस्येबद्दल विचार करण्यात बराच वेळ घालवायचा असतो, तेव्हा ते संबंधित माहिती शोधण्यासाठी, सर्व पुनरावलोकने ब्राउझ करण्यासाठी इत्यादींसाठी ऑनलाइन तास घालवू शकतात. डीप रिसर्च ही माहिती त्वरित व्यवस्थित करू शकते, एक सारांश अहवाल तयार करू शकते आणि तपशीलवार आणि वैयक्तिकृत सल्ला देऊ शकते.
व्यस्त काम करणाऱ्या मातांना अनेकदा त्यांच्या मुलांसाठी वाढदिवसाच्या पार्टीचे (birthday parties) नियोजन करण्यासाठी वेळ मिळत नाही, परंतु आता ते डीप रिसर्चच्या मदतीने ते त्वरित करू शकतात.
डीप रिसर्च सूचनांचे पालन करण्यात देखील उत्कृष्ट आहे. जर वापरकर्त्यांना केवळ उत्पादनाबद्दल जाणून घ्यायचे नसेल तर त्याची इतर सर्व उत्पादनांशी तुलना करायची असेल किंवा Reddit सारख्या वेबसाइट्सवरील पुनरावलोकने पहायची असतील, तर ते डीप रिसर्चला अनेक वेगवेगळ्या विनंत्या करू शकतात आणि ते ही सर्व कार्ये एकाच वेळी पूर्ण करेल. वापरकर्ते डीप रिसर्चला माहिती टेबलमध्ये (table) ठेवण्यास देखील सांगू शकतात.
प्रोग्रामिंग
बरेच लोक प्रोग्रामिंगसाठी डीप रिसर्च वापरतात. या परिस्थितीचा सुरुवातीला OpenAI ने विचार केला नव्हता, परंतु बरेच लोक कोड लिहिण्यासाठी, कोड शोधण्यासाठी, एखाद्या पॅकेजसाठी नवीनतम दस्तऐवज शोधण्यासाठी किंवा स्क्रिप्ट (script) लिहिण्यासाठी याचा वापर करत आहेत, ज्याचे परिणाम प्रभावी आहेत.
शिक्षण
वैयक्तिकृत शिक्षण हे एक अतिशय मनोरंजक अनुप्रयोग परिस्थिती आहे. जर वापरकर्त्यांना एखादा विषय शिकायचा असेल, जसे की जीवशास्त्राचा आढावा घेणे किंवा चालू घडामोडी समजून घेणे, तर त्यांना फक्त ते भाग प्रदान करणे आवश्यक आहे जे त्यांना समजत नाहीत किंवा ज्या माहितीमध्ये त्यांना अधिक खोलवर जायचे आहे आणि डीप रिसर्च एक तपशीलवार अहवाल तयार करू शकते. कदाचित भविष्यात, डीप रिसर्च वापरकर्त्याबद्दल जे शिकते त्यावर आधारित वैयक्तिकृत शिक्षण देणे शक्य होईल.
2025 मध्ये एजंट्स उदयास येतील
डीप रिसर्चसाठी भविष्यातील विकासाची दिशा
उत्पादनाच्या स्वरूपाच्या दृष्टीने, OpenAI ला आशा आहे की डीप रिसर्च भविष्यात प्रतिमा एम्बेड (embed) करण्यास, उत्पादनांची चित्रे शोधण्यास, चार्ट (charts) तयार करण्यास आणि हे चार्ट उत्तरांमध्ये एम्बेड करण्यास सक्षम असेल.
माहितीच्या स्त्रोतांच्या दृष्टीने, OpenAI ला आशा आहे की मॉडेल भविष्यात प्रवेश करू शकणाऱ्या डेटा स्त्रोतांचा विस्तार केला जाईल. त्यांना आशा आहे की मॉडेल भविष्यात खाजगी डेटा शोधण्यास सक्षम असेल. OpenAI मॉडेलची क्षमता आणखी वाढवेल, ज्यामुळे ते ब्राउझिंग आणि विश्लेषणात अधिक चांगले होईल.
माहितीच्या अचूकतेच्या दृष्टीने, वापरकर्त्यांना डीप रिसर्चच्या आउटपुटवर (output) विश्वास ठेवण्यास सक्षम करण्यासाठी, वापरकर्ते मॉडेलने उद्धृत केलेल्या माहितीचे स्रोत पाहू शकतात. मॉडेल प्रशिक्षण प्रक्रियेदरम्यान, OpenAI संदर्भांची अचूकता सुनिश्चित करण्याचा प्रयत्न करते, परंतु मॉडेल अजूनही चुका करू शकते, भ्रम निर्माण करू शकते किंवा सर्वात विश्वासार्ह नसलेल्या स्त्रोतावर विश्वास ठेवू शकते. म्हणून, हे एक क्षेत्र आहे ज्यामध्ये OpenAI सुधारणा करत राहण्याची आशा करते.
OpenAI एजंट रोडमॅपमध्ये (roadmap) अधिक व्यापकपणे समाकलित करण्यासाठी, OpenAI ला आशा आहे की डीप रिसर्च अनेक वेगवेगळ्या अनुप्रयोग परिस्थितींमध्ये विस्तारित केले जाऊ शकते, सर्वात प्रगत तर्क मॉडेलला साधनांसह एकत्रित करून जे मानव काम किंवा दैनंदिन जीवनातील कार्ये पूर्ण करण्यासाठी वापरू शकतात आणि नंतर मॉडेलला थेट ऑप्टिमाइझ करून वापरकर्त्यांना एजंटने साध्य करायचे असलेले परिणाम प्राप्त करू शकतात.
या टप्प्यावर, डीप रिसर्चला अधिक जटिल कार्य परिस्थितींमध्ये विस्तार करण्यापासून प्रत्यक्षात काहीही थांबवत नाही. AGI आता एक ऑपरेशनल (operational) समस्या आहे आणि भविष्यात पाहण्यासाठी अनेक रोमांचक घडामोडी असतील.
सॅम ऑल्टमनचा (Sam Altman) असा विश्वास आहे की डीप रिसर्च पूर्ण करू शकणारी कार्ये जगातील सर्व आर्थिकदृष्ट्या व्यवहार्य कार्यांपैकी काही टक्के असतील. जोश टॉबिनचा असा विश्वास आहे की डीप रिसर्च वापरकर्त्यांसाठी सर्व काम करू शकत नाही, परंतु ते वापरकर्त्यांचे अनेक तास किंवा दिवस वाचवू शकते. OpenAI ला आशा आहे की डीप रिसर्च आणि पुढे तयार केलेले एजंट, तसेच या पायावर तयार केलेले इतर एजंट, वापरकर्त्यांच्या कामाच्या प्रकारानुसार त्यांचा 1%, 5%, 10% किंवा 25% वेळ वाचवतील.
एजंट आणि RL
इसा फुलफोर्ड आणि जोश टॉबिन सहमत आहेत की यावर्षी एजंट उदयास येतील.
RL ने एक शिखर अनुभवले, नंतर थोडेसे कमी झाले आणि आता पुन्हा लक्ष वेधले जात आहे. यान लेकन (Yann LeCun) यांचे एकदा एक सादृश्य होते: जर लोक केक बनवत असतील, तर त्यापैकी बहुतेक केक असेल, थोडीशी फ्रॉस्टिंग (frosting) असेल आणि शेवटी काही चेरी (cherries) असतील. अनसुपरवाइज्ड लर्निंग (unsupervised learning) हे केकसारखे आहे, सुपरवाइज्ड लर्निंग (supervised learning) हे फ्रॉस्टिंग आहे आणि RL ही चेरी आहे.
जोश टॉबिनचा असा विश्वास आहे की 2015-2016 मध्ये RL करताना, केक सादृश्याचा वापर करून, कदाचित केकशिवाय चेरी जोडण्याचा प्रयत्न केला गेला असावा. परंतु आता, मोठ्या प्रमाणात डेटावर पूर्व-प्रशिक्षित केलेले भाषा मॉडेल आहेत, हे मॉडेल खूप शक्तिशाली आहेत आणि आम्हाला माहित आहे की या भाषा मॉडेलवर पर्यवेक्षित फाइन-ट्यूनिंग (fine-tuning) कसे करावे जेणेकरून ते सूचना कार्यान्वित करण्यात आणि लोकांना हवे ते करण्यात चांगले होतील. आता सर्व काही खूप चांगले काम करते आणि कोणत्याही वापराच्या प्रकरणासाठी वापरकर्ता-परिभाषित रिवॉर्ड फंक्शन्स (reward functions) नुसार हे मॉडेल समायोजित करणे खूप योग्य आहे.