OpenAI का दूसरा एजेंट
तीन हफ्ते पहले, OpenAI ने डीप रिसर्च, अपना दूसरा एजेंट पेश किया। यह एजेंट कई वेबसाइटों को खोज सकता है और 5-30 मिनट में व्यापक ऑनलाइन शोध पूरा कर सकता है, जानकारी को संश्लेषित कर सकता है और उद्धरणों के साथ विस्तृत रिपोर्ट प्रदान कर सकता है।
यह लेख Sequoia Capital द्वारा Isa Fulford और Josh Tobin, OpenAI के डीप रिसर्च के प्रमुखों के साथ एक साक्षात्कार को संकलित और व्यवस्थित करता है। दोनों सदस्य डीप रिसर्च के पीछे तकनीकी बारीकियों और उत्पाद सोच को विस्तार से साझा करते हैं, साथ ही उन उपयोग के मामलों के साथ जो वे वर्तमान में देख रहे हैं।
डीप रिसर्च OpenAI की लंबी-क्षितिज कार्यों को संभालने की मॉडल की क्षमता की आंतरिक खोज से उत्पन्न हुआ। टीम का दीर्घकालिक लक्ष्य भविष्य में उपयोगकर्ताओं को अंतिम एजेंट प्रदान करना है: वेब खोज, कंप्यूटर उपयोग, या किसी अन्य कार्य के लिए एक प्राकृतिक ऑल-इन-वन समाधान जिसे वे एजेंट को पूरा करना चाहते हैं।
डीप रिसर्च को उत्पाद स्तर पर भी विशेष रूप से अनुकूलित किया गया है। उदाहरण के लिए, जैसा कि हमारे DeepSeek विश्लेषण में उल्लेख किया गया है, डीप रिसर्च स्पष्ट उद्धरणों और Chain-of-Thought (CoT) के माध्यम से उपयोगकर्ता के विश्वास को बढ़ाता है। टीम ने कार्य की सुसंगत समझ सुनिश्चित करने के लिए एक स्पष्टीकरण प्रवाह भी डिजाइन किया है। डीप रिसर्च सूचना पुनर्प्राप्ति और संगठन में AI खोज और ChatGPT से आगे निकल जाता है। हालाँकि, इस स्तर पर, डीप रिसर्च मौजूदा जानकारी से नई अंतर्दृष्टि निकालने में उतना प्रभावी नहीं है और अभी तक नई वैज्ञानिक खोज नहीं कर सकता है।
मुख्य निष्कर्ष:
- OpenAI ने अपना दूसरा एजेंट, डीप रिसर्च लॉन्च किया है, जो गहन ऑनलाइन जांच करने में सक्षम है।
- एजेंट क्षमताएं मॉडल के एंड-टू-एंड प्रशिक्षण से उत्पन्न होती हैं।
- डीप रिसर्च सूचना संश्लेषण और अस्पष्ट तथ्यों को खोजने में उत्कृष्ट है।
- उपयोग के मामलों में पेशेवर कार्य, व्यक्तिगत जीवन, प्रोग्रामिंग और शिक्षा शामिल हैं।
- टीम 2025 में एजेंटों के लिए महत्वपूर्ण प्रगति की उम्मीद करती है।
एजेंट क्षमताएं एंड-टू-एंड मॉडल प्रशिक्षण से उत्पन्न होती हैं
डीप रिसर्च एक एजेंट है जो कई ऑनलाइन वेबसाइटों को खोजने और व्यापक रिपोर्ट तैयार करने में सक्षम है, कई कार्यों को पूरा करता है जिसमें मनुष्यों को घंटों लगेंगे। ChatGPT के भीतर काम करते हुए, यह लगभग 5-30 मिनट में सवालों के जवाब देता है, गहन शोध को सक्षम करता है और मानक ChatGPT की तुलना में अधिक विस्तृत और विशिष्ट उत्तर प्रदान करता है। OpenAI ने पहले ऑपरेटर लॉन्च किया था, और डीप रिसर्च इसका दूसरा एजेंट है, और भी आने वाले हैं।
उत्पत्ति
लगभग एक साल पहले, OpenAI ने आंतरिक रूप से एक तर्क प्रतिमान को अपनाना शुरू किया, जिसका उद्देश्य मॉडलों को जवाब देने से पहले सोचने के लिए प्रशिक्षित करना था। यह दृष्टिकोण अत्यधिक सफल साबित हुआ।
प्रारंभ में, OpenAI ने गणित और विज्ञान पर ध्यान केंद्रित किया। हालाँकि, उन्होंने पाया कि इस नए तर्क मॉडल आर्किटेक्चर ने एजेंट क्षमताओं को शामिल करते हुए, लंबी अवधि के कार्यों को संभालने की क्षमता को भी अनलॉक किया।
साथ ही, OpenAI ने माना कि कई कार्यों के लिए व्यापक ऑनलाइन शोध या बाहरी संदर्भ, मजबूत तर्क क्षमता, सूचना स्रोतों का विवेक और रचनात्मकता की एक डिग्री की आवश्यकता होती है। अंततः, OpenAI ने मॉडल प्रशिक्षण विधियों को विकसित किया जो इन कार्यों को संभालने में सक्षम हैं। उन्होंने मॉडलों को ब्राउज़िंग कार्य करने के लिए प्रशिक्षित करने का निर्णय लिया, तर्क मॉडल को प्रशिक्षित करने के लिए समान तरीकों का उपयोग करते हुए लेकिन अधिक वास्तविक दुनिया के कार्यों पर लागू किया।
डीप रिसर्च प्रोजेक्ट Isa Fulford और Yash Patil के एक मूल डेमो के साथ शुरू हुआ। Josh Tobin लगभग छह महीने पहले एक स्टार्टअप में काम करने के बाद OpenAI में फिर से शामिल हुए, मूलभूत कार्य में गहरी रुचि हो गई, और डीप रिसर्च प्रोजेक्ट में शामिल हो गए।
प्रमुख व्यक्ति:
- Isa Fulford: OpenAI की पोस्ट-ट्रेनिंग टीम में AI शोधकर्ता, ChatGPT Retrieval Plugin में एक प्रमुख योगदानकर्ता।
- Yash Patil: OpenAI की पोस्ट-ट्रेनिंग टीम में कोर मॉडल टीम के सदस्य, स्टैनफोर्ड से बाहर हो गए।
- Josh Tobin: पहले OpenAI में एक रिसर्च साइंटिस्ट थे, बाद में Gantry (विश्लेषण, अलर्ट और मानव प्रतिक्रिया के माध्यम से ML को बेहतर बनाने के लिए एक उत्पाद) की स्थापना की। वह OpenAI में फिर से शामिल हुए और वर्तमान में एजेंट्स उत्पाद अनुसंधान टीम का नेतृत्व करते हैं।
स्पष्टीकरण प्रवाह
डीप रिसर्च में एक अनूठी डिजाइन है: स्पष्टीकरण प्रवाह। शोध शुरू करने से पहले, डीप रिसर्च मॉडल उपयोगकर्ता से प्रश्न पूछता है। आमतौर पर, ChatGPT केवल उत्तर के अंत में अनुवर्ती प्रश्न पूछता है या पूछता है कि क्या उत्तर संतोषजनक है, डीप रिसर्च के विपरीत, जो इस व्यवहार में पहले से ही संलग्न है।
यह टीम द्वारा एक जानबूझकर डिजाइन विकल्प था। उपयोगकर्ताओं को डीप रिसर्च मॉडल से सबसे अच्छी प्रतिक्रियाएँ तभी मिलती हैं जब उनके संकेत बहुत स्पष्ट और विस्तृत होते हैं। हालाँकि, उपयोगकर्ता अक्सर अपने प्रारंभिक संकेत में सभी जानकारी प्रदान नहीं करते हैं। इसलिए, OpenAI यह सुनिश्चित करना चाहता था कि 5 या 30 मिनट प्रतीक्षा करने के बाद, उपयोगकर्ताओं को पर्याप्त विस्तृत और संतोषजनक उत्तर प्राप्त होगा। यह अतिरिक्त कदम यह सुनिश्चित करने के लिए जोड़ा गया था कि उपयोगकर्ता मॉडल के लिए सभी आवश्यक विवरण प्रदान करें।
X पर कई उपयोगकर्ताओं ने अपने संकेतों को परिष्कृत करने के लिए पहले o1 या o1 Pro के साथ बातचीत करने का उल्लेख किया है। एक बार संतुष्ट होने के बाद, वे संकेत को डीप रिसर्च में भेजते हैं।
एजेंट्स का अंतिम रूप
पिछले कुछ महीनों में, OpenAI ने डीप रिसर्च के तीन अलग-अलग संस्करण लॉन्च किए हैं, सभी का नाम डीप रिसर्च है। Josh Tobin का मानना है कि जबकि प्रत्येक उत्पाद की अपनी ताकत और कमजोरियां हैं, उनके बीच गुणवत्ता के अंतर स्पष्ट हैं। अंततः, यह इस बात के कारण है कि मॉडल कैसे बनाए जाते हैं, डेटासेट बनाने में कितना प्रयास किया जाता है, और इंजन के रूप में O-श्रृंखला मॉडल का उपयोग किया जाता है। यह डीप रिसर्च मॉडल को अनुकूलित करने की अनुमति देता है, अत्यधिक बुद्धिमान और उच्च गुणवत्ता वाले उपकरण बनाता है।
वर्तमान में, डीप रिसर्च, O3, और ऑपरेटर अपेक्षाकृत स्वतंत्र हैं। हालाँकि, OpenAI का लक्ष्य उपयोगकर्ताओं के लिए अंततः एक एकल, अंतिम एजेंट होना है जो वेब खोज कर सकता है, कंप्यूटर का उपयोग कर सकता है, या अन्य वांछित कार्यों को पूरा कर सकता है, इन सभी कार्यों को अधिक प्राकृतिक तरीके से एकीकृत कर सकता है।
एंड-टू-एंड प्रशिक्षण मॉडल की शक्ति का मूल कारण है
डीप रिसर्च का अंतर्निहित मॉडल O3 का एक फाइन-ट्यून किया गया संस्करण है। O3 OpenAI का सबसे उन्नत तर्क मॉडल है, और डीप रिसर्च की अधिकांश विश्लेषणात्मक क्षमता इससे आती है। OpenAI ने विशेष रूप से डीप रिसर्च मॉडल को जटिल ब्राउज़िंग कार्यों और अन्य तर्क कार्यों पर प्रशिक्षित किया। इसलिए, डीप रिसर्च ब्राउज़िंग टूल और पायथन टूल का भी उपयोग कर सकता है। इन कार्यों पर एंड-टू-एंड प्रशिक्षण के माध्यम से, डीप रिसर्च ने उन्हें संभालने के लिए रणनीतियाँ सीखीं, अंततः मॉडल को ऑनलाइन खोज विश्लेषण में उत्कृष्ट बनाया।
सहज रूप से, एक उपयोगकर्ता एक अनुरोध करता है, और मॉडल पहले इसके बारे में ध्यान से सोचता है। फिर, यह प्रासंगिक जानकारी खोजता है, उसे निकालता है, और उसे पढ़ता है। यह समझने के बाद कि यह जानकारी अनुरोध से कैसे संबंधित है, मॉडल यह तय करता है कि उपयोगकर्ता के वांछित अंतिम उत्तर के करीब पहुंचने के लिए आगे क्या खोजना है। डीप रिसर्च इस सभी जानकारी को एक साफ-सुथरी रिपोर्ट में एकीकृत कर सकता है, जिसमें मूल स्रोतों की ओर इशारा करते हुए उद्धरण हैं।
वह नवाचार जो डीप रिसर्च को इसकी एजेंट क्षमताएं देता है, OpenAI के मॉडल के एंड-टू-एंड प्रशिक्षण में निहित है। इसका मतलब है कि शोध प्रक्रिया के दौरान कई ऑपरेशन पहले से अप्रत्याशित होते हैं। भाषा मॉडल, प्रोग्राम या स्क्रिप्ट लिखकर मॉडल को प्रशिक्षण के माध्यम से प्राप्त होने वाली लचीलापन प्राप्त करना असंभव है। प्रशिक्षण के माध्यम से, डीप रिसर्च मॉडल ने सीखा कि वास्तविक समय की वेब जानकारी पर कैसे प्रतिक्रिया करें और जो कुछ भी देखता है उसके आधार पर रणनीतियों को तुरंत समायोजित करें। इसलिए, डीप रिसर्च मॉडल वास्तव में बहुत रचनात्मक खोज कर रहा है। उपयोगकर्ता देख सकते हैं कि मॉडल यह तय करने में कितना बुद्धिमान है कि आगे क्या खोजना है या CoT के सारांश को पढ़कर कुछ मुद्दों को कैसे दरकिनार करना है।
डीप रिसर्च और AI खोज के बीच अंतर
John Collison के इस सवाल के बारे में कि डीप रिसर्च की कितनी क्षमता वेब सामग्री तक वास्तविक समय की पहुंच से आती है और कितनी CoT से, दो OpenAI शोधकर्ताओं का मानना है कि डीप रिसर्च की उत्कृष्ट क्षमता दोनों के संयोजन का परिणाम है।
अन्य AI खोज उत्पाद एंड-टू-एंड प्रशिक्षित नहीं हैं, इसलिए वे डीप रिसर्च के रूप में जानकारी का जवाब देने में उतने लचीले नहीं हैं, न ही वे विशिष्ट समस्याओं को हल करने में उतने रचनात्मक हैं।
OpenAI में शामिल होने से पहले, Josh Tobin ने एक स्टार्टअप में काम किया और एजेंटों को उस तरह से बनाने की कोशिश की जिस तरह से ज्यादातर लोग उन्हें बनाने का वर्णन करते हैं, अनिवार्य रूप से LLMs के साथ एक ऑपरेशन ग्राफ का निर्माण करते हैं जो कुछ नोड्स पर हस्तक्षेप करते हैं। जबकि LLM यह तय कर सकता है कि आगे क्या करना है, चरणों के पूरे अनुक्रम का तर्क मनुष्यों द्वारा परिभाषित किया गया है।
Josh Tobin ने इसे तेजी से प्रोटोटाइप के लिए एक शक्तिशाली तरीका पाया, लेकिन वास्तविक दुनिया में जल्दी से समस्याओं का सामना करना पड़ा। उन सभी स्थितियों की भविष्यवाणी करना मुश्किल है जिनका मॉडल सामना कर सकता है और उन सभी अलग-अलग शाखाओं पर विचार करना मुश्किल है जिन्हें वह लेना चाहता है। इसके अलावा, चूंकि ये मॉडल विशेष रूप से निर्णय लेने के लिए प्रशिक्षित नहीं हैं, इसलिए वे अक्सर नोड्स पर सबसे अच्छे निर्णय लेने वाले नहीं होते हैं; उन्हें निर्णय लेने के समान कुछ करने के लिए प्रशिक्षित किया जाता है।
यह दोहराता है कि डीप रिसर्च मॉडल की वास्तविक शक्ति सीधे एंड-टू-एंड प्रशिक्षण से आती है, जिसका उद्देश्य उन कार्यों को हल करना है जिन्हें उपयोगकर्ताओं को वास्तव में हल करने की आवश्यकता है। इसलिए, ऑपरेशन ग्राफ स्थापित करने या पृष्ठभूमि वास्तुकला में नोड निर्णय लेने की कोई आवश्यकता नहीं है; सब कुछ मॉडल द्वारा ही संचालित होता है।
इसके अलावा, यदि किसी उपयोगकर्ता के पास एक बहुत ही विशिष्ट और अनुमानित वर्कफ़्लो है, तो इसे उस तरह से करना जैसा कि Josh Tobin ने ऊपर वर्णित किया है, मूल्यवान है। लेकिन अगर बहुत लचीली प्रसंस्करण की आवश्यकता है, तो डीप रिसर्च के समान दृष्टिकोण सबसे अच्छा विकल्प हो सकता है।
Josh Tobin का सुझाव है कि कुछ सख्त नियमों को मॉडल में हार्ड-कोड नहीं किया जाना चाहिए। यदि ‘मॉडल को एक निश्चित डेटाबेस तक पहुंचने की अनुमति नहीं देना’ जैसी कोई आवश्यकता है, तो इसे मैन्युअल रूप से लिखे गए तर्क के साथ लागू करना बेहतर है। लोग अक्सर सोचते हैं कि वे कोड लिखकर मॉडल से अधिक स्मार्ट हो सकते हैं, लेकिन वास्तव में, जैसे-जैसे क्षेत्र विकसित होता है, मॉडल आमतौर पर मनुष्यों की तुलना में बेहतर समाधान के साथ आते हैं।
मशीन लर्निंग के सबसे महत्वपूर्ण पाठों में से एक यह है कि आपको जो परिणाम मिलते हैं वे इस बात पर निर्भर करते हैं कि आप किसके लिए अनुकूलन करते हैं। इसलिए, यदि उपयोगकर्ता वांछित परिणाम के लिए सीधे अनुकूलन करने के लिए एक प्रणाली स्थापित कर सकते हैं, तो यह उन मॉडलों को एक साथ जोड़ने की कोशिश करने से कहीं बेहतर होगा जो पूरे कार्य के लिए उपयुक्त नहीं हैं। इसलिए, समग्र मॉडल आधार पर RL ट्यूनिंग सबसे शक्तिशाली एजेंटों के निर्माण का एक महत्वपूर्ण हिस्सा बन सकता है।
उच्च-गुणवत्ता वाला डेटा मॉडल की सफलता के लिए महत्वपूर्ण कारकों में से एक है
डीप रिसर्च मॉडल की सफलता के लिए महत्वपूर्ण कारकों में से एक उच्च-गुणवत्ता वाला डेटासेट होना है। मॉडल में इनपुट किए गए डेटा की गुणवत्ता वह प्रमुख कारक होने की संभावना है जो मॉडल की गुणवत्ता निर्धारित करता है। डीप रिसर्च प्रोजेक्ट में, Edward Sun सभी डेटासेट को अनुकूलित करता है।
डीप रिसर्च के लाभ
डीप रिसर्च की ताकत उपयोगकर्ताओं को सर्वोत्तम उत्तर प्रदान करने की क्षमता में निहित है जब उनके पास अपनी आवश्यकताओं का विस्तृत विवरण होता है। हालाँकि, भले ही उपयोगकर्ता का प्रश्न अस्पष्ट हो, डीप रिसर्च वांछित जानकारी को स्पष्ट कर सकता है। यह तब सबसे शक्तिशाली होता है जब उपयोगकर्ता जानकारी के एक विशिष्ट सेट की तलाश में होते हैं।
डीप रिसर्च न केवल एक स्रोत के बारे में सभी जानकारी को व्यापक रूप से इकट्ठा करने में सक्षम है, बल्कि बहुत अस्पष्ट तथ्यों को खोजने में भी उत्कृष्ट है, जैसे कि लंबी-पूंछ वाली सामग्री जो पारंपरिक खोज में पहले कुछ पृष्ठों पर दिखाई नहीं देगी, एक अस्पष्ट टीवी शो के एक विशिष्ट एपिसोड का विवरण, और इसी तरह। एक ऑस्ट्रियाई जनरल के बारे में एक सवाल में, ChatGPT ने एक बार गलत जवाब दिया, जबकि डीप रिसर्च ने सफलतापूर्वक सही जवाब पाया।
डीप रिसर्च जानकारी को संश्लेषित करने में बहुत अच्छा है, खासकर विशिष्ट, खोजने में मुश्किल जानकारी खोजने में। हालाँकि, डीप रिसर्च मौजूदा जानकारी से नई अंतर्दृष्टि निकालने में उतना प्रभावी नहीं है और अभी तक नई वैज्ञानिक खोज नहीं कर सकता है।
डीप रिसर्च के उपयोग के मामले
लक्षित उपयोगकर्ता
डीप रिसर्च उन लोगों के लिए डिज़ाइन किया गया है जो अपने दैनिक कार्य या जीवन में ज्ञान कार्य में लगे हुए हैं, विशेष रूप से वे जिन्हें बड़ी मात्रा में जानकारी इकट्ठा करने, डेटा का विश्लेषण करने और निर्णय लेने की आवश्यकता होती है। कई उपयोगकर्ता डीप रिसर्च को अपने काम पर लागू करते हैं, जैसे कि अनुसंधान में, बाजारों, कंपनियों और रियल एस्टेट जैसे क्षेत्रों में स्थिति को समझने के लिए।
उपयोग के मामले
OpenAI को उम्मीद है कि डीप रिसर्च व्यवसाय और व्यक्तिगत जीवन दोनों परिदृश्यों की सेवा कर सकता है, क्योंकि यह वास्तव में एक बहुत ही बहुमुखी क्षमता है जो काम और व्यक्तिगत जीवन दोनों पर लागू होती है। डीप रिसर्च की अपील बहुत समय बचाने की क्षमता में निहित है। कुछ कार्य जिनमें घंटों या दिन भी लग सकते थे, अब डीप रिसर्च के साथ 90% उत्तर दिए जा सकते हैं। OpenAI का मानना है कि व्यावसायिक परिदृश्यों में और भी समान कार्य होंगे, लेकिन डीप रिसर्च लोगों के निजी जीवन का भी हिस्सा बन जाएगा।
डीप रिसर्च कार्यबल को बदलने के बारे में नहीं है। ज्ञान कार्य के लिए, विशेष रूप से ऐसे कार्य जिनके लिए जानकारी खोजने और निष्कर्ष निकालने में बहुत समय लगता है, डीप रिसर्च लोगों को महाशक्तियों के साथ सशक्त करेगा, ऐसे कार्यों को सक्षम करेगा जिनमें 4 या 8 घंटे लग सकते थे, 5 मिनट में पूरा किया जा सकता है, जिससे उपयोगकर्ता अधिक हासिल कर सकते हैं।
साक्षात्कार में चिकित्सा, निवेश और अन्य पेशेवर कार्य परिदृश्यों सहित उपयोग के मामलों का उल्लेख किया गया; खरीदारी, यात्रा और अन्य पारिवारिक परिदृश्य; प्रोग्रामिंग और व्यक्तिगत शिक्षा।
चिकित्सा, निवेश और अन्य पेशेवर कार्य परिदृश्य
चिकित्सा में, डीप रिसर्च एक निश्चित बीमारी के सभी साहित्य या हाल के मामलों को खोजने में मदद कर सकता है, इस प्रकार समय की बचत होती है।
निवेश में, डीप रिसर्च की मदद से, निवेशक हर संभावित स्टार्टअप पर शोध करना चुन सकते हैं जिसमें वे निवेश कर सकते हैं, न कि केवल उन लोगों के साथ जिनसे मिलने का उनके पास समय है।
कंपनी के संचालन में, एक उपभोक्ता सामान कंपनी शुरू करने पर विचार करने वाला एक उपयोगकर्ता यह निर्धारित करने के लिए डीप रिसर्च का बड़े पैमाने पर उपयोग कर रहा है कि क्या विशिष्ट ब्रांड नाम पहले ही पंजीकृत हो चुके हैं, क्या डोमेन नाम पर कब्जा है, बाजार का आकार और विभिन्न अन्य जानकारी।
खरीदारी, यात्रा और अन्य पारिवारिक परिदृश्य
एक उपयोगकर्ता जो एक नई कार खरीदने पर विचार कर रहा था, वह जानना चाहता था कि अगला मॉडल कब जारी किया जाएगा। ऑनलाइन कई सट्टा लेख थे, इसलिए उपयोगकर्ता ने डीप रिसर्च से सभी प्रासंगिक अफवाहों को संकलित करने के लिए कहा। डीप रिसर्च ने एक उत्कृष्ट रिपोर्ट तैयार की, जिसमें उपयोगकर्ता को सूचित किया गया कि अगले कुछ महीनों में एक नई कार जारी की जा सकती है।
जब डीप रिसर्च को जापान में लॉन्च किया गया था, तो उपयोगकर्ताओं ने इसे विशिष्ट आवश्यकताओं को पूरा करने वाले रेस्तरां खोजने में बहुत मददगार पाया और उपयोगकर्ताओं को उन चीजों को खोजने में भी मदद कर सकता है जो उन्हें अन्यथा नहीं मिली होंगी।
जब उपयोगकर्ताओं को एक महंगा आइटम खरीदने, एक विशेष यात्रा की योजना बनाने, या किसी समस्या के बारे में सोचने में बहुत समय बिताने की आवश्यकता होती है, तो वे प्रासंगिक जानकारी खोजने, सभी समीक्षाओं को ब्राउज़ करने आदि के लिए घंटों ऑनलाइन बिता सकते हैं। डीप रिसर्च इस जानकारी को जल्दी से व्यवस्थित कर सकता है, एक सारांश रिपोर्ट बना सकता है, और विस्तृत और व्यक्तिगत सलाह प्रदान कर सकता है।
व्यस्त कामकाजी माताओं के पास अक्सर अपने बच्चों के लिए जन्मदिन की पार्टियों की योजना बनाने का समय नहीं होता है, लेकिन अब वे डीप रिसर्च की मदद से इसे जल्दी से कर सकती हैं।
डीप रिसर्च निर्देशों का पालन करने में भी उत्कृष्ट है। यदि उपयोगकर्ता न केवल किसी उत्पाद के बारे में जानना चाहते हैं, बल्कि अन्य सभी उत्पादों के साथ इसकी तुलना भी करना चाहते हैं, या यहां तक कि Reddit जैसी वेबसाइटों से समीक्षाएं देखना चाहते हैं, तो वे डीप रिसर्च से कई अलग-अलग अनुरोध कर सकते हैं, और यह इन सभी कार्यों को एक साथ पूरा करेगा। उपयोगकर्ता डीप रिसर्च से जानकारी को एक तालिका में रखने के लिए भी कह सकते हैं।
प्रोग्रामिंग
बहुत से लोग प्रोग्रामिंग के लिए डीप रिसर्च का उपयोग करते हैं। इस परिदृश्य पर शुरू में OpenAI द्वारा विचार नहीं किया गया था, लेकिन बहुत से लोग इसका उपयोग कोड लिखने, कोड खोजने, यहां तक कि एक पैकेज के लिए नवीनतम दस्तावेज खोजने या स्क्रिप्ट लिखने के लिए कर रहे हैं, प्रभावशाली परिणामों के साथ।
शिक्षा
व्यक्तिगत शिक्षा एक बहुत ही दिलचस्प अनुप्रयोग परिदृश्य है। यदि उपयोगकर्ताओं के पास एक विषय है जिसे वे सीखना चाहते हैं, जैसे कि जीव विज्ञान की समीक्षा करना या वर्तमान घटनाओं को समझना, तो उन्हें केवल उन हिस्सों को प्रदान करने की आवश्यकता है जिन्हें वे नहीं समझते हैं या वह जानकारी जिसमें वे गहराई से जाना चाहते हैं, और डीप रिसर्च एक विस्तृत रिपोर्ट संकलित कर सकता है। शायद भविष्य में, डीप रिसर्च उपयोगकर्ता के बारे में जो कुछ भी सीखता है, उसके आधार पर व्यक्तिगत शिक्षा प्रदान करना संभव होगा।
एजेंट 2025 में उभरेंगे
डीप रिसर्च के लिए भविष्य की विकास दिशाएं
उत्पाद रूप के संदर्भ में, OpenAI को उम्मीद है कि डीप रिसर्च भविष्य में छवियों को एम्बेड करने, उत्पादों की तस्वीरें खोजने, चार्ट उत्पन्न करने और इन चार्ट को उत्तरों में एम्बेड करने में सक्षम होगा।
सूचना स्रोतों के संदर्भ में, OpenAI को उम्मीद है कि मॉडल उन डेटा स्रोतों का विस्तार करने में सक्षम होगा जिन तक वह पहुंच सकता है। उन्हें उम्मीद है कि मॉडल भविष्य में निजी डेटा खोजने में सक्षम होगा। OpenAI मॉडल की क्षमताओं को और बढ़ाएगा, जिससे यह ब्राउज़िंग और विश्लेषण में बेहतर होगा।
सूचना सटीकता के संदर्भ में, उपयोगकर्ताओं को डीप रिसर्च के आउटपुट पर भरोसा करने में सक्षम बनाने के लिए, उपयोगकर्ता मॉडल द्वारा उद्धृत जानकारी के स्रोतों को देख सकते हैं। मॉडल प्रशिक्षण प्रक्रिया के दौरान, OpenAI उद्धरणों की शुद्धता सुनिश्चित करने का भी प्रयास करता है, लेकिन मॉडल अभी भी गलतियाँ कर सकता है, मतिभ्रम कर सकता है, या यहां तक कि एक ऐसे स्रोत पर भरोसा कर सकता है जो सबसे विश्वसनीय नहीं हो सकता है। इसलिए, यह एक ऐसा क्षेत्र है जिसे OpenAI सुधारना जारी रखना चाहता है।
OpenAI एजेंट रोडमैप में अधिक व्यापक रूप से एकीकृत करने के लिए, OpenAI को उम्मीद है कि डीप रिसर्च को कई अलग-अलग अनुप्रयोग परिदृश्यों तक बढ़ाया जा सकता है, सबसे उन्नत तर्क मॉडल को उन उपकरणों के साथ जोड़कर जिनका उपयोग मनुष्य काम या दैनिक जीवन के कार्यों को पूरा करने के लिए कर सकते हैं, और फिर मॉडल को सीधे अनुकूलित करके उन परिणामों को प्राप्त कर सकते हैं जिन्हें उपयोगकर्ता एजेंट को प्राप्त करना चाहते हैं।
इस स्तर पर, वास्तव में डीप रिसर्च को अधिक जटिल कार्य परिदृश्यों तक विस्तारित करने से रोकने के लिए कुछ भी नहीं है। AGI अब एक परिचालन मुद्दा है, और भविष्य में देखने के लिए कई रोमांचक विकास होंगे।
Sam Altman का मानना है कि डीप रिसर्च जो कार्य पूरा कर सकता है, वह दुनिया के सभी आर्थिक रूप से व्यवहार्य कार्यों का कुछ प्रतिशत होगा। Josh Tobin का मानना है कि डीप रिसर्च उपयोगकर्ताओं के लिए सभी काम नहीं कर सकता है, लेकिन यह उपयोगकर्ताओं को कई घंटे या दिन भी बचा सकता है। OpenAI को उम्मीद है कि एक अपेक्षाकृत करीबी लक्ष्य डीप रिसर्च और उसके बाद बनाए गए एजेंटों के साथ-साथ इस नींव पर बनाए गए अन्य एजेंटों के लिए है, जो उपयोगकर्ताओं को उनके द्वारा किए जाने वाले कार्य के प्रकार के आधार पर उनके समय का 1%, 5%, 10% या 25% बचा सकते हैं।
एजेंट और RL
Isa Fulford और Josh Tobin इस बात से सहमत हैं कि एजेंट इस साल उभरेंगे।
RL ने एक शिखर का अनुभव किया, फिर थोड़ा गर्त लग रहा था, और अब फिर से ध्यान आकर्षित कर रहा है। Yann LeCun के पास एक बार एक सादृश्य था: यदि लोग केक बना रहे हैं, तो इसका अधिकांश भाग केक होगा, थोड़ी सी फ्रॉस्टिंग होगी, और अंत में शीर्ष पर कुछ चेरी होंगी। अनसुपरवाइज्ड लर्निंग केक की तरह है, सुपरवाइज्ड लर्निंग फ्रॉस्टिंग है, और RL चेरी है।
Josh Tobin का मानना है कि 2015-2016 में RL करते समय, केक सादृश्य का उपयोग करते हुए, यह केक के बिना चेरी जोड़ने की कोशिश कर रहा होगा। लेकिन अब, बड़ी मात्रा में डेटा पर पूर्व-प्रशिक्षित भाषा मॉडल हैं, ये मॉडल बहुत शक्तिशाली हैं, और हम जानते हैं कि इन भाषा मॉडलों पर पर्यवेक्षित फाइन-ट्यूनिंग कैसे करें ताकि उन्हें निर्देशों को निष्पादित करने और लोगों को जो करना चाहते हैं उसे करने में अच्छा बनाया जा सके। अब सब कुछ बहुत अच्छी तरह से काम करता है, और यह किसी भी उपयोग के मामले के लिए उपयोगकर्ता-परिभाषित इनाम कार्यों के अनुसार इन मॉडलों को समायोजित करने के लिए बहुत उपयुक्त है।