Tag: allm.link | hi

डिफ्यूजन मॉडल अनुमान स्केलिंग नया प्रतिमान

डिफ्यूजन मॉडल में अनुमान समय स्केलिंग प्रभावी है उच्च गुणवत्ता वाले नमूने प्राप्त करने के लिए अनुमान के दौरान अधिक कम्प्यूटेशनल संसाधन आवंटित करें यह ढांचा विभिन्न अनुप्रयोगों के लिए अलग-अलग घटक संयोजनों की अनुमति देता है नमूनाकरण के दौरान बेहतर शोर की तलाश करना एनएफई स्केलिंग का एक और आयाम है केवल डेनोइजिंग चरणों को बढ़ाने के अलावा शोधकर्ताओं ने दो मुख्य डिजाइन अक्षों पर ध्यान केंद्रित किया सत्यापनकर्ता जो खोज प्रक्रिया के दौरान प्रतिक्रिया प्रदान करते हैं और एल्गोरिदम जो बेहतर शोर उम्मीदवारों को ढूंढते हैं उन्होंने विभिन्न उपयोग परिदृश्यों का अनुकरण करते हुए सत्यापनकर्ताओं के लिए तीन अलग-अलग परिदृश्यों का पता लगाया और एल्गोरिदम के लिए उन्होंने यादृच्छिक खोज शून्य क्रम खोज और पथ खोज की जांच की उन्होंने पाया कि खोज विधि को विभिन्न मॉडलों के लिए सामान्यीकृत किया जा सकता है और पहले से ही संरेखित मॉडलों के प्रदर्शन में सुधार किया जा सकता है इसके अतिरिक्त उन्होंने पाया कि प्रशिक्षण के दौरान खर्च किए गए महत्वपूर्ण कम्प्यूटेशनल संसाधनों को पीढ़ी के दौरान कम मात्रा में गणना द्वारा ऑफसेट किया जा सकता है जिसके परिणामस्वरूप उच्च गुणवत्ता वाले नमूने अधिक कुशलता से प्राप्त होते हैं

डिफ्यूजन मॉडल अनुमान स्केलिंग नया प्रतिमान

ओ3-मिनी जल्द ही जारी होने वाला है अल्टमैन एजीआई पावर आवश्यकताएं

ओपनएआई का ओ3-मिनी कुछ ही हफ्तों में लॉन्च होने वाला है, जिसकी घोषणा सीईओ सैम अल्टमैन ने की है। यह एक बड़े मॉडल का एक छोटा संस्करण है जो एपीआई और वेब इंटरफेस दोनों के माध्यम से उपलब्ध होगा। ओ3-मिनी के तीन संस्करण होंगे: हाई, मीडियम और लो। यह ओ1-प्रो से बेहतर नहीं होगा लेकिन यह तेज होगा। ओ3-मिनी कोडिंग कार्यों के लिए लागत प्रभावी होगा। पूर्ण ओ3 मॉडल ओ1-प्रो से अधिक उन्नत होगा। ओ3-प्रो 200 डॉलर के प्रो सब्सक्राइबर के लिए उपलब्ध होगा। ओ3-मिनी का उपयोग कोटा बहुत अधिक होगा। एजीआई के लिए 872 मेगावाट की कंप्यूटिंग शक्ति की आवश्यकता होगी।

ओ3-मिनी जल्द ही जारी होने वाला है अल्टमैन एजीआई पावर आवश्यकताएं

बड़े भाषा मॉडल में मेमोरी प्रबंधन के लिए एक नया ध्यान तंत्र

बड़े भाषा मॉडल (LLM) में कुशल अनुमान एक महत्वपूर्ण चुनौती है। पारंपरिक ध्यान तंत्र में Key-Value (KV) कैश एक मेमोरी बाधा है। मल्टी-मैट्रिक्स फैक्टराइजेशन अटेंशन (MFA) और MFA-Key-Reuse (MFA-KR) जैसे नए तंत्र मेमोरी के उपयोग को कम करते हैं और प्रदर्शन को बढ़ाते हैं। MFA पारंपरिक MHA के प्रदर्शन से मेल खाता है और KV कैश उपयोग को 93.7% तक कम करता है। यह डिजाइन में सरल, पुनरुत्पादन में आसान और विभिन्न पॉस-एम्बेडिंग विधियों के साथ संगत है। MFA के विश्लेषण में टोटल इफेक्टिव रैंक (TER) और शेयर्ड लेटेंट सबस्पेस डायमेंशन (SLSD) जैसे नए मैट्रिक्स शामिल हैं। MFA, MQA और MLA की तुलना में बेहतर प्रदर्शन करता है, और यह LLM अनुप्रयोगों को गति देने में मदद करता है।

बड़े भाषा मॉडल में मेमोरी प्रबंधन के लिए एक नया ध्यान तंत्र

प्रोटीन अनुसंधान में विकासवादी पैमाने का ESM3 एक बड़ी छलांग

इवोल्यूशनरीस्केल का ESM3 एक अभूतपूर्व जैविक मॉडल है, जिसमें 98 बिलियन पैरामीटर हैं, जो इसे विश्व स्तर पर अपनी तरह का सबसे बड़ा मॉडल बनाता है। यह मॉडल प्रोटीन को समझने और हेरफेर करने के तरीके में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करता है। ESM3 3D संरचना और प्रोटीन के कार्य को एक अलग वर्णमाला में बदल देता है, जिससे प्रत्येक 3D संरचना को अक्षरों के अनुक्रम के रूप में दर्शाया जा सकता है। यह मॉडल एक साथ प्रोटीन के अनुक्रम, संरचना और कार्य को संसाधित कर सकता है, और नए प्रोटीन उत्पन्न करने के लिए जटिल संकेतों का जवाब दे सकता है। ESM3 की विकास का अनुकरण करने की क्षमता प्राकृतिक विकास के 5 ट्रिलियन वर्षों के बराबर है। हाल ही में, इवोल्यूशनरीस्केल ने ESM3 API को मुफ्त में उपलब्ध कराया है, जिसका उद्देश्य दुनिया भर के वैज्ञानिकों के लिए प्रोटीन की भविष्यवाणी में तेजी लाना है। इस कदम का स्वागत ट्यूरिंग पुरस्कार विजेता और मेटा के मुख्य वैज्ञानिक यान लेकन ने किया, जिन्होंने इवोल्यूशनरीस्केल की उपलब्धि को 'बहुत अच्छी बात' बताया। ESM3 एक मॉडल से कहीं अधिक है; यह परमाणु स्तर पर प्रोटीन को समझने और उत्पन्न करने में एक सफलता है, जिसका चिकित्सा क्षेत्र पर गहरा प्रभाव पड़ने का वादा है।

प्रोटीन अनुसंधान में विकासवादी पैमाने का ESM3 एक बड़ी छलांग

माइक्रोसॉफ्ट का मटेरियल डिज़ाइन में AI मॉडल 10 गुना बेहतर

माइक्रोसॉफ्ट ने MatterGen का अनावरण किया, एक अभूतपूर्व बड़ा भाषा मॉडल जो विशेष रूप से अकार्बनिक सामग्रियों के निर्माण के लिए डिज़ाइन किया गया है। यह मॉडल, एक डिफ्यूजन मॉडल आर्किटेक्चर पर निर्मित, परमाणु प्रकारों, निर्देशांकों और आवधिक जाली को प्रगतिशील रूप से अनुकूलित करने में सक्षम है। इससे विविध नई अकार्बनिक सामग्रियों का तेजी से उत्पादन संभव है। ऊर्जा क्षेत्र में इसकी क्षमता का एक प्रमुख उदाहरण है, जहां MatterGen उपन्यास लिथियम-आयन बैटरी कैथोड सामग्री उत्पन्न कर सकता है। पारंपरिक तरीकों की तुलना में, MatterGen स्थिर, अद्वितीय और उपन्यास सामग्री के अनुपात को दोगुने से अधिक बढ़ा देता है।

माइक्रोसॉफ्ट का मटेरियल डिज़ाइन में AI मॉडल 10 गुना बेहतर

स्टैनफोर्ड अध्ययन चैटजीपीटी प्रदर्शन में गिरावट

स्टैनफोर्ड और यूसी बर्कले के शोधकर्ताओं द्वारा किए गए एक हालिया अध्ययन में, चैटजीपीटी के प्रदर्शन में तीन महीने की अवधि में महत्वपूर्ण उतार-चढ़ाव का खुलासा हुआ है। अध्ययन में पाया गया कि GPT-4 की सटीकता, निर्देशों का पालन करने की क्षमता और संवेदनशील सवालों के जवाब देने की इच्छा में गिरावट आई है, जबकि GPT-3.5 में कुछ कार्यों में सुधार देखा गया है। यह शोध ChatGPT के व्यवहार की गतिशीलता को समझने में मदद करता है।

स्टैनफोर्ड अध्ययन चैटजीपीटी प्रदर्शन में गिरावट