होम | hi | 194/194

डिफ्यूजन मॉडल अनुमान स्केलिंग नया प्रतिमान

डिफ्यूजन मॉडल में अनुमान समय स्केलिंग प्रभावी है उच्च गुणवत्ता वाले नमूने प्राप्त करने के लिए अनुमान के दौरान अधिक कम्प्यूटेशनल संसाधन आवंटित करें यह ढांचा विभिन्न अनुप्रयोगों के लिए अलग-अलग घटक संयोजनों की अनुमति देता है नमूनाकरण के दौरान बेहतर शोर की तलाश करना एनएफई स्केलिंग का एक और आयाम है केवल डेनोइजिंग चरणों को बढ़ाने के अलावा शोधकर्ताओं ने दो मुख्य डिजाइन अक्षों पर ध्यान केंद्रित किया सत्यापनकर्ता जो खोज प्रक्रिया के दौरान प्रतिक्रिया प्रदान करते हैं और एल्गोरिदम जो बेहतर शोर उम्मीदवारों को ढूंढते हैं उन्होंने विभिन्न उपयोग परिदृश्यों का अनुकरण करते हुए सत्यापनकर्ताओं के लिए तीन अलग-अलग परिदृश्यों का पता लगाया और एल्गोरिदम के लिए उन्होंने यादृच्छिक खोज शून्य क्रम खोज और पथ खोज की जांच की उन्होंने पाया कि खोज विधि को विभिन्न मॉडलों के लिए सामान्यीकृत किया जा सकता है और पहले से ही संरेखित मॉडलों के प्रदर्शन में सुधार किया जा सकता है इसके अतिरिक्त उन्होंने पाया कि प्रशिक्षण के दौरान खर्च किए गए महत्वपूर्ण कम्प्यूटेशनल संसाधनों को पीढ़ी के दौरान कम मात्रा में गणना द्वारा ऑफसेट किया जा सकता है जिसके परिणामस्वरूप उच्च गुणवत्ता वाले नमूने अधिक कुशलता से प्राप्त होते हैं

२०२५-०१-१९

# Google # AIGC # Gemma

डिफ्यूजन मॉडल अनुमान स्केलिंग नया प्रतिमान

ओ3-मिनी जल्द ही जारी होने वाला है अल्टमैन एजीआई पावर आवश्यकताएं

ओपनएआई का ओ3-मिनी कुछ ही हफ्तों में लॉन्च होने वाला है, जिसकी घोषणा सीईओ सैम अल्टमैन ने की है। यह एक बड़े मॉडल का एक छोटा संस्करण है जो एपीआई और वेब इंटरफेस दोनों के माध्यम से उपलब्ध होगा। ओ3-मिनी के तीन संस्करण होंगे: हाई, मीडियम और लो। यह ओ1-प्रो से बेहतर नहीं होगा लेकिन यह तेज होगा। ओ3-मिनी कोडिंग कार्यों के लिए लागत प्रभावी होगा। पूर्ण ओ3 मॉडल ओ1-प्रो से अधिक उन्नत होगा। ओ3-प्रो 200 डॉलर के प्रो सब्सक्राइबर के लिए उपलब्ध होगा। ओ3-मिनी का उपयोग कोटा बहुत अधिक होगा। एजीआई के लिए 872 मेगावाट की कंप्यूटिंग शक्ति की आवश्यकता होगी।

२०२५-०१-१९

# OpenAI # GPT # AGI

ओ3-मिनी जल्द ही जारी होने वाला है अल्टमैन एजीआई पावर आवश्यकताएं

बड़े भाषा मॉडल में मेमोरी प्रबंधन के लिए एक नया ध्यान तंत्र

बड़े भाषा मॉडल (LLM) में कुशल अनुमान एक महत्वपूर्ण चुनौती है। पारंपरिक ध्यान तंत्र में Key-Value (KV) कैश एक मेमोरी बाधा है। मल्टी-मैट्रिक्स फैक्टराइजेशन अटेंशन (MFA) और MFA-Key-Reuse (MFA-KR) जैसे नए तंत्र मेमोरी के उपयोग को कम करते हैं और प्रदर्शन को बढ़ाते हैं। MFA पारंपरिक MHA के प्रदर्शन से मेल खाता है और KV कैश उपयोग को 93.7% तक कम करता है। यह डिजाइन में सरल, पुनरुत्पादन में आसान और विभिन्न पॉस-एम्बेडिंग विधियों के साथ संगत है। MFA के विश्लेषण में टोटल इफेक्टिव रैंक (TER) और शेयर्ड लेटेंट सबस्पेस डायमेंशन (SLSD) जैसे नए मैट्रिक्स शामिल हैं। MFA, MQA और MLA की तुलना में बेहतर प्रदर्शन करता है, और यह LLM अनुप्रयोगों को गति देने में मदद करता है।

२०२५-०१-१८

# LLM # AIGC # Stepfun

बड़े भाषा मॉडल में मेमोरी प्रबंधन के लिए एक नया ध्यान तंत्र

प्रोटीन अनुसंधान में विकासवादी पैमाने का ESM3 एक बड़ी छलांग

इवोल्यूशनरीस्केल का ESM3 एक अभूतपूर्व जैविक मॉडल है, जिसमें 98 बिलियन पैरामीटर हैं, जो इसे विश्व स्तर पर अपनी तरह का सबसे बड़ा मॉडल बनाता है। यह मॉडल प्रोटीन को समझने और हेरफेर करने के तरीके में एक महत्वपूर्ण उन्नति का प्रतिनिधित्व करता है। ESM3 3D संरचना और प्रोटीन के कार्य को एक अलग वर्णमाला में बदल देता है, जिससे प्रत्येक 3D संरचना को अक्षरों के अनुक्रम के रूप में दर्शाया जा सकता है। यह मॉडल एक साथ प्रोटीन के अनुक्रम, संरचना और कार्य को संसाधित कर सकता है, और नए प्रोटीन उत्पन्न करने के लिए जटिल संकेतों का जवाब दे सकता है। ESM3 की विकास का अनुकरण करने की क्षमता प्राकृतिक विकास के 5 ट्रिलियन वर्षों के बराबर है। हाल ही में, इवोल्यूशनरीस्केल ने ESM3 API को मुफ्त में उपलब्ध कराया है, जिसका उद्देश्य दुनिया भर के वैज्ञानिकों के लिए प्रोटीन की भविष्यवाणी में तेजी लाना है। इस कदम का स्वागत ट्यूरिंग पुरस्कार विजेता और मेटा के मुख्य वैज्ञानिक यान लेकन ने किया, जिन्होंने इवोल्यूशनरीस्केल की उपलब्धि को 'बहुत अच्छी बात' बताया। ESM3 एक मॉडल से कहीं अधिक है; यह परमाणु स्तर पर प्रोटीन को समझने और उत्पन्न करने में एक सफलता है, जिसका चिकित्सा क्षेत्र पर गहरा प्रभाव पड़ने का वादा है।

२०२५-०१-१७

# AI # LLM # AIGC

प्रोटीन अनुसंधान में विकासवादी पैमाने का ESM3 एक बड़ी छलांग

माइक्रोसॉफ्ट का मटेरियल डिज़ाइन में AI मॉडल 10 गुना बेहतर

माइक्रोसॉफ्ट ने MatterGen का अनावरण किया, एक अभूतपूर्व बड़ा भाषा मॉडल जो विशेष रूप से अकार्बनिक सामग्रियों के निर्माण के लिए डिज़ाइन किया गया है। यह मॉडल, एक डिफ्यूजन मॉडल आर्किटेक्चर पर निर्मित, परमाणु प्रकारों, निर्देशांकों और आवधिक जाली को प्रगतिशील रूप से अनुकूलित करने में सक्षम है। इससे विविध नई अकार्बनिक सामग्रियों का तेजी से उत्पादन संभव है। ऊर्जा क्षेत्र में इसकी क्षमता का एक प्रमुख उदाहरण है, जहां MatterGen उपन्यास लिथियम-आयन बैटरी कैथोड सामग्री उत्पन्न कर सकता है। पारंपरिक तरीकों की तुलना में, MatterGen स्थिर, अद्वितीय और उपन्यास सामग्री के अनुपात को दोगुने से अधिक बढ़ा देता है।

२०२५-०१-१७

# LLM # AGI # Microsoft

माइक्रोसॉफ्ट का मटेरियल डिज़ाइन में AI मॉडल 10 गुना बेहतर

स्टैनफोर्ड अध्ययन चैटजीपीटी प्रदर्शन में गिरावट

स्टैनफोर्ड और यूसी बर्कले के शोधकर्ताओं द्वारा किए गए एक हालिया अध्ययन में, चैटजीपीटी के प्रदर्शन में तीन महीने की अवधि में महत्वपूर्ण उतार-चढ़ाव का खुलासा हुआ है। अध्ययन में पाया गया कि GPT-4 की सटीकता, निर्देशों का पालन करने की क्षमता और संवेदनशील सवालों के जवाब देने की इच्छा में गिरावट आई है, जबकि GPT-3.5 में कुछ कार्यों में सुधार देखा गया है। यह शोध ChatGPT के व्यवहार की गतिशीलता को समझने में मदद करता है।

२०२५-०१-१७

# Chatbot # OpenAI # GPT

स्टैनफोर्ड अध्ययन चैटजीपीटी प्रदर्शन में गिरावट

पिछला

पृष्ठ 193

Tag: allm.link | hi

डिफ्यूजन मॉडल अनुमान स्केलिंग नया प्रतिमान

ओ3-मिनी जल्द ही जारी होने वाला है अल्टमैन एजीआई पावर आवश्यकताएं

बड़े भाषा मॉडल में मेमोरी प्रबंधन के लिए एक नया ध्यान तंत्र

प्रोटीन अनुसंधान में विकासवादी पैमाने का ESM3 एक बड़ी छलांग

माइक्रोसॉफ्ट का मटेरियल डिज़ाइन में AI मॉडल 10 गुना बेहतर

स्टैनफोर्ड अध्ययन चैटजीपीटी प्रदर्शन में गिरावट