पिक्स्ट्रल-12B-2409 आता ॲमेझॉन बेडरॉक मार्केटप्लेसवर उपलब्ध

पिक्स्ट्रल 12B चा सखोल अभ्यास

Pixtral 12B, मिस्ट्रलचा VLMs मधील पहिला प्रयत्न, विविध बेंचमार्कवर प्रभावी कामगिरी दर्शवतो. मिस्ट्रलच्या अंतर्गत मूल्यमापनानुसार, ते इतर ओपन मॉडेल्सपेक्षा श्रेष्ठ आहे आणि मोठ्या मॉडेल्सशी स्पर्धा करते. पिक्स्ट्रल हे प्रतिमा आणि दस्तऐवज समजून घेण्यासाठी तयार केले आहे, जे दृष्टी-केंद्रित कार्यांमध्ये प्रगत क्षमता दर्शवते. यामध्ये चार्ट आणि आकृत्यांचा अर्थ लावणे, दस्तऐवजातील सामग्रीबद्दल प्रश्नांची उत्तरे देणे, मल्टीमॉडल तर्क करणे आणि सूचनांचे काटेकोरपणे पालन करणे समाविष्ट आहे. या मॉडेलचे एक महत्त्वाचे वैशिष्ट्य म्हणजे प्रतिमा त्यांच्या मूळ रिझोल्यूशन आणि आस्पेक्ट रेशोमध्ये प्रक्रिया करण्याची क्षमता, उच्च-गुणवत्तेचे इनपुट हाताळणी सुनिश्चित करणे. याव्यतिरिक्त, आणि अनेक ओपन-सोर्स पर्यायांच्या विपरीत, Pixtral 12B मजकूर-आधारित बेंचमार्क मध्ये उत्कृष्ट परिणाम प्राप्त करते - मल्टीमॉडल कार्यक्षमतेशी तडजोड न करता सूचना पालन, कोडिंग आणि गणितीय तर्क यामध्ये प्रवीणता दर्शवते.

Pixtral 12B मागील नवकल्पना मिस्ट्रलच्या नवीन आर्किटेक्चरमध्ये आहे, जे कॉम्प्युटेशनल कार्यक्षमतेसाठी आणि उच्च कार्यक्षमतेसाठी काळजीपूर्वक डिझाइन केलेले आहे. मॉडेलमध्ये दोन मुख्य घटक आहेत: 400-दशलक्ष-पॅरामीटर व्हिजन एनकोडर, प्रतिमा टोकनाइझ करण्याचे काम करते, आणि 12-अब्ज-पॅरामीटर मल्टीमॉडल ट्रान्सफॉर्मर डीकोडर. हे डीकोडर मजकूर आणि प्रतिमांच्या दिलेल्या क्रमावर आधारित पुढील मजकूर टोकनचा अंदाज लावतो. व्हिजन एनकोडर विशेषतः वेगवेगळ्या आकाराच्या प्रतिमा हाताळण्यासाठी प्रशिक्षित केले जाते. हे पिक्स्ट्रलला उच्च-रिझोल्यूशन आकृत्या, चार्ट आणि दस्तऐवजांचा अचूक अर्थ लावण्यास अनुमती देते, तसेच लहान प्रतिमा, जसे की चिन्ह, क्लिपार्ट आणि समीकरणे यांच्यासाठी जलद गती राखते. हे काळजीपूर्वक तयार केलेले आर्किटेक्चर 128,000 टोकन्सच्या मोठ्या संदर्भ विंडोमध्ये विविध आकारांच्या प्रतिमांच्या प्रक्रियेस समर्थन देते.

ओपन-वेट मॉडेल्स वापरताना, परवाना करार विचारात घेणे आवश्यक आहे. मिस्ट्रल 7B, मिक्स्ट्रल 8x7B, मिक्स्ट्रल 8x22B, आणि मिस्ट्रल निमो 12B सारख्या इतर मिस्ट्रल मॉडेल्सच्या परवाना पद्धतीप्रमाणेच, पिक्स्ट्रल 12B व्यावसायिकरित्या परवानगी असलेल्या अपाचे 2.0 परवान्याअंतर्गत प्रसिद्ध केले आहे. हे एंटरप्राइझ आणि स्टार्टअप ग्राहकांना उच्च-कार्यक्षमता VLM पर्याय प्रदान करते, त्यांना अत्याधुनिक मल्टीमॉडल अनुप्रयोग तयार करण्यास सक्षम करते.

कामगिरी मेट्रिक्स आणि बेंचमार्क: एक जवळून पाहणी

पिक्स्ट्रल 12B नैसर्गिक प्रतिमा आणि दस्तऐवज दोन्ही समजून घेण्यासाठी काळजीपूर्वक प्रशिक्षित केले आहे. मिस्ट्रलने दिलेल्या माहितीनुसार, मॅसिव्ह मल्टीटास्क लँग्वेज अंडरस्टँडिंग (MMLU) रिझनिंग बेंचमार्कवर 52.5% गुण मिळवले, जे अनेक मोठ्या मॉडेल्सपेक्षा श्रेष्ठ आहे. MMLU बेंचमार्क एक कठोर चाचणी म्हणून काम करते, जे विविध विषयांमध्ये भाषेचा अर्थ लावण्याची आणि वापरण्याची भाषा मॉडेलची क्षमता तपासते. MMLU मध्ये 10,000 पेक्षा जास्त बहु-निवड प्रश्न आहेत जे गणित, तत्त्वज्ञान, कायदा आणि औषध यासारख्या विविध शैक्षणिक शाखांमध्ये पसरलेले आहेत.

पिक्स्ट्रल 12B चार्ट आणि आकृत्या समजून घेणे, दस्तऐवजातील माहितीवर आधारित प्रश्नांची उत्तरे देणे, मल्टीमॉडल तर्क करणे आणि सूचनांचे पालन करणे यासारख्या कार्यांमध्ये मजबूत क्षमता दर्शवते. मॉडेलची प्रतिमा त्यांच्या नैसर्गिक रिझोल्यूशन आणि आस्पेक्ट रेशोमध्ये घेण्याची क्षमता वापरकर्त्यांना प्रतिमा प्रक्रियेसाठी वापरल्या जाणार्‍या टोकन्सच्या संख्येत लवचिकता प्रदान करते. याव्यतिरिक्त, पिक्स्ट्रल त्याच्या विस्तृत 128,000-टोकन संदर्भ विंडोमध्ये एकाधिक प्रतिमांवर प्रक्रिया करू शकते. विशेष म्हणजे, मिस्ट्रलच्या निष्कर्षांनुसार, पूर्वीच्या ओपन-सोर्स मॉडेल्सच्या विपरीत, पिक्स्ट्रल मल्टीमॉडल कार्यांमध्ये उत्कृष्ट कामगिरी करण्यासाठी मजकूर बेंचमार्कवरील कार्यक्षमतेचा त्याग करत नाही.

ॲमेझॉन बेडरॉक मार्केटप्लेसवर पिक्स्ट्रल 12B तैनात करणे: एक चरण-दर-चरण मार्गदर्शक

ॲमेझॉन बेडरॉक कंसोल विशिष्ट उपयोग प्रकरणे किंवा भाषांसाठी तयार केलेल्या मॉडेल्सचा शोध घेणे सोपे करते. शोध परिणामांमध्ये सर्वरलेस मॉडेल्स आणि ॲमेझॉन बेडरॉक मार्केटप्लेसद्वारे उपलब्ध मॉडेल्स दोन्ही समाविष्ट आहेत. वापरकर्ते प्रदाता, मोडॅलिटी (उदा., मजकूर, प्रतिमा किंवा ऑडिओ), किंवा कार्य (उदा., वर्गीकरण किंवा मजकूर सारांश) यावर आधारित फिल्टर करून त्यांचे शोध परिणाम सुधारू शकतात.

ॲमेझॉन बेडरॉक मार्केटप्लेसमध्ये पिक्स्ट्रल 12B ऍक्सेस करण्यासाठी, या तपशीलवार चरणांचे अनुसरण करा:

  1. मॉडेल कॅटलॉगवर नेव्हिगेट करा: ॲमेझॉन बेडरॉक कंसोलमध्ये, नेव्हिगेशन पेनमध्ये ‘फाउंडेशन मॉडेल्स’ अंतर्गत ‘मॉडेल कॅटलॉग’ शोधा आणि निवडा.

  2. पिक्स्ट्रल 12B फिल्टर करा आणि निवडा: ‘Hugging Face’ प्रदाता म्हणून निवडून मॉडेल सूची परिष्कृत करा आणि नंतर पिक्स्ट्रल 12B मॉडेल निवडा. वैकल्पिकरित्या, तुम्ही ‘मॉडेलसाठी फिल्टर करा’ इनपुट बॉक्समध्ये थेट ‘पिक्स्ट्रल’ शोधू शकता.

  3. मॉडेल तपशीलांचे पुनरावलोकन करा: मॉडेल तपशील पृष्ठ मॉडेलची क्षमता, किंमत रचना आणि अंमलबजावणी मार्गदर्शक तत्त्वांबाबत महत्त्वपूर्ण माहिती प्रदान करते. हे पृष्ठ सर्वसमावेशक वापर सूचना, नमुना API कॉल आणि एकत्रीकरण सुलभ करण्यासाठी कोड स्निपेट्स ऑफर करते. हे पिक्स्ट्रल 12B तुमच्या ऍप्लिकेशन्समध्ये समाविष्ट करण्याची प्रक्रिया सुलभ करण्यासाठी उपयोजन पर्याय आणि परवाना माहिती देखील सादर करते.

  4. उपयोजन सुरू करा: पिक्स्ट्रल 12B वापरणे सुरू करण्यासाठी, ‘तैनात करा’ बटणावर क्लिक करा.

  5. उपयोजन सेटिंग्ज कॉन्फिगर करा: तुम्हाला पिक्स्ट्रल 12B साठी उपयोजन तपशील कॉन्फिगर करण्यास सूचित केले जाईल. मॉडेल ID तुमच्या सोयीसाठी प्री-पॉप्युलेट केला जाईल.

  6. अंतिम वापरकर्ता परवाना करार (EULA) स्वीकारा: अंतिम वापरकर्ता परवाना करार (EULA) काळजीपूर्वक वाचा आणि स्वीकारा.

  7. एंडपॉइंट नाव: ‘एंडपॉइंट नाव’ आपोआप भरले जाते; तथापि, ग्राहकांना एंडपॉइंटचे नाव बदलण्याचा पर्याय आहे.

  8. उदाहरणांची संख्या: 1 ते 100 पर्यंत, उदाहरणांची इच्छित संख्या निर्दिष्ट करा.

  9. उदाहरण प्रकार: तुमचा पसंतीचा उदाहरण प्रकार निवडा. पिक्स्ट्रल 12B सह चांगल्या कार्यक्षमतेसाठी, ml.g6.12xlarge सारख्या GPU-आधारित उदाहरण प्रकाराची शिफारस केली जाते.

  10. प्रगत सेटिंग्ज (पर्यायी): वैकल्पिकरित्या, तुम्ही प्रगत सुरक्षा आणि पायाभूत सुविधा सेटिंग्ज कॉन्फिगर करू शकता. यामध्ये व्हर्च्युअल प्रायव्हेट क्लाउड (VPC) नेटवर्किंग, सेवा भूमिका परवानग्या आणि एनक्रिप्शन सेटिंग्ज समाविष्ट आहेत. डीफॉल्ट सेटिंग्ज बहुतेक वापरासाठी योग्य असताना, उत्पादन उपयोजनासाठी, तुमच्या संस्थेच्या सुरक्षा आणि अनुपालन आवश्यकतांशी जुळवून घेण्यासाठी या सेटिंग्जचे पुनरावलोकन करणे उचित आहे.

  11. मॉडेल तैनात करा: मॉडेल उपयोजन प्रक्रिया सुरू करण्यासाठी ‘तैनात करा’ क्लिक करा.

  12. उपयोजन स्थितीचे परीक्षण करा: उपयोजन पूर्ण झाल्यावर, ‘एंडपॉइंट स्थिती’ ‘सेवेत’ मध्ये बदलली पाहिजे. एंडपॉइंट सक्रिय झाल्यानंतर, तुम्ही ॲमेझॉन बेडरॉक प्लेग्राउंडमध्ये थेट पिक्स्ट्रल 12B च्या क्षमतांची चाचणी करू शकता.

  13. प्लेग्राउंडमध्ये प्रवेश करा: परस्परसंवादी इंटरफेसमध्ये प्रवेश करण्यासाठी ‘प्लेग्राउंडमध्ये उघडा’ निवडा. हे इंटरफेस तुम्हाला विविध प्रॉम्प्ट्ससह प्रयोग करण्याची आणि तापमान आणि कमाल लांबी यासारख्या मॉडेल पॅरामीटर्स समायोजित करण्याची परवानगी देते.

प्लेग्राउंड तुमच्या ऍप्लिकेशन्समध्ये समाकलित करण्यापूर्वी मॉडेलची तर्क आणि मजकूर निर्मिती क्षमता एक्सप्लोर करण्यासाठी एक उत्कृष्ट वातावरण प्रदान करते. हे त्वरित प्रतिक्रिया देते, ज्यामुळे तुम्हाला मॉडेल वेगवेगळ्या इनपुटला कसा प्रतिसाद देतो हे समजून घेण्यास आणि चांगल्या परिणामांसाठी तुमचे प्रॉम्प्ट्स फाइन-ट्यून करण्यास सक्षम करते.

प्लेग्राउंड UI द्वारे त्वरित चाचणी करण्याची परवानगी देत ​​असताना, ॲमेझॉन बेडरॉक API वापरून उपयोजित मॉडेलच्या प्रोग्रामॅटिक इनवोकेशनसाठी ॲमेझॉन बेडरॉक SDK मध्ये ‘मॉडेल-आयडी’ म्हणून एंडपॉइंट ARN वापरणे आवश्यक आहे.

पिक्स्ट्रल 12B वापराची प्रकरणे एक्सप्लोर करणे

हा विभाग पिक्स्ट्रल 12B च्या क्षमतांची व्यावहारिक उदाहरणे देतो, नमुना प्रॉम्प्ट्सद्वारे त्याची बहुमुखी प्रतिभा दर्शवितो.

व्हिज्युअल लॉजिकल रिझनिंग: एक शक्तिशाली ऍप्लिकेशन

व्हिजन मॉडेल्सच्या सर्वात आकर्षक ऍप्लिकेशन्सपैकी एक म्हणजे तार्किक तर्क समस्या किंवा व्हिज्युअल कोडी सोडवण्याची त्यांची क्षमता. पिक्स्ट्रल 12B व्हिजन मॉडेल्स तार्किक तर्क प्रश्नांना सामोरे जाण्यात अपवादात्मक प्रवीणता दर्शवतात. हे स्पष्ट करण्यासाठी एक विशिष्ट उदाहरण पाहू. मुख्य सामर्थ्य म्हणजे केवळ प्रतिमा पाहणे नव्हे, तर नमुने काढणे आणि तर्क लागू करणे. प्रतिसाद देण्यासाठी मोठ्या भाषेच्या मॉडेल क्षमतांचा वापर केला जातो.

उदाहरण:
एका व्हिज्युअल पझलची कल्पना करा जिथे आकारांचा क्रम सादर केला जातो आणि कार्य लपलेल्या पॅटर्नवर आधारित क्रमातील पुढील आकार निश्चित करणे आहे.

प्रॉम्प्ट: “आकारांच्या खालील क्रमाचे विश्लेषण करा आणि मालिकेतील पुढील आकाराचा अंदाज लावा. तुमच्या तर्काचे स्पष्टीकरण द्या.”

इनपुट पेलोड: (आकारांचा क्रम दर्शवणारी प्रतिमा)

अपेक्षित आउटपुट: पिक्स्ट्रल 12B ने आदर्शपणे हे केले पाहिजे:

  1. नमुना ओळखा: आकारांच्या क्रमावर नियंत्रण ठेवणारा मूळ नमुना अचूकपणे ओळखा. यामध्ये आकार, रंग, अभिमुखता किंवा या घटकांचे संयोजन बदलणे समाविष्ट असू शकते.
  2. पुढील आकाराचा अंदाज लावा: ओळखलेल्या पॅटर्नवर आधारित, क्रमातील पुढील आकाराच्या वैशिष्ट्यांचा अचूक अंदाज लावा.
  3. तर्काचे स्पष्टीकरण द्या: अंदाजापर्यंत पोहोचण्यासाठी घेतलेल्या तार्किक चरणांचे स्पष्टपणे वर्णन करा, पुढील आकार निश्चित करण्यासाठी ओळखलेला नमुना कसा लागू केला गेला हे स्पष्ट करा.

हे उदाहरण पिक्स्ट्रल 12B ची केवळ व्हिज्युअल माहितीवर प्रक्रिया करण्याची क्षमता दर्शवते, परंतु माहितीचा अर्थ लावण्यासाठी आणि अंदाज लावण्यासाठी तार्किक तर्क लागू करण्याची क्षमता देखील दर्शवते. ही क्षमता साध्या नमुना ओळखीच्या पलीकडे विस्तारित आहे, ज्यामध्ये अवकाशीय तर्क, नियम-आधारित कपात आणि अमूर्त संकल्पना समजून घेणे यासारख्या अधिक जटिल परिस्थितींचा समावेश आहे.

पुढील वापराची प्रकरणे आणि विस्तार

व्हिज्युअल पझल्सच्या पलीकडे, पिक्स्ट्रल 12B च्या व्हिज्युअल लॉजिकल रिझनिंग क्षमता वास्तविक-जगातील विस्तृत परिस्थितींमध्ये लागू केल्या जाऊ शकतात:

  • डेटा विश्लेषण आणि अर्थ लावणे: मुख्य अंतर्दृष्टी आणि ट्रेंड काढण्यासाठी चार्ट, आलेख आणि आकृत्यांचे विश्लेषण करणे. उदाहरणार्थ, जटिल व्हिज्युअलायझेशनमध्ये सादर केलेल्या विविध डेटा सेटमधील परस्परसंबंध ओळखणे.
  • वैद्यकीय प्रतिमा विश्लेषण: विशिष्ट परिस्थिती दर्शविणारे विसंगती किंवा नमुने ओळखून एक्स-रे, सीटी स्कॅन आणि एमआरआय सारख्या वैद्यकीय प्रतिमांच्या स्पष्टीकरणात मदत करणे.
  • रोबोटिक्स आणि स्वायत्त प्रणाली: रोबोट्सना व्हिज्युअल संकेत समजून घेऊन आणि दृश्याच्या त्यांच्या आकलनावर आधारित निर्णय घेऊन जटिल वातावरणात नेव्हिगेट करण्यास सक्षम करणे.
  • सुरक्षा आणि देखरेख: संशयास्पद क्रियाकलाप शोधण्यासाठी किंवा स्वारस्य असलेल्या वस्तू ओळखण्यासाठी व्हिडिओ फुटेजचे विश्लेषण करणे.
  • शिक्षण आणि प्रशिक्षण: व्हिज्युअल प्रॉम्प्ट्सच्या प्रतिसादांवर आधारित वापरकर्त्याच्या आकलनाशी जुळवून घेणारी परस्परसंवादी शिक्षण सामग्री तयार करणे.
  • दस्तऐवज समज: जटिल दस्तऐवजांमधून संरचित डेटा काढणे.

पिक्स्ट्रल 12B ची बहुमुखी प्रतिभा, ॲमेझॉन बेडरॉकच्या सुलभतेसह एकत्रित, व्हिजन लँग्वेज मॉडेल्सची शक्ती वापरू पाहणाऱ्या डेव्हलपर्स आणि व्यवसायांसाठी शक्यतांची एक विस्तृत श्रेणी उघडते. एकत्रित पद्धतीने प्रतिमा आणि मजकूर यावर प्रक्रिया करण्याची क्षमता, मजबूत तर्क क्षमतांसह एकत्रित, पिक्स्ट्रल 12B ला अनेक ऍप्लिकेशन्ससाठी एक मौल्यवान साधन बनवते. उपयोजनाची सुलभता आणि व्यावसायिकरित्या परवानगी देणारे परवाना त्याचे आकर्षण आणखी वाढवतात, ज्यामुळे ते संशोधन आणि व्यावसायिक दोन्ही प्रयत्नांसाठी एक आकर्षक पर्याय बनते.