आर्म क्लेडी (Arm Kleidi): आर्म CPU वर AI इन्फरन्स ऑप्टिमाइझ करणे
आर्म क्लेडी (Arm Kleidi) विशेषतः या आव्हानाला सामोरे जाण्यासाठी डिझाइन केलेले आहे, जे Arm CPUs वर चालणाऱ्या सर्व AI अनुमान (inference) वर्कलोडसाठी कार्यक्षमतेचे ऑप्टिमायझेशन (optimization) प्रदान करते. क्लेडी (Kleidi) च्या केंद्रस्थानी क्लेडी एआय (KleidiAI) आहे, जे AI ला गती देण्यासाठी तयार केलेले अत्यंत कार्यक्षम, ओपन-सोर्स आर्म रूटीनचे (routines) सुव्यवस्थित संच आहे.
क्लेडी एआय (KleidiAI) आधीपासूनच एज उपकरणांसाठी मोठ्या प्रमाणावर वापरल्या जाणाऱ्या AI फ्रेमवर्कच्या नवीनतम आवृत्त्यांमध्ये समाकलित (integrate) केलेले आहे. यामध्ये ExecuTorch, Llama.cpp, XNNPACK द्वारे LiteRT आणि MediaPipe यांचा समावेश आहे. हे व्यापक एकत्रीकरण लाखो विकासकांना (developers) एक महत्त्वपूर्ण फायदा देते, जे आता कोणत्याही अतिरिक्त प्रयत्नांशिवाय AI कार्यप्रदर्शन ऑप्टिमायझेशनचा आपोआप लाभ घेऊ शकतात.
अलिबाबासोबत भागीदारी: क्वेन2-व्हीएल-2बी-इंस्ट्रक्ट मॉडेल (Qwen2-VL-2B-Instruct Model)
MNN सोबतच्या जवळच्या सहकार्यातून एज उपकरणांवर मल्टीमॉडल AI च्या प्रगतीमध्ये एक नवीन मैलाचा दगड गाठला गेला आहे. MNN हे अलिबाबाने (Alibaba) विकसित केलेले आणि देखरेख केलेले हलके, ओपन-सोर्स डीप लर्निंग फ्रेमवर्क आहे. या भागीदारीमुळे क्लेडी एआय (KleidiAI) चे यशस्वी एकत्रीकरण झाले आहे, ज्यामुळे मल्टीमॉडल AI वर्कलोड आर्म CPU वापरून मोबाइल उपकरणांवर कार्यक्षमतेने चालू शकतात. या यशाची गुरुकिल्ली म्हणजे अलिबाबाचे इंस्ट्रक्शन-ट्यून केलेले 2B पॅरामीटर क्वेन2-व्हीएल-2बी-इंस्ट्रक्ट (Qwen2-VL-2B-Instruct) मॉडेल. हे मॉडेल विशेषतः इमेज अंडरस्टँडिंग (image understanding), टेक्स्ट-टू-इमेज रिझनिंग (text-to-image reasoning) आणि मल्टीमॉडल जनरेशनसाठी (multimodal generation) डिझाइन केलेले आहे, जे एज उपकरणांच्या मर्यादांसाठी तयार केलेले आहे.
मोजण्यायोग्य कार्यप्रदर्शन लाभ
क्लेडी एआय (KleidiAI) चे MNN सोबतच्या एकत्रीकरणामुळे क्वेन2-व्हीएल-2बी-इंस्ट्रक्ट (Qwen2-VL-2B-Instruct) मॉडेलसाठी महत्त्वपूर्ण, मोजण्यायोग्य कार्यप्रदर्शन सुधारणा झाली आहे. एजवरील महत्त्वाच्या AI मल्टीमॉडल वापरामध्ये जलद प्रतिसाद वेळा दिसून आल्या आहेत. या सुधारणांमुळे अलिबाबाच्या विविध ग्राहक-केंद्रित ऍप्लिकेशन्समध्ये वापरकर्त्याचा अनुभव सुधारतो. उदाहरणांमध्ये हे समाविष्ट आहे:
- ग्राहक सेवेसाठी चॅटबॉट्स: ग्राहकांच्या प्रश्नांना जलद आणि अधिक कार्यक्षम प्रतिसाद देणे.
- ई-शॉपिंग ऍप्लिकेशन्स: फोटो-टू-गुड्स (photo-to-goods) शोध सक्षम करणे, ज्यामुळे ग्राहकांना फक्त एक प्रतिमा अपलोड करून त्यांना हव्या असलेल्या वस्तू त्वरित शोधता येतात.
या ऍप्लिकेशन्समधील सुधारित गती हे कार्यक्षमतेतील भरीव वाढीचे थेट परिणाम आहेत:
- प्री-फिल सुधारणा: प्री-फिलमध्ये 57 टक्के कार्यक्षमतेत सुधारणा झाली आहे. हे त्या महत्त्वपूर्ण टप्प्याचा संदर्भ देते जेथे AI मॉडेल्स प्रतिसाद (response) तयार करण्यापूर्वी मल्टी-सोर्स प्रॉम्प्ट (multi-source prompt) इनपुट हाताळतात.
- डीकोड वृद्धी: डीकोडमध्ये 28 टक्के कार्यक्षमतेत सुधारणा दिसून आली आहे. ही प्रक्रिया आहे जिथे AI मॉडेल प्रॉम्प्टवर प्रक्रिया केल्यानंतर मजकूर (text) तयार करते.
गती व्यतिरिक्त, क्लेडी एआय (KleidiAI) एजवर AI वर्कलोडच्या अधिक कार्यक्षम प्रक्रियेस देखील मदत करते. हे मल्टीमॉडल वर्कलोडशी संबंधित एकूण संगणकीय खर्च (computational cost) कमी करून प्राप्त केले जाते. हे कार्यप्रदर्शन आणि कार्यक्षमतेतील फायदे लाखो विकासकांसाठी सहज उपलब्ध आहेत. MNN फ्रेमवर्कवर, तसेच क्लेडी एआय (KleidiAI) समाकलित केलेल्या एज उपकरणांसाठी इतर लोकप्रिय AI फ्रेमवर्कवर ऍप्लिकेशन्स आणि वर्कलोड चालवणारे कोणतेही डेव्हलपर त्वरित याचा लाभ घेऊ शकतात.
रिअल-वर्ल्ड डेमोन्स्ट्रेशन: MWC शोकेस
क्वेन2-व्हीएल-2बी-इंस्ट्रक्ट (Qwen2-VL-2B-Instruct) मॉडेलची व्यावहारिक क्षमता, MNN सोबत नवीन क्लेडी एआय (KleidiAI) एकत्रीकरणाद्वारे समर्थित, मोबाइल वर्ल्ड काँग्रेस (MWC) मध्ये प्रदर्शित करण्यात आली. आर्म बूथवरील एका प्रदर्शनात मॉडेलची व्हिज्युअल (visual) आणि टेक्स्ट इनपुटच्या विविध संयोजना समजून घेण्याची क्षमता दर्शविली. मॉडेलने नंतर प्रतिमेतील (image) सामग्रीचा संक्षिप्त सारांश देऊन प्रतिसाद दिला. ही संपूर्ण प्रक्रिया स्मार्टफोनच्या आर्म CPU वर कार्यान्वित (execute) करण्यात आली, ज्यामुळे समाधानाची (solution) शक्ती आणि कार्यक्षमता दिसून आली. हे स्मार्टफोन MediaTek च्या Arm-चालित Dimensity 9400 मोबाइल सिस्टम-ऑन-चिप (SoC) वर तयार केले गेले, ज्यात vivo X200 मालिका समाविष्ट आहे.
वापरकर्त्याच्या अनुभवातील एक महत्त्वपूर्ण प्रगती
आर्मच्या क्लेडी एआय (KleidiAI) चे अलिबाबाच्या क्वेन2-व्हीएल-2बी-इंस्ट्रक्ट (Qwen2-VL-2B-Instruct) मॉडेलसाठी MNN फ्रेमवर्कसह एकत्रीकरण मल्टीमॉडल AI वर्कलोडसाठी वापरकर्त्याच्या अनुभवातील एक महत्त्वपूर्ण झेप दर्शवते. ही प्रगती या सुधारित अनुभवांना थेट एजवर वितरित करते, हे सर्व आर्म CPU द्वारे समर्थित आहे. ही क्षमता मोबाइल उपकरणांवर सहज उपलब्ध आहे, ज्यामध्ये आघाडीचे ग्राहक-केंद्रित ऍप्लिकेशन्स आधीपासूनच क्लेडी एआय (KleidiAI) चे फायदे घेत आहेत.
एज उपकरणांवर मल्टीमॉडल AI चे भविष्य
भविष्यात, क्लेडी एआय (KleidiAI) चे AI वर्कलोडसाठीचे ऑप्टिमायझेशन लाखो विकासकांना सक्षम करत राहील. ते एज उपकरणांवर अधिकाधिक अत्याधुनिक मल्टीमॉडल अनुभव तयार करण्यास सक्षम असतील. हे सततचे नावीन्य (innovation) इंटेलिजंट कम्प्युटिंगच्या पुढील लाटेसाठी मार्ग मोकळा करेल, AI च्या चालू असलेल्या उत्क्रांतीमध्ये एक महत्त्वपूर्ण प्रगती दर्शवेल.
अलिबाबा नेतृत्वाकडून उद्धरणे (Quotes)
“आम्हाला अलिबाबा क्लाउडचे लार्ज लँग्वेज मॉडेल क्वेन, आर्म क्लेडी एआय (Arm KleidiAI) आणि MNN यांच्यातील सहकार्य पाहून आनंद होत आहे. MNN च्या ऑन-डिव्हाइस इन्फरन्स फ्रेमवर्कला आर्म क्लेडी एआय (Arm KleidiAI) सोबत एकत्रित केल्याने क्वेनची विलंबता (latency) आणि ऊर्जा कार्यक्षमता (energy efficiency) लक्षणीयरीत्या सुधारली आहे. ही भागीदारी मोबाइल उपकरणांवरील LLMs ची क्षमता प्रमाणित करते आणि AI वापरकर्त्याचा अनुभव वाढवते. आम्ही ऑन-डिव्हाइस AI कम्प्युटिंगला पुढे नेण्यासाठी सतत प्रयत्न करत राहण्यास उत्सुक आहोत.” - डोंग शू, जीएम ऑफ टोंग्यी लार्ज मॉडेल बिझनेस, अलिबाबा क्लाउड.
“MNN इन्फरन्स फ्रेमवर्क आणि आर्म क्लेडी एआय (Arm KleidiAI) मधील तांत्रिक एकत्रीकरण ऑन-डिव्हाइस ऍक्सिलरेशनमधील (on-device acceleration) एक मोठी प्रगती दर्शवते. आर्किटेक्चरच्या संयुक्त ऑप्टिमायझेशनसह, आम्ही टोंग्यी LLM ची ऑन-डिव्हाइस इन्फरन्स कार्यक्षमता मोठ्या प्रमाणात सुधारली आहे, मर्यादित मोबाइल कम्प्युटिंग पॉवर आणि प्रगत AI क्षमता यांच्यातील अंतर कमी केले आहे. हे यश आमचे तांत्रिक कौशल्य आणि क्रॉस-इंडस्ट्री (cross-industry) सहयोग दर्शवते. ऑन-डिव्हाइस कम्प्युटिंग इकोसिस्टम (ecosystem) वाढवण्यासाठी, मोबाइलवर अधिक सहज आणि कार्यक्षम AI अनुभव देण्यासाठी आम्ही ही भागीदारी सुरू ठेवण्यास उत्सुक आहोत.” - शियाओटांग जियांग, हेड ऑफ MNN, ताओबाओ आणि टीमॉल ग्रुप, अलिबाबा.
तांत्रिक बाबींमध्ये अधिक खोलवर जाणे (Delving Deeper into the Technical Aspects)
या सहकार्याचे महत्त्व पूर्णपणे समजून घेण्यासाठी, काही मूलभूत तांत्रिक तपशील तपासणे उपयुक्त आहे.
MNN ची भूमिका
MNN ची डिझाइन फिलॉसॉफी कार्यक्षमता आणि पोर्टेबिलिटीवर (portability) केंद्रित आहे. हे अनेक प्रमुख वैशिष्ट्यांद्वारे हे साध्य करते:
- लाइटवेट आर्किटेक्चर: MNN हे कमी फूटप्रिंट (footprint) असलेले डिझाइन केलेले आहे, जे एज उपकरणांवरील स्टोरेज आणि मेमरीची आवश्यकता कमी करते.
- ऑप्टिमाइझ्ड ऑपरेशन्स: फ्रेमवर्कमध्ये विशेषतः आर्म CPU साठी तयार केलेले अत्यंत ऑप्टिमाइझ केलेले गणितीय ऑपरेशन्स (mathematical operations) समाविष्ट आहेत, जे कार्यप्रदर्शन वाढवतात.
- क्रॉस-प्लॅटफॉर्म सुसंगतता: MNN विविध ऑपरेटिंग सिस्टम आणि हार्डवेअर प्लॅटफॉर्मला समर्थन देते, ज्यामुळे ते विकासकांसाठी एक बहुमुखी पर्याय बनते.
क्लेडी एआय (KleidiAI) चे योगदान
क्लेडी एआय (KleidiAI) विशेष रूटीनचा (routines) संच प्रदान करून MNN च्या सामर्थ्याला पूरक ठरते जे AI इन्फरन्सला (inference) अधिक गती देतात. हे रूटीन आर्मच्या CPU आर्किटेक्चरमधील विस्तृत अनुभवाचा फायदा घेतात आणि कार्यक्षमतेत वाढ करतात जे अन्यथा साध्य करणे कठीण असते. क्लेडी एआय (KleidiAI) च्या योगदानाचे मुख्य पैलू:
- अत्यंत ऑप्टिमाइझ केलेले कर्नेल (Kernels): क्लेडी एआय (KleidiAI) सामान्य AI ऑपरेशन्ससाठी, जसे की मॅट्रिक्स गुणाकार (matrix multiplication) आणि कनवोल्यूशन (convolution), अत्यंत ऑप्टिमाइझ केलेले कर्नेल प्रदान करते. हे कर्नेल आर्म CPU च्या विशिष्ट वैशिष्ट्यांचा फायदा घेण्यासाठी बारकाईने ट्यून केलेले आहेत.
- स्वयंचलित एकत्रीकरण (Automatic Integration): क्लेडी एआय (KleidiAI) चे लोकप्रिय AI फ्रेमवर्कमध्ये अखंड एकत्रीकरण म्हणजे विकासकांना हे ऑप्टिमायझेशन मॅन्युअली समाविष्ट करण्याची आवश्यकता नाही. कार्यक्षमतेचे फायदे आपोआप लागू होतात, ज्यामुळे विकास प्रक्रिया सुलभ होते.
- सतत सुधारणा: आर्म क्लेडी एआय (KleidiAI) ला सतत अपडेट आणि सुधारण्यासाठी वचनबद्ध आहे, हे सुनिश्चित करून की ते AI ऍक्सिलरेशन तंत्रज्ञानाच्या आघाडीवर राहील.
क्वेन2-व्हीएल-2बी-इंस्ट्रक्ट: एक शक्तिशाली मल्टीमॉडल मॉडेल (Qwen2-VL-2B-Instruct: A Powerful Multimodal Model)
क्वेन2-व्हीएल-2बी-इंस्ट्रक्ट (Qwen2-VL-2B-Instruct) मॉडेल हे अलिबाबाच्या लार्ज लँग्वेज मॉडेल्स आणि मल्टीमॉडल AI मधील कौशल्याचा पुरावा आहे. त्याची प्रमुख वैशिष्ट्ये:
- इंस्ट्रक्शन ट्यूनिंग: मॉडेल विशेषतः सूचनांचे पालन करण्यासाठी ट्यून केलेले आहे, ज्यामुळे ते विविध प्रकारच्या कार्यांसाठी अत्यंत अनुकूल ठरते.
- मल्टीमॉडल क्षमता: हे व्हिज्युअल (visual) आणि टेक्स्ट्युअल (textual) माहिती समजून घेण्यासाठी आणि त्यावर प्रक्रिया करण्यासाठी उत्कृष्ट आहे, ज्यामुळे इमेज कॅप्शनिंग (image captioning) आणि व्हिज्युअल प्रश्न उत्तरे (visual question answering) यासारखे ऍप्लिकेशन्स सक्षम होतात.
- बहुभाषिक समर्थन: मॉडेल अनेक भाषांसह कार्य करण्यासाठी डिझाइन केलेले आहे, ज्यामुळे विविध प्रदेश आणि वापरकर्त्यांमध्ये त्याची उपयोगिता वाढते.
- एज उपकरणांसाठी ऑप्टिमाइझ केलेले: त्याच्या शक्तिशाली क्षमता असूनही, मॉडेल एज उपकरणांच्या संसाधनांच्या (resource) मर्यादांमध्ये कार्य करण्यासाठी काळजीपूर्वक डिझाइन केलेले आहे.
मल्टीमॉडल AI ची व्याप्ती वाढवणे
येथे चर्चा केलेली प्रगती केवळ स्मार्टफोनपुरती मर्यादित नाही. समान तत्त्वे आणि तंत्रज्ञान विविध प्रकारच्या एज उपकरणांवर लागू केले जाऊ शकतात, यासह:
- स्मार्ट होम उपकरणे: व्हॉइस असिस्टंट (voice assistants), सुरक्षा कॅमेऱ्यांसाठी इमेज रेकग्निशन (image recognition) आणि इतर बुद्धिमान वैशिष्ट्ये सक्षम करणे.
- परिधान करण्यायोग्य उपकरणे (Wearable Devices): आरोग्य देखरेख, फिटनेस ट्रॅकिंग आणि ऑगमेंटेड रिॲलिटी (augmented reality) ऍप्लिकेशन्सना सक्षम करणे.
- औद्योगिक IoT: उत्पादन सेटिंगमध्ये प्रेडिक्टिव्ह मेंटेनन्स (predictive maintenance), गुणवत्ता नियंत्रण आणि ऑटोमेशन (automation) सुलभ करणे.
- ऑटोमोटिव्ह: ड्रायव्हर असिस्टन्स सिस्टम (driver assistance systems), इन-कॅबिन मनोरंजन (in-cabin entertainment) आणि स्वायत्त ड्रायव्हिंग (autonomous driving) क्षमता वाढवणे.
एजवरील मल्टीमॉडल AI चे संभाव्य ऍप्लिकेशन्स विस्तृत आहेत आणि ते वाढतच आहेत. जसजसे मॉडेल्स अधिक अत्याधुनिक होत जातील आणि हार्डवेअर अधिक शक्तिशाली होईल, तसतसे आपण आणखी नाविन्यपूर्ण आणि प्रभावी उपयोग पाहू शकतो. आर्म आणि अलिबाबा यांच्यातील हे सहकार्य त्या दिशेने एक महत्त्वपूर्ण पाऊल आहे, मल्टीमॉडल AI ची शक्ती व्यापक प्रेक्षकांपर्यंत पोहोचवते आणि बुद्धिमान उपकरणांची एक नवीन पिढी सक्षम करते. कार्यक्षमता, कार्यप्रदर्शन आणि विकासक सुलभतेवर लक्ष केंद्रित केल्याने हे सुनिश्चित होते की या प्रगतीचा तंत्रज्ञानाच्या भविष्यावर व्यापक आणि चिरस्थायी परिणाम होईल.