Arm Kleidi: Arm CPU पर AI इन्फेरेंस को ऑप्टिमाइज़ करना
आर्टिफिशियल इंटेलिजेंस (AI) का तीव्र विकास मल्टीमॉडल मॉडल के एक नए युग की शुरुआत कर रहा है। ये अत्याधुनिक सिस्टम टेक्स्ट, इमेज, ऑडियो, वीडियो और यहां तक कि सेंसर डेटा सहित विभिन्न स्रोतों से जानकारी को प्रोसेस और इंटरप्रेट करने की क्षमता रखते हैं। हालाँकि, एज डिवाइस पर इन शक्तिशाली मॉडलों की तैनाती महत्वपूर्ण बाधाएँ प्रस्तुत करती है। एज हार्डवेयर की पावर और मेमोरी क्षमता में अंतर्निहित सीमाएँ, विविध डेटा प्रकारों को एक साथ प्रोसेस करने के जटिल कार्य के साथ मिलकर, एक जटिल चुनौती पैदा करती हैं।
Arm Kleidi को विशेष रूप से इस चुनौती का समाधान करने के लिए डिज़ाइन किया गया है, जो Arm CPU पर चलने वाले सभी AI इन्फेरेंस वर्कलोड के लिए निर्बाध प्रदर्शन ऑप्टिमाइज़ेशन प्रदान करता है। क्लेडी के केंद्र में क्लेडीआई (KleidiAI) है, जो AI को गति देने के लिए बनाए गए अत्यधिक कुशल, ओपन-सोर्स Arm रूटीन का एक सुव्यवस्थित सूट है।
KleidiAI पहले से ही एज डिवाइस के लिए व्यापक रूप से उपयोग किए जाने वाले AI फ्रेमवर्क के नवीनतम संस्करणों में एकीकृत है। इनमें ExecuTorch, Llama.cpp, XNNPACK के माध्यम से LiteRT और MediaPipe शामिल हैं। यह व्यापक एकीकरण लाखों डेवलपर्स को एक महत्वपूर्ण लाभ प्रदान करता है, जो अब बिना किसी अतिरिक्त प्रयास के AI प्रदर्शन ऑप्टिमाइज़ेशन से स्वचालित रूप से लाभान्वित हो सकते हैं।
अलीबाबा के साथ साझेदारी: Qwen2-VL-2B-Instruct मॉडल
MNN के साथ घनिष्ठ सहयोग के माध्यम से एज डिवाइस पर मल्टीमॉडल AI की उन्नति में एक नया मील का पत्थर हासिल किया गया है। MNN अलीबाबा द्वारा विकसित और अनुरक्षित एक हल्का, ओपन-सोर्स डीप लर्निंग फ्रेमवर्क है। इस साझेदारी के परिणामस्वरूप KleidiAI का सफल एकीकरण हुआ है, जिससे मल्टीमॉडल AI वर्कलोड Arm CPU का उपयोग करके मोबाइल डिवाइस पर कुशलतापूर्वक चल सकते हैं। इस उपलब्धि की कुंजी अलीबाबा का इंस्ट्रक्शन-ट्यून किया गया 2B पैरामीटर Qwen2-VL-2B-Instruct मॉडल है। यह मॉडल विशेष रूप से इमेज अंडरस्टैंडिंग, टेक्स्ट-टू-इमेज रीजनिंग और एज डिवाइस की बाधाओं के अनुरूप कई भाषाओं में मल्टीमॉडल जेनरेशन के लिए डिज़ाइन किया गया है।
मापने योग्य प्रदर्शन लाभ
MNN के साथ KleidiAI के एकीकरण ने Qwen2-VL-2B-Instruct मॉडल के लिए महत्वपूर्ण, मापने योग्य प्रदर्शन सुधार प्राप्त किए हैं। एज पर महत्वपूर्ण AI मल्टीमॉडल उपयोग के मामलों में तेज़ प्रतिक्रिया समय देखा गया है। ये सुधार विभिन्न ग्राहक-केंद्रित अलीबाबा अनुप्रयोगों में बेहतर उपयोगकर्ता अनुभव को अनलॉक करते हैं। उदाहरणों में शामिल:
- ग्राहक सेवा के लिए चैटबॉट: ग्राहकों के प्रश्नों के त्वरित और अधिक कुशल उत्तर प्रदान करना।
- ई-शॉपिंग एप्लिकेशन: फोटो-टू-गुड्स सर्चिंग को सक्षम करना, जिससे ग्राहक केवल एक छवि अपलोड करके उन वस्तुओं को जल्दी से ढूंढ सकते हैं जिनकी उन्हें तलाश है।
इन अनुप्रयोगों में बढ़ी हुई गति पर्याप्त प्रदर्शन लाभ का प्रत्यक्ष परिणाम है:
- प्री-फिल इम्प्रूवमेंट: प्री-फिल में 57 प्रतिशत का उल्लेखनीय प्रदर्शन सुधार हासिल किया गया है। यह उस महत्वपूर्ण चरण को संदर्भित करता है जहां AI मॉडल प्रतिक्रिया उत्पन्न करने से पहले बहु-स्रोत प्रॉम्प्ट इनपुट को संभालते हैं।
- डिकोड एन्हांसमेंट: डिकोड में 28 प्रतिशत का महत्वपूर्ण प्रदर्शन सुधार देखा गया है। यह वह प्रक्रिया है जहां AI मॉडल प्रॉम्प्ट को प्रोसेस करने के बाद टेक्स्ट जेनरेट करता है।
गति के अलावा, KleidiAI एकीकरण एज पर AI वर्कलोड की अधिक कुशल प्रोसेसिंग में भी योगदान देता है। यह मल्टीमॉडल वर्कलोड से जुड़ी समग्र कम्प्यूटेशनल लागत को कम करके प्राप्त किया जाता है। ये प्रदर्शन और दक्षता लाभ लाखों डेवलपर्स के लिए आसानी से सुलभ हैं। MNN फ्रेमवर्क, साथ ही एज डिवाइस के लिए अन्य लोकप्रिय AI फ्रेमवर्क जहां KleidiAI एकीकृत है, पर एप्लिकेशन और वर्कलोड चलाने वाला कोई भी डेवलपर तुरंत लाभान्वित हो सकता है।
वास्तविक दुनिया का प्रदर्शन: MWC शोकेस
Qwen2-VL-2B-Instruct मॉडल की व्यावहारिक क्षमताओं, MNN के साथ नए KleidiAI एकीकरण द्वारा संचालित, को मोबाइल वर्ल्ड कांग्रेस (MWC) में प्रदर्शित किया गया था। आर्म बूथ पर एक प्रदर्शन ने दृश्य और टेक्स्ट इनपुट के विविध संयोजनों को समझने की मॉडल की क्षमता पर प्रकाश डाला। मॉडल ने तब छवि सामग्री का संक्षिप्त सारांश देकर प्रतिक्रिया दी। यह पूरी प्रक्रिया स्मार्टफोन के Arm CPU पर निष्पादित की गई थी, जो समाधान की शक्ति और दक्षता को प्रदर्शित करती है। ये स्मार्टफोन MediaTek के Arm-संचालित Dimensity 9400 मोबाइल सिस्टम-ऑन-चिप (SoC) पर बनाए गए थे, जिसमें vivo X200 सीरीज शामिल है।
उपयोगकर्ता अनुभव में एक महत्वपूर्ण कदम आगे
अलीबाबा के Qwen2-VL-2B-Instruct मॉडल के लिए MNN फ्रेमवर्क के साथ आर्म के क्लेडीआई (KleidiAI) का एकीकरण मल्टीमॉडल AI वर्कलोड के लिए उपयोगकर्ता अनुभव में एक महत्वपूर्ण छलांग का प्रतिनिधित्व करता है। यह प्रगति इन उन्नत अनुभवों को सीधे एज पर प्रदान करती है, जो सभी Arm CPU द्वारा संचालित होते हैं। ये क्षमताएं मोबाइल उपकरणों पर आसानी से उपलब्ध हैं, जिसमें अग्रणी ग्राहक-सामना करने वाले एप्लिकेशन पहले से ही KleidiAI के लाभों का लाभ उठा रहे हैं।
एज डिवाइस पर मल्टीमॉडल AI का भविष्य
आगे देखते हुए, AI वर्कलोड के लिए KleidiAI का निर्बाध ऑप्टिमाइज़ेशन लाखों डेवलपर्स को सशक्त बनाना जारी रखेगा। वे एज डिवाइस पर तेजी से परिष्कृत मल्टीमॉडल अनुभव बनाने में सक्षम होंगे। यह निरंतर नवाचार बुद्धिमान कंप्यूटिंग की अगली लहर का मार्ग प्रशस्त करेगा, जो AI के चल रहे विकास में एक महत्वपूर्ण कदम आगे बढ़ाएगा।
अलीबाबा लीडरशिप के कोट्स
‘हम अलीबाबा क्लाउड के बड़े भाषा मॉडल Qwen, Arm KleidiAI और MNN के बीच सहयोग को देखकर प्रसन्न हैं। MNN के ऑन-डिवाइस इन्फेरेंस फ्रेमवर्क को Arm KleidiAI के साथ एकीकृत करने से Qwen की विलंबता और ऊर्जा दक्षता में काफी सुधार हुआ है। यह साझेदारी मोबाइल उपकरणों पर LLM की क्षमता को मान्य करती है और AI उपयोगकर्ता अनुभव को बढ़ाती है। हम ऑन-डिवाइस AI कंप्यूटिंग को आगे बढ़ाने में निरंतर प्रयासों के लिए तत्पर हैं।’ - डोंग जू, जीएम ऑफ टोंग्यी लार्ज मॉडल बिजनेस, अलीबाबा क्लाउड।
‘MNN इन्फेरेंस फ्रेमवर्क और Arm KleidiAI के बीच तकनीकी एकीकरण ऑन-डिवाइस एक्सेलेरेशन में एक बड़ी सफलता का प्रतीक है। आर्किटेक्चर के संयुक्त ऑप्टिमाइज़ेशन के साथ, हमने टोंग्यी LLM की ऑन-डिवाइस इन्फेरेंस दक्षता में काफी सुधार किया है, सीमित मोबाइल कंप्यूटिंग पावर और उन्नत AI क्षमताओं के बीच अंतर को पाट दिया है। यह उपलब्धि हमारी तकनीकी विशेषज्ञता और क्रॉस-इंडस्ट्री सहयोग को उजागर करती है। हम ऑन-डिवाइस कंप्यूटिंग इकोसिस्टम को बढ़ाने, मोबाइल पर स्मूथ और अधिक कुशल AI अनुभव प्रदान करने के लिए इस साझेदारी को जारी रखने के लिए तत्पर हैं।’ - शियाओतांग जियांग, हेड ऑफ MNN, ताओबाओ एंड टीमॉल ग्रुप, अलीबाबा।
तकनीकी पहलुओं में गहराई से जाना
इस सहयोग के महत्व की पूरी तरह से सराहना करने के लिए, कुछ अंतर्निहित तकनीकी विवरणों की जांच करना सहायक होता है।
MNN की भूमिका
MNN का डिज़ाइन दर्शन दक्षता और पोर्टेबिलिटी के आसपास केंद्रित है। यह इसे कई प्रमुख विशेषताओं के माध्यम से प्राप्त करता है:
- लाइटवेट आर्किटेक्चर: MNN को एक छोटा फुटप्रिंट रखने के लिए डिज़ाइन किया गया है, जो एज डिवाइस पर स्टोरेज और मेमोरी आवश्यकताओं को कम करता है।
- ऑप्टिमाइज़्ड ऑपरेशंस: फ्रेमवर्क में विशेष रूप से Arm CPU के लिए अनुकूलित अत्यधिक ऑप्टिमाइज़्ड गणितीय ऑपरेशन शामिल हैं, जो प्रदर्शन को अधिकतम करते हैं।
- क्रॉस-प्लेटफ़ॉर्मकम्पैटिबिलिटी: MNN ऑपरेटिंग सिस्टम और हार्डवेयर प्लेटफ़ॉर्म की एक विस्तृत श्रृंखला का समर्थन करता है, जिससे यह डेवलपर्स के लिए एक बहुमुखी विकल्प बन जाता है।
KleidiAI का योगदान
KleidiAI विशेष रूटीन का एक सेट प्रदान करके MNN की ताकत का पूरक है जो AI इन्फेरेंस को और तेज करता है। ये रूटीन CPU आर्किटेक्चर में Arm के व्यापक अनुभव का लाभ उठाते हैं ताकि प्रदर्शन लाभ को अनलॉक किया जा सके जिसे अन्यथा प्राप्त करना मुश्किल होगा। KleidiAI के योगदान के प्रमुख पहलुओं में शामिल हैं:
- अत्यधिक ऑप्टिमाइज़्ड कर्नेल: KleidiAI सामान्य AI ऑपरेशन, जैसे मैट्रिक्स गुणन और कनवल्शन के लिए अत्यधिक ऑप्टिमाइज़्ड कर्नेल प्रदान करता है। इन कर्नेल को Arm CPU की विशिष्ट विशेषताओं का लाभ उठाने के लिए सावधानीपूर्वक ट्यून किया गया है।
- स्वचालित एकीकरण: लोकप्रिय AI फ्रेमवर्क में KleidiAI के निर्बाध एकीकरण का मतलब है कि डेवलपर्स को इन ऑप्टिमाइज़ेशन को मैन्युअल रूप से शामिल करने की आवश्यकता नहीं है। प्रदर्शन लाभ स्वचालित रूप से लागू होते हैं, जिससे विकास प्रक्रिया सरल हो जाती है।
- निरंतर सुधार: Arm KleidiAI को लगातार अपडेट और बेहतर बनाने के लिए प्रतिबद्ध है, यह सुनिश्चित करते हुए कि यह AI एक्सेलेरेशन तकनीक में सबसे आगे रहे।
Qwen2-VL-2B-Instruct: एक शक्तिशाली मल्टीमॉडल मॉडल
Qwen2-VL-2B-Instruct मॉडल बड़े भाषा मॉडल और मल्टीमॉडल AI में अलीबाबा की विशेषज्ञता का प्रमाण है। इसकी प्रमुख विशेषताओं में शामिल हैं:
- इंस्ट्रक्शन ट्यूनिंग: मॉडल को विशेष रूप से निर्देशों का पालन करने के लिए ट्यून किया गया है, जिससे यह कार्यों की एक विस्तृत श्रृंखला के लिए अत्यधिक अनुकूलनीय हो जाता है।
- मल्टीमॉडल क्षमताएं: यह दृश्य और पाठ्य जानकारी दोनों को समझने और संसाधित करने में उत्कृष्टता प्राप्त करता है, जिससे इमेज कैप्शनिंग और विजुअल क्वेश्चन आंसरिंग जैसे एप्लिकेशन सक्षम होते हैं।
- बहुभाषी समर्थन: मॉडल को कई भाषाओं के साथ काम करने के लिए डिज़ाइन किया गया है, जो विभिन्न क्षेत्रों और उपयोगकर्ता आधारों में इसकी प्रयोज्यता को बढ़ाता है।
- एज डिवाइस के लिए ऑप्टिमाइज़्ड: अपनी शक्तिशाली क्षमताओं के बावजूद, मॉडल को एज डिवाइस की संसाधन बाधाओं के भीतर संचालित करने के लिए सावधानीपूर्वक डिज़ाइन किया गया है।
मल्टीमॉडल AI के दायरे का विस्तार
यहां चर्चा की गई प्रगति केवल स्मार्टफोन तक ही सीमित नहीं है। समान सिद्धांतों और प्रौद्योगिकियों को एज डिवाइस की एक विस्तृत श्रृंखला पर लागू किया जा सकता है, जिनमें शामिल हैं:
- स्मार्ट होम डिवाइस: वॉयस असिस्टेंट, सुरक्षा कैमरों के लिए इमेज रिकग्निशन और अन्य बुद्धिमान सुविधाओं को सक्षम करना।
- पहनने योग्य डिवाइस: स्वास्थ्य निगरानी, फिटनेस ट्रैकिंग और संवर्धित वास्तविकता अनुप्रयोगों को शक्ति प्रदान करना।
- औद्योगिक IoT: विनिर्माण सेटिंग्स में भविष्य कहनेवाला रखरखाव, गुणवत्ता नियंत्रण और स्वचालन की सुविधा।
- ऑटोमोटिव: ड्राइवर सहायता प्रणाली, इन-केबिन मनोरंजन और स्वायत्त ड्राइविंग क्षमताओं को बढ़ाना।
एज पर मल्टीमॉडल AI के संभावित अनुप्रयोग विशाल हैं और लगातार विस्तार कर रहे हैं। जैसे-जैसे मॉडल अधिक परिष्कृत होते जाते हैं और हार्डवेयर अधिक शक्तिशाली होता जाता है, हम और भी अधिक नवीन और प्रभावशाली उपयोग के मामलों के उभरने की उम्मीद कर सकते हैं। आर्म और अलीबाबा के बीच यह सहयोग उस दिशा में एक महत्वपूर्ण कदम है, जो मल्टीमॉडल AI की शक्ति को व्यापक दर्शकों तक पहुंचाता है और बुद्धिमान उपकरणों की एक नई पीढ़ी को सक्षम बनाता है। दक्षता, प्रदर्शन और डेवलपर पहुंच पर ध्यान यह सुनिश्चित करता है कि इन प्रगतियों का प्रौद्योगिकी के भविष्य पर व्यापक और स्थायी प्रभाव पड़ेगा।