ఎడ్జ్‌లో మల్టీమోడల్ AIని మెరుగుపరుస్తుంది

Arm Kleidi: Arm CPUలపై AI అనుమితిని ఆప్టిమైజ్ చేయడం

AI యొక్క వేగవంతమైన పరిణామం మల్టీమోడల్ మోడల్స్ యొక్క కొత్త శకానికి నాంది పలుకుతోంది. ఈ అధునాతన వ్యవస్థలు టెక్స్ట్, ఇమేజ్‌లు, ఆడియో, వీడియో మరియు సెన్సార్ డేటాతో సహా వివిధ మూలాల నుండి సమాచారాన్ని ప్రాసెస్ చేయగలవు మరియు అర్థం చేసుకోగలవు. అయినప్పటికీ, ఎడ్జ్ పరికరాల్లో ఈ శక్తివంతమైన మోడల్‌లను అమలు చేయడం గణనీయమైన అవరోధాలను కలిగిస్తుంది. ఎడ్జ్ హార్డ్‌వేర్ యొక్క పవర్ మరియు మెమరీ సామర్థ్యంలోని స్వాభావిక పరిమితులు, విభిన్న డేటా రకాలను ఏకకాలంలో ప్రాసెస్ చేసే సంక్లిష్టమైన పనితో కలిపి, సంక్లిష్టమైన సవాలును సృష్టిస్తాయి.

Arm Kleidi ఈ సవాలును పరిష్కరించడానికి ప్రత్యేకంగా రూపొందించబడింది, Arm CPUలలో పనిచేసే అన్ని AI అనుమితి వర్క్‌లోడ్‌ల కోసం అతుకులు లేని పనితీరు ఆప్టిమైజేషన్‌ను అందిస్తుంది. క్లెయిడి యొక్క గుండె వద్ద క్లెయిడిAI ఉంది, ఇది AIని వేగవంతం చేయడానికి నిర్మించిన అత్యంత సమర్థవంతమైన, ఓపెన్-సోర్స్ Arm రొటీన్‌ల యొక్క క్రమబద్ధీకరించబడిన సూట్.

KleidiAI ఇప్పటికే ఎడ్జ్ పరికరాల కోసం విస్తృతంగా ఉపయోగించే AI ఫ్రేమ్‌వర్క్‌ల యొక్క తాజా వెర్షన్‌లలో విలీనం చేయబడింది. వీటిలో ExecuTorch, Llama.cpp, XNNPACK ద్వారా LiteRT మరియు MediaPipe ఉన్నాయి. ఈ విస్తృతమైన ఏకీకరణ మిలియన్ల కొద్దీ డెవలపర్‌లకు గణనీయమైన ప్రయోజనాన్ని అందిస్తుంది, వీరు ఇప్పుడు ఎటువంటి అదనపు ప్రయత్నం లేకుండా AI పనితీరు ఆప్టిమైజేషన్‌ల నుండి స్వయంచాలకంగా ప్రయోజనం పొందవచ్చు.

Alibabaతో భాగస్వామ్యం: Qwen2-VL-2B-Instruct మోడల్

MNNతో సన్నిహిత సహకారం ద్వారా ఎడ్జ్ పరికరాల్లో మల్టీమోడల్ AIని అభివృద్ధి చేయడంలో ఒక కొత్త మైలురాయి సాధించబడింది. MNN అనేది అలీబాబా అభివృద్ధి చేసిన మరియు నిర్వహించబడుతున్న తేలికైన, ఓపెన్-సోర్స్ డీప్ లెర్నింగ్ ఫ్రేమ్‌వర్క్. ఈ భాగస్వామ్యం క్లెయిడిAI యొక్క విజయవంతమైన ఏకీకరణకు దారితీసింది, మల్టీమోడల్ AI వర్క్‌లోడ్‌లను Arm CPUలను ఉపయోగించి మొబైల్ పరికరాల్లో సమర్థవంతంగా అమలు చేయడానికి వీలు కల్పిస్తుంది. ఈ విజయానికి కీలకం అలీబాబా యొక్క ఇన్‌స్ట్రక్షన్-ట్యూన్డ్ 2B పారామీటర్ Qwen2-VL-2B-Instruct మోడల్. ఈ మోడల్ ప్రత్యేకంగా ఇమేజ్ అండర్‌స్టాండింగ్, టెక్స్ట్-టు-ఇమేజ్ రీజనింగ్ మరియు బహుళ భాషల్లో మల్టీమోడల్ జనరేషన్ కోసం రూపొందించబడింది, ఇవన్నీ ఎడ్జ్ పరికరాల పరిమితుల కోసం రూపొందించబడ్డాయి.

కొలవగల పనితీరు లాభాలు

MNNతో క్లెయిడిAI యొక్క ఏకీకరణ Qwen2-VL-2B-Instruct మోడల్ కోసం గణనీయమైన, కొలవగల పనితీరు మెరుగుదలలను అందించింది. ఎడ్జ్‌లో కీలకమైన AI మల్టీమోడల్ వినియోగ సందర్భాలలో వేగవంతమైన ప్రతిస్పందన సమయాలు గమనించబడ్డాయి. ఈ మెరుగుదలలు వివిధ రకాల కస్టమర్-ఫోకస్డ్ అలీబాబా అప్లికేషన్‌లలో మెరుగైన వినియోగదారు అనుభవాలను అన్‌లాక్ చేస్తాయి. ఉదాహరణలు:

  • కస్టమర్ సేవ కోసం చాట్‌బాట్‌లు: కస్టమర్ విచారణలకు త్వరిత మరియు మరింత సమర్థవంతమైన ప్రతిస్పందనలను అందించడం.
  • ఇ-షాపింగ్ అప్లికేషన్‌లు: ఫోటో-టు-గూడ్స్ శోధనను ప్రారంభించడం, కస్టమర్‌లు కేవలం చిత్రాన్ని అప్‌లోడ్ చేయడం ద్వారా వారు వెతుకుతున్న వస్తువులను త్వరగా కనుగొనడానికి అనుమతిస్తుంది.

ఈ అప్లికేషన్‌లలో మెరుగైన వేగం గణనీయమైన పనితీరు లాభాల యొక్క ప్రత్యక్ష ఫలితం:

  • ప్రీ-ఫిల్ మెరుగుదల: ప్రీ-ఫిల్‌లో 57 శాతం పనితీరు మెరుగుదల సాధించబడింది. ఇది AI మోడల్‌లు ప్రతిస్పందనను ఉత్పత్తి చేయడానికి ముందు బహుళ-మూలాల ప్రాంప్ట్ ఇన్‌పుట్‌లను నిర్వహించే కీలకమైన దశను సూచిస్తుంది.
  • డీకోడ్ మెరుగుదల: డీకోడ్‌లో 28 శాతం పనితీరు మెరుగుదల గమనించబడింది. ఇది ప్రాంప్ట్‌ను ప్రాసెస్ చేసిన తర్వాత AI మోడల్ టెక్స్ట్‌ను ఉత్పత్తి చేసే ప్రక్రియ.

వేగం కంటే, క్లెయిడిAI ఏకీకరణ ఎడ్జ్‌లో AI వర్క్‌లోడ్‌ల యొక్క మరింత సమర్థవంతమైన ప్రాసెసింగ్‌కు కూడా దోహదం చేస్తుంది. మల్టీమోడల్ వర్క్‌లోడ్‌లతో అనుబంధించబడిన మొత్తం గణన వ్యయాన్ని తగ్గించడం ద్వారా ఇది సాధించబడుతుంది. ఈ పనితీరు మరియు సామర్థ్య లాభాలు మిలియన్ల కొద్దీ డెవలపర్‌లకు సులభంగా అందుబాటులో ఉంటాయి. MNN ఫ్రేమ్‌వర్క్‌లో అప్లికేషన్‌లు మరియు వర్క్‌లోడ్‌లను అమలు చేసే ఏ డెవలపర్ అయినా, అలాగే క్లెయిడిAI విలీనం చేయబడిన ఎడ్జ్ పరికరాల కోసం ఇతర ప్రసిద్ధ AI ఫ్రేమ్‌వర్క్‌లు వెంటనే ప్రయోజనం పొందవచ్చు.

రియల్ వరల్డ్ ప్రదర్శన: MWC షోకేస్

MNNతో కొత్త క్లెయిడిAI ఏకీకరణ ద్వారా ఆధారితమైన Qwen2-VL-2B-Instruct మోడల్ యొక్క ఆచరణాత్మక సామర్థ్యాలు మొబైల్ వరల్డ్ కాంగ్రెస్ (MWC)లో ప్రదర్శించబడ్డాయి. Arm బూత్‌లో ఒక ప్రదర్శన విజువల్ మరియు టెక్స్ట్ ఇన్‌పుట్‌ల యొక్క విభిన్న కలయికలను అర్థం చేసుకునే మోడల్ యొక్క సామర్థ్యాన్ని హైలైట్ చేసింది. మోడల్ చిత్రం కంటెంట్ యొక్క సంక్షిప్త సారాంశంతో ప్రతిస్పందించింది. ఈ మొత్తం ప్రక్రియ స్మార్ట్‌ఫోన్‌ల యొక్క Arm CPUలో అమలు చేయబడింది, ఇది పరిష్కారం యొక్క శక్తిని మరియు సామర్థ్యాన్ని ప్రదర్శిస్తుంది. ఈ స్మార్ట్‌ఫోన్‌లు MediaTek యొక్క Arm-ఆధారిత Dimensity 9400 మొబైల్ సిస్టమ్-ఆన్-చిప్ (SoC)పై నిర్మించబడ్డాయి, ఇందులో vivo X200 సిరీస్ కూడా ఉంది.

వినియోగదారు అనుభవంలో ఒక ముఖ్యమైన ముందడుగు

Arm యొక్క క్లెయిడిAIని అలీబాబా యొక్క Qwen2-VL-2B-Instruct మోడల్ కోసం MNN ఫ్రేమ్‌వర్క్‌తో ఏకీకృతం చేయడం మల్టీమోడల్ AI వర్క్‌లోడ్‌ల కోసం వినియోగదారు అనుభవంలో గణనీయమైన పురోగతిని సూచిస్తుంది. ఈ పురోగతి ఈ మెరుగైన అనుభవాలను నేరుగా ఎడ్జ్‌లో అందిస్తుంది, అన్నీ Arm CPU ద్వారా ఆధారితమైనవి. ఈ సామర్థ్యాలు మొబైల్ పరికరాల్లో సులభంగా అందుబాటులో ఉన్నాయి, ప్రముఖ కస్టమర్-ఫేసింగ్ అప్లికేషన్‌లు ఇప్పటికే క్లెయిడిAI యొక్క ప్రయోజనాలను పొందుతున్నాయి.

ఎడ్జ్ పరికరాల్లో మల్టీమోడల్ AI యొక్క భవిష్యత్తు

ముందుకు చూస్తే, AI వర్క్‌లోడ్‌ల కోసం క్లెయిడిAI యొక్క అతుకులు లేని ఆప్టిమైజేషన్‌లు మిలియన్ల కొద్దీ డెవలపర్‌లకు సాధికారత కల్పిస్తూనే ఉంటాయి. వారు ఎడ్జ్ పరికరాల్లో మరింత అధునాతన మల్టీమోడల్ అనుభవాలను సృష్టించగలరు. ఈ నిరంతర ఆవిష్కరణ AI యొక్క కొనసాగుతున్న పరిణామంలో ఒక ముఖ్యమైన ముందడుగును సూచిస్తూ, తదుపరి తరం ఇంటెలిజెంట్ కంప్యూటింగ్‌కు మార్గం సుగమం చేస్తుంది.

Alibaba లీడర్‌షిప్ నుండి కోట్స్

*'Alibaba క్లౌడ్ యొక్క లార్జ్ లాంగ్వేజ్ మోడల్ Qwen, Arm KleidiAI మరియు MNN మధ్య సహకారాన్ని చూడటం మాకు సంతోషంగా ఉంది. MNN యొక్క ఆన్-డివైస్ ఇన్ఫరెన్స్ ఫ్రేమ్‌వర్క్‌ను Arm KleidiAIతో ఇంటిగ్రేట్ చేయడం వలన Qwen యొక్క జాప్యం మరియు శక్తి సామర్థ్యం గణనీయంగా మెరుగుపడింది. ఈ భాగస్వామ్యం మొబైల్ పరికరాల్లో LLMల సంభావ్యతను ధృవీకరిస్తుంది మరియు AI వినియోగదారు అనుభవాన్ని మెరుగుపరుస్తుంది. ఆన్-డివైస్ AI కంప్యూటింగ్‌ను అభివృద్ధి చేయడంలో నిరంతర ప్రయత్నాల కోసం మేము ఎదురుచూస్తున్నాము.'* - డాంగ్ జు, GM ఆఫ్ టోంగీ లార్జ్ మోడల్ బిజినెస్, అలీబాబా క్లౌడ్.

‘MNN ఇన్ఫరెన్స్ ఫ్రేమ్‌వర్క్ మరియు Arm KleidiAI మధ్య సాంకేతిక ఏకీకరణ ఆన్-డివైస్ యాక్సిలరేషన్‌లో ఒక పెద్ద పురోగతిని సూచిస్తుంది. ఆర్కిటెక్చర్ యొక్క ఉమ్మడి ఆప్టిమైజేషన్‌తో, మేము టోంగీ LLM యొక్క ఆన్-డివైస్ ఇన్ఫరెన్స్ సామర్థ్యాన్ని బాగా మెరుగుపరిచాము, పరిమిత మొబైల్ కంప్యూటింగ్ పవర్ మరియు అధునాతన AI సామర్థ్యాల మధ్య అంతరాన్ని తగ్గించాము. ఈ విజయం మా సాంకేతిక నైపుణ్యం మరియు క్రాస్-ఇండస్ట్రీ సహకారాన్ని హైలైట్ చేస్తుంది. ఆన్-డివైస్ కంప్యూటింగ్ పర్యావరణ వ్యవస్థను మెరుగుపరచడానికి, మొబైల్‌లో సున్నితమైన మరియు మరింత సమర్థవంతమైన AI అనుభవాలను అందించడానికి ఈ భాగస్వామ్యాన్ని కొనసాగించాలని మేము ఎదురుచూస్తున్నాము.’ - జియావోటాంగ్ జియాంగ్, హెడ్ ఆఫ్ MNN, టావోబావో మరియు టిమాల్ గ్రూప్, అలీబాబా.

సాంకేతిక అంశాలను లోతుగా పరిశోధించడం

ఈ సహకారం యొక్క ప్రాముఖ్యతను పూర్తిగా అభినందించడానికి, కొన్ని అంతర్లీన సాంకేతిక వివరాలను పరిశీలించడం సహాయకరంగా ఉంటుంది.

MNN యొక్క పాత్ర

MNN యొక్క డిజైన్ ఫిలాసఫీ సామర్థ్యం మరియు పోర్టబిలిటీ చుట్టూ కేంద్రీకృతమై ఉంటుంది. ఇది అనేక కీలక లక్షణాల ద్వారా దీనిని సాధిస్తుంది:

  • తేలికైన ఆర్కిటెక్చర్: MNN చిన్న పాదముద్రను కలిగి ఉండేలా రూపొందించబడింది, ఎడ్జ్ పరికరాల్లో నిల్వ మరియు మెమరీ అవసరాలను తగ్గిస్తుంది.
  • ఆప్టిమైజ్డ్ ఆపరేషన్స్: ఫ్రేమ్‌వర్క్ Arm CPUల కోసం ప్రత్యేకంగా రూపొందించిన అత్యంత ఆప్టిమైజ్ చేయబడిన గణిత కార్యకలాపాలను కలిగి ఉంటుంది, పనితీరును పెంచుతుంది.
  • క్రాస్-ప్లాట్‌ఫారమ్ అనుకూలత: MNN విస్తృత శ్రేణి ఆపరేటింగ్ సిస్టమ్‌లు మరియు హార్డ్‌వేర్ ప్లాట్‌ఫారమ్‌లకు మద్దతు ఇస్తుంది, ఇది డెవలపర్‌లకు బహుముఖ ఎంపికగా చేస్తుంది.

క్లెయిడిAI యొక్క సహకారం

క్లెయిడిAI MNN యొక్క బలాలను మరింత వేగవంతం చేసే AI అనుమితిని అందించే ప్రత్యేకమైన రొటీన్‌ల సమితిని అందించడం ద్వారా పూర్తి చేస్తుంది. ఈ రొటీన్‌లు Arm యొక్క CPU ఆర్కిటెక్చర్‌లో విస్తృతమైన అనుభవాన్ని ఉపయోగించుకుంటాయి, లేకపోతే సాధించడం కష్టమయ్యే పనితీరు లాభాలను అన్‌లాక్ చేస్తుంది. క్లెయిడిAI యొక్క సహకారం యొక్క ముఖ్య అంశాలు:

  • అత్యంత ఆప్టిమైజ్ చేయబడిన కెర్నలు: క్లెయిడిAI మ్యాట్రిక్స్ మల్టిప్లికేషన్ మరియు కన్వల్యూషన్ వంటి సాధారణ AI కార్యకలాపాల కోసం అత్యంత ఆప్టిమైజ్ చేయబడిన కెర్నల్‌లను అందిస్తుంది. ఈ కెర్నల్‌లు Arm CPUల యొక్క నిర్దిష్ట లక్షణాల ప్రయోజనాన్ని పొందడానికి సూక్ష్మంగా ట్యూన్ చేయబడ్డాయి.
  • స్వయంచాలక ఏకీకరణ: ప్రసిద్ధ AI ఫ్రేమ్‌వర్క్‌లలో క్లెయిడిAI యొక్క అతుకులు లేని ఏకీకరణ అంటే డెవలపర్‌లు ఈ ఆప్టిమైజేషన్‌లను మాన్యువల్‌గా చేర్చాల్సిన అవసరం లేదు. పనితీరు ప్రయోజనాలు స్వయంచాలకంగా వర్తించబడతాయి, అభివృద్ధి ప్రక్రియను సరళీకృతం చేస్తుంది.
  • నిరంతర మెరుగుదల: క్లెయిడిAIని నిరంతరం అప్‌డేట్ చేయడానికి మరియు మెరుగుపరచడానికి Arm కట్టుబడి ఉంది, ఇది AI యాక్సిలరేషన్ టెక్నాలజీలో ముందంజలో ఉండేలా చూస్తుంది.

Qwen2-VL-2B-Instruct: ఒక శక్తివంతమైన మల్టీమోడల్ మోడల్

Qwen2-VL-2B-Instruct మోడల్ పెద్ద భాషా నమూనాలు మరియు మల్టీమోడల్ AIలో అలీబాబా యొక్క నైపుణ్యానికి నిదర్శనం. దీని ముఖ్య లక్షణాలు:

  • ఇన్‌స్ట్రక్షన్ ట్యూనింగ్: మోడల్ ప్రత్యేకంగా సూచనలను అనుసరించడానికి ట్యూన్ చేయబడింది, ఇది విస్తృత శ్రేణి పనులకు బాగా అనుకూలంగా ఉంటుంది.
  • మల్టీమోడల్ సామర్థ్యాలు: ఇది విజువల్ మరియు టెక్స్ట్ సమాచారాన్ని అర్థం చేసుకోవడం మరియు ప్రాసెస్ చేయడంలో சிறந்து விளங்குகிறது, ఇమేజ్ క్యాప్షనింగ్ మరియు విజువల్ ప్రశ్నకు సమాధానం ఇవ్వడం వంటి అప్లికేషన్‌లను ప్రారంభిస్తుంది.
  • బహుభాషా మద్దతు: మోడల్ బహుళ భాషలతో పనిచేసేలా రూపొందించబడింది, వివిధ ప్రాంతాలు మరియు వినియోగదారు స్థావరాలలో దాని అన్వయాన్ని విస్తృతం చేస్తుంది.
  • ఎడ్జ్ పరికరాల కోసం ఆప్టిమైజ్ చేయబడింది: దాని శక్తివంతమైన సామర్థ్యాలు ఉన్నప్పటికీ, మోడల్ ఎడ్జ్ పరికరాల యొక్క వనరుల పరిమితుల్లో పనిచేయడానికి జాగ్రత్తగా రూపొందించబడింది.

మల్టీమోడల్ AI యొక్క పరిధిని విస్తరించడం

ఇక్కడ చర్చించిన పురోగతులు స్మార్ట్‌ఫోన్‌లకు మాత్రమే పరిమితం కాదు. అదే సూత్రాలు మరియు సాంకేతికతలను విస్తృత శ్రేణి ఎడ్జ్ పరికరాలకు అన్వయించవచ్చు, వీటిలో:

  • స్మార్ట్ హోమ్ పరికరాలు: వాయిస్ అసిస్టెంట్‌లు, సెక్యూరిటీ కెమెరాల కోసం ఇమేజ్ రికగ్నిషన్ మరియు ఇతర ఇంటెలిజెంట్ ఫీచర్‌లను ప్రారంభించడం.
  • ధరించగలిగే పరికరాలు: ఆరోగ్య పర్యవేక్షణ, ఫిట్‌నెస్ ట్రాకింగ్ మరియు ఆగ్మెంటెడ్ రియాలిటీ అప్లికేషన్‌లకు శక్తినివ్వడం.
  • పారిశ్రామిక IoT: తయారీ సెట్టింగ్‌లలో ప్రిడిక్టివ్ మెయింటెనెన్స్, క్వాలిటీ కంట్రోల్ మరియు ఆటోమేషన్‌ను సులభతరం చేయడం.
  • ఆటోమోటివ్: డ్రైవర్ అసిస్టెన్స్ సిస్టమ్‌లు, ఇన్-క్యాబిన్ ఎంటర్‌టైన్‌మెంట్ మరియు అటానమస్ డ్రైవింగ్ సామర్థ్యాలను మెరుగుపరచడం.

ఎడ్జ్‌లో మల్టీమోడల్ AI యొక్క సంభావ్య అప్లికేషన్‌లు విస్తారమైనవి మరియు విస్తరిస్తూనే ఉన్నాయి. మోడల్‌లు మరింత అధునాతనంగా మారడం మరియు హార్డ్‌వేర్ మరింత శక్తివంతం కావడంతో, మనం మరింత వినూత్నమైన మరియు ప్రభావవంతమైన వినియోగ సందర్భాలను ఆవిర్భవించడాన్ని ఆశించవచ్చు. Arm మరియు అలీబాబా మధ్య ఈ సహకారం ఆ దిశలో ఒక ముఖ్యమైన ముందడుగు, మల్టీమోడల్ AI యొక్క శక్తిని విస్తృత ప్రేక్షకులకు తీసుకువస్తుంది మరియు కొత్త తరం ఇంటెలిజెంట్ పరికరాలను ప్రారంభిస్తుంది. సామర్థ్యం, పనితీరు మరియు డెవలపర్ యాక్సెసిబిలిటీపై దృష్టి పెట్టడం ఈ పురోగతులు సాంకేతికత యొక్క భవిష్యత్తుపై విస్తృతమైన మరియు శాశ్వత ప్రభావాన్ని చూపుతాయని నిర్ధారిస్తుంది.