మైక్రోసాఫ్ట్ ఫై-4-మల్టీమోడల్: ఆన్-డివైస్ AI

ఫై కుటుంబం విస్తరిస్తోంది: మల్టీమోడల్ సామర్థ్యాల పరిచయం

Microsoft, SLMల యొక్క ఈ అభివృద్ధి చెందుతున్న ఫీల్డ్‌కు తన సహకారం, ఫై ఫ్యామిలీ, కాంపాక్ట్ మోడల్స్ యొక్క సూట్. ఫై యొక్క నాల్గవ తరం ప్రారంభంలో డిసెంబర్‌లో పరిచయం చేయబడింది, ఇప్పుడు, Microsoft లైనప్‌ను రెండు ముఖ్యమైన జోడింపులతో పెంచుతోంది: Phi-4-multimodal మరియు Phi-4-mini. వారి తోబుట్టువులతో స్థిరంగా, ఈ కొత్త నమూనాలు Azure AI ఫౌండ్రీ, హగ్గింగ్ ఫేస్ మరియు Nvidia API కేటలాగ్ ద్వారా సులభంగా అందుబాటులో ఉంటాయి, అన్నీ అనుమతించే MIT లైసెన్స్ క్రింద ఉంటాయి.

Phi-4-multimodal, ముఖ్యంగా, ప్రత్యేకంగా నిలుస్తుంది. ఇది 5.6 బిలియన్ పారామీటర్ మోడల్, ఇది ‘మిక్చర్-ఆఫ్-LoRAs’ (లో-ర్యాంక్ అడాప్టేషన్స్) అనే అధునాతన సాంకేతికతను ఉపయోగించుకుంటుంది. ఈ విధానం మోడల్‌ను స్పీచ్, విజువల్ ఇన్‌పుట్ మరియు టెక్స్ట్యువల్ డేటాను ఏకకాలంలో ప్రాసెస్ చేయడానికి అనుమతిస్తుంది. LoRAs ఒక నిర్దిష్ట పనులలో పెద్ద భాషా నమూనా యొక్క పనితీరును పెంచడానికి ఒక నవల పద్ధతిని సూచిస్తాయి, దాని అన్ని పారామితులలో విస్తృతమైన ఫైన్-ట్యూనింగ్‌ను నివారించడం. బదులుగా, LoRAని ఉపయోగించే డెవలపర్‌లు వ్యూహాత్మకంగా మోడల్‌లో తక్కువ సంఖ్యలో కొత్త వెయిట్‌లను చొప్పిస్తారు. ఈ కొత్తగా ప్రవేశపెట్టిన వెయిట్‌లు మాత్రమే శిక్షణ పొందుతాయి, ఫలితంగా గణనీయంగా వేగవంతమైన మరియు మరింత మెమరీ-సమర్థవంతమైన ప్రక్రియ ఏర్పడుతుంది. దీని ఫలితంగా తేలికైన నమూనాల సేకరణ లభిస్తుంది, వీటిని నిల్వ చేయడం, భాగస్వామ్యం చేయడం మరియు విస్తరించడం చాలా సులభం.

ఈ సామర్థ్యం యొక్క ప్రభావాలు గణనీయమైనవి. Phi-4-multimodal తక్కువ-లేటెన్సీ అనుమితిని సాధిస్తుంది - అంటే ఇది సమాచారాన్ని ప్రాసెస్ చేయగలదు మరియు ప్రతిస్పందనలను చాలా త్వరగా అందించగలదు - ఆన్-డివైస్ ఎగ్జిక్యూషన్ కోసం ఆప్టిమైజ్ చేయబడినప్పుడు. ఇది గణన ఓవర్‌హెడ్‌లో నాటకీయ తగ్గింపుకు అనువదిస్తుంది, గతంలో అవసరమైన ప్రాసెసింగ్ పవర్ లేని పరికరాలపై అధునాతన AI అప్లికేషన్‌లను అమలు చేయడం సాధ్యపడుతుంది.

సంభావ్య వినియోగ సందర్భాలు: స్మార్ట్‌ఫోన్‌ల నుండి ఫైనాన్షియల్ సర్వీసెస్ వరకు

Phi-4-multimodal యొక్క సంభావ్య అప్లికేషన్‌లు విభిన్నమైనవి మరియు చాలా విస్తృతమైనవి. స్మార్ట్‌ఫోన్‌లలో సజావుగా పనిచేసే మోడల్‌ను ఊహించుకోండి, వాహనాల్లోని అధునాతన ఫీచర్‌లకు శక్తినివ్వడం లేదా తేలికపాటి ఎంటర్‌ప్రైజ్ అప్లికేషన్‌లను నడపడం. బహుభాషా ఫైనాన్షియల్ సర్వీసెస్ అప్లికేషన్ అనేది ఒక బలవంతపు ఉదాహరణ, ఇది వివిధ భాషలలో వినియోగదారు ప్రశ్నలను అర్థం చేసుకోవడం మరియు ప్రతిస్పందించడం, డాక్యుమెంట్‌ల వంటి విజువల్ డేటాను ప్రాసెస్ చేయడం మరియు వినియోగదారు పరికరంలో సమర్థవంతంగా పనిచేయడం వంటి సామర్థ్యాన్ని కలిగి ఉంటుంది.

పరిశ్రమ విశ్లేషకులు Phi-4-multimodal యొక్క పరివర్తన సామర్థ్యాన్ని గుర్తిస్తున్నారు. ఇది డెవలపర్‌లకు, ముఖ్యంగా మొబైల్ పరికరాల కోసం లేదా గణన వనరులు పరిమితం చేయబడిన పరిసరాల కోసం AI-ఆధారిత అప్లికేషన్‌లను రూపొందించడంపై దృష్టి సారించిన వారికి ఒక ముఖ్యమైన ముందడుగుగా పరిగణించబడుతుంది.

ఫోరెస్టర్‌లోని వైస్ ప్రెసిడెంట్ మరియు ప్రిన్సిపల్ అనలిస్ట్ చార్లీ డై, టెక్స్ట్, ఇమేజ్ మరియు ఆడియో ప్రాసెసింగ్‌ను బలమైన రీజనింగ్ సామర్థ్యాలతో అనుసంధానించే మోడల్ సామర్థ్యాన్ని హైలైట్ చేశారు. ఈ కలయిక AI అప్లికేషన్‌లను మెరుగుపరుస్తుందని, డెవలపర్‌లు మరియు ఎంటర్‌ప్రైజెస్‌కు “బహుముఖ, సమర్థవంతమైన మరియు స్కేలబుల్ సొల్యూషన్స్” అందిస్తుందని ఆయన నొక్కి చెప్పారు.

ఎవరెస్ట్ గ్రూప్‌లో భాగస్వామి అయిన యుగల్ జోషి, కంప్యూట్-పరిమితం చేయబడిన పరిసరాలలో విస్తరణకు మోడల్ యొక్క అనుకూలతను అంగీకరిస్తున్నారు. మొబైల్ పరికరాలు అన్ని ఉత్పాదక AI వినియోగ సందర్భాలకు అనువైన ప్లాట్‌ఫారమ్ కాకపోవచ్చని ఆయన పేర్కొన్నప్పటికీ, మైక్రోసాఫ్ట్ డీప్‌సీక్ నుండి ప్రేరణ పొందుతోందని, ఇది పెద్ద-స్థాయి కంప్యూట్ మౌలిక సదుపాయాలపై ఆధారపడటాన్ని తగ్గించడంపై దృష్టి సారించిన మరొక చొరవ అని ఆయన కొత్త SLMలను చూస్తున్నారు.

బెంచ్‌మార్కింగ్ పనితీరు: బలాలు మరియు వృద్ధికి సంబంధించిన రంగాలు

బెంచ్‌మార్క్ పనితీరు విషయానికి వస్తే, Phi-4-multimodal ముఖ్యంగా స్పీచ్ క్వశ్చన్ ఆన్సరింగ్ (QA) టాస్క్‌లలో Gemini-2.0-Flash మరియు GPT-4o-realtime-preview వంటి మోడల్‌లతో పోలిస్తే పనితీరు అంతరాన్ని ప్రదర్శిస్తుంది. ప్రశ్నలకు సమాధానం ఇవ్వడానికి వాస్తవ జ్ఞానాన్ని నిలుపుకునే సామర్థ్యాన్ని ఫై-4 మోడల్స్ యొక్క చిన్న పరిమాణం స్వాభావికంగా పరిమితం చేస్తుందని Microsoft అంగీకరిస్తుంది. ఏదేమైనా, మోడల్ యొక్క భవిష్యత్తు పునరావృతాలలో ఈ సామర్థ్యాన్ని మెరుగుపరచడానికి కొనసాగుతున్న ప్రయత్నాలను కంపెనీ నొక్కి చెబుతుంది.

ఇది ఉన్నప్పటికీ, Phi-4-multimodal ఇతర రంగాలలో ఆకట్టుకునే బలాలను ప్రదర్శిస్తుంది. ముఖ్యంగా, ఇది గణిత మరియు శాస్త్రీయ తార్కికం, ఆప్టికల్ క్యారెక్టర్ రికగ్నిషన్ (OCR) మరియు విజువల్ సైన్స్ రీజనింగ్‌తో కూడిన పనులలో Gemini-2.0-Flash Lite మరియు Claude-3.5-Sonnetతో సహా అనేక ప్రసిద్ధ LLMలను అధిగమిస్తుంది. విద్యా సాఫ్ట్‌వేర్ నుండి శాస్త్రీయ పరిశోధన సాధనాల వరకు విస్తృత శ్రేణి అనువర్తనాలకు ఇవి కీలకమైన సామర్థ్యాలు.

Phi-4-mini: కాంపాక్ట్ పరిమాణం, ఆకట్టుకునే పనితీరు

Phi-4-multimodalతో పాటు, Microsoft Phi-4-miniని కూడా పరిచయం చేసింది. ఈ మోడల్ మరింత కాంపాక్ట్, 3.8 బిలియన్ పారామితులను కలిగి ఉంది. ఇది దట్టమైన డీకోడర్-మాత్రమే ట్రాన్స్‌ఫార్మర్ ఆర్కిటెక్చర్‌పై ఆధారపడి ఉంటుంది మరియు ఆకట్టుకునే 128,000 టోకెన్‌ల వరకు సీక్వెన్స్‌లకు మద్దతు ఇస్తుంది.

Microsoftలో జనరేటివ్ AI యొక్క VP, వీజు చెన్, Phi-4-mini యొక్క చిన్న పరిమాణం ఉన్నప్పటికీ దాని అద్భుతమైన పనితీరును హైలైట్ చేశారు. కొత్త మోడల్‌లను వివరిస్తూ ఒక బ్లాగ్ పోస్ట్‌లో, అతను Phi-4-mini “తార్కికం, గణితం, కోడింగ్, సూచన-అనుసరణ మరియు ఫంక్షన్-కాలింగ్‌తో సహా టెక్స్ట్-ఆధారిత పనులలో పెద్ద మోడల్‌లను అధిగమించడం కొనసాగిస్తుంది” అని పేర్కొన్నాడు. ఇది నిర్దిష్ట అప్లికేషన్ డొమైన్‌లలో గణనీయమైన విలువను అందించడానికి చిన్న మోడల్‌ల సామర్థ్యాన్ని నొక్కి చెబుతుంది.

IBM యొక్క గ్రానైట్ నవీకరణలు: రీజనింగ్ సామర్థ్యాలను మెరుగుపరచడం

SLMలలో పురోగతులు Microsoftకి మాత్రమే పరిమితం కాలేదు. IBM తన గ్రానైట్ ఫ్యామిలీ ఫౌండేషనల్ మోడల్స్‌కు ఒక నవీకరణను కూడా విడుదల చేసింది, గ్రానైట్ 3.2 2B మరియు 8B మోడల్‌లను పరిచయం చేసింది. ఈ కొత్త మోడల్‌లు మెరుగైన “చైన్ ఆఫ్ థాట్” సామర్థ్యాలను కలిగి ఉన్నాయి, ఇది రీజనింగ్ సామర్థ్యాలను మెరుగుపరచడంలో కీలకమైన అంశం. ఈ మెరుగుదల మోడల్‌లు వాటి పూర్వీకుల కంటే మెరుగైన పనితీరును సాధించడానికి అనుమతిస్తుంది.

ఇంకా, IBM డాక్యుమెంట్ అండర్‌స్టాండింగ్ టాస్క్‌ల కోసం ప్రత్యేకంగా రూపొందించిన ఒక కొత్త విజన్ లాంగ్వేజ్ మోడల్ (VLM)ని ఆవిష్కరించింది. ఈ VLM DocVQA, ChartQA, AI2D మరియు OCRBench1 వంటి బెంచ్‌మార్క్‌లపై Llama 3.2 11B మరియు Pixtral 12B వంటి గణనీయంగా పెద్ద మోడల్‌ల పనితీరును సరిపోల్చుతుంది లేదా అధిగమిస్తుంది. ఇది నిర్దిష్ట డొమైన్‌లలో పోటీ పనితీరును అందించే చిన్న, ప్రత్యేకమైన మోడల్‌ల యొక్క పెరుగుతున్న ధోరణిని హైలైట్ చేస్తుంది.

ఆన్-డివైస్ AI యొక్క భవిష్యత్తు: ఒక నమూనా మార్పు

Phi-4-multimodal మరియు Phi-4-mini పరిచయం, IBM యొక్క గ్రానైట్ నవీకరణలతో పాటు, శక్తివంతమైన AI సామర్థ్యాలు విస్తృత శ్రేణి పరికరాల్లో సులభంగా అందుబాటులో ఉండే భవిష్యత్తు వైపు ఒక ముఖ్యమైన అడుగును సూచిస్తుంది. ఈ మార్పు వివిధ పరిశ్రమలు మరియు అనువర్తనాలకు తీవ్రమైన ప్రభావాలను కలిగి ఉంది:

  • AI యొక్క ప్రజాస్వామ్యీకరణ: చిన్న, మరింత సమర్థవంతమైన నమూనాలు AIని విస్తృత శ్రేణి డెవలపర్‌లు మరియు వినియోగదారులకు అందుబాటులోకి తెస్తాయి, భారీ కంప్యూటింగ్ వనరులకు ప్రాప్యత ఉన్నవారికి మాత్రమే కాదు.
  • మెరుగైన గోప్యత మరియు భద్రత: ఆన్-డివైస్ ప్రాసెసింగ్ క్లౌడ్‌కు సున్నితమైన డేటాను ప్రసారం చేయవలసిన అవసరాన్ని తగ్గిస్తుంది, గోప్యత మరియు భద్రతను పెంచుతుంది.
  • మెరుగైన ప్రతిస్పందన మరియు జాప్యం: స్థానిక ప్రాసెసింగ్ క్లౌడ్-ఆధారిత AIతో అనుబంధించబడిన జాప్యాలను తొలగిస్తుంది, వేగవంతమైన ప్రతిస్పందన సమయాలకు మరియు మరింత అతుకులు లేని వినియోగదారు అనుభవానికి దారితీస్తుంది.
  • ఆఫ్‌లైన్ కార్యాచరణ: ఆన్-డివైస్ AI ఇంటర్నెట్ కనెక్షన్ లేకుండా కూడా పనిచేయగలదు, రిమోట్ లేదా తక్కువ-కనెక్టివిటీ పరిసరాలలో అనువర్తనాల కోసం కొత్త అవకాశాలను తెరుస్తుంది.
  • తగ్గిన శక్తి వినియోగం: చిన్న మోడల్‌లకు పనిచేయడానికి తక్కువ శక్తి అవసరం, మొబైల్ పరికరాల కోసం ఎక్కువ బ్యాటరీ జీవితానికి మరియు పర్యావరణ ప్రభావం తగ్గడానికి దోహదం చేస్తుంది.
  • ఎడ్జ్ కంప్యూటింగ్ అప్లికేషన్లు: ఇందులో స్వయంప్రతిపత్త డ్రైవింగ్, స్మార్ట్ తయారీ మరియు రిమోట్ హెల్త్‌కేర్ వంటి రంగాలు ఉన్నాయి.

SLMలలో పురోగతులు AI ల్యాండ్‌స్కేప్‌లో ఒక నమూనా మార్పును నడిపిస్తున్నాయి. పెద్ద భాషా నమూనాలు కీలక పాత్ర పోషిస్తూనే ఉన్నాయి, ఫై ఫ్యామిలీలోని కాంపాక్ట్, సమర్థవంతమైన మోడల్‌ల పెరుగుదల AI మరింత విస్తృతంగా, అందుబాటులో ఉండే మరియు మన దైనందిన జీవితాల్లో విలీనం చేయబడిన భవిష్యత్తుకు మార్గం సుగమం చేస్తోంది. దృష్టి కేవలం పరిమాణం నుండి సామర్థ్యం, ​​ప్రత్యేకత మరియు మనం ప్రతిరోజూ ఉపయోగించే పరికరాలపై నేరుగా శక్తివంతమైన AI సామర్థ్యాలను అందించే సామర్థ్యం వైపు మారుతోంది. ఈ ధోరణి వేగవంతం అయ్యే అవకాశం ఉంది, ఇది మరింత వినూత్నమైన అనువర్తనాలకు మరియు వివిధ రంగాలలో AI యొక్క విస్తృత అనుసరణకు దారితీస్తుంది. వనరులు-పరిమితం చేయబడిన పరికరాలపై మల్టీమోడల్ ఇన్‌పుట్‌లను అర్థం చేసుకోవడం వంటి సంక్లిష్ట పనులను చేయగల సామర్థ్యం కృత్రిమ మేధస్సు పరిణామంలో ఒక కొత్త అధ్యాయాన్ని తెరుస్తుంది.
పెరుగుతున్న తెలివైన మరియు సామర్థ్యం గల SLMని సృష్టించే రేసు కొనసాగుతోంది, మరియు Microsoft కొత్త సమర్పణ ఒక పెద్ద ముందడుగు.