ఫై కుటుంబం విస్తరిస్తోంది: మల్టీమోడల్ సామర్థ్యాల పరిచయం
Microsoft, SLMల యొక్క ఈ అభివృద్ధి చెందుతున్న ఫీల్డ్కు తన సహకారం, ఫై ఫ్యామిలీ, కాంపాక్ట్ మోడల్స్ యొక్క సూట్. ఫై యొక్క నాల్గవ తరం ప్రారంభంలో డిసెంబర్లో పరిచయం చేయబడింది, ఇప్పుడు, Microsoft లైనప్ను రెండు ముఖ్యమైన జోడింపులతో పెంచుతోంది: Phi-4-multimodal మరియు Phi-4-mini. వారి తోబుట్టువులతో స్థిరంగా, ఈ కొత్త నమూనాలు Azure AI ఫౌండ్రీ, హగ్గింగ్ ఫేస్ మరియు Nvidia API కేటలాగ్ ద్వారా సులభంగా అందుబాటులో ఉంటాయి, అన్నీ అనుమతించే MIT లైసెన్స్ క్రింద ఉంటాయి.
Phi-4-multimodal, ముఖ్యంగా, ప్రత్యేకంగా నిలుస్తుంది. ఇది 5.6 బిలియన్ పారామీటర్ మోడల్, ఇది ‘మిక్చర్-ఆఫ్-LoRAs’ (లో-ర్యాంక్ అడాప్టేషన్స్) అనే అధునాతన సాంకేతికతను ఉపయోగించుకుంటుంది. ఈ విధానం మోడల్ను స్పీచ్, విజువల్ ఇన్పుట్ మరియు టెక్స్ట్యువల్ డేటాను ఏకకాలంలో ప్రాసెస్ చేయడానికి అనుమతిస్తుంది. LoRAs ఒక నిర్దిష్ట పనులలో పెద్ద భాషా నమూనా యొక్క పనితీరును పెంచడానికి ఒక నవల పద్ధతిని సూచిస్తాయి, దాని అన్ని పారామితులలో విస్తృతమైన ఫైన్-ట్యూనింగ్ను నివారించడం. బదులుగా, LoRAని ఉపయోగించే డెవలపర్లు వ్యూహాత్మకంగా మోడల్లో తక్కువ సంఖ్యలో కొత్త వెయిట్లను చొప్పిస్తారు. ఈ కొత్తగా ప్రవేశపెట్టిన వెయిట్లు మాత్రమే శిక్షణ పొందుతాయి, ఫలితంగా గణనీయంగా వేగవంతమైన మరియు మరింత మెమరీ-సమర్థవంతమైన ప్రక్రియ ఏర్పడుతుంది. దీని ఫలితంగా తేలికైన నమూనాల సేకరణ లభిస్తుంది, వీటిని నిల్వ చేయడం, భాగస్వామ్యం చేయడం మరియు విస్తరించడం చాలా సులభం.
ఈ సామర్థ్యం యొక్క ప్రభావాలు గణనీయమైనవి. Phi-4-multimodal తక్కువ-లేటెన్సీ అనుమితిని సాధిస్తుంది - అంటే ఇది సమాచారాన్ని ప్రాసెస్ చేయగలదు మరియు ప్రతిస్పందనలను చాలా త్వరగా అందించగలదు - ఆన్-డివైస్ ఎగ్జిక్యూషన్ కోసం ఆప్టిమైజ్ చేయబడినప్పుడు. ఇది గణన ఓవర్హెడ్లో నాటకీయ తగ్గింపుకు అనువదిస్తుంది, గతంలో అవసరమైన ప్రాసెసింగ్ పవర్ లేని పరికరాలపై అధునాతన AI అప్లికేషన్లను అమలు చేయడం సాధ్యపడుతుంది.
సంభావ్య వినియోగ సందర్భాలు: స్మార్ట్ఫోన్ల నుండి ఫైనాన్షియల్ సర్వీసెస్ వరకు
Phi-4-multimodal యొక్క సంభావ్య అప్లికేషన్లు విభిన్నమైనవి మరియు చాలా విస్తృతమైనవి. స్మార్ట్ఫోన్లలో సజావుగా పనిచేసే మోడల్ను ఊహించుకోండి, వాహనాల్లోని అధునాతన ఫీచర్లకు శక్తినివ్వడం లేదా తేలికపాటి ఎంటర్ప్రైజ్ అప్లికేషన్లను నడపడం. బహుభాషా ఫైనాన్షియల్ సర్వీసెస్ అప్లికేషన్ అనేది ఒక బలవంతపు ఉదాహరణ, ఇది వివిధ భాషలలో వినియోగదారు ప్రశ్నలను అర్థం చేసుకోవడం మరియు ప్రతిస్పందించడం, డాక్యుమెంట్ల వంటి విజువల్ డేటాను ప్రాసెస్ చేయడం మరియు వినియోగదారు పరికరంలో సమర్థవంతంగా పనిచేయడం వంటి సామర్థ్యాన్ని కలిగి ఉంటుంది.
పరిశ్రమ విశ్లేషకులు Phi-4-multimodal యొక్క పరివర్తన సామర్థ్యాన్ని గుర్తిస్తున్నారు. ఇది డెవలపర్లకు, ముఖ్యంగా మొబైల్ పరికరాల కోసం లేదా గణన వనరులు పరిమితం చేయబడిన పరిసరాల కోసం AI-ఆధారిత అప్లికేషన్లను రూపొందించడంపై దృష్టి సారించిన వారికి ఒక ముఖ్యమైన ముందడుగుగా పరిగణించబడుతుంది.
ఫోరెస్టర్లోని వైస్ ప్రెసిడెంట్ మరియు ప్రిన్సిపల్ అనలిస్ట్ చార్లీ డై, టెక్స్ట్, ఇమేజ్ మరియు ఆడియో ప్రాసెసింగ్ను బలమైన రీజనింగ్ సామర్థ్యాలతో అనుసంధానించే మోడల్ సామర్థ్యాన్ని హైలైట్ చేశారు. ఈ కలయిక AI అప్లికేషన్లను మెరుగుపరుస్తుందని, డెవలపర్లు మరియు ఎంటర్ప్రైజెస్కు “బహుముఖ, సమర్థవంతమైన మరియు స్కేలబుల్ సొల్యూషన్స్” అందిస్తుందని ఆయన నొక్కి చెప్పారు.
ఎవరెస్ట్ గ్రూప్లో భాగస్వామి అయిన యుగల్ జోషి, కంప్యూట్-పరిమితం చేయబడిన పరిసరాలలో విస్తరణకు మోడల్ యొక్క అనుకూలతను అంగీకరిస్తున్నారు. మొబైల్ పరికరాలు అన్ని ఉత్పాదక AI వినియోగ సందర్భాలకు అనువైన ప్లాట్ఫారమ్ కాకపోవచ్చని ఆయన పేర్కొన్నప్పటికీ, మైక్రోసాఫ్ట్ డీప్సీక్ నుండి ప్రేరణ పొందుతోందని, ఇది పెద్ద-స్థాయి కంప్యూట్ మౌలిక సదుపాయాలపై ఆధారపడటాన్ని తగ్గించడంపై దృష్టి సారించిన మరొక చొరవ అని ఆయన కొత్త SLMలను చూస్తున్నారు.
బెంచ్మార్కింగ్ పనితీరు: బలాలు మరియు వృద్ధికి సంబంధించిన రంగాలు
బెంచ్మార్క్ పనితీరు విషయానికి వస్తే, Phi-4-multimodal ముఖ్యంగా స్పీచ్ క్వశ్చన్ ఆన్సరింగ్ (QA) టాస్క్లలో Gemini-2.0-Flash మరియు GPT-4o-realtime-preview వంటి మోడల్లతో పోలిస్తే పనితీరు అంతరాన్ని ప్రదర్శిస్తుంది. ప్రశ్నలకు సమాధానం ఇవ్వడానికి వాస్తవ జ్ఞానాన్ని నిలుపుకునే సామర్థ్యాన్ని ఫై-4 మోడల్స్ యొక్క చిన్న పరిమాణం స్వాభావికంగా పరిమితం చేస్తుందని Microsoft అంగీకరిస్తుంది. ఏదేమైనా, మోడల్ యొక్క భవిష్యత్తు పునరావృతాలలో ఈ సామర్థ్యాన్ని మెరుగుపరచడానికి కొనసాగుతున్న ప్రయత్నాలను కంపెనీ నొక్కి చెబుతుంది.
ఇది ఉన్నప్పటికీ, Phi-4-multimodal ఇతర రంగాలలో ఆకట్టుకునే బలాలను ప్రదర్శిస్తుంది. ముఖ్యంగా, ఇది గణిత మరియు శాస్త్రీయ తార్కికం, ఆప్టికల్ క్యారెక్టర్ రికగ్నిషన్ (OCR) మరియు విజువల్ సైన్స్ రీజనింగ్తో కూడిన పనులలో Gemini-2.0-Flash Lite మరియు Claude-3.5-Sonnetతో సహా అనేక ప్రసిద్ధ LLMలను అధిగమిస్తుంది. విద్యా సాఫ్ట్వేర్ నుండి శాస్త్రీయ పరిశోధన సాధనాల వరకు విస్తృత శ్రేణి అనువర్తనాలకు ఇవి కీలకమైన సామర్థ్యాలు.
Phi-4-mini: కాంపాక్ట్ పరిమాణం, ఆకట్టుకునే పనితీరు
Phi-4-multimodalతో పాటు, Microsoft Phi-4-miniని కూడా పరిచయం చేసింది. ఈ మోడల్ మరింత కాంపాక్ట్, 3.8 బిలియన్ పారామితులను కలిగి ఉంది. ఇది దట్టమైన డీకోడర్-మాత్రమే ట్రాన్స్ఫార్మర్ ఆర్కిటెక్చర్పై ఆధారపడి ఉంటుంది మరియు ఆకట్టుకునే 128,000 టోకెన్ల వరకు సీక్వెన్స్లకు మద్దతు ఇస్తుంది.
Microsoftలో జనరేటివ్ AI యొక్క VP, వీజు చెన్, Phi-4-mini యొక్క చిన్న పరిమాణం ఉన్నప్పటికీ దాని అద్భుతమైన పనితీరును హైలైట్ చేశారు. కొత్త మోడల్లను వివరిస్తూ ఒక బ్లాగ్ పోస్ట్లో, అతను Phi-4-mini “తార్కికం, గణితం, కోడింగ్, సూచన-అనుసరణ మరియు ఫంక్షన్-కాలింగ్తో సహా టెక్స్ట్-ఆధారిత పనులలో పెద్ద మోడల్లను అధిగమించడం కొనసాగిస్తుంది” అని పేర్కొన్నాడు. ఇది నిర్దిష్ట అప్లికేషన్ డొమైన్లలో గణనీయమైన విలువను అందించడానికి చిన్న మోడల్ల సామర్థ్యాన్ని నొక్కి చెబుతుంది.
IBM యొక్క గ్రానైట్ నవీకరణలు: రీజనింగ్ సామర్థ్యాలను మెరుగుపరచడం
SLMలలో పురోగతులు Microsoftకి మాత్రమే పరిమితం కాలేదు. IBM తన గ్రానైట్ ఫ్యామిలీ ఫౌండేషనల్ మోడల్స్కు ఒక నవీకరణను కూడా విడుదల చేసింది, గ్రానైట్ 3.2 2B మరియు 8B మోడల్లను పరిచయం చేసింది. ఈ కొత్త మోడల్లు మెరుగైన “చైన్ ఆఫ్ థాట్” సామర్థ్యాలను కలిగి ఉన్నాయి, ఇది రీజనింగ్ సామర్థ్యాలను మెరుగుపరచడంలో కీలకమైన అంశం. ఈ మెరుగుదల మోడల్లు వాటి పూర్వీకుల కంటే మెరుగైన పనితీరును సాధించడానికి అనుమతిస్తుంది.
ఇంకా, IBM డాక్యుమెంట్ అండర్స్టాండింగ్ టాస్క్ల కోసం ప్రత్యేకంగా రూపొందించిన ఒక కొత్త విజన్ లాంగ్వేజ్ మోడల్ (VLM)ని ఆవిష్కరించింది. ఈ VLM DocVQA, ChartQA, AI2D మరియు OCRBench1 వంటి బెంచ్మార్క్లపై Llama 3.2 11B మరియు Pixtral 12B వంటి గణనీయంగా పెద్ద మోడల్ల పనితీరును సరిపోల్చుతుంది లేదా అధిగమిస్తుంది. ఇది నిర్దిష్ట డొమైన్లలో పోటీ పనితీరును అందించే చిన్న, ప్రత్యేకమైన మోడల్ల యొక్క పెరుగుతున్న ధోరణిని హైలైట్ చేస్తుంది.
ఆన్-డివైస్ AI యొక్క భవిష్యత్తు: ఒక నమూనా మార్పు
Phi-4-multimodal మరియు Phi-4-mini పరిచయం, IBM యొక్క గ్రానైట్ నవీకరణలతో పాటు, శక్తివంతమైన AI సామర్థ్యాలు విస్తృత శ్రేణి పరికరాల్లో సులభంగా అందుబాటులో ఉండే భవిష్యత్తు వైపు ఒక ముఖ్యమైన అడుగును సూచిస్తుంది. ఈ మార్పు వివిధ పరిశ్రమలు మరియు అనువర్తనాలకు తీవ్రమైన ప్రభావాలను కలిగి ఉంది:
- AI యొక్క ప్రజాస్వామ్యీకరణ: చిన్న, మరింత సమర్థవంతమైన నమూనాలు AIని విస్తృత శ్రేణి డెవలపర్లు మరియు వినియోగదారులకు అందుబాటులోకి తెస్తాయి, భారీ కంప్యూటింగ్ వనరులకు ప్రాప్యత ఉన్నవారికి మాత్రమే కాదు.
- మెరుగైన గోప్యత మరియు భద్రత: ఆన్-డివైస్ ప్రాసెసింగ్ క్లౌడ్కు సున్నితమైన డేటాను ప్రసారం చేయవలసిన అవసరాన్ని తగ్గిస్తుంది, గోప్యత మరియు భద్రతను పెంచుతుంది.
- మెరుగైన ప్రతిస్పందన మరియు జాప్యం: స్థానిక ప్రాసెసింగ్ క్లౌడ్-ఆధారిత AIతో అనుబంధించబడిన జాప్యాలను తొలగిస్తుంది, వేగవంతమైన ప్రతిస్పందన సమయాలకు మరియు మరింత అతుకులు లేని వినియోగదారు అనుభవానికి దారితీస్తుంది.
- ఆఫ్లైన్ కార్యాచరణ: ఆన్-డివైస్ AI ఇంటర్నెట్ కనెక్షన్ లేకుండా కూడా పనిచేయగలదు, రిమోట్ లేదా తక్కువ-కనెక్టివిటీ పరిసరాలలో అనువర్తనాల కోసం కొత్త అవకాశాలను తెరుస్తుంది.
- తగ్గిన శక్తి వినియోగం: చిన్న మోడల్లకు పనిచేయడానికి తక్కువ శక్తి అవసరం, మొబైల్ పరికరాల కోసం ఎక్కువ బ్యాటరీ జీవితానికి మరియు పర్యావరణ ప్రభావం తగ్గడానికి దోహదం చేస్తుంది.
- ఎడ్జ్ కంప్యూటింగ్ అప్లికేషన్లు: ఇందులో స్వయంప్రతిపత్త డ్రైవింగ్, స్మార్ట్ తయారీ మరియు రిమోట్ హెల్త్కేర్ వంటి రంగాలు ఉన్నాయి.
SLMలలో పురోగతులు AI ల్యాండ్స్కేప్లో ఒక నమూనా మార్పును నడిపిస్తున్నాయి. పెద్ద భాషా నమూనాలు కీలక పాత్ర పోషిస్తూనే ఉన్నాయి, ఫై ఫ్యామిలీలోని కాంపాక్ట్, సమర్థవంతమైన మోడల్ల పెరుగుదల AI మరింత విస్తృతంగా, అందుబాటులో ఉండే మరియు మన దైనందిన జీవితాల్లో విలీనం చేయబడిన భవిష్యత్తుకు మార్గం సుగమం చేస్తోంది. దృష్టి కేవలం పరిమాణం నుండి సామర్థ్యం, ప్రత్యేకత మరియు మనం ప్రతిరోజూ ఉపయోగించే పరికరాలపై నేరుగా శక్తివంతమైన AI సామర్థ్యాలను అందించే సామర్థ్యం వైపు మారుతోంది. ఈ ధోరణి వేగవంతం అయ్యే అవకాశం ఉంది, ఇది మరింత వినూత్నమైన అనువర్తనాలకు మరియు వివిధ రంగాలలో AI యొక్క విస్తృత అనుసరణకు దారితీస్తుంది. వనరులు-పరిమితం చేయబడిన పరికరాలపై మల్టీమోడల్ ఇన్పుట్లను అర్థం చేసుకోవడం వంటి సంక్లిష్ట పనులను చేయగల సామర్థ్యం కృత్రిమ మేధస్సు పరిణామంలో ఒక కొత్త అధ్యాయాన్ని తెరుస్తుంది.
పెరుగుతున్న తెలివైన మరియు సామర్థ్యం గల SLMని సృష్టించే రేసు కొనసాగుతోంది, మరియు Microsoft కొత్త సమర్పణ ఒక పెద్ద ముందడుగు.