Tag: Stepfun

తక్కువ మెమరీతో LLMల కోసం నూతన శ్రద్ధ విధానం

పెద్ద భాషా నమూనాల (LLMలు) విస్తృత వినియోగం మరియు అనుమితిలో కొత్త నమూనాల ఆవిర్భావం సమర్థవంతమైన పెద్ద-స్థాయి అనుమితి యొక్క సవాలును తెరపైకి తెచ్చాయి. సాంప్రదాయ శ్రద్ధ విధానాలలో కీ-విలువ (KV) కాష్ ఒక ముఖ్యమైన అడ్డంకి, ఇది బ్యాచ్ పరిమాణం మరియు క్రమం పొడవుతో సరళంగా విస్తరిస్తుంది, LLMల యొక్క స్కేలింగ్ మరియు విస్తరణను అడ్డుకునే 'మెమరీ హోగ్'గా మారుతుంది. మల్టీ-మాట్రిక్స్ ఫ్యాక్టరైజేషన్ అటెన్షన్ (MFA) మరియు దాని వేరియంట్ MFA-కీ-రీయూస్ (MFA-KR) వంటి కొత్త శ్రద్ధ విధానాలు ఈ సమస్యను పరిష్కరించడానికి ఉద్భవించాయి. MFA మరియు MFA-KR, MLA పనితీరును అధిగమించడమే కాకుండా, KV కాష్ వినియోగాన్ని 93.7% వరకు తగ్గించడంతోపాటు సాంప్రదాయ MHA పనితీరుతో సరిపోలుతున్నాయి. MFA అనేది సరళత, సులభంగా పునరుత్పత్తి, హైపర్‌పారామీటర్‌లకు తక్కువ సున్నితత్వం మరియు వివిధ Pos-ఎంబెడింగ్ పద్ధతులతో అనుకూలత కోసం రూపొందించబడింది. ఈ పరిశోధన బృందం శ్రద్ధ విధానాల యొక్క సాధారణ రూపకల్పన మరియు సామర్థ్యాన్ని విశ్లేషించింది, సామర్థ్యానికి సంబంధించిన రెండు క్లిష్టమైన కోణాలను గుర్తించింది. ఈ విశ్లేషణ కొత్త విశ్లేషణాత్మక పద్ధతులు మరియు రూపకల్పన సూత్రాల అభివృద్ధికి దారితీసింది. వారు వివిధ MHA వేరియంట్‌లను అర్థం చేసుకోవడానికి ఏకీకృత చట్రంగా జనరలైజ్డ్ మల్టీ-హెడ్ అటెన్షన్ (GMHA) అనే భావనను ప్రవేశపెట్టారు. అంతేకాకుండా, వారు అనుమితి దృక్కోణం నుండి కీ-విలువలను లెక్కించడం మరియు నిల్వ చేయడాన్ని అన్వేషించారు మరియు నమూనా సామర్థ్యాన్ని విచ్ఛిన్నం దృక్కోణం నుండి పరిశీలించారు. మల్టీ-క్వెరీ అటెన్షన్ (MQA) మరియు మల్టీ-హెడ్ లాటెంట్ అటెన్షన్ (MLA) వంటి రెండు ప్రాతినిధ్య మెరుగుదల పథకాలపై విశ్లేషణ దృష్టి సారించింది. MFA యొక్క అభివృద్ధి వనరుల వినియోగాన్ని తగ్గించేటప్పుడు సైద్ధాంతిక పనితీరు పరిమితులను చేరుకునే శ్రద్ధ విధానాన్ని సృష్టించే లక్ష్యంతో నడపబడింది. MFA రూపకల్పనలో మూడు ముఖ్యమైన ఆవిష్కరణలు ఉన్నాయి: నమూనా సామర్థ్యాన్ని పెంచడానికి శ్రద్ధా శీర్షికల సంఖ్య మరియు పరిమాణాన్ని గణనీయంగా పెంచడం, శ్రద్ధా శీర్షికల సంఖ్య మరియు కొలతలు విస్తరిస్తూ పరామితి సామర్థ్యాన్ని కొనసాగించడానికి దూకుడు తక్కువ-ర్యాంక్ విచ్ఛిన్నం వ్యూహాన్ని ఉపయోగించడం మరియు పెరిగిన నమూనా సంక్లిష్టతతో కూడా మెమరీ వినియోగాన్ని కనిష్టంగా ఉంచడానికి ఒకే కీ-విలువ శీర్షిక రూపకల్పనను ఉపయోగించడం. MFA, MQA కంటే ఎక్కువ SLSD మరియు TERని సాధిస్తుంది. MLAతో పోలిస్తే, MFA సమాన పరామితి బడ్జెట్‌లతో చిన్న KV కాష్ పరిమాణం మరియు అధిక TERని సాధిస్తుంది, అయితే పోల్చదగిన SLSDని నిర్వహిస్తుంది. సాంప్రదాయ MHAతో పోలిస్తే, MFA యొక్క SLSD చిన్నదిగా ఉన్నప్పటికీ, అధిక TERని కలిగి ఉంది. విస్తృతమైన ప్రయోగాలు కొత్త నిర్మాణ పనితీరును పెద్ద స్థాయిలో అంచనా వేయడానికి నిర్వహించబడ్డాయి, 1B నుండి 7B పరామితుల వరకు మరియు 10B నుండి 1T వరకు శిక్షణా డేటాను పరీక్షించాయి. MFA సాంప్రదాయ MHAతో పోల్చదగిన స్కేలింగ్ సామర్థ్యాలను ప్రదర్శించింది, పెద్ద స్థాయిలలో కూడా అద్భుతమైన పనితీరును కొనసాగించింది. MFA మరియు MFA-KR యొక్క మెమరీ-పొదుపు ప్రయోజనాలు నమూనా పరిమాణంతో విస్తరిస్తూనే ఉన్నాయి, MFA 87.5% మెమరీ పొదుపును సాధించింది మరియు MFA-KR అతిపెద్ద స్థాయిలో 6.25%కి మెమరీ వినియోగాన్ని తగ్గించింది. MFA అనేది సరళమైన రూపకల్పనతో గణనీయమైన మెరుగుదలలను అందిస్తుంది, అదనపు ఇంజనీరింగ్ సంక్లిష్టతను జోడించకుండా LLM అనుమితిలో మెమరీ అడ్డంకిని సమర్థవంతంగా పరిష్కరిస్తుంది. ఇది ఇప్పటికే ఉన్న ట్రాన్స్‌ఫార్మర్ పర్యావరణ వ్యవస్థలోకి సజావుగా కలిసిపోతుంది, వివిధ దృశ్యాలలో LLMల అనువర్తనాన్ని వేగవంతం చేస్తుంది.

తక్కువ మెమరీతో LLMల కోసం నూతన శ్రద్ధ విధానం