మినిమాక్స్ యొక్క లీనియర్ శ్రద్ధ బెట్ | te

ఒక ప్రధాన స్రవంతి కాని సాంకేతిక మార్గంలో ఒక మార్గదర్శకుడు

మీ గురించి క్లుప్తంగా పరిచయం చేయగలరా?

నా పేరు జాంగ్ యిరాన్. నేను మినిమాక్స్లో సీనియర్ రీసెర్చ్ డైరెక్టర్గా పనిచేస్తున్నాను. ఇక్కడ నేను ప్రధానంగా నెట్‌వర్క్ ఆర్కిటెక్చర్‌ల రూపకల్పన మరియు మల్టీమోడల్ అండర్‌స్టాండింగ్ లార్జ్ మోడల్‌లను పర్యవేక్షిస్తాను. మినిమాక్స్‌లో, మినిమాక్స్-01 నెట్‌వర్క్ నిర్మాణ రూపకల్పనకు నేతృత్వం వహించడం నా ప్రధాన బాధ్యత.

గతంలో, నేను షాంఘై ఆర్టిఫిషియల్ ఇంటెలిజెన్స్ లాబొరేటరీలో న్యూ ఆర్కిటెక్చర్ ఎక్స్‌ప్లోరేషన్ గ్రూప్ కోసం ఒక PIగా పనిచేశాను. ట్రాన్స్‌ఫార్మర్ కాని ఆర్కిటెక్చర్‌ల కోసం సమర్థవంతమైన శిక్షణ మోడలింగ్ పద్ధతులు మరియు దృశ్య-శ్రవణ-భాషా మల్టీమోడల్ ఫ్యూషన్‌పై పరిశోధన చేయడంపై దృష్టి సారించాను.

మీరు లీనియర్ శ్రద్ధపై పరిశోధన ఎప్పుడు ప్రారంభించారు మరియు మీరు ఈ సాంకేతిక మార్గాన్ని ఎందుకు ఎంచుకున్నారు?

నేను లీనియర్ శ్రద్ధపై పరిశోధనను సుమారు జూలై 2021లో ప్రారంభించాను. ఇది నేను 2020లో నా PhD కోసం చేసిన ఒక పేపర్ నుండి వచ్చింది, ‘ఇన్వర్టిబుల్ అటెన్షన్’. ఆ సమయంలో, ఇన్వర్టిబుల్ న్యూరల్ నెట్‌వర్క్‌లు మరియు శ్రద్ధ యాంత్రికాలు రెండూ చాలా ప్రాచుర్యం పొందాయి, కాబట్టి మేము వాటిని మా పరిశోధనలో కలిపాము.

తరువాత, మా బృందంలోని కొంతమంది సభ్యులకు గణితంపై చాలా ఆసక్తి కలిగింది. లీనియర్ శ్రద్ధ వంటి సమర్థవంతమైన సీక్వెన్స్ మోడలింగ్ పద్ధతులకు బలమైన గణిత పునాది అవసరం మరియు అనేక సూత్రాల ఉత్పన్నాలను కలిగి ఉంటుంది, ఇది బృందం యొక్క ఆసక్తులతో సరిగ్గా సరిపోయింది, కాబట్టి మేము ఈ దిశను ఎంచుకున్నాము.

ఆ సమయంలో పరిశ్రమలో లీనియర్ శ్రద్ధ యొక్క స్థితి ఏమిటి?

అది చాలా ప్రధాన స్రవంతి కానిది, దానిపై పనిచేసే వారు చాలా తక్కువ మంది ఉన్నారు. చాలా మంది పరిశోధకులు ట్రాన్స్‌ఫార్మర్‌లపై దృష్టి సారించారు, ఇది తప్పనిసరిగా NLPలో ఆధిపత్య శక్తిగా మారింది.

ట్రాన్స్‌ఫార్మర్ పరిశోధన చేస్తున్న గుంపులో మరొక ముఖంగా ఉండటానికి బదులుగా, మనం ఏదో వేరే చేయాలని మేము అనుకున్నాము.

లీనియర్ శ్రద్ధ మార్గం యొక్క సాంకేతిక సామర్థ్యాన్ని మీరు ఎలా అంచనా వేశారు?

మా ప్రారంభ ప్రేరణ సూటిగా ఉంది: ట్రాన్స్‌ఫార్మర్‌ల యొక్క క్వాడ్రాటిక్ గణన సంక్లిష్టతను పరిష్కరించడం. మేము స్పార్స్ ట్రాన్స్‌ఫార్మర్‌లు మరియు లీనియర్ శ్రద్ధతో సహా వివిధ పద్ధతులను పరీక్షించాము.

స్పార్స్ ట్రాన్స్‌ఫార్మర్‌లు పనిచేశాయని మేము కనుగొన్నాము, ట్రాన్స్‌ఫార్మర్‌లతో పోలిస్తే వేగవంతమైన వేగం మరియు తక్కువ మెమరీ వినియోగాన్ని అందిస్తున్నాయి. అయితే, లీనియర్ శ్రద్ధ పేలవంగా పనిచేసింది మరియు నెమ్మదిగా కూడా ఉంది. అయినప్పటికీ, మేము లీనియర్ శ్రద్ధను కొనసాగించాలని నిర్ణయించుకున్నాము.

దానికి ఒక కారణం దాని గణిత ఆకర్షణ - దాని పనితీరు మెరుగ్గా ఉండాలని మేము నమ్మాము. మరొకటి ఏమిటంటే స్పార్స్ శ్రద్ధ యొక్క ఎగువ పరిమితి పూర్తి శ్రద్ధ అని మేము భావించాము, అది అధిగమించడం కష్టం. మరోవైపు, లీనియర్ శ్రద్ధకు దానిని మించే అవకాశం ఉంది.

లీనియర్ శ్రద్ధ అంటే ఏమిటో మీరు వివరించగలరా?

లీనియర్ శ్రద్ధ అనేది తప్పనిసరిగా కెర్నల్ ట్రిక్. ట్రాన్స్‌ఫార్మర్‌లలో, Q, K మరియు V మ్యాట్రిక్స్‌లను గుణించడం అనేది మీరు మొదట QKని గుణిస్తున్నారా లేదా KVని గుణిస్తున్నారా అనే దానిపై ఆధారపడి ఉంటుంది.

మొదట KVని గుణించడం గణన సంక్లిష్టతను లీనియర్‌కు తగ్గించగలదు. అయితే, సమస్య ఏమిటంటే QK గుణకారం తరువాత సాఫ్ట్‌మాక్స్ ఆపరేషన్ జరుగుతుంది, ఇది కమ్యుటేటివ్ లక్షణాన్ని సంతృప్తిపరచదు మరియు KVఫస్ట్ గుణకారంగా సులభంగా విభజించబడదు. కాబట్టి, లీనియర్ శ్రద్ధలో మొదటి అడుగు సాఫ్ట్‌మాక్స్‌ను తొలగించడం.

కానీ సాఫ్ట్‌మాక్స్‌ను తొలగించడం ఫలితాలను ప్రభావితం చేస్తుంది. తదుపరి పని సాఫ్ట్‌మాక్స్ లేకుండా ఫలితాల్లో స్థిరత్వాన్ని కొనసాగించడం, లీనియర్ శ్రద్ధ సాధించడానికి లక్ష్యంగా పెట్టుకుంటుంది.

లీనియర్ శ్రద్ధ, స్పార్స్ శ్రద్ధ మరియు లీనియర్ RNN ఆర్కిటెక్చర్‌ల మధ్య ప్రాథమిక వ్యత్యాసాలు ఏమిటి?

స్పార్స్ శ్రద్ధ ఇప్పటికీ తప్పనిసరిగా సాఫ్ట్‌మాక్స్ శ్రద్ధ. ఇది దట్టమైన శ్రద్ధ మ్యాట్రిక్స్ కంటే తక్కువ పాయింట్లను మాత్రమే లెక్కిస్తుంది. ఉదాహరణకు, స్లైడింగ్ విండో శ్రద్ధ విండోలోని శ్రద్ధ స్కోర్‌ను మాత్రమే లెక్కిస్తుంది, గణన మొత్తాన్ని తగ్గించడం ద్వారా త్వరణాన్ని సాధిస్తుంది.

లీనియర్ RNNలు మరియు లీనియర్ శ్రద్ధ తప్పనిసరిగా ఒకే విషయం, కొందరు RNNలు అని మరియు ఇతరులు శ్రద్ధ అని పిలుస్తారు.

ప్రతిదీ RNN రూపంలో వ్రాయవచ్చు. ఉదాహరణకు, లైట్నింగ్ అటెన్షన్ RWKV-4కి అనుగుణంగా ఉంటుంది, అయితే RWKV-7 అనేది గేటెడ్ డెల్టా నెట్ యొక్క మెరుగైన వెర్షన్. అవి సారాంశంలో ఒకేలా ఉన్నప్పటికీ, వాటి అమలు వివరాలు భిన్నంగా ఉంటాయి.

లీనియర్ శ్రద్ధ యాంత్రికాల పరిశోధనలో కీలక మైలురాళ్ళు ఏమిటి?

సుమారు 2018-19లో, కెర్నల్ ట్రిక్‌లను ఉపయోగించి ట్రాన్స్‌ఫార్మర్ సాఫ్ట్‌మాక్స్ శ్రద్ధ యొక్క సైద్ధాంతిక గణన సంక్లిష్టతను తగ్గించవచ్చని పరిశోధన చూపించింది, కానీ ఫలితాలు పేలవంగా ఉన్నాయి మరియు సామర్థ్యం తక్కువగా ఉంది.

2019-20లో, స్పార్స్ శ్రద్ధ ఆధిపత్యం చెలాయించింది, గూగుల్ వంటి కంపెనీలు అనేక స్పార్స్ శ్రద్ధ వేరియంట్‌లను ప్రతిపాదించాయి. తరువాత, లీనియర్ శ్రద్ధ ఉద్భవించడం ప్రారంభించింది, కానీ అది పేలవమైన పనితీరు మరియు నెమ్మదిగా వేగం యొక్క సవాలును ఎదుర్కొంది.

పరిశోధకులు ప్రధానంగా రెండు విధానాలను స్వీకరించారు: ఒకటి సాఫ్ట్‌మాక్స్ ఫంక్షన్‌ను అంచనా వేయడం, పంపిణీ సాఫ్ట్‌మాక్స్‌కు అనుగుణంగా ఉంటుంది; మరొకటి, మేము ఎంచుకున్నది, సాఫ్ట్‌మాక్స్‌ను అంచనా వేయడానికి సంబంధించినది కాకుండా పూర్తిగా వేర్వేరు పద్ధతులను ఉపయోగించి మోడలింగ్ చేయడం.

మేము అక్టోబర్ 2021లో మా మొదటి పేపర్‌ను ప్రచురించాము, ‘COSFORMER: RETHINKING SOFTMAX IN ATTENTION’, ఇది సాఫ్ట్‌మాక్స్ ఆపరేషన్‌ను కొసైన్ ఫంక్షన్‌తో భర్తీ చేసింది, గణనను విభజించడానికి అనుమతించింది.

2022 మొదటి భాగంలో, మేము రెండవ పేపర్‌ను ప్రచురించాము, ‘ది డెవిల్ ఇన్ లీనియర్ ట్రాన్స్‌ఫార్మర్’, ఇది లీనియర్ శ్రద్ధ యొక్క పనితీరు క్షీణించడానికి కారణాలను విశ్లేషించింది మరియు పరిష్కారాలను అందించింది. ఇది లైట్నింగ్ శ్రద్ధకు ముందున్నది.

తరువాత, మేము ప్రత్యేకంగా లీనియర్ శ్రద్ధ మరియు పొడవైన కన్వల్యూషన్‌ల కోసం స్థాన ఎన్‌కోడింగ్‌లను కూడా పరిశోధించాము, TNN, ‘TOEPLITZ NEURAL NETWORK FOR SEQUENCE MODELING’ను ప్రచురించాము, ఇది S4 (మంబా యొక్క పూర్వీకుడు) మాదిరిగానే ఉంటుంది.

చివరగా, మేము లైట్నింగ్ శ్రద్ధను ప్రారంభించాము, ఇది మెరుగైన క్షయం పద్ధతులు మరియు నెట్‌వర్క్ నిర్మాణాల ద్వారా ట్రాన్స్‌ఫార్మర్‌ల పనితీరుతో సరిపోలింది. మేము దానిని వేగంగా చేయడానికి టైలింగ్ టెక్నిక్‌ను కూడా ఉపయోగించాము.

ప్రస్తుత ట్రాన్స్‌ఫార్మర్ కాని ఆర్కిటెక్చర్ సాంకేతిక మార్గాలపై మీ ఆలోచనలు ఏమిటి?

లీనియర్ శ్రద్ధ నిజానికి ట్రాన్స్‌ఫార్మర్ కాని పద్ధతి. ప్రస్తుతం, RNN లాంటి విధానాలతో పాటు, ఇతర ట్రాన్స్‌ఫార్మర్ కాని ఆర్కిటెక్చర్‌లు క్షీణిస్తున్నాయి.

ఉదాహరణకు, పొడవైన కన్వల్యూషన్‌లు మరియు పెద్ద కెర్నల్ కన్వల్యూషన్‌ల వంటి CNNలు పేలవమైన పనితీరు కారణంగా క్రమంగా తొలగించబడినట్లు అనిపిస్తుంది, కానీ అవి కొన్ని అంశాలలో చాలా బలంగా ఉన్నాయి, ఇంకా సీక్వెన్స్ మోడలింగ్‌లో కొంత ప్రభావం చూపుతున్నాయి, ఉదాహరణకు అసాధారణ గుర్తింపు పనులు.

నిజానికి మూడు మాత్రమే ట్రాన్స్‌ఫార్మర్ కాని ఆర్కిటెక్చర్‌లు ఉన్నాయి: లీనియర్ శ్రద్ధ, పొడవైన కన్వల్యూషన్‌లు మరియు లీనియర్ RNNలు.

కానీ వాస్తవానికి, ఈ మూడింటిని ఒకటిగా ఏకీకృతం చేయవచ్చు, దీనిని మేము లీనియర్ సంక్లిష్టత మోడల్ అని పిలుస్తాము. మేము మూడింటినీ కలిపి ఒక కథనం రాశాము.

లైట్నింగ్ శ్రద్ధ మరియు మంబా మరియు RWKV మధ్య ప్రధాన వ్యత్యాసాలు ఏమిటి?

అత్యంత ముఖ్యమైన వ్యత్యాసం ఏమిటంటే లైట్నింగ్ శ్రద్ధ అనేది సరళమైన లీనియర్ శ్రద్ధ. మంబా మరియు RWKV రెండూ డేటా-ఆధారిత క్షయాన్ని ఉపయోగిస్తాయి, అయితే లైట్నింగ్ శ్రద్ధ వేగం కోసం చేతితో తయారు చేసిన క్షయాన్ని ఉపయోగిస్తుంది.

నేర్చుకోగల క్షయం మెరుగైన ఫలితాలను సాధించగలదు, కానీ అది వేగాన్ని త్యాగం చేస్తుంది. ఉదాహరణకు, RWKV-7 గేటింగ్ డెల్టా నెట్ కంటే 10-15% నెమ్మదిగా ఉంటుంది, అయితే గేటెడ్ డెల్టా నెట్ లైట్నింగ్ శ్రద్ధ వేగంలో సగం ఉంటుంది.

RWKV యొక్క మోడలింగ్ ప్రభావం నిజంగా లైట్నింగ్ శ్రద్ధ కంటే మెరుగ్గా ఉంది, కానీ అది నెమ్మదిగా ఉంటుంది మరియు ఇంకా తిరిగి పొందే సమస్యను పరిష్కరించలేదు.

లీనియర్ శ్రద్ధకు అధిక మరియు సాధ్యమయ్యే ఎగువ పరిమితి ఉందని ఇప్పుడు పరిశ్రమ ఏకాభిప్రాయానికి వచ్చిందా?

లేదు, అది ఏకాభిప్రాయం అయితే, ప్రతి ఒక్కరూ లీనియర్ శ్రద్ధ మోడల్‌లను పెంచుతారు. మరియు అది ఇప్పుడు కూడా ఏకాభిప్రాయం కాదు. అది అయితే, ప్రతి ఒక్కరూ లీనియర్‌ను చేస్తారు, కానీ మీరు చూడగలిగినట్లుగా, అది కాదు.

కానీ మాకు, మేము దీనిని 2023 రెండవ భాగంలోనే చూశాము. ఆ సమయంలో, నేను చాలా మందిని అడిగాను మరియు చాలా మందితో మాట్లాడాను, మరియు వారు లేవనెత్తిన అత్యంత సాధారణ అంశం ఏమిటంటే, లీనియర్ శ్రద్ధ చిన్న స్థాయిలో పనిచేస్తుందని వారికి తెలుసు, కానీ అది పెరిగిన తర్వాత విఫలమవుతుందని వారు భావించారు.

ఆ సమయంలో, నేను దానిని అందరూ చూసేలా పెంచుతానని అనుకున్నాను. ఇప్పుడు మినిమాక్స్-01 విడుదలైంది, పెద్ద స్థాయిలో లీనియర్ శ్రద్ధ యొక్క సామర్థ్యాన్ని ఎవరూ సందేహించరు.

చిన్న ప్రయోగాల నుండి పెద్ద-స్థాయి అమలు వరకు

లీనియర్ శ్రద్ధ యొక్క ఎగువ పరిమితి పూర్తి శ్రద్ధను అధిగమించగలదని మీరు అనుకుంటున్నారా?

హైబ్రిడ్ ఆర్కిటెక్చర్‌లు స్వచ్ఛమైన ట్రాన్స్‌ఫార్మర్‌ల కంటే మెరుగ్గా ఉన్నాయని ఇప్పుడు మనం చూడవచ్చు. కానీ స్వచ్ఛమైన లీనియర్ శ్రద్ధతో అతి పెద్ద సమస్య తిరిగి పొందే సామర్థ్యం, ఇది విద్యారంగం పరిష్కరించడానికి కష్టమైన సమస్య.

ఉన్న పద్ధతులు సంక్లిష్టంగా మరియు నెమ్మదిగా ఉన్నప్పటికీ, వాటిని పూర్తిగా పరిష్కరించలేవు, అందుకే హైబ్రిడ్ ఆర్కిటెక్చర్‌ల వైపు వెళ్లడం అవసరం.

మీరు ల్యాబ్ నుండి బయటకు రావాలని నిర్ణయించుకునేలా చేసిన ఏ నోడ్‌ను మీరు గమనించారు?

మే 2023-జూన్ మధ్యలో, మేము ఇప్పటికే లైట్నింగ్ శ్రద్ధ 2ని అంతర్గతంగా కలిగి ఉన్నాము, ఇది ఫ్లాష్ శ్రద్ధ కంటే వేగంగా ఉన్న ప్రపంచంలోని మొదటి లీనియర్ శ్రద్ధ అమలు.

ఇది పారిశ్రామిక రెడ్ లైన్‌ను దాటిందని మరియు దాని సాంకేతిక పరిపక్వత చాలా ఎక్కువగా ఉందని మరియు పెంచవచ్చని మేము నమ్ముతున్నాము.

మీరు ఈ పారిశ్రామిక రెడ్ లైన్‌ను ఎలా నిర్వచిస్తారు?

మొదట, ప్రభావం ట్రాన్స్‌ఫార్మర్ కంటే మెరుగ్గా ఉండాలి మరియు రెండవది, ఇది ట్రాన్స్‌ఫార్మర్ కంటే వేగంగా ఉండాలి. ఇది ట్రాన్స్‌ఫార్మర్‌ను భర్తీ చేసే సామర్థ్యాన్ని ఇస్తుంది. మేము దీనిని ఆ సమయంలో 15B స్కేల్ డెన్స్ మోడల్‌లో ధృవీకరించాము.

మీరు ల్యాబ్ నుండి బయటకు వచ్చిన నోడ్‌లో, మీరు చివరికి మినిమాక్స్‌తో ఎందుకు కలిసి వచ్చారు?

నిజానికి, నేను ఆ సమయంలో కొన్ని పెద్ద కంపెనీలతో మాట్లాడాను. కానీ చివరికి, నేను మినిమాక్స్‌తో దీనిని సాధ్యం చేశాను.

మొదటగా, కోస్‌ఫార్మర్ అనేది నేను జుంజియాతో కలిసి పనిచేసిన కథనం. మాకు సహకారానికి పునాది ఉంది. జుంజియా సెన్స్‌టైమ్‌లో ఉన్నప్పుడు నా బాస్. 23 చివరిలో, జుంజియా నన్ను విందుకు ఆహ్వానించాడు. అతనికి ఈ అత్యాధునిక సాంకేతికతల అవకాశాలపై ఎక్కువ నమ్మకం ఉంది. ఆ సమయంలో అతను సాంకేతిక పురోగతి కోసం వెతుకుతున్నాడని నా అవగాహన.

ఆ సమయంలో, మినిమాక్స్ మోపై పరిశోధనను పూర్తి చేసింది మరియు తదుపరి దశ కోసం చాలా తక్కువ సాంకేతిక పురోగతి పాయింట్లు ఉన్నాయి. ఆ సమయంలో, లైట్నింగ్ శ్రద్ధ విడుదలైంది మరియు మంబా కూడా ప్రాచుర్యం పొందింది, కాబట్టి అతని దృష్టిలో, అది సాధ్యమయ్యే దిశ.

ఇది మినిమాక్స్ యొక్క ఇంటరాక్టివ్ సహచర ఉత్పత్తికి సంబంధించినదా?

దానికి సంబంధం లేదు. యాన్ జుంజియా మోడల్ యొక్క ఎగువ పరిమితి మరియు ఈ పరిమితిని మరింత ఎలా అధిగమించాలనే దాని గురించి మరింత ఆందోళన చెందుతున్నాడు.

లీనియర్ శ్రద్ధ అనేది పైకప్పును ఛేదించడం కంటే సామర్థ్యాన్ని ఛేదించే దిశగా ఎక్కువగా ఉండవచ్చు.

ఇక్కడ విషయం ఏమిటంటే, మొదటగా, ప్రతి తయారీదారు యొక్క కంప్యూటింగ్ శక్తి స్థిరంగా ఉంటుంది. మోడల్‌ను ఎంత వేగంగా వేగవంతం చేయగలిగితే, అది ఎక్కువ డేటాను తినగలదు మరియు ఉత్పత్తి చేయబడిన మోడల్ అంత మంచిది. కంప్యూటింగ్ శక్తి స్థిరంగా ఉన్నప్పుడు, మోడల్ ఎంత వేగంగా ఉంటే అంత మంచిది.

డేటా గరిష్ట స్థాయికి చేరుకున్న పరిస్థితిని మీరు గమనించారా?

ఇంకా లేదు, సరియైనదా? డేటా ఇప్పటికీ నిరంతర పెరుగుదల దశలోనే ఉంది, కానీ ఇది 23లో ఉన్నంత దూకుడుగా ఉండకపోవచ్చు.

ఎందుకంటే డేటా ఎప్పుడూ పెరుగుతూనే ఉంటుంది మరియు ప్రతిరోజూ కొత్త డేటా వస్తుంది. మోడల్ కోసం, అది ప్రతిరోజూ ప్రాసెస్ చేయడానికి కొత్త డేటాను కలిగి ఉంటుంది. ప్రతిరోజూ ఇంటర్నెట్ ద్వారా ఉత్పత్తి చేయబడిన డేటా చాలా ఎక్కువ. శుభ్రపరచడం ద్వారా, మేము ఇప్పటికీ కొత్త డేటాను పొందవచ్చు.

మానవ అభివృద్ధి యొక్క అనేక సంవత్సరాలుగా ఉన్న డేటాతో పోలిస్తే, డేటా వృద్ధి రేటు మందగించిందా?

నిజానికి, తప్పనిసరిగా కాదు. చైనా చరిత్ర యొక్క ఐదు వేల సంవత్సరాలు చూడండి మరియు కొన్ని పుస్తకాలు మాత్రమే పేరుకుపోయాయి. కానీ ఇంటర్నెట్ అభివృద్ధి చెందడంతో, డేటా వాల్యూమ్‌లో పెరుగుదల చాలా నిటారుగా ఉండే వక్రరేఖ. ఇంటర్నెట్‌కు ముందు ఉత్పత్తి చేయబడిన మొత్తం డేటా తరువాత ఒక సంవత్సరంలో ఉత్పత్తి చేయబడిన డేటా వలె ఎక్కువగా ఉండకపోవచ్చు.

పెంచే ప్రక్రియలో, లైట్నింగ్ శ్రద్ధ ఏ సవాళ్లను ఎదుర్కొంది?

దాని స్కేలబిలిటీని ధృవీకరించడానికి, మేము మొదట స్కేలింగ్ లా ప్రయోగాలు చేసాము, చిన్న మోడల్‌ల నుండి 7B, 9B వరకు క్రమంగా విస్తరించాము మరియు చివరికి 400B కంటే ఎక్కువ మోడల్‌లకు పెంచాము.

మరియు లీనియర్ యొక్క సామర్థ్యం ట్రాన్స్‌ఫార్మర్ కంటే పెద్దదని మేము సిద్ధాంతపరంగా నిరూపించాము.

మేము సామర్థ్యాన్ని RNN యొక్క ప్రస్తుత స్థితుల పరిమాణంగా నిర్వచిస్తాము. ట్రాన్స్‌ఫార్మర్ కోసం, సామర్థ్యం పరిమాణం O(d), ఇక్కడ d పరిమాణం; లీనియర్ శ్రద్ధ కోసం, సామర్థ్యం పరిమాణం d²/h. d అనేది h కంటే చాలా పెద్దది కాబట్టి, సామర్థ్యం పెద్దది.

చివరికి, హైబ్రిడ్ మోడల్ స్వచ్ఛమైన ట్రాన్స్‌ఫార్మర్ కంటే మెరుగ్గా ఉందని కూడా మేము ధృవీకరించాము.

4M పొడవు సీక్వెన్స్ విండో ఎలా సాధించబడింది?

లైట్నింగ్ కోసం, శిక్షణ పొడవు ఏకపక్షంగా ఉంటుంది. కంప్యూటింగ్ శక్తి పూర్తిగా ఉపయోగించబడినంత కాలం, 8K, 32K లేదా 128K శిక్షణ వేగం ఒకే విధంగా ఉంటుంది మరియు TGS (సెకనుకు GPUకి టోకెన్) ఒకే విధంగా ఉంటుంది.

ట్రాన్స్‌ఫార్మర్ n² గణన సంక్లిష్టత కాబట్టి, సీక్వెన్స్ ఎంత పొడవుగా ఉంటే, గణన సంక్లిష్టత అంత వేగంగా పెరుగుతుంది మరియు లేటెన్సీ క్వాడ్రాటిక్ వక్రరేఖలో పెరుగుతుంది. 1M పొడవు వద్ద, సాఫ్ట్‌మాక్స్ శ్రద్ధ యొక్క లేటెన్సీ లైట్నింగ్ శ్రద్ధ కంటే 2,700 రెట్లు ఎక్కువ.

భవిష్యత్తులో అనంతమైన సందర్భ విండోను సాధించడానికి ఏ సాంకేతిక సవాళ్లను పరిష్కరించాలి?

మా ప్రస్తుత హైబ్రిడ్ ఆర్కిటెక్చర్‌లో, ఇంకా 1/8 సాఫ్ట్‌మాక్స్ శ్రద్ధ ఉంది. ఇది 1M పొడవు వద్ద ఒక అవరోధం. ఈ 1/8 ద్వారా తీసుకువచ్చిన లేటెన్సీ మిగిలిన 7/8 లీనియర్ శ్రద్ధ కంటే చాలా ఎక్కువ.

మేము పొడవైన వచనాన్ని ఆప్టిమైజ్ చేయాలనుకుంటే, మేము సాఫ్ట్‌మాక్స్ శ్రద్ధ భాగాన్ని ఆప్టిమైజ్ చేయడం గురించి ఆలోచించాలి. మేము దానిని వేగంగా మరియు తేలికగా చేయడానికి స్పార్స్ శ్రద్ధ పద్ధతుల నుండి నేర్చుకోవచ్చు.

అదనంగా, మేము సాఫ్ట్‌మాక్స్ మరియు లీనియర్ శ్రద్ధ యొక్క మిక్సింగ్ నిష్పత్తిని మరింత తీవ్రంగా చేయడానికి కూడా ఆలోచిస్తున్నాము, ఇకపై 1/8 కాదు, బహుశా 1/16 లేదా 1/32. అత్యంత రాడికల్ పరిష్కారం ఏమిటంటే మొత్తం మోడల్‌లో ఒక పొర సాఫ్ట్‌మాక్స్‌ను మాత్రమే ఉంచడం, అయితే బీమా కోసం, మేము దానిని స్వీకరించలేదు, ప్రధానంగా తిరిగి పొందే సామర్థ్యంపై ప్రభావం చూపుతుందని భావించి.

మోడల్‌కు తిరిగి పొందే సామర్థ్యం ఎందుకు చాలా ముఖ్యం?

తిరిగి పొందడం అనేది సందర్భోచిత అభ్యాసానికి ఆధారం మరియు అవసరమైన షరతు.

సందర్భోచిత అభ్యాసం చేయడానికి మీరు సందర్భంలోని సమాచారాన్ని గుర్తుంచుకోవాలి మరియు సందర్భోచిత అభ్యాసం అనేది ప్రస్తుత పెద్ద మోడల్‌ల యొక్క అన్ని అధునాతన సామర్థ్యాలకు ఆధారం, ఉదాహరణకు CoT (చైన్ ఆఫ్ థాట్), ముఖ్యంగా పొడవైన CoT, ఇవన్నీ తిరిగి పొందే సామర్థ్యంపై ఆధారపడి ఉంటాయి.

నిర్ణయాత్మక కొత్త ఆర్కిటెక్చర్

పరిశ్రమలో FFN మరియు శ్రద్ధలో తాజా ఆర్కిటెక్చరల్ మెరుగుదలలపై మీరు శ్రద్ధ వహించారా?

FFN యొక్క మెరుగుదల మో. నేను బైట్ యొక్క అల్ట్రా మెమ్‌కు కూడా శ్రద్ధ వహించాను, కానీ అది నష్టపోయే విషయం అని నేను భావిస్తున్నాను, నష్టపోయే కుదింపు. భవిష్యత్తులో అది పెరిగితే సమస్యలు ఉండవచ్చు, కానీ మేము పెంచలేదు, కాబట్టి సమస్యలు ఉండవచ్చని మాత్రమే నేను చెప్పగలను.

ఎందుకంటే FFN ప్రాథమికంగా ఇవి. మో ప్రాంతంలో మా మెరుగుదలలు మునుపటి పెద్ద నిపుణుడు నుండి ప్రస్తుత చిన్న నిపుణుడు మోడ్‌కు మారడం కంటే ఎక్కువ కాదు, దానిని మరింత విరళంగా చేయడం, ఆపై కొంత త్వరణం చేయడం, దీనికి మరింత పరిశోధన అవసరం.

మీరు దానిని మరింత ఆప్టిమైజ్ చేయాలనుకుంటే, FFN మ్యాట్రిక్స్ గుణకారం కాబట్టి, ఆప్టిమైజేషన్ Nvidia ద్వారా మాత్రమే CUDA స్థాయిలో చేయవచ్చు, మ్యాట్రిక్స్ గుణకారం యొక్క దిగువ-స్థాయి ఆప్టిమైజేషన్‌లను చేయడం.

పరిశ్రమలో శ్రద్ధ నిర్మాణంలో మెరుగుదలలపై మీరు శ్రద్ధ వహించారా?

శ్రద్ధపై మెరుగుదలలు ప్రాథమికంగా లీనియర్. మేము భవిష్యత్తులో బలమైన లీనియర్‌ను తయారు చేయాలా మరియు ప్రస్తుత ఆధారంగా లీనియర్ శ్రద్ధను మరింత వేగవంతం చేయాలా అని కూడా ఆలోచిస్తున్నాము.

మెరుగుపరచడానికి చాలా మార్గాలు ఉన్నాయి, ఒకటి క్షయాన్ని మార్చడం మరియు మరొకటి లోపల కొన్ని చిన్న ఉపాయాలను మార్చడం. మీరు మా కొత్త పేపర్ కోసం ఎదురు చూడవచ్చు.

మా ప్రస్తుత సందర్భ పొడవు మరియు అనుమితి వ్యయం నిష్పత్తి సాపేక్షంగా అధునాతనమైనదా?

ఇది సీక్వెన్స్ పొడవును పొడిగించడంతో సంబంధం కలిగి ఉంటే, మాకు చాలా స్పష్టమైన కంప్యూటింగ్ పవర్ వ్యయ ప్రయోజనం ఉంది. ఇది ఎంత ఎక్కువసేపు ఉంటే, వ్యయ ప్రయోజనం అంత స్పష్టంగా ఉంటుంది, అది అనుమితి అయినా శిక్షణ అయినా.

ఉదాహరణకు, 1M వద్ద, లీనియర్ శ్రద్ధ ద్వారా వినియోగించబడే కంప్యూటింగ్ శక్తి పూర్తి శ్రద్ధలో 1/2700. పోలికలో, మాకు ఇంకా 1/8 పూర్తి శ్రద్ధ ఉన్నందున, ఇది ప్రాథమికంగా ట్రాన్స్‌ఫార్మర్ ఆర్కిటెక్చర్‌లో 1/8, ఎందుకంటే లీనియర్ శ్రద్ధ ప్రాథమికంగా ఖర్చుగా లెక్కించబడదు.

గణన వ్యయం చాలా తక్కువగా ఉంటే, అది గణన అవరోధాన్ని సాధించగలదా?

ఇప్పుడు ఇది నిజానికి మెమరీ యాక్సెస్ అవరోధం. డీకోడింగ్ అనేది మెమరీ యాక్సెస్ అవరోధం, గణన అవరోధం కాదు. లైట్నింగ్ చాలా వేగంగా ఉంది కాబట్టి, గణన వలె తక్కువ వనరులను ఆక్రమించడానికి మెమరీ యాక్సెస్‌ను అనుమతించడానికి ఇది చాలా వేగంగా ఉంది. ఇది ప్రధానంగా వాస్తవ అనువర్తనాల్లో సీక్వెన్స్ పొడవు తగినంతగా లేకపోవడమే.

భవిష్యత్తులో దానిని గణన అవరోధంగా ఎలా మార్చాలి అనేది మెమరీ యాక్సెస్‌ను ఎలా ఆప్టిమైజ్ చేయాలనే దానిపై ఆధారపడి ఉంటుంది. ఇంజనీరింగ్ విభాగం బాధ్యత వహించాల్సిన విషయాలు ఇవి.

లీనియర్ ఆర్కిటెక్చర్ తదుపరి తరం యొక్క ప్రధాన స్రవంతి ఆర్కిటెక్చర్‌గా మారితే, దానికి మరింత అనుకూలంగా ఉండే హార్డ్‌వేర్ అనుసరణ మెరుగుదలలు ఏమిటి?

ఇక్కడ చాలా కష్టమైన విషయం ఏమిటంటే, మనం సీక్వెన్స్ పొడవును పరిగణనలోకి తీసుకోవాలి. మీ సీక్వెన్స్ పొడవు 8K లేదా 32Kపై దృష్టి సారించినట్లయితే, శ్రద్ధ పది శాతం కంటే కొంచెం ఎక్కువ మాత్రమే ఉంటుంది మరియు మిగిలిన ఎనభై శాతం FFN భాగం.

మీరు శ్రద్ధను విపరీతంగా ఆప్టిమైజ్ చేసినప్పటికీ, 0కి చేసినప్పటికీ, మీరు లేటెన్సీలో పది శాతం కంటే కొంచెం మాత్రమే ఆప్టిమైజ్ చేసారు. కానీ మీరు సీక్వెన్స్ పొడవును పొడిగిస్తే, శ్రద్ధ యొక్క నిష్పత్తి ఎక్కువ మరియు ఎక్కువ అవుతుంది. ఇది పూర్తి శ్రద్ధతో పోలిస్తే, కానీ లీనియర్ శ్రద్ధ కోసం, దాని నిష్పత్తి మారదు.

FFN కూడా లీనియర్‌గా ఉంటుంది కాబట్టి మరియు లీనియర్ శ్రద్ధ కూడా లీనియర్‌గా ఉంటుంది కాబట్టి, దాని నిష్పత్తి సుమారు 10%, ఇది 1M విషయంలో కూడా దాదాపు మారదు.

కానీ అది పూర్తి శ్రద్ధ అయితే, శ్రద్ధ గణన 99% ఉంటుంది మరియు క్రింది FFN 1% మాత్రమే ఉంటుంది. కాబట్టి లీనియర్ శ్రద్ధకు పొడవైన వచనాల్లో మాత్రమే ప్రయోజనాలు ఉన్నాయి.

లీనియర్ ఆర్కిటెక్చర్ ప్రధాన స్రవంతిగా మారితే, అప్పుడు తక్కువ-శక్తి హార్డ్‌వేర్ కోసం వెతకవచ్చు, శక్తి వినియోగాన్ని మాత్రమే తగ్గిస్తుంది. స్పైకింగ్ న్యూరల్ నెట్‌వర్క్ (SNN) చిప్‌లతో సహా, ఇది మరింత అనుకూలంగా ఉండవచ్చు మరియు కొంతమంది నిజానికి చేస్తున్నారు.

AGIకి రోడ్డు కోసం ఎదురు చూడటం

మోడల్ ఓపెన్-సోర్స్ ప్రభావం కోసం మీ అంచనాలు ఏమిటి?

మొదటిది ప్రచారం ప్రభావం. కొంతమంది కండరాలను చూపించడంతో పాటు, ఓపెన్ సోర్స్ కోసం చాలా ముఖ్యమైన విషయం ఏమిటంటే, భవిష్యత్తులో ప్రతి ఒక్కరూ దానిని ఎలా ఉపయోగించగలరో చూడటం అని నేను వ్యక్తిగతంగా అనుకుంటున్నాను. చిన్న మోడల్ ఓపెన్ సోర్స్ భవిష్యత్తులో మనం చేయాలని ఎక్కువగా ఆలోచిస్తున్నది కావచ్చు అని నేను అనుకుంటున్నాను.

మరియు ప్రతి ఒక్కరూ ఫైన్‌ట్యూన్ చేయడానికి కొంత మౌలిక సదుపాయాలను ఎలా తయారు చేయాలనే దాని గురించి కూడా ఆలోచించాల్సి ఉంటుంది. ఓపెన్ సోర్స్ భవిష్యత్తులో మాకు దీర్ఘకాలిక విషయం మరియు ప్రధాన నమూనాలు ఓపెన్-సోర్స్ చేయబడాలి.

హైబ్రిడ్ కాని స్వచ్ఛమైన రక్త నిర్మాణం భవిష్యత్తులో అమలు కావడం సాధ్యమేనా?

ప్రస్తుతం, హైబ్రిడ్ కంటే మెరుగ్గా పనిచేసే పద్ధతి లేదు, ప్రత్యేకించి వేగం పరంగా. కొద్ది భాగం సాఫ్ట్‌మాక్స్ శ్రద్ధను జోడించడం, సీక్వెన్స్ పొడవు ప్రత్యేకంగా పొడవుగా లేనప్పుడు వేగ ప్రయోజనం చాలా స్పష్టంగా ఉంటుంది, ప్రత్యేకించి ఫ్లాష్ శ్రద్ధ ఆవిర్భావం తరువాత.

స్వచ్ఛమైన రక్త నిర్మాణంపై పరిశోధన ఇంకా కొనసాగుతోంది, కానీ ఇది చాలా కష్టం మరియు తక్కువ వేలాడే పండ్లు లేవు. మాకు కొన్ని సాంకేతిక పరిష్కారాలు ఉన్నాయి, కానీ అమలు సులభం కాదు మరియు ఇది చివరికి మనం ఎంత పొడవైన సీక్వెన్స్ పొడవును సాధించాలో దానిపై ఆధారపడి ఉంటుంది.

మరొక ప్రశ్న ఏమిటంటే, అల్ట్రా-పొడవైన వచనాలకు బలమైన డిమాండ్ ఉందా? క్లాడ్ వంటి మోడల్‌లు 200K సందర్భానికి చేరుకున్నప్పటికీ, వినియోగదారులు ప్రస్తుత పొడవుతో చాలా సంతృప్తిగా ఉన్నట్లు కనిపిస్తుంది. ఏజెంట్ అనువర్తనాలు భవిష్యత్తులో అల్ట్రా-పొడవైన సీక్వెన్స్‌లకు డిమాండ్‌ను తీసుకురావచ్చు, కానీ ఇంకా పరిపక్వ ప్రమాణం లేదు.

కానీ భవిష్యత్తులో ఆటల కోసం Nvidia అధునాతన పనితీరు గ్రాఫిక్స్ కార్డులను అభివృద్ధి చేయడం వంటిది ఈ సమస్య అని నేను అనుకుంటున్నాను, అవి ఇప్పుడు అవసరం లేకపోయినా, అది భవిష్యత్తు కోసం సాంకేతికత.

ఉదాహరణకు, లోతైన పరిశోధనకు మోడల్ డజన్ల కొద్దీ వెబ్‌సైట్‌ల కంటెంట్‌ను చదవడానికి అవసరం మరియు ప్రాసెసింగ్ సమయం పదుల నిమిషాల క్రమంలో ఉంటుంది, ఇది పొడవైన వచనాల కోసం ఒక అనువర్తన దిశగా ఉండవచ్చు.

CoT తరువాత తదుపరి పెద్ద విషయం ఏమిటో మీరు అనుకుంటున్నారు?

మేము దీని గురించి ఆలోచించాము. మొదటగా, ప్రస్తుత తార్కిక నమూనా సాపేక్షంగా ప్రాచుర్యం పొందింది మరియు ఈ సంవత్సరం ప్రధాన స్రవంతి ఇప్పటికీ తార్కిక భాగం అవుతుంది. ఆ తరువాత, స్వచ్ఛమైన భాషా నమూనాల భవిష్యత్తులో ప్రత్యేకంగా పెద్ద మార్పులను ఆలోచించడం మాకు కష్టం.

నేను ఇతర ఉపాధ్యాయులతో కూడా మాట్లాడాను మరియు వారి భావన ఏమిటంటే, ప్రతి ఒక్కరూ మోడల్ యొక్క వ్యయాన్ని తిరిగి తగ్గిస్తారు, తద్వారా తార్కికం యొక్క వేగం వేగంగా మరియు వేగంగా మారుతుంది మరియు దాని ధర తక్కువగా మరియు తక్కువగా మారుతుంది మరియు ప్రభావంను కొనసాగిస్తూ ఖర్చు తగ్గుతుంది.

పైకప్పు త్వరగా సమీపిస్తున్నందున, చాలా సందర్భాలలో పెద్ద మోడల్‌ల సామర్థ్యాలలో ఖాళీలను తనిఖీ చేయడం మరియు పూరించడం జరుగుతుంది. కానీ ఇంకా ఎక్కువ సాంకేతిక పురోగతులు ఉంటే, అవి స్వల్పకాలికంలో చాలా అరుదుగా ఉండవచ్చు మరియు మేము వాటిని ఇంకా చూడలేదు.

మినిమాక్స్ లీనియర్ శ్రద్ధను అన్వేషించిన తరువాత, అన్వేషించడానికి తదుపరి దిశ ఏమిటి?

తదుపరి విషయం ఏమిటంటే, మల్టీమోడల్ యొక్క నిర్మాణాన్ని అన్వేషించడం కావచ్చు, ప్రత్యేకించి ఈ స్థానిక తరం మరియు అవగాహన ఏకీకృత పెద్ద మోడల్ నిర్మాణాన్ని మనం చేయాలనుకుంటున్నామా.

AGI తుది బిందువుగా, O(n²) లేదా O(n) యొక్క గణన సంక్లిష్టతతో ఏ మోడల్ మంచి సమాధానం అవుతుంది?

ఖచ్చితంగా, ఇది O(n). మానవత్వం యొక్క కోణం నుండి, ప్రజలు O(n) సంక్లిష్టతను కలిగి ఉండాలి. ఉదాహరణకు, ఒక వ్యక్తి యొక్క సంక్లిష్టత O(n²) అయితే, నేను మీతో మాట్లాడే వేగం నెమ్మదిగా మరియు నెమ్మదిగా మారుతుంది.

ట్రాన్స్‌ఫార్మర్ కోసం, దాని అనుమితి సంక్లిష్టత O(n²) గణన సంక్లిష్టత, అంటే మొదటి టోకెన్‌ను వెలికితీసే మరియు 100వ టోకెన్‌ను వెలికితీసే లేటెన్సీ భిన్నంగా ఉంటుంది.

మేము మానవులం అలాంటి విషయాన్ని ఊహించలేము, ఎందుకంటే ప్రజలు పుట్టినప్పటి నుండి తిరిగి ప్రారంభించబడలేదు మరియు ఎల్లప్పుడూ విషయాలను వెలికితీస్తున్నారు, కాబట్టి ప్రజల గణన సంక్లిష్టత స్థిరంగా ఉంటుంది.

మనిషి తప్పనిసరిగా తెలివితేటలకు సరైన పరిష్కారమా?

మేము ప్రస్తుతానికి అలా మాత్రమే ఆలోచించగలము. జీవ అనుకరణ తెలివితేటల మార్గాన్ని చేసే కొంతమంది కూడా ఉన్నారు, కానీ మేము ఆ దిశలకు ఎక్కువ శ్రద్ధ వహించలేదు.

AGI తుది ఆటగా, మోడల్ మెరుగుదల యొక్క ఏ ప్రాంతాలు చాలా ముఖ్యమైన విషయాలు?

భాషా నమూనాతో పాటు, అభ్యాస పద్ధతుల సమస్య కూడా ఉంది. మీరు ఎలా నేర్చుకుంటారు మరియు పరిసరాల నుండి ఎలా నేర్చుకుంటారు, పరిసరాలతో పరస్పర చర్య నుండి నేర్చుకోవడం చాలా ముఖ్యం. అన్నింటికంటే, ప్రస్తుత మల్టీమోడల్ అవగాహన డేటాలో చాలా లోపించింది.

మరియు యంత్రాల యొక్క కొన్ని-షాట్ అభ్యాసం కూడా ప్రస్తుతం లేబుల్ చేయబడింది, కానీ మానవ అభ్యాసం లేబుల్ చేయబడలేదు. కాబట్టి స్వీయ-నిర్మిత ఫ్రేమ్‌వర్క్ క్రింద ప్రతిదీ ఎలా ఏకీకృతం చేయాలనేది కూడా ఒక సమస్య.

న నవీకరించబడింది 2025-04-19

# LLM # AGI # MiniMax