AI అభివృద్ధి నిరంతరం సాగుతోంది. పెద్ద నమూనాలు తెలివిగా ఉంటాయి, కానీ వాటి కార్యాచరణ అవసరాలు కూడా పెరుగుతాయి. ఇది ఒక ముఖ్యమైన సవాలును సృష్టిస్తుంది, ముఖ్యంగా అధునాతన AI చిప్లకు పరిమిత ప్రాప్తి ఉన్న ప్రాంతాలలో. భౌగోళిక పరిమితులు ఉన్నప్పటికీ, మోడల్ డెవలపర్లలో మిక్చర్ ఆఫ్ ఎక్స్పర్ట్స్ (MoE) ఆర్కిటెక్చర్లను స్వీకరించే ధోరణి పెరుగుతోంది, దీనికి వినూత్న కుదింపు పద్ధతులు జతచేయబడ్డాయి. లక్ష్యం ఏమిటి? ఈ విస్తృతమైన లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMలు) నడపడానికి అవసరమైన గణన వనరులను గణనీయంగా తగ్గించడం. ChatGPT ద్వారా ప్రేరేపించబడిన జనరేటివ్ AI బూమ్ మూడవ వార్షికోత్సవం దగ్గర పడుతున్నందున, ఈ శక్తి-ఆకలి నమూనాలను అమలులో ఉంచడం వల్ల కలిగే ఆర్థిక చిక్కులను పరిశ్రమ తీవ్రంగా పరిగణించడం ప్రారంభించింది.
మిస్ట్రాల్ AI వంటి MoE నమూనాలు కొంతకాలంగా ఉన్నాయి, కానీ వాటి నిజమైన పురోగతి గత సంవత్సరంలో జరిగింది. Microsoft, Google, IBM, Meta, DeepSeek మరియు Alibaba వంటి సాంకేతిక దిగ్గజాల నుండి కొత్త ఓపెన్-సోర్స్ LLMల పెరుగుదలను మనం చూశాము, ఇవన్నీ MoE ఆర్కిటెక్చర్ యొక్క కొంత రూపాన్ని ఉపయోగించుకుంటున్నాయి. ఆకర్షణ సూటిగా ఉంటుంది: MoE ఆర్కిటెక్చర్లు సాంప్రదాయ “దట్టమైన” మోడల్ ఆర్కిటెక్చర్లకు చాలా సమర్థవంతమైన ప్రత్యామ్నాయాన్ని అందిస్తాయి.
మెమరీ పరిమితులను అధిగమించడం
MoE ఆర్కిటెక్చర్ పునాది 1990ల ప్రారంభంలో “అడాప్టివ్ మిక్చర్స్ ఆఫ్ లోకల్ ఎక్స్పర్ట్స్” ప్రచురణతో ప్రారంభమైంది. ప్రధాన ఆలోచన ఏమిటంటే, విస్తృత డేటా స్పెక్ట్రంపై శిక్షణ పొందిన ఒకే, భారీ నమూనాపై ఆధారపడకుండా, కార్యాలను ఒకటి లేదా అంతకంటే ఎక్కువ ప్రత్యేక ఉప-నమూనాలు లేదా “నిపుణులు”కు పంపిణీ చేయడం.
సిద్ధాంతపరంగా, ప్రతి నిపుణుడు కోడింగ్ మరియు గణితశాస్త్రం నుండి సృజనాత్మక రచన వరకు ఒక నిర్దిష్ట డొమైన్ కోసం ఖచ్చితంగా ఆప్టిమైజ్ చేయబడవచ్చు. అయితే, చాలా మంది మోడల్ డెవలపర్లు వారి MoE నమూనాలలో నిర్దిష్ట నిపుణుల గురించి పరిమిత వివరాలను అందిస్తారని గమనించదగినది, మరియు నిపుణుల సంఖ్య మోడల్ నుండి మోడల్కు మారుతూ ఉంటుంది. చాలా ముఖ్యంగా, మొత్తం మోడల్లో కొంత భాగం మాత్రమే ఏదో ఒక సమయంలో చురుకుగా నిమగ్నమై ఉంటుంది.
DeepSeek యొక్క V3 మోడల్ను పరిగణించండి, ఇందులో షేర్డ్ ఎక్స్పర్ట్తో పాటు 256 రూటెడ్ ఎక్స్పర్ట్లు ఉంటాయి. టోకెన్ ప్రాసెసింగ్ సమయంలో, ఎనిమిది రూటెడ్ ఎక్స్పర్ట్లు మాత్రమే యాక్టివేట్ చేయబడతాయి, ప్లస్ షేర్డ్. ఈ సెలెక్టివ్ యాక్టివేషన్ అంటే MoE నమూనాలు ఎల్లప్పుడూ అదే పరిమాణంలోని దట్టమైన నమూనాల వలె ఒకే స్థాయి నాణ్యతను సాధించకపోవచ్చు. ఉదాహరణకు, Alibaba యొక్క Qwen3-30B-A3B MoE మోడల్, Alibaba యొక్క బెంచ్మార్క్ పరీక్షలలో దట్టమైన Qwen3-32B మోడల్ కంటే నిలకడగా తక్కువ పనితీరును కనబరిచింది.
అయితే, MoE ఆర్కిటెక్చర్లు అందించే గణనీయమైన సామర్థ్య లాభాలకు వ్యతిరేకంగా ఈ స్వల్ప నాణ్యత తగ్గుదలను సందర్భోచితం చేయడం చాలా అవసరం. క్రియాశీల పారామితుల తగ్గింపు వలన మెమరీ బ్యాండ్విడ్త్ అవసరాలు ఇకపై మోడల్ యొక్క బరువులను నిల్వ చేయడానికి అవసరమైన సామర్థ్యానికి నేరుగా అనులోమానుపాతంలో ఉండవు. ముఖ్యంగా, MoE నమూనాలకు ఇప్పటికీ గణనీయమైన మెమరీ అవసరమైనప్పటికీ, అది వేగవంతమైన మరియు అత్యంత ఖరీదైన హై బ్యాండ్విడ్త్ మెమరీ (HBM)గా ఉండవలసిన అవసరం లేదు.
దీనిని ఒక పోలికతో చూపిద్దాం. Meta యొక్క అతిపెద్ద “దట్టమైన” మోడల్, Llama 3.1 405B, మరియు Llama 4 Maverickని పరిగణించండి, ఇది MoE ఆర్కిటెక్చర్ను ఉపయోగించే పోల్చదగిన మోడల్, ఇది 17 బిలియన్ల యాక్టివ్ పారామితులను కలిగి ఉంది. బ్యాచ్ పరిమాణం, ఫ్లోటింగ్-పాయింట్ పనితీరు మరియు కీ-విలువ కాషింగ్ వంటి అనేక అంశాలు నిజ-ప్రపంచ పనితీరుకు దోహదం చేస్తున్నప్పటికీ, ఇచ్చిన ఖచ్చితత్వంతో గిగాబైట్లలో మోడల్ పరిమాణాన్ని (8-బిట్ మోడల్ల కోసం పారామితికి 1 బైట్) లక్ష్య టోకెన్ల ద్వారా గుణించడం ద్వారా కనీస బ్యాండ్విడ్త్ అవసరాలను అంచనా వేయవచ్చు.
Llama 3.1 405B యొక్క 8-బిట్ క్వాంటైజ్డ్ వెర్షన్ను అమలు చేయడానికి 405 GB కంటే ఎక్కువ vRAM అవసరం మరియు సెకనుకు 50 టోకెన్ల వద్ద వచనాన్ని ఉత్పత్తి చేయడానికి కనీసం 20 TB/s మెమరీ బ్యాండ్విడ్త్ అవసరం. Nvidia యొక్క HGX H100-ఆధారిత సిస్టమ్లు, ఇవి ఇటీవల వరకు $300,000 లేదా అంతకంటే ఎక్కువ ధరలను కలిగి ఉన్నాయి, కేవలం 640 GB HBM3 మరియు సుమారు 26.8 TB/s సంచిత బ్యాండ్విడ్త్ను అందించాయి. పూర్తి 16-బిట్ మోడల్ను అమలు చేయడానికి ఈ సిస్టమ్లలో కనీసం రెండు అవసరం.
దీనికి విరుద్ధంగా, Llama 4 Maverick, ఒకే మొత్తంలో మెమరీని వినియోగిస్తున్నప్పటికీ, పోల్చదగిన పనితీరును సాధించడానికి 1 TB/s కంటే తక్కువ బ్యాండ్విడ్త్ అవసరం. దీనికి కారణం ఉత్పత్తిని రూపొందించడంలో 17 బిలియన్ పారామితుల విలువ కలిగిన మోడల్ నిపుణులు మాత్రమే చురుకుగా పాల్గొనడం. ఇది ఒకే హార్డ్వేర్పై టెక్స్ట్ జనరేషన్ వేగంలో ఒక క్రమం-పరిమాణ పెరుగుదలకు అనువదిస్తుంది.
దీనికి విరుద్ధంగా, కేవలం పనితీరు ప్రధాన ఆందోళన కానట్లయితే, ఈ మోడల్లలో చాలా వాటిని ఇప్పుడు చౌకైన, అయినప్పటికీ నెమ్మదిగా GDDR6, GDDR7 లేదా Intel యొక్క తాజా Xeonలలో కనిపించే DDR మెమరీపై అమలు చేయవచ్చు.
Computex వద్ద ప్రకటించబడిన Nvidia యొక్క కొత్త RTX ప్రో సర్వర్లు ఈ దృష్టాంతానికి అనుగుణంగానే ఉన్నాయి. అధునాతన ప్యాకేజింగ్ అవసరమయ్యే ఖరీదైన మరియు పవర్-హంగ్రీ HBMపై ఆధారపడకుండా, ఈ సిస్టమ్లలోని ఎనిమిది RTX ప్రో 6000 GPUలలో ప్రతి ఒక్కటి 96 GB GDDR7 మెమరీతో అమర్చబడి ఉంది, ఇది ఆధునిక గేమింగ్ కార్డులలో కనిపించే అదే రకం.
ఈ సిస్టమ్లు 768 GB వరకు vRAM మరియు 12.8 TB/s సంచిత బ్యాండ్విత్ను అందిస్తాయి, ఇది Llama 4 Maverickని సెకనుకు వందలాది టోకెన్ల వద్ద అమలు చేయడానికి సరిపోతుంది. Nvidia ధరను వెల్లడించనప్పటికీ, ఈ కార్డుల వర్క్స్టేషన్ ఎడిషన్ సుమారు $8,500కు విక్రయించబడుతోంది, ఈ సర్వర్లు ఉపయోగించిన HGX H100 ధరలో సగం కంటే తక్కువగా ఉండవచ్చని సూచిస్తుంది.
అయితే, MoE అనేది HBM-స్టాక్డ్ GPUల ముగింపును సూచించదు. Llama 4 Behemoth, అది ఎప్పుడైనా రవాణా చేస్తే, దాని భారీ పరిమాణం కారణంగా GPUలతో నిండిన ర్యాక్ అవసరమని ఆశించండి.
ఇది Llama 3.1 405B వలె సగం యాక్టివ్ పారామితులను కలిగి ఉన్నప్పటికీ, ఇది మొత్తం 2 ట్రిలియన్ పారామితులను కలిగి ఉంది. ప్రస్తుతం, పూర్తి 16-బిట్ మోడల్ను మరియు మిలియన్ టోకెన్లు లేదా అంతకంటే ఎక్కువ సందర్భ విండోను కలిగి ఉండగల మార్కెట్లో ఒకే ఒక్క సాధారణ GPU సర్వర్ లేదు.
AIలో CPU పునరుజ్జీవనం?
నిర్దిష్ట అప్లికేషన్ను బట్టి, GPU ఎల్లప్పుడూ అవసరం కాకపోవచ్చు, ముఖ్యంగా హై-ఎండ్ యాక్సిలరేటర్లకు ప్రాప్యత పరిమితం చేయబడిన ప్రాంతాలలో.
Intel ఏప్రిల్లో 8800 MT/s MCRDIMMలతో కూడిన డ్యూయల్-సాకెట్ Xeon 6 ప్లాట్ఫారమ్ను ప్రదర్శించింది. ఈ సెటప్ Llama 4 Maverickలో సెకనుకు 240 టోకెన్ల త్రూపుట్ను సాధించింది, సగటు అవుట్పుట్ లేటెన్సీ టోకెన్కు 100 ms కంటే తక్కువగా ఉంది.
సరళంగా చెప్పాలంటే, Xeon ప్లాట్ఫారమ్ సుమారు 24 మంది ఏకకాల వినియోగదారుల కోసం ప్రతి వినియోగదారుకు సెకనుకు 10 టోకెన్లు లేదా అంతకంటే ఎక్కువ నిర్వహించగలదు.
Intel ఒక వినియోగదారు పనితీరు గణాంకాలను వెల్లడించలేదు, ఎందుకంటే అవి నిజ-ప్రపంచ దృష్టాంతాలలో తక్కువ సంబంధితంగా ఉంటాయి. అయితే, అంచనాలు సెకనుకు 100 టోకెన్ల గరిష్ట పనితీరును సూచిస్తున్నాయి.
అయినప్పటికీ, మెరుగైన ప్రత్యామ్నాయాలు లేదా నిర్దిష్ట అవసరాలు లేనట్లయితే, CPU-ఆధారిత అనుమితి యొక్క ఆర్థికశాస్త్రం ఉపయోగ సందర్భంపై ఎక్కువగా ఆధారపడి ఉంటుంది.
బరువు తగ్గింపు: కత్తిరింపు మరియు పరిమాణీకరణ
MoE ఆర్కిటెక్చర్లు పెద్ద నమూనాలకు అవసరమైన మెమరీ బ్యాండ్విడ్త్ను తగ్గిస్తాయి, కానీ అవి వాటి బరువులను నిల్వ చేయడానికి అవసరమైన మెమరీ మొత్తాన్ని తగ్గించవు. 8-బిట్ ఖచ్చితత్వంతో కూడా, Llama 4 Maverick అమలు చేయడానికి 400 GB కంటే ఎక్కువ మెమరీ అవసరం, క్రియాశీల పారామితుల సంఖ్యతో సంబంధం లేకుండా.
కొత్త కత్తిరింపు పద్ధతులు మరియు పరిమాణీకరణ పద్ధతులు నాణ్యతను తగ్గించకుండా ఆ అవసరాన్ని సగానికి తగ్గించగలవు.
Nvidia కత్తిరింపుకు మద్దతుదారుగా ఉంది, Meta యొక్క Llama 3 నమూనాల కత్తిరించిన సంస్కరణలను విడుదల చేసింది, వీటిలో అనవసరమైన బరువులు తొలగించబడ్డాయి.
Nvidia 2022లో 8-బిట్ ఫ్లోటింగ్-పాయింట్ డేటా రకాలకు మరియు మళ్లీ 2024లో బ్లాక్వెల్ ఆర్కిటెక్చర్ ప్రారంభంతో 4-బిట్ ఫ్లోటింగ్ పాయింట్కు మద్దతు ఇచ్చిన మొదటి కంపెనీలలో ఒకటి. AMD యొక్క మొదటి చిప్లు స్థానిక FP4 మద్దతును అందించడానికి త్వరలో విడుదల కానున్నాయి.
ఖచ్చితంగా అవసరం కానప్పటికీ, ఈ డేటా రకాల కోసం స్థానిక హార్డ్వేర్ మద్దతు సాధారణంగా గణన అడ్డంకులను ఎదుర్కొనే అవకాశం తగ్గిస్తుంది, ముఖ్యంగా స్కేల్లో అందిస్తున్నప్పుడు.
అధిక సంఖ్యలో మోడల్ డెవలపర్లు తక్కువ-ఖచ్చితత్వ డేటా రకాలను స్వీకరించడాన్ని మనం చూశాము, Meta, Microsoft మరియు Alibaba వారి నమూనాల ఎనిమిది-బిట్ మరియు నాలుగు-బిట్ క్వాంటైజ్డ్ సంస్కరణలను అందిస్తున్నాయి.
Quantization అనేది మోడల్ బరువులను వాటి స్థానిక ఖచ్చితత్వం నుండి, సాధారణంగా BF16, FP8 లేదా INT4కి కుదించడం. ఇది నమూనాల మెమరీ బ్యాండ్విడ్త్ మరియు సామర్థ్య అవసరాలను సగానికి లేదా మూడు వంతులు కూడా తగ్గిస్తుంది, కొంత నాణ్యత ఖర్చుతో.
16 బిట్ల నుండి ఎనిమిది బిట్లకు మారడం వల్ల కలిగే నష్టాలు తరచుగా చాలా తక్కువగా ఉంటాయి మరియు DeepSeekతో సహా అనేక మోడల్ బిల్డర్లు FP8 ఖచ్చితత్వంతో ప్రారంభం నుండి శిక్షణను ప్రారంభించారు. అయితే, ఖచ్చితత్వాన్ని మరో నాలుగు బిట్లు తగ్గించడం వలన నాణ్యత గణనీయంగా తగ్గుతుంది. పర్యవసానంగా, GGUF వంటి అనేక శిక్షణానంతర పరిమాణీకరణ విధానాలు బరువులన్నింటినీ సమానంగా కుదించవు, నాణ్యత నష్టాన్ని తగ్గించడానికి కొన్నింటిని అధిక ఖచ్చితత్వ స్థాయిలలో వదిలివేస్తాయి.
Google ఇటీవల క్వాంటిజేషన్-అవేర్ ట్రైనింగ్ (QAT)ని ఉపయోగించి, దాని Gemma 3 నమూనాలను 4x కారకం ద్వారా తగ్గించి, స్థానిక BF16కు దగ్గరగా ఉండే నాణ్యత స్థాయిలను కొనసాగించింది.
QAT, శిక్షణ సమయంలో తక్కువ-ఖచ్చితత్వ కార్యకలాపాలను అనుకరిస్తుంది. అర్హత లేని మోడల్పై సుమారు 5,000 దశలకు ఈ సాంకేతికతను వర్తింపజేయడం ద్వారా, Google INT4కి మార్చినప్పుడు పెర్ప్లెక్సిటీలో తగ్గుదలను తగ్గించగలిగింది, ఇది పరిమాణీకరణ-సంబంధిత నష్టాలను కొలిచే ఒక కొలమానం, 54 శాతం.
క్వాంటిజేషన్కు మరొక QAT-ఆధారిత విధానం, బిట్నెట్ అని పిలుస్తారు, ఇది మరింత తక్కువ ఖచ్చితత్వ స్థాయిల కోసం లక్ష్యంగా పెట్టుకుంది, నమూనాలను కేవలం 1.58 బిట్లకు లేదా వాటి అసలు పరిమాణంలో పదోవంతుకు కుదించబడింది.
సాంకేతికతల సమన్వయం
MoE మరియు 4-బిట్ పరిమాణీకరణ కలయిక ముఖ్యంగా బ్యాండ్విడ్త్ పరిమితం చేయబడినప్పుడు గణనీయమైన ప్రయోజనాలను అందిస్తుంది.
బ్యాండ్విడ్త్ పరిమితులు లేని వారికి, అయితే, MoE లేదా పరిమాణీకరణ అనే రెండు సాంకేతికతలలో ఏదైనా పెద్ద మరియు శక్తివంతమైన నమూనాలను అమలు చేయడానికి పరికరాలు మరియు కార్యకలాపాల ధరను గణనీయంగా తగ్గించగలవు; వాటిని నిర్వహించడానికి విలువైన సేవను కనుగొనవచ్చని ఊహిస్తూ.
కాకపోతే, మీరు ఒంటరిగా లేరని కనీసం సాంత్వన పొందవచ్చు–ఇటీవల IBM సర్వేలో నాలుగు AI విస్తరణలలో ఒకటి మాత్రమే వాగ్దానం చేసిన పెట్టుబడిపై రాబడిని అందించింది.