ఏజెంట్ AI అనుమితుల కోసం Nvidia వ్యూహం

Nvidia ఏజెంట్ ఆధారిత AI యొక్క భవిష్యత్ తరంగంపై దృష్టి సారించింది, ఇది మునుపెన్నడూ లేని విధంగా అనుమితుల సామర్థ్యాలపై డిమాండ్లను పెంచుతుందని వాగ్దానం చేస్తుంది. ఈ సవాలును ఎదుర్కోవడానికి, Nvidia హార్డ్‌వేర్ మరియు సాఫ్ట్‌వేర్ ఆవిష్కరణలను కలిగి ఉన్న సమగ్ర వ్యూహాన్ని ఆవిష్కరించింది.

హార్డ్‌వేర్ వ్యూహం: స్కేలింగ్ అప్ అండ్ అవుట్

Nvidia యొక్క హార్డ్‌వేర్ వ్యూహం యొక్క ప్రధానాంశం మరింత శక్తివంతమైన GPUల కోసం అవిశ్రాంతంగా ప్రయత్నించడం. కంపెనీ రెండు-వైపుల విధానాన్ని అవలంబిస్తోంది, మొదట నిలువు స్కేలింగ్‌పై దృష్టి సారిస్తుంది, తరువాత క్షితిజ సమాంతర స్కేలింగ్‌పై దృష్టి సారిస్తుంది. రాక్‌లో ఒకే, అల్ట్రా-పవర్‌ఫుల్ AI సూపర్‌కంప్యూటర్‌ను అభివృద్ధి చేయడం మాత్రమే కాకుండా, భారీ AI సూపర్‌కంప్యూటర్ సముదాయాన్ని ఏర్పాటు చేస్తూ, పరస్పరం అనుసంధానించబడిన రాక్‌ల యొక్క మొత్తం పర్యావరణ వ్యవస్థను సృష్టించడం లక్ష్యం. ఈ ‘AI ఫ్యాక్టరీ’ విధానం అత్యంత డిమాండ్ ఉన్న AI వర్క్‌లోడ్‌ల కోసం గణన కండరాలను అందించడానికి రూపొందించబడింది.

ఇటీవల జరిగిన GTC సమావేశంలో ఆవిష్కరించబడిన కొత్త బ్లాక్‌వెల్ అల్ట్రా రాక్-మౌంటెడ్ AI సూపర్‌కంప్యూటర్, ఈ వ్యూహానికి ఉదాహరణ. శిక్షణ మరియు పరీక్షా-సమయ స్కేలింగ్ అనుమితులను వేగవంతం చేయడానికి రూపొందించబడిన బ్లాక్‌వెల్ అల్ట్రా, ఇప్పటికే ఉన్న బ్లాక్‌వెల్ ఆర్కిటెక్చర్‌ను ఉపయోగించుకుంటుంది, కానీ మరింత శక్తివంతమైన GB300 NVL72ని కలిగి ఉంటుంది. ఈ కాన్ఫిగరేషన్‌లో NVLink ద్వారా అనుసంధానించబడిన 72 బ్లాక్‌వెల్ అల్ట్రా GPUలు ఉన్నాయి, ఇవి FP4 ఖచ్చితత్వ గణన శక్తిలో 1.1 Exaflopsను అందిస్తాయి. GB300 NVL72 GB200 NVL72 కంటే 1.5 రెట్లు ఎక్కువ AI పనితీరును కలిగి ఉంది. ఒకే DGS GB300 సిస్టమ్ 15 Exaflops గణనను అందిస్తుంది. 2025 రెండవ భాగంలో విడుదల చేయడానికి సిద్ధంగా ఉంది, బ్లాక్‌వెల్ అల్ట్రాకు Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron మరియు Quanta వంటి విస్తృత శ్రేణి సర్వర్ పరికరాల విక్రేతలు మద్దతు ఇస్తారు. అదనంగా, AWS, GCP మరియు Azure వంటి క్లౌడ్ సర్వీస్ ప్రొవైడర్లు బ్లాక్‌వెల్ అల్ట్రా ఆధారంగా గణన సేవలను అందిస్తాయి.

ఈ పవర్ ప్లాంట్ స్థాయి AI ఫ్యాక్టరీ సిస్టమ్‌లకు అతీతంగా, Nvidia సంస్థల్లో అనుమితుల అవసరాలను లక్ష్యంగా చేసుకుని కంప్యూటర్ల యొక్క కొత్త శ్రేణిని కూడా ప్రవేశపెట్టింది. వీటిలో DGX స్పార్క్ మరియు DGX స్టేషన్ వ్యక్తిగత AI కంప్యూటర్లు ఉన్నాయి. DGX స్పార్క్, పరిమాణంలో Mac miniని పోలి ఉంటుంది, ఇది 1 PFlops వరకు గణన శక్తిని అందిస్తుంది.

దీన్ని దృక్పథంలో ఉంచడానికి, 2021లో ప్రారంభించబడిన తైవాన్యా 3 సూపర్‌కంప్యూటర్, 50,000 కంటే ఎక్కువ కోర్‌లతో, కేవలం 2.7 PFlops పనితీరును మాత్రమే అందిస్తుంది. కేవలం నాలుగు సంవత్సరాలలో, మూడు డెస్క్‌టాప్-పరిమాణ వ్యక్తిగత AI కంప్యూటర్ల యొక్క గణన శక్తి తైవాన్యా 3ను అధిగమించింది. 128GB మెమరీ కాన్ఫిగరేషన్ కోసం $3,999 (సుమారు NT$130,000) ధరతో, ఈ కొత్త వ్యక్తిగత AI కంప్యూటర్లు సంస్థల్లో భవిష్యత్ అంతర్గత AI అవసరాలకు శక్తినివ్వడానికి, మినీ-AI ఫ్యాక్టరీలుగా లేదా ఎడ్జ్ AI పరిసరాలలో పనిచేయడానికి రూపొందించబడ్డాయి.

భవిష్యత్ రోడ్‌మ్యాప్: వెరా రూబిన్ మరియు అంతకు మించి

ముందుకు చూస్తే, Nvidia CEO జెన్సన్ హువాంగ్ రాబోయే రెండు సంవత్సరాలకు ఉత్పత్తి రోడ్‌మ్యాప్‌ను వివరించారు. 2026 రెండవ భాగంలో, కంపెనీ చీకటి పదార్థాన్ని కనుగొన్న అమెరికన్ ఖగోళ శాస్త్రవేత్త పేరు మీద వెరా రూబిన్ NVL144ను విడుదల చేయడానికి యోచిస్తోంది. వెరా రూబిన్ NVL144 GB300 NVL72 కంటే 3.3 రెట్లు ఎక్కువ పనితీరును అందిస్తుంది, మెమరీ సామర్థ్యం, బ్యాండ్‌విడ్త్ మరియు NVLink వేగం 1.6 రెట్లు పెరుగుతుంది. 2027 రెండవ భాగంలో, Nvidia రూబిన్ అల్ట్రా NVL576ను విడుదల చేస్తుంది, ఇది GB300 NVL72 కంటే 14 రెట్లు ఎక్కువ పనితీరును అందిస్తుంది, NVLink7 మరియు CX9 ద్వారా గణనీయంగా మెరుగైన మెమరీ సామర్థ్యం మరియు బ్యాండ్‌విడ్త్ వేగంతో ఉంటుంది.

వెరా రూబిన్ ఆర్కిటెక్చర్ తరువాత, Nvidia యొక్క తదుపరి తరం ఆర్కిటెక్చర్‌కు ప్రఖ్యాత అమెరికన్ భౌతిక శాస్త్రవేత్త రిచర్డ్ ఫెన్‌మాన్ పేరు పెట్టబడుతుంది, అతను ఛాలెంజర్ స్పేస్ షటిల్ విపత్తు దర్యాప్తుపై చేసిన కృషికి ప్రసిద్ధి చెందాడు.

సాఫ్ట్‌వేర్ వ్యూహం: Nvidia డైనమో

Nvidia ఎల్లప్పుడూ సాఫ్ట్‌వేర్‌పై ఎక్కువ ప్రాధాన్యతనిచ్చింది, దానిని హార్డ్‌వేర్ కంటే చాలా కీలకమైనదిగా భావిస్తుంది. ఈ వ్యూహాత్మక దృష్టి కంపెనీ యొక్క AI ఫ్యాక్టరీ కార్యక్రమాలకు విస్తరించింది.

వివిధ డొమైన్‌లకు CUDA-X AI త్వరణ లైబ్రరీని విస్తరించడంతో పాటు ప్రత్యేకమైన త్వరణ లైబ్రరీలను అభివృద్ధి చేయడంతో పాటు, Nvidia కొత్త AI ఫ్యాక్టరీ ఆపరేటింగ్ సిస్టమ్ అయిన Nvidia డైనమోను ప్రవేశపెట్టింది. ముఖ్యంగా, Nvidia ఈ ఆపరేటింగ్ సిస్టమ్‌ను ఓపెన్ సోర్స్ చేసింది.

Nvidia డైనమో అనేది LLM అనుమితి సేవలను అందించే ప్లాట్‌ఫారమ్‌లను రూపొందించడానికి రూపొందించబడిన ఓపెన్-సోర్స్ అనుమితి సేవా ఫ్రేమ్‌వర్క్. దీనిని K8s పరిసరాలలో అమలు చేయవచ్చు మరియు పెద్ద-స్థాయి AI అనుమితి పనులను అమలు చేయడానికి మరియు నిర్వహించడానికి ఉపయోగించవచ్చు. Nvidia డైనమోను దాని NIM మైక్రోసర్వీసెస్ ఫ్రేమ్‌వర్క్‌లో విలీనం చేయడానికి యోచిస్తోంది, దీనిని Nvidia AI ఎంటర్‌ప్రైజ్ ఫ్రేమ్‌వర్క్ యొక్క భాగంగా చేస్తుంది.

డైనమో అనేది Nvidia యొక్క ప్రస్తుత ఓపెన్-సోర్స్ అనుమితి సర్వర్ ప్లాట్‌ఫారమ్ ట్రిటాన్ యొక్క తదుపరి తరం ఉత్పత్తి. దీని యొక్క ముఖ్య లక్షణం ఏమిటంటే LLM అనుమితి పనులను రెండు దశలుగా విభజించడం, అనుమితి ప్రాసెసింగ్‌ను ఆప్టిమైజ్ చేయడానికి, సామర్థ్యాన్ని మెరుగుపరచడానికి మరియు GPU వినియోగాన్ని పెంచడానికి GPUలను మరింత సరళంగా మరియు సమర్థవంతంగా ఉపయోగించడానికి అనుమతిస్తుంది. డైనమో అనుమితి అవసరాల ఆధారంగా GPUలను డైనమిక్‌గా కేటాయించగలదు మరియు GPUల మధ్య అసమకాలిక డేటా బదిలీని వేగవంతం చేస్తుంది, మోడల్ అనుమితి ప్రతిస్పందన సమయాలను తగ్గిస్తుంది.

ట్రాన్స్‌ఫార్మర్-ఆధారిత GAI నమూనాలు అనుమితిని రెండు దశలుగా విభజిస్తాయి: ప్రీఫిల్ (ముందు-ఇన్‌పుట్), ఇది ఇన్‌పుట్ డేటాను నిల్వ కోసం టోకెన్‌లుగా మారుస్తుంది మరియు డీకోడ్, ఇది మునుపటి టోకెన్ ఆధారంగా తదుపరి టోకెన్‌ను ఉత్పత్తి చేసే సీక్వెన్షియల్ ప్రాసెస్.

సాంప్రదాయ LLM అనుమితి ప్రీఫిల్ మరియు డీకోడ్ పనులను ఒకే GPUకి కేటాయిస్తుంది. అయితే, ఈ పనుల యొక్క విభిన్న గణన లక్షణాల కారణంగా, డైనమో వాటిని విభజిస్తుంది, తదనుగుణంగా GPU వనరులను కేటాయిస్తుంది మరియు టాస్క్ లక్షణాల ఆధారంగా కేటాయింపును డైనమిక్‌గా సర్దుబాటు చేస్తుంది. ఇది GPU క్లస్టర్ పనితీరును ఆప్టిమైజ్ చేస్తుంది.

Nvidia యొక్క పరీక్షలు GB200 NVL72లో 671 బిలియన్-పారామీటర్లడీప్‌సీక్-R1 మోడల్‌తో డైనమోను ఉపయోగించడం వల్ల అనుమితి పనితీరు 30 రెట్లు మెరుగుపడుతుందని చూపిస్తున్నాయి. హాప్పర్ GPUలలో నడుస్తున్న లామా 70Bపై పనితీరు కూడా రెట్టింపు కంటే ఎక్కువ మెరుగుపడుతుంది.

అనుమితి గణన యొక్క సంక్లిష్ట స్వభావం మరియు సమాంతర ప్రాసెసింగ్ నమూనాల వైవిధ్యం కారణంగా అనుమితి పనులను నిర్వహించడం చాలా క్లిష్టమైనది. AI ఫ్యాక్టరీల కోసం ఒక ఆపరేటింగ్ సిస్టమ్‌ను అందించడానికి Nvidia డైనమో ఫ్రేమ్‌వర్క్‌ను ప్రారంభించిందని హువాంగ్ నొక్కి చెప్పారు.

సాంప్రదాయ డేటా సెంటర్‌లు VMware వంటి ఆపరేటింగ్ సిస్టమ్‌లపై ఆధారపడి ఎంటర్‌ప్రైజ్ IT వనరులపై విభిన్న అప్లికేషన్‌లను సమన్వయం చేస్తాయి. AI ఏజెంట్‌లు భవిష్యత్తు యొక్క అప్లికేషన్‌లు మరియు AI ఫ్యాక్టరీలకు VMware కాదు, డైనమో అవసరం.

పారిశ్రామిక విప్లవాన్ని రేకెత్తించిన ఇంజిన్ అయిన డైనమో పేరును కొత్త AI ఫ్యాక్టరీ ఆపరేటింగ్ సిస్టమ్‌కు హువాంగ్ పెట్టడం ద్వారా అతని అంచనాలు మరియు ప్లాట్‌ఫారమ్ పట్ల ఉన్న ఆశయాలు తెలుస్తున్నాయి.