Nvidia ఏజెంట్ ఆధారిత AI యొక్క భవిష్యత్ తరంగంపై దృష్టి సారించింది, ఇది మునుపెన్నడూ లేని విధంగా అనుమితుల సామర్థ్యాలపై డిమాండ్లను పెంచుతుందని వాగ్దానం చేస్తుంది. ఈ సవాలును ఎదుర్కోవడానికి, Nvidia హార్డ్వేర్ మరియు సాఫ్ట్వేర్ ఆవిష్కరణలను కలిగి ఉన్న సమగ్ర వ్యూహాన్ని ఆవిష్కరించింది.
హార్డ్వేర్ వ్యూహం: స్కేలింగ్ అప్ అండ్ అవుట్
Nvidia యొక్క హార్డ్వేర్ వ్యూహం యొక్క ప్రధానాంశం మరింత శక్తివంతమైన GPUల కోసం అవిశ్రాంతంగా ప్రయత్నించడం. కంపెనీ రెండు-వైపుల విధానాన్ని అవలంబిస్తోంది, మొదట నిలువు స్కేలింగ్పై దృష్టి సారిస్తుంది, తరువాత క్షితిజ సమాంతర స్కేలింగ్పై దృష్టి సారిస్తుంది. రాక్లో ఒకే, అల్ట్రా-పవర్ఫుల్ AI సూపర్కంప్యూటర్ను అభివృద్ధి చేయడం మాత్రమే కాకుండా, భారీ AI సూపర్కంప్యూటర్ సముదాయాన్ని ఏర్పాటు చేస్తూ, పరస్పరం అనుసంధానించబడిన రాక్ల యొక్క మొత్తం పర్యావరణ వ్యవస్థను సృష్టించడం లక్ష్యం. ఈ ‘AI ఫ్యాక్టరీ’ విధానం అత్యంత డిమాండ్ ఉన్న AI వర్క్లోడ్ల కోసం గణన కండరాలను అందించడానికి రూపొందించబడింది.
ఇటీవల జరిగిన GTC సమావేశంలో ఆవిష్కరించబడిన కొత్త బ్లాక్వెల్ అల్ట్రా రాక్-మౌంటెడ్ AI సూపర్కంప్యూటర్, ఈ వ్యూహానికి ఉదాహరణ. శిక్షణ మరియు పరీక్షా-సమయ స్కేలింగ్ అనుమితులను వేగవంతం చేయడానికి రూపొందించబడిన బ్లాక్వెల్ అల్ట్రా, ఇప్పటికే ఉన్న బ్లాక్వెల్ ఆర్కిటెక్చర్ను ఉపయోగించుకుంటుంది, కానీ మరింత శక్తివంతమైన GB300 NVL72ని కలిగి ఉంటుంది. ఈ కాన్ఫిగరేషన్లో NVLink ద్వారా అనుసంధానించబడిన 72 బ్లాక్వెల్ అల్ట్రా GPUలు ఉన్నాయి, ఇవి FP4 ఖచ్చితత్వ గణన శక్తిలో 1.1 Exaflopsను అందిస్తాయి. GB300 NVL72 GB200 NVL72 కంటే 1.5 రెట్లు ఎక్కువ AI పనితీరును కలిగి ఉంది. ఒకే DGS GB300 సిస్టమ్ 15 Exaflops గణనను అందిస్తుంది. 2025 రెండవ భాగంలో విడుదల చేయడానికి సిద్ధంగా ఉంది, బ్లాక్వెల్ అల్ట్రాకు Cisco, Dell, HPE, Lenovo, ASUS, Foxconn, Gigabyte, Pegatron మరియు Quanta వంటి విస్తృత శ్రేణి సర్వర్ పరికరాల విక్రేతలు మద్దతు ఇస్తారు. అదనంగా, AWS, GCP మరియు Azure వంటి క్లౌడ్ సర్వీస్ ప్రొవైడర్లు బ్లాక్వెల్ అల్ట్రా ఆధారంగా గణన సేవలను అందిస్తాయి.
ఈ పవర్ ప్లాంట్ స్థాయి AI ఫ్యాక్టరీ సిస్టమ్లకు అతీతంగా, Nvidia సంస్థల్లో అనుమితుల అవసరాలను లక్ష్యంగా చేసుకుని కంప్యూటర్ల యొక్క కొత్త శ్రేణిని కూడా ప్రవేశపెట్టింది. వీటిలో DGX స్పార్క్ మరియు DGX స్టేషన్ వ్యక్తిగత AI కంప్యూటర్లు ఉన్నాయి. DGX స్పార్క్, పరిమాణంలో Mac miniని పోలి ఉంటుంది, ఇది 1 PFlops వరకు గణన శక్తిని అందిస్తుంది.
దీన్ని దృక్పథంలో ఉంచడానికి, 2021లో ప్రారంభించబడిన తైవాన్యా 3 సూపర్కంప్యూటర్, 50,000 కంటే ఎక్కువ కోర్లతో, కేవలం 2.7 PFlops పనితీరును మాత్రమే అందిస్తుంది. కేవలం నాలుగు సంవత్సరాలలో, మూడు డెస్క్టాప్-పరిమాణ వ్యక్తిగత AI కంప్యూటర్ల యొక్క గణన శక్తి తైవాన్యా 3ను అధిగమించింది. 128GB మెమరీ కాన్ఫిగరేషన్ కోసం $3,999 (సుమారు NT$130,000) ధరతో, ఈ కొత్త వ్యక్తిగత AI కంప్యూటర్లు సంస్థల్లో భవిష్యత్ అంతర్గత AI అవసరాలకు శక్తినివ్వడానికి, మినీ-AI ఫ్యాక్టరీలుగా లేదా ఎడ్జ్ AI పరిసరాలలో పనిచేయడానికి రూపొందించబడ్డాయి.
భవిష్యత్ రోడ్మ్యాప్: వెరా రూబిన్ మరియు అంతకు మించి
ముందుకు చూస్తే, Nvidia CEO జెన్సన్ హువాంగ్ రాబోయే రెండు సంవత్సరాలకు ఉత్పత్తి రోడ్మ్యాప్ను వివరించారు. 2026 రెండవ భాగంలో, కంపెనీ చీకటి పదార్థాన్ని కనుగొన్న అమెరికన్ ఖగోళ శాస్త్రవేత్త పేరు మీద వెరా రూబిన్ NVL144ను విడుదల చేయడానికి యోచిస్తోంది. వెరా రూబిన్ NVL144 GB300 NVL72 కంటే 3.3 రెట్లు ఎక్కువ పనితీరును అందిస్తుంది, మెమరీ సామర్థ్యం, బ్యాండ్విడ్త్ మరియు NVLink వేగం 1.6 రెట్లు పెరుగుతుంది. 2027 రెండవ భాగంలో, Nvidia రూబిన్ అల్ట్రా NVL576ను విడుదల చేస్తుంది, ఇది GB300 NVL72 కంటే 14 రెట్లు ఎక్కువ పనితీరును అందిస్తుంది, NVLink7 మరియు CX9 ద్వారా గణనీయంగా మెరుగైన మెమరీ సామర్థ్యం మరియు బ్యాండ్విడ్త్ వేగంతో ఉంటుంది.
వెరా రూబిన్ ఆర్కిటెక్చర్ తరువాత, Nvidia యొక్క తదుపరి తరం ఆర్కిటెక్చర్కు ప్రఖ్యాత అమెరికన్ భౌతిక శాస్త్రవేత్త రిచర్డ్ ఫెన్మాన్ పేరు పెట్టబడుతుంది, అతను ఛాలెంజర్ స్పేస్ షటిల్ విపత్తు దర్యాప్తుపై చేసిన కృషికి ప్రసిద్ధి చెందాడు.
సాఫ్ట్వేర్ వ్యూహం: Nvidia డైనమో
Nvidia ఎల్లప్పుడూ సాఫ్ట్వేర్పై ఎక్కువ ప్రాధాన్యతనిచ్చింది, దానిని హార్డ్వేర్ కంటే చాలా కీలకమైనదిగా భావిస్తుంది. ఈ వ్యూహాత్మక దృష్టి కంపెనీ యొక్క AI ఫ్యాక్టరీ కార్యక్రమాలకు విస్తరించింది.
వివిధ డొమైన్లకు CUDA-X AI త్వరణ లైబ్రరీని విస్తరించడంతో పాటు ప్రత్యేకమైన త్వరణ లైబ్రరీలను అభివృద్ధి చేయడంతో పాటు, Nvidia కొత్త AI ఫ్యాక్టరీ ఆపరేటింగ్ సిస్టమ్ అయిన Nvidia డైనమోను ప్రవేశపెట్టింది. ముఖ్యంగా, Nvidia ఈ ఆపరేటింగ్ సిస్టమ్ను ఓపెన్ సోర్స్ చేసింది.
Nvidia డైనమో అనేది LLM అనుమితి సేవలను అందించే ప్లాట్ఫారమ్లను రూపొందించడానికి రూపొందించబడిన ఓపెన్-సోర్స్ అనుమితి సేవా ఫ్రేమ్వర్క్. దీనిని K8s పరిసరాలలో అమలు చేయవచ్చు మరియు పెద్ద-స్థాయి AI అనుమితి పనులను అమలు చేయడానికి మరియు నిర్వహించడానికి ఉపయోగించవచ్చు. Nvidia డైనమోను దాని NIM మైక్రోసర్వీసెస్ ఫ్రేమ్వర్క్లో విలీనం చేయడానికి యోచిస్తోంది, దీనిని Nvidia AI ఎంటర్ప్రైజ్ ఫ్రేమ్వర్క్ యొక్క భాగంగా చేస్తుంది.
డైనమో అనేది Nvidia యొక్క ప్రస్తుత ఓపెన్-సోర్స్ అనుమితి సర్వర్ ప్లాట్ఫారమ్ ట్రిటాన్ యొక్క తదుపరి తరం ఉత్పత్తి. దీని యొక్క ముఖ్య లక్షణం ఏమిటంటే LLM అనుమితి పనులను రెండు దశలుగా విభజించడం, అనుమితి ప్రాసెసింగ్ను ఆప్టిమైజ్ చేయడానికి, సామర్థ్యాన్ని మెరుగుపరచడానికి మరియు GPU వినియోగాన్ని పెంచడానికి GPUలను మరింత సరళంగా మరియు సమర్థవంతంగా ఉపయోగించడానికి అనుమతిస్తుంది. డైనమో అనుమితి అవసరాల ఆధారంగా GPUలను డైనమిక్గా కేటాయించగలదు మరియు GPUల మధ్య అసమకాలిక డేటా బదిలీని వేగవంతం చేస్తుంది, మోడల్ అనుమితి ప్రతిస్పందన సమయాలను తగ్గిస్తుంది.
ట్రాన్స్ఫార్మర్-ఆధారిత GAI నమూనాలు అనుమితిని రెండు దశలుగా విభజిస్తాయి: ప్రీఫిల్ (ముందు-ఇన్పుట్), ఇది ఇన్పుట్ డేటాను నిల్వ కోసం టోకెన్లుగా మారుస్తుంది మరియు డీకోడ్, ఇది మునుపటి టోకెన్ ఆధారంగా తదుపరి టోకెన్ను ఉత్పత్తి చేసే సీక్వెన్షియల్ ప్రాసెస్.
సాంప్రదాయ LLM అనుమితి ప్రీఫిల్ మరియు డీకోడ్ పనులను ఒకే GPUకి కేటాయిస్తుంది. అయితే, ఈ పనుల యొక్క విభిన్న గణన లక్షణాల కారణంగా, డైనమో వాటిని విభజిస్తుంది, తదనుగుణంగా GPU వనరులను కేటాయిస్తుంది మరియు టాస్క్ లక్షణాల ఆధారంగా కేటాయింపును డైనమిక్గా సర్దుబాటు చేస్తుంది. ఇది GPU క్లస్టర్ పనితీరును ఆప్టిమైజ్ చేస్తుంది.
Nvidia యొక్క పరీక్షలు GB200 NVL72లో 671 బిలియన్-పారామీటర్లడీప్సీక్-R1 మోడల్తో డైనమోను ఉపయోగించడం వల్ల అనుమితి పనితీరు 30 రెట్లు మెరుగుపడుతుందని చూపిస్తున్నాయి. హాప్పర్ GPUలలో నడుస్తున్న లామా 70Bపై పనితీరు కూడా రెట్టింపు కంటే ఎక్కువ మెరుగుపడుతుంది.
అనుమితి గణన యొక్క సంక్లిష్ట స్వభావం మరియు సమాంతర ప్రాసెసింగ్ నమూనాల వైవిధ్యం కారణంగా అనుమితి పనులను నిర్వహించడం చాలా క్లిష్టమైనది. AI ఫ్యాక్టరీల కోసం ఒక ఆపరేటింగ్ సిస్టమ్ను అందించడానికి Nvidia డైనమో ఫ్రేమ్వర్క్ను ప్రారంభించిందని హువాంగ్ నొక్కి చెప్పారు.
సాంప్రదాయ డేటా సెంటర్లు VMware వంటి ఆపరేటింగ్ సిస్టమ్లపై ఆధారపడి ఎంటర్ప్రైజ్ IT వనరులపై విభిన్న అప్లికేషన్లను సమన్వయం చేస్తాయి. AI ఏజెంట్లు భవిష్యత్తు యొక్క అప్లికేషన్లు మరియు AI ఫ్యాక్టరీలకు VMware కాదు, డైనమో అవసరం.
పారిశ్రామిక విప్లవాన్ని రేకెత్తించిన ఇంజిన్ అయిన డైనమో పేరును కొత్త AI ఫ్యాక్టరీ ఆపరేటింగ్ సిస్టమ్కు హువాంగ్ పెట్టడం ద్వారా అతని అంచనాలు మరియు ప్లాట్ఫారమ్ పట్ల ఉన్న ఆశయాలు తెలుస్తున్నాయి.