AI చిప్స్, మౌలిక సదుపాయాలపై పునరాలోచన

డీప్‌సీక్ యుగం తర్వాత AI చిప్స్ మరియు మౌలిక సదుపాయాలపై పునరాలోచన

డీప్‌సీక్ పురోగతితో AI సాంకేతికత శరవేగంగా అభివృద్ధి చెందుతున్న నేపథ్యంలో, డేటా కేంద్రాలు, చిప్‌లు, వ్యవస్థల నిర్మాణంపై పునరాలోచన చేయాల్సిన అవసరం ఉంది. డీప్‌సీక్ యొక్క ఇంజనీరింగ్ ఆవిష్కరణలు AI కంప్యూటింగ్ ధరలను గణనీయంగా తగ్గించాయి. ఇది AI మౌలిక సదుపాయాల భవిష్యత్తు గురించి విస్తృత చర్చకు దారితీసింది.

డీప్‌సీక్ AI సాంకేతిక పరిమితులను విస్తరించకపోయినా, AI మార్కెట్‌పై దాని ప్రభావం చాలా ఉంది. మిక్చర్ ఆఫ్ ఎక్స్‌పర్ట్స్ (MoE), మల్టీ-లేయర్ అటెన్షన్ (MLA), మరియు మల్టీ-టోకెన్ ప్రిడిక్షన్ (MTP) వంటి సాంకేతికతలు డీప్‌సీక్‌తో పాటు ప్రాముఖ్యతను సంతరించుకున్నాయి. ఈ సాంకేతికతలన్నీ డీప్‌సీక్ ద్వారా ప్రారంభించబడకపోయినా, వాటి విజయవంతమైన అమలు విస్తృత ఆదరణకు దారితీసింది. ముఖ్యంగా MLA, ఎడ్జ్ డివైజ్‌ల నుండి క్లౌడ్ కంప్యూటింగ్ వరకు వివిధ వేదికలపై చర్చనీయాంశంగా మారింది.

MLA మరియు అల్గారిథమ్ ఆవిష్కరణ సవాలు

నెక్స్ట్ సిలికాన్ CEO ఎలాడ్ రాజ్ ఇటీవల మాట్లాడుతూ MLA మెమరీ సామర్థ్యాన్ని మెరుగుపరుస్తుంది, కానీ ఇది డెవలపర్‌లకు పనిభారాన్ని పెంచుతుంది మరియు ఉత్పత్తి వాతావరణాలలో AI యొక్క అనువర్తనాన్ని క్లిష్టతరం చేస్తుంది. GPU వినియోగదారులు MLA కోసం ‘హ్యాండ్-కోడ్’ ఆప్టిమైజేషన్‌లో పాల్గొనవలసి ఉంటుంది. డీప్‌సీక్ యుగం తర్వాత AI చిప్స్ మరియు మౌలిక సదుపాయాల నిర్మాణాల అమలును పునరాలోచించాల్సిన అవసరాన్ని ఈ ఉదాహరణ నొక్కి చెబుతుంది.

MLA యొక్క ప్రాముఖ్యతను అర్థం చేసుకోవడానికి, లార్జ్ లాంగ్వేజ్ మోడల్స్ (LLMలు) యొక్క అంతర్లీన భావనలను గ్రహించడం చాలా అవసరం. వినియోగదారు ఇన్‌పుట్‌లకు ప్రతిస్పందనలను రూపొందించేటప్పుడు, LLMలు KV వెక్టర్‌లపై ఆధారపడతాయి - కీలు మరియు విలువలు - ఇది మోడల్‌ను సంబంధిత డేటాపై దృష్టి పెట్టడానికి అనుమతిస్తుంది. శ్రద్ధ యంత్రాంగాలలో, మోడల్ కొత్త అభ్యర్థనలను కీలతో పోల్చి అత్యంత సంబంధిత కంటెంట్‌ను నిర్ణయిస్తుంది.

ఎలాడ్ రాజ్ ఒక పుస్తకం యొక్క సారూప్యతను ఉపయోగిస్తాడు, కీ అనేది ‘పుస్తకం యొక్క అధ్యాయ శీర్షికల వంటిది, ప్రతి భాగం గురించి సూచిస్తుంది, ఆ శీర్షికల క్రింద మరింత వివరణాత్మక సారాంశాలు ఉంటాయి. కాబట్టి వినియోగదారు అభ్యర్థనను ఉంచినప్పుడు, సమాధానాన్ని రూపొందించడంలో సహాయపడటానికి ఇది శోధన పదాన్ని అడుగుతుంది. ఇది అడుగుతోంది, ‘ఈ కథాంశం కింద, ఏ అధ్యాయం చాలా సందర్భోచితమైనది?’’

MLA ఈ అధ్యాయ శీర్షికలను (కీలు) మరియు సారాంశాలను (విలువలు) కుదిస్తుంది, సమాధానాలను కనుగొనే ప్రక్రియను వేగవంతం చేస్తుంది మరియు సామర్థ్యాన్ని పెంచుతుంది. అంతిమంగా, MLA డీప్‌సీక్ మెమరీ వినియోగాన్ని 5-13% తగ్గించడంలో సహాయపడుతుంది. మరింత వివరణాత్మక సమాచారం డీప్‌సీక్ యొక్క అధికారిక పత్రంలో చూడవచ్చు. MediaTek యొక్క డెవలపర్ కాన్ఫరెన్స్ వారి డైమెన్సిటీ మొబైల్ చిప్‌లలో MLAకు మద్దతు గురించి కూడా చర్చించింది, ఇది డీప్‌సీక్ యొక్క విస్తృత ప్రభావాన్ని నొక్కి చెబుతుంది.

MLA వంటి సాంకేతికతలు AI యుగంలో సాధారణ అల్గారిథమిక్ ఆవిష్కరణలను సూచిస్తాయి. అయితే, AI సాంకేతిక పరిజ్ఞానం యొక్క వేగవంతమైన అభివృద్ధి నిరంతరం ఆవిష్కరణలకు దారితీస్తుంది, ఇది కొత్త సవాళ్లను సృష్టిస్తుంది, ప్రత్యేకించి ఈ ఆవిష్కరణలు నిర్దిష్ట వేదికలకు అనుగుణంగా ఉన్నప్పుడు. MLA విషయంలో, NVIDIA GPU కాని వినియోగదారులకు సాంకేతిక పరిజ్ఞానాన్ని ఉపయోగించడానికి అదనపు మాన్యువల్ కోడింగ్ అవసరం.

డీప్‌సీక్ సాంకేతికతలు AI యుగం యొక్క ఆవిష్కరణ మరియు విలువను ప్రదర్శిస్తున్నప్పటికీ, హార్డ్‌వేర్ మరియు సాఫ్ట్‌వేర్ ఈ ఆవిష్కరణలకు అనుగుణంగా ఉండాలి. ఎలాడ్ రాజ్ ప్రకారం, ఇటువంటి అనుసరణ డెవలపర్‌లకు మరియు ఉత్పత్తి వాతావరణాలకు సంక్లిష్టతను తగ్గించాలి. లేకపోతే, ప్రతి ఆవిష్కరణ యొక్క ధర చాలా ఎక్కువగా ఉంటుంది.

అప్పుడు ప్రశ్న వస్తుంది: ‘తదుపరి అల్గారిథమ్ ఆవిష్కరణ బాగా అనువదించకపోతే మరియు ఇప్పటికే ఉన్న నిర్మాణాలకు సరళంగా లేకపోతే ఏమి జరుగుతుంది?’

చిప్ డిజైన్ మరియు అల్గారిథమ్ ఆవిష్కరణ మధ్య సంఘర్షణ

గత కొన్ని సంవత్సరాలుగా, పెద్ద AI చిప్‌లను రూపొందించడానికి కనీసం 1-2 సంవత్సరాలు పడుతుందని AI చిప్ తయారీదారులు స్థిరంగా నివేదించారు. అంటే చిప్ మార్కెట్ విడుదల కంటే ముందే చిప్ డిజైన్ ప్రారంభం కావాలి. AI సాంకేతిక పరిజ్ఞానంలో వేగవంతమైన పురోగతిని దృష్టిలో ఉంచుకుని, AI చిప్ డిజైన్ ముందుచూపుతో ఉండాలి. ప్రస్తుత అవసరాలపై మాత్రమే దృష్టి పెట్టడం వలన పాత AI చిప్‌లు వస్తాయి, అవి తాజా అప్లికేషన్ ఆవిష్కరణలకు అనుగుణంగా ఉండవు.

AI అప్లికేషన్ అల్గారిథమ్ ఆవిష్కరణ ఇప్పుడు వారానికోసారి జరుగుతుంది. మునుపటి కథనాలలో పేర్కొన్నట్లుగా, AI నమూనాలు ఒకే సామర్థ్యాలను సాధించడానికి అవసరమైన కంప్యూటింగ్ శక్తి ఏటా 4-10 రెట్లు తగ్గుతుంది. GPT-3కి సమానమైన నాణ్యతను సాధించే AI నమూనాల యొక్క அனுமானம் ధర గత మూడు సంవత్సరాలలో 1200 రెట్లు తగ్గింది. ప్రస్తుతం, 2B పారామితులతో కూడిన నమూనాలు నిన్నటి 170B పారామీటర్ GPT-3 స్థాయిని సాధించగలవు. AI టెక్నాలజీ స్టాక్ యొక్క ఎగువ పొరలలో ఈ వేగవంతమైన ఆవిష్కరణ సాంప్రదాయ చిప్ ఆర్కిటెక్చర్ ప్రణాళిక మరియు రూపకల్పనకు గణనీయమైన సవాళ్లను కలిగిస్తుంది.

ఎలాడ్ రాజ్, పరిశ్రమ డీప్‌సీక్ MLA వంటి ఆవిష్కరణలను AI సాంకేతిక పరిజ్ఞానం కోసం ప్రమాణంగా గుర్తించాలని నమ్ముతున్నాడు. ‘తదుపరి తరం కంప్యూటింగ్ నేటి పనిభారాల కోసం మాత్రమే కాకుండా భవిష్యత్తులోని పురోగతికి కూడా అనుగుణంగా ఉండాలి.’ ఈ దృక్పథం చిప్ పరిశ్రమకు మాత్రమే కాకుండా AI టెక్నాలజీ స్టాక్ యొక్క మొత్తం మధ్య నుండి దిగువ స్థాయి మౌలిక సదుపాయాలకు కూడా వర్తిస్తుంది.

‘డీప్‌సీక్ మరియు ఇతర ఆవిష్కరణలు అల్గారిథమ్ ఆవిష్కరణ యొక్క వేగవంతమైన అభివృద్ధిని ప్రదర్శించాయి’ అని ఎలాడ్ రాజ్ అన్నారు. ‘కొత్త అంతర్దృష్టులు మరియు ఆవిష్కరణలను నడపడానికి పరిశోధకులు మరియు డేటా శాస్త్రవేత్తలకు మరింత బహుముఖ, స్థితిస్థాపకంగా ఉండే సాధనాలు అవసరం. వినియోగదారులు ఇప్పటికే ఉన్న యాక్సిలరేటర్ పరిష్కారాలను ‘డ్రాప్-ఇన్ రీప్లేస్’ చేయడానికి అనుమతించే తెలివైన, సాఫ్ట్‌వేర్-డిఫైన్డ్ హార్డ్‌వేర్ కంప్యూటింగ్ ప్లాట్‌ఫామ్‌లు మార్కెట్‌కు అవసరం, అయితే డెవలపర్‌లు వారి పనిని నొప్పిలేకుండా పోర్ట్ చేయడానికి వీలు కల్పిస్తుంది.’

ఈ పరిస్థితిని పరిష్కరించడానికి, పరిశ్రమ మరింత తెలివైన, అనుకూలత మరియు సరళమైన కంప్యూటింగ్ మౌలిక సదుపాయాలను రూపొందించాలి.

సౌలభ్యం మరియు సామర్థ్యం తరచుగా వైరుధ్య లక్ష్యాలు. CPUలు చాలా సౌకర్యవంతంగా ఉంటాయి, కానీ GPUల కంటే సమాంతర కంప్యూటింగ్ సామర్థ్యం చాలా తక్కువగా ఉంటుంది. GPUలు, వాటి ప్రోగ్రామిబిలిటీతో, ప్రత్యేకమైన AI ASIC చిప్‌ల కంటే తక్కువ సమర్థవంతంగా ఉండవచ్చు.

ఎలాడ్ రాజ్ NVIDIA AI డేటా సెంటర్ ర్యాక్‌లు త్వరలో 600kW విద్యుత్ వినియోగానికి చేరుకుంటాయని అంచనా వేసింది. సందర్భం కోసం, ప్రామాణిక ఎంటర్‌ప్రైజ్ డేటా సెంటర్లలో 75% ర్యాక్‌కు 15-20kW గరిష్ట విద్యుత్ వినియోగాన్ని కలిగి ఉన్నాయి. AIలో సంభావ్య సామర్థ్య లాభాలు ఉన్నప్పటికీ, ఇది కంప్యూటింగ్ మౌలిక సదుపాయాల వ్యవస్థలను నిర్మిస్తున్న డేటా సెంటర్లకు గణనీయమైన సవాలును కలిగిస్తుంది.

ఎలాడ్ రాజ్ దృక్పథంలో, ప్రస్తుత GPUలు మరియు AI యాక్సిలరేటర్‌లు AI మరియు హై-పెర్ఫార్మెన్స్ కంప్యూటింగ్ (HPC) యొక్క సంభావ్య డిమాండ్లను తీర్చడానికి సరిపోవు. ‘కంప్యూటింగ్ సామర్థ్యాన్ని ఎలా మెరుగుపరుచుకోవాలో మనం ప్రాథమికంగా పునరాలోచించకపోతే, పరిశ్రమ భౌతిక మరియు ఆర్థిక పరిమితులను తాకే ప్రమాదం ఉంది. ఈ గోడకు దుష్ప్రభావాలు కూడా ఉంటాయి, మరింత ఎక్కువ సంస్థలకు AI మరియు HPCకి ప్రాప్యతను పరిమితం చేస్తుంది, అల్గారిథమ్‌లు లేదా సాంప్రదాయ GPU ఆర్కిటెక్చర్‌లలో పురోగతి ఉన్నప్పటికీ ఆవిష్కరణను అడ్డుకుంటుంది.’

తదుపరి తరం కంప్యూటింగ్ మౌలిక సదుపాయాల కోసం సిఫార్సులు మరియు అవసరాలు

ఈ పరిశీలనల ఆధారంగా, ఎలాడ్ రాజ్ తదుపరి తరం కంప్యూటింగ్ మౌలిక సదుపాయాలను నిర్వచించడానికి ‘నాలుగు స్తంభాలను’ ప్రతిపాదించింది:

(1) ప్లగ్-అండ్-ప్లే రీప్లేసిబిలిటీ: ‘CPU నుండి GPUకి వలస వంటి సంక్లిష్ట ఆర్కిటెక్చర్ పరివర్తనలను పూర్తిగా అమలు చేయడానికి దశాబ్దాలు పట్టవచ్చని చరిత్ర చూపిస్తుంది. కాబట్టి తదుపరి తరం కంప్యూటింగ్ ఆర్కిటెక్చర్‌లు సున్నితమైన వలసకు మద్దతు ఇవ్వాలి.’ ‘ప్లగ్-అండ్-ప్లే’ రీప్లేసిబిలిటీ కోసం, x86 మరియు Arm ఎకోసిస్టమ్‌ల నుండి కొత్త కంప్యూటింగ్ ఆర్కిటెక్చర్‌లు నేర్చుకోవాలని, వెనుకకు అనుకూలత ద్వారా విస్తృత ఆదరణను సాధించాలని ఎలాడ్ రాజ్ సూచిస్తుంది.

ఆధునిక డిజైన్‌లు డెవలపర్‌లు పెద్ద మొత్తంలో కోడ్‌ను తిరిగి వ్రాయవలసి రాకుండా లేదా నిర్దిష్ట విక్రేతలపై ఆధారపడకుండా ఉండాలి. ‘ఉదాహరణకు, MLA వంటి అభివృద్ధి చెందుతున్న సాంకేతికతలకు మద్దతు ప్రామాణీకరించబడాలి, NVIDIA కాని GPUలతో ఉన్నట్లుగా అదనపు మాన్యువల్ సర్దుబాట్లు అవసరం లేదు. తదుపరి తరం వ్యవస్థలు మాన్యువల్ కోడ్ మార్పులు లేదా ముఖ్యమైన API సర్దుబాట్లు అవసరం లేకుండా కొత్త పనిభారాలను అర్థం చేసుకోవాలి మరియు అవుట్-ఆఫ్-ది-బాక్స్ ఆప్టిమైజ్ చేయాలి.’

(2) అనుకూల, రియల్-టైమ్ పనితీరు ఆప్టిమైజేషన్: పరిశ్రమ స్థిర-ఫంక్షన్ యాక్సిలరేటర్‌ల నుండి దూరంగా ఉండాలని ఎలాడ్ రాజ్ నమ్ముతున్నాడు. ‘పరిశ్రమ తెలివైన, సాఫ్ట్‌వేర్-డిఫైన్డ్ హార్డ్‌వేర్ పునాదులపై నిర్మించాల్సిన అవసరం ఉంది, అది రన్‌టైమ్‌లో డైనమిక్‌గా స్వీయ-ఆప్టిమైజ్ చేయగలదు.’

‘పనిభారాల నుండి నిరంతరం నేర్చుకోవడం ద్వారా, భవిష్యత్తు వ్యవస్థలు వాస్తవ సమయంలో తమను తాము సర్దుబాటు చేసుకోవచ్చు, నిర్దిష్ట అప్లికేషన్ పనిభారంతో సంబంధం లేకుండా వినియోగం మరియు స్థిరమైన పనితీరును గరిష్టం చేస్తుంది. ఈ డైనమిక్ అనుకూలత అంటే మౌలిక సదుపాయాలు HPC అనుకరణలు, సంక్లిష్ట AI నమూనాలు లేదా వెక్టర్ డేటాబేస్ కార్యకలాపాలు అయినా నిజ జీవిత పరిస్థితులలో స్థిరమైన సామర్థ్యాన్ని అందిస్తాయి.’

(3) స్కేలబుల్ సామర్థ్యం: ‘హార్డ్‌వేర్ మరియు సాఫ్ట్‌వేర్‌లను విడదీయడం మరియు తెలివైన నిజ-సమయ ఆప్టిమైజేషన్‌పై దృష్టి పెట్టడం ద్వారా, భవిష్యత్తు వ్యవస్థలు అధిక వినియోగం మరియు తక్కువ మొత్తం శక్తి వినియోగాన్ని సాధించాలి. ఇది కొత్త పనిభారాల యొక్క అభివృద్ధి చెందుతున్న డిమాండ్‌లను తీర్చడానికి మౌలిక సదుపాయాలను మరింత ఖర్చుతో కూడుకున్నది మరియు స్కేలబుల్‌గా చేస్తుంది.’

(4) భవిష్యత్తు-రూపకల్పన: ఈ అంశం AI మౌలిక సదుపాయాల కోసం ఎదురుచూసే అవసరానికి అనుగుణంగా ఉంటుంది, ప్రత్యేకించి చిప్ డిజైన్. ‘నేటి అత్యాధునిక అల్గారిథమ్‌లు రేపు పాతవి కావచ్చు.’ ‘AI న్యూరల్ నెట్‌వర్క్‌లు లేదా ట్రాన్స్‌ఫార్మర్-బేస్డ్ LLM నమూనాలు అయినా, తదుపరి తరం కంప్యూటింగ్ మౌలిక సదుపాయాలు అనుకూలంగా ఉండాలి, సంస్థల సాంకేతిక పెట్టుబడులు రాబోయే సంవత్సరాల్లో స్థితిస్థాపకంగా ఉండేలా చూసుకోవాలి.’

ఈ సూచనలు సాపేక్షంగా ఆదర్శవంతమైన ఇంకా ఆలోచన రేకెత్తించే దృక్పథాన్ని అందిస్తాయి. పరిశ్రమలో కొన్ని స్వాభావిక వైరుధ్యాలు దీర్ఘకాలిక సమస్యలుగా ఉన్నప్పటికీ, AI మరియు HPC సాంకేతికతల భవిష్యత్తు అభివృద్ధి కోసం ఈ మార్గదర్శక పద్దతిని పరిగణించాలి. ‘AI, HPC మరియు ఇతర భవిష్యత్తు కంప్యూటింగ్ మరియు డేటా-ఇంటెన్సివ్ వర్క్‌లోడ్‌ల సామర్థ్యాన్ని వెలికితీయడానికి, మనం మౌలిక సదుపాయాలను పునరాలోచించాలి మరియు ఆవిష్కరణ మరియు మార్గదర్శకులకు మద్దతు ఇవ్వడానికి డైనమిక్ మరియు తెలివైన పరిష్కారాలను స్వీకరించాలి.’