కృత్రిమ మేధస్సు ప్రపంచం ప్రస్తుతం తీవ్రమైన వైరుధ్యాలకు వేదికగా ఉంది. ఒకవైపు, భారీ టెక్ కంపెనీలలో అపారమైన మొత్తంలో డబ్బు పెట్టుబడి పెట్టబడుతోంది, ఇది అపూర్వమైన అభిజ్ఞా శక్తి ఆకాంక్షలను పెంచుతోంది మరియు రాబోయే పెట్టుబడి బుడగ గురించి చర్చలను రేకెత్తిస్తోంది. బహుళ-బిలియన్ డాలర్ల విలువలు సర్వసాధారణం అవుతున్నాయి, నిధుల సమీకరణ ఖగోళ గణాంకాలకు చేరుకుంటుందనే గుసగుసలు వినిపిస్తున్నాయి. అయినప్పటికీ, నిశ్శబ్దంగా, సమాంతర వేదికపై, విద్యా వర్గాలు మరియు ఓపెన్-సోర్స్ కమ్యూనిటీలలో ఒక విప్లవం రూపుదిద్దుకుంటోంది. ఇక్కడ, పరిశోధకులు అద్భుతమైన చాతుర్యాన్ని ప్రదర్శిస్తున్నారు, బిలియన్లతో కాకుండా, కొన్నిసార్లు కేవలం చిల్లర డబ్బుతో సమర్థవంతమైన జనరేటివ్ AI నమూనాలను రూపొందిస్తున్నారు, కృత్రిమ మేధస్సు ఆధిపత్యం కోసం జరిగే పోటీలో పెద్దదే ఎల్లప్పుడూ ఉత్తమం అనే ప్రబలమైన భావనను ప్రాథమికంగా సవాలు చేస్తున్నారు.
ఈ విభేదం మరింత స్పష్టంగా కనిపిస్తోంది. ChatGPT వెనుక ఉన్న శక్తి కేంద్రం OpenAI ని పరిగణించండి, ఇది మరింత పెట్టుబడిని కోరుతున్నట్లు నివేదించబడింది, ఇది దాని విలువను కళ్లు చెదిరే $300 బిలియన్లకు పెంచగలదు. వేగంగా పెరుగుతున్న ఆదాయాల అంచనాలతో పాటు, ఇటువంటి గణాంకాలు అపరిమితమైన ఆశావాదం మరియు ఘాతాంక వృద్ధి చిత్రాన్ని చిత్రీకరిస్తాయి. అయితే, అదే సమయంలో, ఈ AI ఉత్సాహం యొక్క పునాదులను హెచ్చరిక ప్రకంపనలు కదిలిస్తున్నాయి. AI సామర్థ్యం కారణంగా మార్కెట్లో దీర్ఘకాలంగా ప్రియమైనవిగా ఉన్న ‘Magnificent 7’ టెక్నాలజీ స్టాక్స్, గణనీయమైన అండర్పెర్ఫార్మెన్స్ కాలాలను అనుభవించాయి, ఇది పెట్టుబడిదారుల ఆందోళన చొరబడుతోందని సూచిస్తుంది. Alibaba సహ వ్యవస్థాపకుడు Joe Tsai వంటి అనుభవజ్ఞులైన పరిశ్రమ ప్రముఖుల హెచ్చరికల ద్వారా ఈ అశాంతి మరింత తీవ్రమవుతుంది, అతను ఇటీవల US మార్కెట్లో ముఖ్యంగా, సంభావ్య AI బబుల్ ఏర్పడే ఆందోళనకరమైన సంకేతాలను ఎత్తి చూపారు. అవసరమైన పెట్టుబడి యొక్క భారీ స్థాయి, ముఖ్యంగా ఈ సంక్లిష్ట నమూనాలను శక్తివంతం చేసే భారీ డేటా సెంటర్ల కోసం, తీవ్రమైన పరిశీలనకు గురవుతోంది. ప్రస్తుత వ్యయ స్థాయిలు స్థిరమైనవా, లేదా అవి సమీప-కాల వాస్తవాల నుండి డిస్కనెక్ట్ చేయబడిన అహేతుక ఉత్సాహానికి సూచికలా?
AI బబుల్ యొక్క భూతం పొంచి ఉంది
AI బబుల్ గురించిన ఆందోళనలు కేవలం నైరూప్య ఆర్థిక ఆందోళనలు మాత్రమే కాదు; అవి AI అభివృద్ధి వేగం మరియు దిశ గురించి లోతైన ప్రశ్నలను ప్రతిబింబిస్తాయి. కథనం ఎక్కువగా కొన్ని ప్రధాన ఆటగాళ్లచే ఆధిపత్యం చేయబడింది, వారు ఎప్పటికప్పుడు పెద్ద Large Language Models (LLMs) ను నిర్మించడానికి బిలియన్ల కొద్దీ పెట్టుబడి పెట్టారు. ఇది మార్కెట్ నాయకత్వం లోతైన జేబులు మరియు అత్యంత విస్తృతమైన కంప్యూటింగ్ మౌలిక సదుపాయాలను కలిగి ఉండటంపై ఆధారపడి ఉంటుందనే వాతావరణాన్ని సృష్టించింది.
- వాల్యుయేషన్ వెర్టిగో: OpenAI యొక్క సంభావ్య $300 బిలియన్ల వాల్యుయేషన్, కొంతమంది పెట్టుబడిదారుల నుండి అపారమైన విశ్వాసాన్ని ప్రతిబింబిస్తున్నప్పటికీ, కనుబొమ్మలను కూడా పెంచుతుంది. ప్రస్తుత సామర్థ్యాలు మరియు ఆదాయ మార్గాల ద్వారా ఈ సంఖ్య సమర్థించబడుతుందా, లేదా ఇది భవిష్యత్తు, బహుశా అనిశ్చిత, పురోగతుల వైపు ఎక్కువగా మొగ్గు చూపుతుందా? డాట్-కామ్ శకం వంటి మునుపటి టెక్ బూమ్లు మరియు బస్ట్లతో చారిత్రక సమాంతరాలు అనివార్యంగా ఉపరితలంపైకి వస్తాయి, ఇది జాగ్రత్తను ప్రేరేపిస్తుంది.
- మౌలిక సదుపాయాల పెట్టుబడి పరిశీలన: AI-నిర్దిష్ట డేటా సెంటర్లు మరియు హై-ఎండ్ GPUs వంటి ప్రత్యేక హార్డ్వేర్లలో పోయబడుతున్న బిలియన్లు భారీ మూలధన వ్యయాలను సూచిస్తాయి. Joe Tsai హెచ్చరిక అటువంటి భారీ ముందస్తు పెట్టుబడులతో సంబంధం ఉన్న ప్రమాదాన్ని హైలైట్ చేస్తుంది, ప్రత్యేకించి మోనటైజేషన్ మార్గం ఊహించిన దానికంటే ఎక్కువ లేదా సంక్లిష్టంగా ఉంటే. ఈ పెట్టుబడుల సామర్థ్యం మరియు రాబడి కీలక చర్చనీయాంశాలుగా మారుతున్నాయి.
- మార్కెట్ సంకేతాలు: AIలో భారీగా పెట్టుబడి పెట్టిన టెక్ దిగ్గజాల హెచ్చుతగ్గుల పనితీరు మార్కెట్ సంశయవాదాన్ని సూచిస్తుంది. దీర్ఘకాలిక సంభావ్యత బలమైన ఆకర్షణగా మిగిలిపోయినప్పటికీ, స్వల్పకాలిక అస్థిరత పెట్టుబడిదారులు చురుకుగా ప్రమాదాన్ని పునఃపరిశీలిస్తున్నారని మరియు ప్రస్తుత వృద్ధి పథాల స్థిరత్వాన్ని ప్రశ్నిస్తున్నారని సూచిస్తుంది. AI స్పేస్లో రాబోయే IPOల విధి, AI చిప్ స్పెషలిస్ట్ CoreWeave నుండి ఊహించిన ఆఫరింగ్ వంటివి, మార్కెట్ సెంటిమెంట్ యొక్క బేరోమీటర్గా నిశితంగా గమనించబడుతున్నాయి. ఇది ఉత్సాహాన్ని పునరుజ్జీవింపజేస్తుందా లేదా అంతర్లీన భయాలను ధృవీకరిస్తుందా?
- భౌగోళిక రాజకీయ కోణాలు: AI రేసులో ముఖ్యంగా US మరియు China మధ్య గణనీయమైన భౌగోళిక రాజకీయ అంతర్లీన అంశాలు కూడా ఉన్నాయి. USలో అపారమైన వ్యయం పాక్షికంగా పోటీతత్వ ప్రయోజనాన్ని కొనసాగించాలనే కోరికతో నడపబడుతుంది. ఇది సంక్లిష్ట విధాన చర్చలకు దారితీసింది, China పురోగతిని నెమ్మదింపజేయడానికి అధునాతన సెమీకండక్టర్ టెక్నాలజీపై కఠినమైన ఎగుమతి నియంత్రణల కోసం పిలుపులతో సహా. దీనికి విరుద్ధంగా, వెంచర్ క్యాపిటల్ చైనీస్ AI స్టార్టప్లలోకి ప్రవహిస్తూనే ఉంది, ఇది సాంకేతిక పరాక్రమం మరియు ఆర్థిక వ్యూహం గట్టిగా అల్లుకున్న ప్రపంచ పోటీని సూచిస్తుంది.
ఈ అధిక-వాటాలు, అధిక-వ్యయ వాతావరణం స్థాపిత క్రమాన్ని సవాలు చేసే విఘాతకర ఆవిష్కరణలకు వేదికను ఏర్పాటు చేస్తుంది. గణనీయంగా చౌకైన ప్రత్యామ్నాయాల ఆవిర్భావం, బ్రూట్ ఫోర్స్ కంప్యూటేషన్ మరియు భారీ స్కేల్ మాత్రమే ముందుకు సాగే మార్గాలా అనే దానిపై పునఃమూల్యాంకనం చేయమని బలవంతం చేస్తుంది.
DeepSeek యొక్క విఘాతకర దావా మరియు దాని అలల ప్రభావాలు
భారీ వ్యయం మరియు పెరుగుతున్న ఆందోళనల ఈ ప్రకృతి దృశ్యంలోకి DeepSeek, China ఆధారిత సంస్థ, ఒక ఆశ్చర్యకరమైన దావా వేసింది: ఇది కేవలం $6 మిలియన్లకు దాని R1 జనరేటివ్ AI లార్జ్ లాంగ్వేజ్ మోడల్ను అభివృద్ధి చేసింది. పాశ్చాత్య ప్రత్యర్థుల ఊహించిన బహుళ-బిలియన్ డాలర్ల పెట్టుబడుల కంటే చాలా తక్కువగా ఉన్న ఈ సంఖ్య, తక్షణమే పరిశ్రమ ద్వారా అలలను పంపింది.
$6 మిలియన్ల గణన గురించి సంశయవాదం కొనసాగుతున్నప్పటికీ - ఏ ఖర్చులు చేర్చబడ్డాయి మరియు మినహాయించబడ్డాయి అని ప్రశ్నించడం - ప్రకటన ప్రభావం కాదనలేనిది. ఇది మార్కెట్ నాయకులు ఉపయోగించే వ్యయ నిర్మాణాలు మరియు అభివృద్ధి పద్ధతుల యొక్క క్లిష్టమైన పరిశీలనకు బలవంతం చేసే శక్తివంతమైన ఉత్ప్రేరకంగా పనిచేసింది. ఒక సహేతుకంగా సమర్థవంతమైన నమూనాను నిజంగా బిలియన్లకు బదులుగా మిలియన్లకు నిర్మించగలిగితే, ప్రస్తుత విధానాల సామర్థ్యం గురించి అది ఏమి సూచిస్తుంది?
- కథనాన్ని సవాలు చేయడం: DeepSeek దావా, ఖచ్చితమైనదైనా కాకపోయినా, అత్యాధునిక AI అభివృద్ధి కేవలం అపరిమిత వనరులతో ట్రిలియన్-డాలర్ల కంపెనీల డొమైన్ మాత్రమే అనే ప్రబలమైన కథనాన్ని ఛేదించింది. ఇది మరింత ప్రజాస్వామ్య అభివృద్ధి ప్రకృతి దృశ్యం యొక్క అవకాశాన్ని పరిచయం చేసింది.
- పరిశీలనను పెంచడం: ఇది Microsoft-మద్దతుగల OpenAI వంటి కంపెనీల భారీ వ్యయాలపై ఇప్పటికే పడుతున్న పరిశీలనను తీవ్రతరం చేసింది. పెట్టుబడిదారులు, విశ్లేషకులు మరియు పోటీదారులు వనరుల కేటాయింపు మరియు ఈ మూలధన-ఇంటెన్సివ్ ప్రాజెక్ట్ల కోసం పెట్టుబడిపై రాబడి గురించి కఠినమైన ప్రశ్నలు అడగడం ప్రారంభించారు.
- భౌగోళిక రాజకీయ ప్రతిధ్వని: ఈ దావా US-China టెక్ పోటీ సందర్భంలో కూడా ప్రతిధ్వనించింది. AI యోగ్యతకు ప్రత్యామ్నాయ, సంభావ్యంగా మరింత వనరుల-సమర్థవంతమైన మార్గాలు ఉండవచ్చని ఇది సూచించింది, సాంకేతిక నాయకత్వం మరియు వ్యూహాత్మక పోటీ గురించి చర్చలకు సంక్లిష్టత యొక్క మరొక పొరను జోడించింది. ఇది చిప్ ఆంక్షల వంటి విధానాలపై మరింత చర్చను రేకెత్తించింది, అదే సమయంలో చైనాలో అభివృద్ధి చెందుతున్న ఆటగాళ్లను నిశితంగా పరిశీలించడానికి వెంచర్ క్యాపిటలిస్టులను ప్రోత్సహించింది, వారు సన్నని అభివృద్ధి నమూనాలను కలిగి ఉండవచ్చు.
సంశయవాదం ఉన్నప్పటికీ, DeepSeek R1 విడుదల, ముఖ్యంగా దానితో పాటుగా ఉన్న ఓపెన్ రీసెర్చ్ కాంపోనెంట్లు, ఇతరులను ప్రేరేపించే కీలక అంతర్దృష్టులను అందించాయి. ఇది కేవలం క్లెయిమ్ చేయబడిన ఖర్చు మాత్రమే కాదు, సూచించబడిన సంభావ్య పద్ధతులు, ఇది ఇతర చోట్ల, ముఖ్యంగా చాలా భిన్నమైన ఆర్థిక పరిమితుల క్రింద పనిచేస్తున్న అకడమిక్ ల్యాబ్లలో ఉత్సుకత మరియు ఆవిష్కరణలను రేకెత్తించింది.
అల్ట్రా-లీన్ AI యొక్క పెరుగుదల: ఒక విశ్వవిద్యాలయ విప్లవం
కార్పొరేట్ దిగ్గజాలు బిలియన్-డాలర్ల బడ్జెట్లు మరియు మార్కెట్ ఒత్తిళ్లతో పోరాడుతున్నప్పుడు, విద్యాసంస్థల హాలులలో వేరే రకమైన AI విప్లవం నిశ్శబ్దంగా రూపుదిద్దుకుంటోంది. తక్షణ వాణిజ్యీకరణ డిమాండ్ల భారం లేని కానీ నిధుల ద్వారా తీవ్రంగా పరిమితం చేయబడిన పరిశోధకులు, అధునాతన AI వెనుక ఉన్న సూత్రాలను ప్రతిబింబించే మార్గాలను అన్వేషించడం ప్రారంభించారు, భారీ స్థాయి కాకపోయినా, కనీస వనరులను ఉపయోగించి. కాలిఫోర్నియా విశ్వవిద్యాలయం, బర్కిలీ నుండి ఒక ప్రధాన ఉదాహరణ ఉద్భవించింది.
బర్కిలీలోని ఒక బృందం, ఇటీవలి పురోగతులపై ఆసక్తి కలిగి ఉంది కానీ పరిశ్రమ ల్యాబ్ల అపారమైన మూలధనం లేకపోవడంతో, TinyZero అనే ప్రాజెక్ట్ను ప్రారంభించింది. వారి లక్ష్యం సాహసోపేతమైనది: వారు అధునాతన AI ప్రవర్తనలను, ప్రత్యేకంగా సమాధానం చెప్పే ముందు ‘ఆలోచించడానికి’ నమూనాలను అనుమతించే తార్కికతను, తీవ్రంగా తగ్గించబడిన నమూనా మరియు బడ్జెట్ను ఉపయోగించి ప్రదర్శించగలరా? సమాధానం గట్టి అవును అని నిరూపించబడింది. వారు OpenAI మరియు DeepSeek రెండింటి ద్వారా అన్వేషించబడిన తార్కిక నమూనా యొక్క ప్రధాన అంశాలను ఆశ్చర్యకరంగా తక్కువ ఖర్చుతో విజయవంతంగా పునరుత్పత్తి చేసారు – సుమారు $30.
ఇది GPT-4 కు ప్రత్యక్ష పోటీదారుని నిర్మించడం ద్వారా సాధించబడలేదు, కానీ నమూనా మరియు పని రెండింటి సంక్లిష్టతను తెలివిగా తగ్గించడం ద్వారా.
- $30 ప్రయోగం: ఈ సంఖ్య ప్రధానంగా అవసరమైన శిక్షణా సమయం కోసం పబ్లిక్ క్లౌడ్ ప్లాట్ఫారమ్లో రెండు Nvidia H200 GPUలను అద్దెకు తీసుకునే ఖర్చును సూచిస్తుంది. భారీ ముందస్తు హార్డ్వేర్ పెట్టుబడి లేకుండా అత్యాధునిక పరిశోధన కోసం ఇప్పటికే ఉన్న క్లౌడ్ మౌలిక సదుపాయాలను ఉపయోగించుకునే సామర్థ్యాన్ని ఇది ప్రదర్శించింది.
- మోడల్ స్కేలింగ్: TinyZero ప్రాజెక్ట్ ‘3B’ మోడల్ను ఉపయోగించింది, ఇది సుమారు మూడు బిలియన్ పారామితులను సూచిస్తుంది. ఇది అతిపెద్ద LLMల కంటే గణనీయంగా చిన్నది, ఇవి వందల బిలియన్లు లేదా ట్రిలియన్ల పారామితులను కలిగి ఉంటాయి. పనిని సముచితంగా రూపొందించినట్లయితే చిన్న నమూనాలలో కూడా సంక్లిష్ట ప్రవర్తనలు ఉద్భవించవచ్చనేది కీలక అంతర్దృష్టి.
- దిగ్గజాలు మరియు ఛాలెంజర్ల నుండి ప్రేరణ: TinyZero ప్రాజెక్ట్ లీడర్ Jiayi Pan, OpenAI నుండి పురోగతులు, ముఖ్యంగా ప్రతిస్పందించే ముందు ఎక్కువ సమయం ప్రాసెసింగ్ చేసే నమూనాల గురించిన భావనలు, ప్రధాన ప్రేరణ అని పేర్కొన్నారు. అయినప్పటికీ, DeepSeek R1 యొక్క ఓపెన్ రీసెర్చ్ ఈ మెరుగైన తార్కిక సామర్థ్యాన్ని ఎలా సాధించాలనే దానిపై సంభావ్య బ్లూప్రింట్ను అందించింది, అయినప్పటికీ DeepSeek యొక్క నివేదించబడిన $6 మిలియన్ల శిక్షణా ఖర్చు ఇప్పటికీ విశ్వవిద్యాలయ బృందం పరిధికి మించినది.
బర్కిలీ బృందం మోడల్ పరిమాణం మరియు అది పరిష్కరించాల్సిన సమస్య యొక్క సంక్లిష్టత రెండింటినీ తగ్గించడం ద్వారా, వారు ఇప్పటికీ కావలసిన ‘ఉద్భవిస్తున్న తార్కిక ప్రవర్తనను’ గమనించగలరని పరికల్పన చేసింది. ఈ తగ్గింపు విధానం ఖర్చులను నాటకీయంగా తగ్గించడంలో కీలకమైనది, అదే సమయంలో విలువైన శాస్త్రీయ పరిశీలనను కూడా అనుమతిస్తుంది.
‘ఆహా మూమెంట్’ ను డీకోడింగ్ చేయడం: బడ్జెట్లో తార్కికత
TinyZero ప్రాజెక్ట్ మరియు ఇలాంటి తక్కువ-ఖర్చు కార్యక్రమాల యొక్క ప్రధాన విజయం, పరిశోధకులు తరచుగా ‘ఆహా మూమెంట్’ అని పిలిచే దానిని ప్రదర్శించడంలో ఉంది – ఇది AI నమూనా కేవలం నమూనా సరిపోలిక లేదా నిల్వ చేయబడిన సమాచారాన్ని తిరిగి పొందడం కాకుండా, నిజమైన తార్కికత మరియు సమస్య-పరిష్కార సామర్థ్యాలను ప్రదర్శించడం ప్రారంభించే స్థానం. ఈ ఉద్భవిస్తున్న ప్రవర్తన అతిపెద్ద నమూనాల డెవలపర్లకు కూడా కీలక లక్ష్యం.
వారి పరికల్పనను పరీక్షించడానికి మరియు ఈ ప్రవర్తనను చిన్న స్థాయిలో రాబట్టడానికి, బర్కిలీ బృందం ఒక నిర్దిష్ట, నిర్బంధిత పనిని ఉపయోగించింది: ‘Countdown’ అనే గణిత గేమ్.
- Countdown గేమ్: ఈ గేమ్కు AI ఇచ్చిన ప్రారంభ సంఖ్యల సమితి మరియు ప్రాథమిక అంకగణిత కార్యకలాపాలను (కూడిక, తీసివేత, గుణకారం, భాగహారం) ఉపయోగించి లక్ష్య సంఖ్యను చేరుకోవాలి. ముఖ్యంగా, Countdownలో విజయం ముందుగా ఉన్న గణిత పరిజ్ఞానం యొక్క భారీ మొత్తాలను గుర్తుచేసుకోవడం కంటే వ్యూహాత్మక తార్కికత మరియు ప్రణాళికపై ఎక్కువగా ఆధారపడి ఉంటుంది – విభిన్న కలయికలు మరియు కార్యకలాపాల క్రమాలను అన్వేషించడం.
- ఆట ద్వారా నేర్చుకోవడం: ప్రారంభంలో, TinyZero నమూనా యాదృచ్ఛికంగా గేమ్ను సంప్రదించింది, దాదాపు యాదృచ్ఛికంగా కలయికలను ప్రయత్నించింది. అయినప్పటికీ, రీఇన్ఫోర్స్మెంట్ లెర్నింగ్ (ట్రయల్ మరియు ఎర్రర్ మరియు రివార్డుల నుండి నేర్చుకోవడం) ప్రక్రియ ద్వారా, ఇది నమూనాలు మరియు వ్యూహాలను గుర్తించడం ప్రారంభించింది. ఇది దాని విధానాన్ని సర్దుబాటు చేయడం, అసమర్థ మార్గాలను విస్మరించడం మరియు సరైన పరిష్కారాలపై వేగంగా కలుసుకోవడం నేర్చుకుంది. ఇది తప్పనిసరిగా గేమ్ యొక్క నిర్వచించిన నియమాలలో ఎలా తర్కించాలో నేర్చుకుంది.
- స్వీయ-ధృవీకరణ ఉద్భవిస్తుంది: ముఖ్యంగా, శిక్షణ పొందిన నమూనా స్వీయ-ధృవీకరణ సంకేతాలను చూపించడం ప్రారంభించింది – దాని స్వంత ఇంటర్మీడియట్ దశలు మరియు సంభావ్య పరిష్కారాలను అవి లక్ష్య సంఖ్య వైపు దారితీస్తున్నాయో లేదో నిర్ధారించడానికి మూల్యాంకనం చేయడం. అంతర్గతంగా అంచనా వేయడానికి మరియు కోర్సును సరిదిద్దడానికి ఈ సామర్థ్యం మరింత అధునాతన తార్కికతకు నిదర్శనం.
Jiayi Pan వివరించినట్లుగా, ‘మేము 3B అంత చిన్న మోడల్తో, ఇది సాధారణ సమస్యల గురించి తర్కించడం నేర్చుకోగలదని మరియు స్వీయ-ధృవీకరణ మరియు మెరుగైన పరిష్కారాల కోసం శోధించడం నేర్చుకోవడం ప్రారంభించగలదని చూపిస్తాము.’ ఇది తార్కికత మరియు ‘ఆహా మూమెంట్’ వెనుక ఉన్న ప్రాథమిక యంత్రాంగాలు, గతంలో ప్రధానంగా భారీ, ఖరీదైన నమూనాలతో సంబంధం కలిగి ఉన్నాయని, అత్యంత వనరుల-నియంత్రిత వాతావరణంలో ప్రతిబింబించవచ్చని మరియు అధ్యయనం చేయవచ్చని ప్రదర్శించింది. TinyZero విజయం, సరిహద్దు AI భావనలు కేవలం టెక్ దిగ్గజాల డొమైన్ మాత్రమే కాదని, పరిమిత బడ్జెట్లతో పరిశోధకులు, ఇంజనీర్లు మరియు అభిరుచి గలవారికి కూడా అందుబాటులో ఉంచవచ్చని నిరూపించింది, AI అన్వేషణ కోసం మరింత సమగ్ర పర్యావరణ వ్యవస్థను పెంపొందిస్తుంది. బృందం వారి అన్వేషణలను బహిరంగంగా పంచుకోవాలనే నిర్ణయం, ముఖ్యంగా GitHub వంటి ప్లాట్ఫారమ్ల ద్వారా, ఇతరులు ప్రయోగాలను పునరావృతం చేయడానికి మరియు కొన్ని పిజ్జాల ధర కంటే తక్కువకు ఈ ‘ఆహా మూమెంట్’ ను ప్రత్యక్షంగా అనుభవించడానికి అనుమతించింది.
Stanford పోరాటంలో చేరింది: తక్కువ-ఖర్చు అభ్యాసాన్ని ధృవీకరించడం
TinyZero ద్వారా సృష్టించబడిన అలలు త్వరగా అకడమిక్ AI కమ్యూనిటీ ద్వారా వ్యాపించాయి. Stanford విశ్వవిద్యాలయంలోని పరిశోధకులు, ఇప్పటికే ఇలాంటి భావనలను అన్వేషిస్తున్నారు మరియు గతంలో Countdown గేమ్ను పరిశోధనా పనిగా పరిచయం చేసారు, బర్కిలీ బృందం పనిని అత్యంత సంబంధితంగా మరియు ధృవీకరించేదిగా కనుగొన్నారు.
Kanishk Gandhi నేతృత్వంలోని, Stanford బృందం సంబంధిత, ప్రాథమిక ప్రశ్నలోకి లోతుగా పరిశోధించింది: కొన్ని LLMలు శిక్షణ సమయంలో వారి తార్కిక సామర్థ్యాలలో నాటకీయమైన, దాదాపు ఆకస్మిక మెరుగుదలలను ఎందుకు ప్రదర్శిస్తాయి, మరికొన్ని పీఠభూమిగా కనిపిస్తాయి? సామర్థ్యాలలో ఈ లీపులను నడిపించే అంతర్లీన యంత్రాంగాలను అర్థం చేసుకోవడం మరింత ప్రభావవంతమైన మరియు నమ్మదగిన AIని నిర్మించడానికి కీలకం.
- భాగస్వామ్య మైదానంపై నిర్మించడం: Gandhi TinyZero విలువను గుర్తించారు, ఇది ‘గొప్పది’ అని పేర్కొంటూ, పాక్షికంగా ఎందుకంటే ఇది తన స్వంత బృందం అధ్యయనం చేస్తున్న Countdown పనిని విజయవంతంగా ఉపయోగించుకుంది. ఈ కలయిక విభిన్న పరిశోధనా సమూహాలలో ఆలోచనల వేగవంతమైన ధృవీకరణ మరియు పునరావృత్తికి అనుమతించింది.
- ఇంజనీరింగ్ అడ్డంకులను అధిగమించడం: Stanford పరిశోధకులు ఇంజనీరింగ్ సవాళ్ల ద్వారా వారి పురోగతి గతంలో ఎలా ఆటంకపడిందో కూడా హైలైట్ చేసారు. ఓపెన్-సోర్స్ సాధనాల లభ్యత ఈ అడ్డంకులను అధిగమించడంలో కీలక పాత్ర పోషించింది.
- ఓపెన్ సోర్స్ సాధనాల శక్తి: ప్రత్యేకంగా, Gandhi Volcano Engine Reinforcement Learning సిస్టమ్ (VERL), ByteDance (TikTok యొక్క మాతృ సంస్థ)చే అభివృద్ధి చేయబడిన ఓపెన్-సోర్స్ ప్రాజెక్ట్ను, ‘మా ప్రయోగాలను అమలు చేయడానికి అవసరం’ అని ఘనత ఇచ్చారు. VERL సామర్థ్యాలు మరియు Stanford బృందం యొక్క ప్రయోగాత్మక అవసరాల మధ్య సమలేఖనం వారి పరిశోధనా చక్రాలను గణనీయంగా వేగవంతం చేసింది.
ఓపెన్-సోర్స్ కాంపోనెంట్లపై ఈ ఆధారపడటం తక్కువ-ఖర్చు AI ఉద్యమం యొక్క కీలకమైన అంశాన్ని నొక్కి చెబుతుంది. పురోగతి తరచుగా సహకారంతో నిర్మించబడుతుంది, కమ్యూనిటీలో స్వేచ్ఛగా భాగస్వామ్యం చేయబడిన సాధనాలు మరియు అంతర్దృష్టులను ఉపయోగించుకుంటుంది. Gandhi ఇంకా అభిప్రాయపడ్డారు, LLM తార్కికత మరియు మేధస్సును అర్థం చేసుకోవడంలో ప్రధాన శాస్త్రీయ పురోగతులు ఇకపై పెద్ద, బాగా నిధులు సమకూర్చిన పారిశ్రామిక ల్యాబ్ల నుండి మాత్రమే తప్పనిసరిగా ఉద్భవించకపోవచ్చు. అతను వాదించాడు, ‘ప్రస్తుత LLMల యొక్క శాస్త్రీయ అవగాహన లేదు, పెద్ద ల్యాబ్లలో కూడా,’ ‘DIY AI, ఓపెన్ సోర్స్, మరియు అకాడెమియా’ నుండి సహకారాలకు గణనీయమైన స్థలాన్ని వదిలివేస్తుంది. ఈ చిన్న, మరింత చురుకైన ప్రాజెక్ట్లు నిర్దిష్ట దృగ్విషయాలను లోతుగా అన్వేషించగలవు, మొత్తం రంగానికి ప్రయోజనం చేకూర్చే అంతర్దృష్టులను ఉత్పత్తి చేస్తాయి.
గుర్తించబడని హీరో: ఓపెన్ సోర్స్ ఫౌండేషన్స్
TinyZero వంటి ప్రాజెక్ట్ల యొక్క అద్భుతమైన విజయాలు, డాలర్ల పదుల సంఖ్యలో అధునాతన AI ప్రవర్తనలను ప్రదర్శించడం, కీలకమైన, తరచుగా తక్కువగా అంచనా వేయబడిన అంశంపై ఎక్కువగా ఆధారపడి ఉంటాయి: ఓపెన్-సోర్స్ మరియు ఓపెన్-వెయిట్ AI నమూనాలు మరియు సాధనాల యొక్క విస్తారమైన పర్యావరణ వ్యవస్థ. ఒక నిర్దిష్ట ప్రయోగం యొక్క ఉపాంత వ్యయం తక్కువగా ఉండవచ్చు, ఇది తరచుగా మిలియన్లు, కాకపోయినా బిలియన్ల డాలర్ల ముందస్తు పెట్టుబడిని సూచించే పునాదులపై నిర్మించబడుతుంది.
AI కన్సల్టెన్సీ OneSixలో సీనియర్ లీడ్ మెషిన్ లెర్నింగ్ సైంటిస్ట్ అయిన Nina Singer, ముఖ్యమైన సందర్భాన్ని అందించారు. ఆమె TinyZero యొక్క $30 శిక్షణా వ్యయం, బర్కిలీ బృందం నిర్వహించిన నిర్దిష్ట పనికి ఖచ్చితమైనప్పటికీ, అది ఉపయోగించిన పునాది నమూనాల ప్రారంభ అభివృద్ధి వ్యయాన్ని లెక్కించదని ఎత్తి చూపారు.
- దిగ్గజాల భుజాలపై నిర్మించడం: TinyZero శిక్షణ ByteDance యొక్క VERL సిస్టమ్ను మాత్రమే కాకుండా Alibaba Cloud యొక్క Qwen, ఓపెన్-సోర్స్డ్ LLMను కూడా ఉపయోగించుకుంది. Alibaba దాని ‘వెయిట్స్’ (నమూనా సామర్థ్యాలను నిర్వచించే నేర్చుకున్న పారామితులు) ను ప్రజలకు విడుదల చేయడానికి ముందు Qwenను అభివృద్ధి చేయడంలో గణనీయమైన వనరులను – బహుశా మిలియన్లు – పెట్టుబడి పెట్టింది.
- ఓపెన్ వెయిట్స్ విలువ: Singer ఇది TinyZeroపై విమర్శ కాదని, బదులుగా ఓపెన్-వెయిట్ నమూనాల అపారమైన విలువ మరియు ప్రాముఖ్యతను హైలైట్ చేస్తుందని నొక్కి చెప్పారు. పూర్తి డేటాసెట్ మరియు శిక్షణా ఆర్కిటెక్చర్ యాజమాన్యంగా మిగిలిపోయినప్పటికీ, మోడల్ పారామితులను విడుదల చేయడం ద్వారా, Alibaba వంటి కంపెనీలు పరిశోధకులు మరియు చిన్న సంస్థలు వారి పనిపై నిర్మించడానికి, ప్రయోగం చేయడానికి మరియు ఖరీదైన ప్రారంభ శిక్షణా ప్రక్రియను మొదటి నుండి పునరావృతం చేయాల్సిన అవసరం లేకుండా ఆవిష్కరించడానికి వీలు కల్పిస్తాయి.
- ఫైన్-ట్యూనింగ్ను ప్రజాస్వామ్యీకరించడం: ఈ ఓపెన్ విధానం ‘ఫైన్-ట్యూనింగ్’ యొక్క అభివృద్ధి చెందుతున్న రంగాన్ని ప్రోత్సహిస్తుంది, ఇక్కడ చిన్న AI నమూనాలు నిర్దిష్ట పనుల కోసం స్వీకరించబడతాయి లేదా ప్రత్యేకించబడతాయి. Singer గుర్తించినట్లుగా, ఈ ఫైన్-ట్యూన్ చేయబడిన నమూనాలు తరచుగా వాటి నియమించబడిన ప్రయోజనం కోసం ‘పరిమాణం మరియు వ్యయంలో చాలా పెద్ద నమూనాలతో పోటీపడగలవు’. ఉదాహరణలు పుష్కలంగా ఉన్నాయి, Sky-T1 వంటివి, వినియోగదారులకు సుమారు $450కి అధునాతన నమూనా యొక్క వారి స్వంత సంస్కరణను శిక్షణ ఇచ్చే సామర్థ్యాన్ని అందిస్తాయి, లేదా Alibaba యొక్క Qwen స్వయంగా, $6 కంటే తక్కువకు ఫైన్-ట్యూనింగ్ను ప్రారంభిస్తుంది.
ఓపెన్ ఫౌండేషన్స్పై ఈ ఆధారపడటం బహుళ స్థాయిలలో ఆవిష్కరణ జరగగల డైనమిక్ పర్యావరణ వ్యవస్థను సృష్టిస్తుంది. పెద్ద సంస్థలు శక్తివంతమైన బేస్ మోడళ్లను రూపొందించడంలో భారీగా పెట్టుబడి పెడతాయి, అయితే విస్తృత కమ్యూనిటీ ఈ ఆస్తులను కొత్త అనువర్తనాలను అన్వేషించడానికి, పరిశోధన నిర్వహించడానికి మరియు ప్రత్యేక పరిష్కారాలను మరింత ఆర్థికంగా అభివృద్ధి చేయడానికి ఉపయోగిస్తుంది. ఈ సహజీవన సంబంధం రంగంలో వేగవంతమైన పురోగతి మరియు ప్రజాస్వామ్యీకరణను నడిపిస్తోంది.
‘పెద్దదే ఉత్తమం’ నమూనాను సవాలు చేయడం
TinyZero వంటి ప్రాజెక్ట్ల నుండి ఉద్భవిస్తున్న విజయ గాథలు మరియు సమర్థవంతమైన, తక్కువ-ఖర్చు ఫైన్-ట్యూనింగ్ యొక్క విస్తృత ధోరణి, AIలో పురోగతి కేవలం స్కేల్ యొక్క ఫంక్షన్ – ఎక్కువ డేటా, ఎక్కువ పారామితులు, ఎక్కువ కంప్యూటింగ్ పవర్ – అనే దీర్ఘకాల పరిశ్రమ నమ్మకానికి గణనీయమైన సవాలును విసురుతున్నాయి.
Nina Singer హైలైట్ చేసినట్లుగా, అత్యంత లోతైన చిక్కులలో ఒకటి, డేటా నాణ్యత మరియు పని-నిర్దిష్ట శిక్షణ తరచుగా కేవలం మోడల్ పరిమాణం కంటే చాలా క్లిష్టమైనవి కావచ్చు. TinyZero ప్రయోగం, సాపేక్షంగా చిన్న నమూనా (3 బిలియన్ పారామితులు) కూడా బాగా నిర్వచించబడిన పనిపై సమర్థవంతంగా శిక్షణ పొందినప్పుడు స్వీయ-దిద్దుబాటు మరియు పునరావృత మెరుగుదల వంటి సంక్లిష్ట ప్రవర్తనలను నేర్చుకోగలదని ప్రదర్శించింది.
- స్కేల్పై తగ్గుతున్న రాబడులు?: ఈ అన్వేషణ OpenAI యొక్క GPT సిరీస్ లేదా Anthropic యొక్క Claude వంటి భారీ నమూనాలు మాత్రమే, వాటి వందల బిలియన్లు లేదా ట్రిలియన్ల పారామితులతో, అటువంటి అధునాతన అభ్యాసానికి సామర్థ్యం కలిగి ఉన్నాయనే ఊహను నేరుగా ప్రశ్నిస్తుంది. Singer సూచించారు, ‘ఈ ప్రాజెక్ట్ అదనపు పారామితులు తగ్గుతున్న రాబడులను అందించే పరిమితిని మనం ఇప్పటికే దాటి ఉండవచ్చని సూచిస్తుంది — కనీసం కొన్ని పనుల కోసం.’ పెద్ద నమూనాలు సాధారణత్వం మరియు జ్ఞానం యొక్క విస్తృతిలో ప్రయోజనాలను కలిగి ఉండవచ్చు, నిర్దిష్ట అనువర్తనాల కోసం, హైపర్-స్కేల్డ్ నమూనాలు ఖర్చు మరియు గణన అవసరాల పరంగా ఓవర్కిల్ను సూచించవచ్చు.
- సామర్థ్యం మరియు నిర్దిష్టత వైపు మార్పు: AI ప్రకృతి దృశ్యం సూక్ష్మమైన కానీ గణనీయమైన మార్పుకు లోనవుతూ ఉండవచ్చు. ఎప్పటికప్పుడు పెద్ద పునాది నమూనాలను నిర్మించడంపై ప్రత్యేక దృష్టి పెట్టడానికి బదులుగా, సామర్థ్యం, ప్రాప్యత మరియు లక్ష్య మేధస్సుపై పెరుగుతున్న శ్రద్ధ చెల్లించబడుతోంది. నిర్దిష్ట డొమైన్లు లేదా పనుల కోసం చిన్న, అత్యంత ఆప్టిమైజ్ చేయబడిన నమూనాలను సృష్టించడం ఒక ఆచరణీయమైన మరియు ఆర్థికంగా ఆకర్షణీయమైన ప్రత్యామ్నాయంగా నిరూపించబడుతోంది.
- క్లోజ్డ్ మోడల్స్పై ఒత్తిడి: ఓపెన్-వెయిట్ నమూనాలు మరియు తక్కువ-ఖర్చు ఫైన్-ట్యూనింగ్ టెక్నిక్ల పెరుగుతున్న సామర్థ్యం మరియు లభ్యత, ప్రధానంగా పరిమితం చేయబడిన APIల (Application Programming Interfaces) ద్వారా వారి AI సామర్థ్యాలను అందించే కంపెనీలపై పోటీ ఒత్తిడిని కలిగిస్తాయి. Singer గుర్తించినట్లుగా, OpenAI మరియు Anthropic వంటి కంపెనీలు వారి క్లోజ్డ్ పర్యావరణ వ్యవస్థల యొక్క విలువ ప్రతిపాదనను ఎక్కువగా సమర్థించుకోవలసి ఉంటుంది, ప్రత్యేకించి ‘ఓపెన్ ప్రత్యామ్నాయాలు నిర్దిష్ట డొమైన్లలో వారి సామర్థ్యాలను సరిపోల్చడం లేదా