గొప్ప AI సందర్భ పోటీ: పెద్దది నిజంగా మంచిదా?

పెద్ద భాషా నమూనాల (LLMలు) కోసం మిలియన్-టోకెన్ మార్క్‌ను దాటి, మరింత పెద్ద నమూనాల కోసం అన్వేషణ కృత్రిమ మేధస్సు సంఘంలో తీవ్ర చర్చకు దారితీసింది. మినిమాక్స్ట్-టెక్స్ట్-01 యొక్క 4 మిలియన్ టోకెన్లు మరియు జెమిని 1.5 ప్రో ఒకేసారి 2 మిలియన్ టోకెన్లను నిర్వహించగల సామర్థ్యం వంటి భారీ టోకెన్ సామర్థ్యాలు కలిగిన నమూనాలు సంచలనం సృష్టిస్తున్నాయి. ఈ నమూనాలు ఒకేసారి విస్తృతమైన కోడ్‌బేస్‌లు, సంక్లిష్టమైన చట్టపరమైన పత్రాలు మరియు లోతైన పరిశోధనా పత్రాలను విశ్లేషించే సామర్థ్యంతో విప్లవాత్మక అనువర్తనాలను అందిస్తాయని వాగ్దానం చేస్తున్నాయి.

ఈ చర్చలో కీలకమైన అంశం సందర్భ పొడవు - ఒక AI నమూనా ఏ సమయంలోనైనా ప్రాసెస్ చేయగల మరియు నిలుపుకోగల వచనం యొక్క మొత్తం. మరింత పొడిగించిన సందర్భ విండో ML నమూనాని ఒకే అభ్యర్థనలో గణనీయంగా ఎక్కువ సమాచారాన్ని నిర్వహించడానికి అనుమతిస్తుంది, పత్రాలను విచ్ఛిన్నం చేయవలసిన అవసరాన్ని లేదా సంభాషణలను విచ్ఛిన్నం చేయవలసిన అవసరాన్ని తగ్గిస్తుంది. దీనిని దృక్పథంలో ఉంచడానికి, 4 మిలియన్ టోకెన్ల సామర్థ్యం కలిగిన నమూనా సైద్ధాంతికంగా ఒకేసారి సుమారు 10,000 పేజీల పుస్తకాలను జీర్ణించుకోగలదు.

సిద్ధాంతపరంగా, ఈ విస్తరించిన సందర్భం మెరుగైన అవగాహనకు మరియు మరింత అధునాతన తార్కికానికి దారితీయాలి. అయినప్పటికీ, కీలకమైన ప్రశ్న అలాగే ఉంది: ఈ భారీ సందర్భ విండోలు స్పష్టమైన వ్యాపార విలువగా మారుతాయా?

వ్యాపారాలు వాటి మౌలిక సదుపాయాలను పెంచే ఖర్చులను ఉత్పాదకత మరియు ఖచ్చితత్వంలో సంభావ్య లాభాలతో పోల్చి చూస్తున్నందున, అంతర్లీన ప్రశ్న ఏమిటంటే, మేము నిజంగా AI తార్కికం యొక్క కొత్త స్థాయిలను అన్‌లాక్ చేస్తున్నామా లేదా అర్థవంతమైన పురోగతిని సాధించకుండా టోకెన్ మెమరీ యొక్క సరిహద్దులను నెట్టివేస్తున్నామా అనేది. ఈ కథనం సాంకేతిక మరియు ఆర్థిక పరస్పర చర్యలు, బెంచ్‌మార్కింగ్ ఇబ్బందులు మరియు పెద్ద-సందర్భ LLMల భవిష్యత్తును రూపొందిస్తున్న అభివృద్ధి చెందుతున్న ఎంటర్‌ప్రైజ్ వర్క్‌ఫ్లోస్‌లోకి ప్రవేశిస్తుంది.

సందర్భ పొడవు ఆయుధ పోటీ: AI కంపెనీలు ఎందుకు పోటీ పడుతున్నాయి

ఓపెన్‌AI, గూగుల్ డీప్‌మైండ్ మరియు మినిమాక్స్‌తో సహా ప్రముఖ AI సంస్థలు సందర్భ పొడవును పెంచడానికి తీవ్ర పోటీలో ఉన్నాయి, ఇది ఒకే సందర్భంలో AI నమూనా ప్రాసెస్ చేయగల వచనం మొత్తంతో నేరుగా సంబంధం కలిగి ఉంటుంది. ఎక్కువ సందర్భ పొడవు లోతైన అవగాహనకు, భ్రమలను (కల్పనలు) తగ్గిస్తుందని మరియు మరింత అతుకులు లేని పరస్పర చర్యలను సృష్టిస్తుందని హామీ ఇస్తుంది.

సంస్థల కోసం, ఇది మొత్తం ఒప్పందాలను విశ్లేషించగల, పెద్ద కోడ్‌బేస్‌లను డీబగ్ చేయగల లేదా సందర్భాన్ని కోల్పోకుండా సుదీర్ఘ నివేదికలను సంగ్రహించగల AIకి అనువదిస్తుంది. చంకింగ్ లేదా రిట్రీవల్-ఆగ్మెంటెడ్ జనరేషన్ (RAG) వంటి పరిష్కారాలను తొలగించడం ద్వారా, AI వర్క్‌ఫ్లోలు సున్నితంగా మరియు మరింత సమర్థవంతంగా మారతాయని అంచనా.

‘గడ్డివాములో సూది’ సమస్య: క్లిష్టమైన సమాచారాన్ని కనుగొనడం

‘గడ్డివాములో సూది’ సమస్య విస్తారమైన డేటాసెట్‌లలో (గడ్డివాము) దాగి ఉన్న క్లిష్టమైన సమాచారాన్ని (సూది) గుర్తించడంలో AI ఎదుర్కొంటున్న కష్టాన్ని హైలైట్ చేస్తుంది. LLMలు తరచుగా కీలకమైన వివరాలను గుర్తించడానికి కష్టపడతాయి, దీని వలన వివిధ ప్రాంతాలలో అసమర్థత ఏర్పడుతుంది:

  • శోధన మరియు జ్ఞాన పునరుద్ధరణ: AI సహాయకులు విస్తృతమైన పత్ర నిల్వల నుండి అత్యంత సంబంధిత వాస్తవాలను సంగ్రహించడానికి తరచుగా ఇబ్బంది పడతారు.

  • చట్టపరమైన మరియు సమ్మతి: న్యాయవాదులు సుదీర్ఘ ఒప్పందాలలో నిబంధన ఆధారపడటాన్ని ట్రాక్ చేయాలి.

  • సంస్థాగత విశ్లేషణలు: ఆర్థిక విశ్లేషకులు సంక్లిష్ట నివేదికలలో పాతిపెట్టిన కీలకమైన అంతర్దృష్టులను విస్మరించే ప్రమాదం ఉంది.

పెద్ద సందర్భ విండోలు నమూనాలు ఎక్కువ సమాచారాన్ని నిలుపుకోవడానికి సహాయపడతాయి, ఇది భ్రమలను తగ్గిస్తుంది, ఖచ్చితత్వాన్ని మెరుగుపరుస్తుంది మరియు దీనికి సహాయపడుతుంది:

  • క్రాస్-డాక్యుమెంట్ సమ్మతి తనిఖీలు: ఒకే 256K-టోకెన్ ప్రాంప్ట్ మొత్తం విధాన మాన్యువల్‌ను కొత్త చట్టంతో పోల్చగలదు.

  • వైద్య సాహిత్యం సంశ్లేషణ: పరిశోధకులు దశాబ్దాల అధ్యయనాల నుండి ఔషధ పరీక్ష ఫలితాలను పోల్చడానికి 128K+ టోకెన్ విండోలను ఉపయోగించవచ్చు.

  • సాఫ్ట్‌వేర్ అభివృద్ధి: AI డిపెండెన్సీలను కోల్పోకుండా మిలియన్ల కొద్దీ లైన్ల కోడ్‌ను స్కాన్ చేయగలిగినప్పుడు డీబగ్గింగ్ మెరుగుపడుతుంది.

  • ఆర్థిక పరిశోధన: విశ్లేషకులు పూర్తి ఆదాయ నివేదికలు మరియు మార్కెట్ డేటాను ఒకే ప్రశ్నలో విశ్లేషించవచ్చు.

  • కస్టమర్ మద్దతు: ఎక్కువ మెమరీ ఉన్న చాట్‌బాట్‌లు మరింత సందర్భోచితమైన పరస్పర చర్యలను అందించగలవు.

సందర్భ విండోను పెంచడం వలన నమూనా సంబంధిత వివరాలను మెరుగ్గా సూచించడంలో సహాయపడుతుంది, తప్పు లేదా కల్పిత సమాచారాన్ని ఉత్పత్తి చేసే అవకాశం తగ్గుతుంది. విలీన ఒప్పందాలను విశ్లేషించేటప్పుడు 128K-టోకెన్ నమూనాలు RAG సిస్టమ్‌లతో పోలిస్తే భ్రమల రేట్లను 18% తగ్గించాయని 2024 స్టాన్‌ఫోర్డ్ అధ్యయనం కనుగొంది.

ఈ సంభావ్య ప్రయోజనాలు ఉన్నప్పటికీ, ప్రారంభ స్వీకర్తలు సవాళ్లను నివేదించారు. JPMorgan Chase నుండి వచ్చిన పరిశోధన నమూనాలు వాటి సందర్భంలో సుమారు 75% పేలవంగా పని చేస్తాయని, సంక్లిష్ట ఆర్థిక పనులపై పనితీరు 32K టోకెన్ల తర్వాత దాదాపు సున్నాకు పడిపోతుందని నిరూపించింది. నమూనాలు ఇప్పటికీ దీర్ఘ-శ్రేణి రీకాల్‌తో కష్టపడుతున్నాయి, తరచుగా లోతైన అంతర్దృష్టుల కంటే ఇటీవలి డేటాకు ప్రాధాన్యత ఇస్తాయి.

ఇది కీలకమైన ప్రశ్నలను లేవనెత్తుతుంది: 4-మిలియన్-టోకెన్ విండో నిజంగా తార్కికాన్ని మెరుగుపరుస్తుందా, లేదా ఇది కేవలం మెమరీ యొక్క ఖరీదైన విస్తరణ మాత్రమేనా? ఈ విస్తారమైన ఇన్‌పుట్‌లో నమూనా ఎంతవరకు వాస్తవానికి ఉపయోగిస్తుంది? మరియు ప్రయోజనాలు పెరుగుతున్న గణన ఖర్చులను అధిగమిస్తాయా?

RAG vs. పెద్ద ప్రాంప్ట్‌లు: ఆర్థిక పరస్పర చర్యలు

రిట్రీవల్-ఆగ్మెంటెడ్ జనరేషన్ (RAG) డేటాబేస్‌లు లేదా డాక్యుమెంట్ స్టోర్‌ల వంటి బాహ్య మూలాల నుండి సంబంధిత సమాచారాన్ని పొందే పునరుద్ధరణ వ్యవస్థతో LLMల సామర్థ్యాలను మిళితం చేస్తుంది. ఇది దాని ముందుగా ఉన్న జ్ఞానం మరియు డైనమిక్‌గా పొందిన డేటా ఆధారంగా ప్రతిస్పందనలను రూపొందించడానికి నమూనాని అనుమతిస్తుంది.

సంస్థలు సంక్లిష్టమైన పనుల కోసం AIని సమగ్రపరస్తున్నందున, అవి ఒక ప్రాథమిక నిర్ణయాన్ని ఎదుర్కొంటాయి: వారు పెద్ద సందర్భ విండోలతో భారీ ప్రాంప్ట్‌లను ఉపయోగించాలా, లేదా నిజ సమయంలో సంబంధిత సమాచారాన్ని పొందడానికి వారు RAGపై ఆధారపడాలా?

  • పెద్ద ప్రాంప్ట్‌లు: పెద్ద టోకెన్ విండోలు కలిగిన నమూనాలు ప్రతిదీ ఒకేసారి ప్రాసెస్ చేస్తాయి, బాహ్య పునరుద్ధరణ వ్యవస్థలను నిర్వహించాల్సిన అవసరాన్ని తగ్గిస్తాయి మరియు క్రాస్-డాక్యుమెంట్ అంతర్దృష్టులను పొందుతాయి. అయితే, ఈ విధానం గణనపరంగా ఖరీదైనది, అధిక అనుమితి ఖర్చులకు మరియు పెరిగిన మెమరీ అవసరాలకు దారితీస్తుంది.

  • RAG: మొత్తం పత్రాన్ని ఒకేసారి ప్రాసెస్ చేయడానికి బదులుగా, RAG ప్రతిస్పందనను రూపొందించే ముందు అత్యంత సంబంధిత భాగాలను మాత్రమే పొందుతుంది. ఇది టోకెన్ వినియోగాన్ని మరియు ఖర్చులను గణనీయంగా తగ్గిస్తుంది, ఇది నిజ-ప్రపంచ అనువర్తనాల కోసం మరింత స్కేలబుల్‌గా చేస్తుంది.

అనుమితి ఖర్చులు: బహుళ-దశ పునరుద్ధరణ vs. పెద్ద సింగిల్ ప్రాంప్ట్‌లు

పెద్ద ప్రాంప్ట్‌లు వర్క్‌ఫ్లోలను క్రమబద్ధీకరించినప్పటికీ, వాటికి ఎక్కువ GPU శక్తి మరియు మెమరీ అవసరం, వాటిని పెద్ద ఎత్తున అమలు చేయడానికి ఖరీదైనదిగా చేస్తుంది. RAG-ఆధారిత విధానాలు, బహుళ పునరుద్ధరణ దశలు అవసరమైనప్పటికీ, తరచుగా మొత్తం టోకెన్ వినియోగాన్ని తగ్గిస్తాయి, ఇది ఖచ్చితత్వాన్ని త్యాగం చేయకుండా తక్కువ అనుమితి ఖర్చులకు దారితీస్తుంది.

చాలా సంస్థలకు, ఆదర్శవంతమైన విధానం నిర్దిష్ట వినియోగ సందర్భంపై ఆధారపడి ఉంటుంది:

  • పత్రాల యొక్క లోతైన విశ్లేషణ అవసరమా? పెద్ద సందర్భ నమూనాలు మంచి ఎంపిక కావచ్చు.
  • డైనమిక్ ప్రశ్నల కోసం స్కేలబుల్, తక్కువ ఖర్చుతో కూడిన AI అవసరమా? RAG తెలివైన ఎంపికగా ఉంటుంది.

పెద్ద సందర్భ విండో ప్రత్యేకంగా విలువైనది ఎప్పుడు:

  • ఒప్పంద సమీక్షలు లేదా కోడ్ ఆడిట్‌లలో వలె మొత్తం వచనాన్ని ఒకేసారి విశ్లేషించాలి.
  • పునరుద్ధరణ లోపాలను తగ్గించడం చాలా కీలకం, ఉదాహరణకు, నియంత్రణ సమ్మతిలో.
  • వ్యూహాత్మక పరిశోధనలో వలె, లేటెన్సీ ఖచ్చితత్వం కంటే తక్కువ ఆందోళన కలిగిస్తుంది.

గూగుల్ నుండి వచ్చిన పరిశోధన ప్రకారం, 10 సంవత్సరాల ఆదాయ ట్రాన్స్‌క్రిప్ట్‌లను విశ్లేషిస్తూ 128K-టోకెన్ విండోలను ఉపయోగించే స్టాక్ ప్రిడిక్షన్ నమూనాలు RAG కంటే 29% ఎక్కువ పనితీరును కనబరిచాయి. దీనికి విరుద్ధంగా, గిట్‌హబ్ కోపైలట్‌లో అంతర్గత పరీక్ష మోనోరెపో వలసల కోసం RAGకి విరుద్ధంగా పెద్ద ప్రాంప్ట్‌లను ఉపయోగించి టాస్క్ పూర్తి చేయడం 2.3 రెట్లు వేగంగా ఉందని చూపించింది.

పెద్ద సందర్భ నమూనాల పరిమితులు: లేటెన్సీ, ఖర్చులు మరియు వినియోగం

పెద్ద సందర్భ నమూనాలు ఆకట్టుకునే సామర్థ్యాలను అందించినప్పటికీ, అదనపు సందర్భం ఎంతవరకు నిజంగా ప్రయోజనకరంగా ఉంటుందో దానిపై పరిమితులు ఉన్నాయి. సందర్భ విండోలు విస్తరిస్తున్న కొద్దీ, మూడు కీలకమైన అంశాలు అమలులోకి వస్తాయి:

  • లేటెన్సీ: ఒక నమూనా ఎంత ఎక్కువ టోకెన్‌లను ప్రాసెస్ చేస్తే, అనుమితి అంత నెమ్మదిగా ఉంటుంది. పెద్ద సందర్భ విండోలు ముఖ్యంగా నిజ-సమయ ప్రతిస్పందనలు అవసరమైనప్పుడు గణనీయమైన ఆలస్యాలకు దారితీయవచ్చు.

  • ఖర్చులు: ప్రాసెస్ చేయబడిన ప్రతి అదనపు టోకెన్‌తో గణన ఖర్చులు పెరుగుతాయి. ఈ పెద్ద నమూనాలను నిర్వహించడానికి మౌలిక సదుపాయాలను పెంచడం చాలా ఖరీదైనదిగా మారవచ్చు, ప్రత్యేకించి ఎక్కువ-వాల్యూమ్ వర్క్‌లోడ్‌లతో ఉన్న సంస్థలకు.

  • వినియోగం: సందర్భం పెరిగేకొద్దీ, అత్యంత సంబంధిత సమాచారంపై సమర్థవంతంగా ‘దృష్టి’ పెట్టే నమూనా యొక్క సామర్థ్యం తగ్గుతుంది. ఇది అసమర్థమైన ప్రాసెసింగ్‌కు దారితీయవచ్చు, ఇక్కడ తక్కువ సంబంధిత డేటా నమూనా యొక్క పనితీరును ప్రభావితం చేస్తుంది, దీని ఫలితంగా ఖచ్చితత్వం మరియు సామర్థ్యం రెండింటికీ తగ్గుతున్న రాబడి వస్తుంది.

గూగుల్ యొక్క ఇన్ఫిని-శ్రద్ధ సాంకేతికత బౌండెడ్ మెమరీతో ఏకపక్ష-పొడవు సందర్భం యొక్క కుదించబడిన ప్రాతినిధ్యాలను నిల్వ చేయడం ద్వారా ఈ పరస్పర చర్యలను తగ్గించడానికి ప్రయత్నిస్తుంది. అయినప్పటికీ, కుదింపు తప్పనిసరిగా సమాచార నష్టానికి దారితీస్తుంది మరియు నమూనాలు తక్షణ మరియు చారిత్రక సమాచారం మధ్య సమతుల్యతను కాపాడుకోవడానికి కష్టపడుతున్నాయి, దీని వలన సాంప్రదాయ RAGతో పోలిస్తే పనితీరు క్షీణిస్తుంది మరియు ఖర్చులు పెరుగుతాయి.

4M-టోకెన్ నమూనాలు ఆకట్టుకునేవి అయినప్పటికీ, సంస్థలు వాటిని సార్వత్రిక పరిష్కారాల కంటే ప్రత్యేక సాధనాలుగా చూడాలి. భవిష్యత్తు అనేది నిర్దిష్ట పని అవసరాల ఆధారంగా RAG మరియు పెద్ద ప్రాంప్ట్‌ల మధ్య అనుగుణంగా ఎంచుకునే హైబ్రిడ్ సిస్టమ్‌లలో ఉంది.

సంస్థలు తార్కిక సంక్లిష్టత, ఖర్చు పరిశీలనలు మరియు లేటెన్సీ అవసరాల ఆధారంగా పెద్ద సందర్భ నమూనాలు మరియు RAG మధ్య ఎంచుకోవాలి. లోతైన అవగాహన అవసరమయ్యే పనులకు పెద్ద సందర్భ విండోలు అనువైనవి, అయితే RAG సరళమైన, వాస్తవిక పనులకు మరింత ఖర్చుతో కూడుకున్నది మరియు సమర్థవంతమైనది. ఖర్చులను సమర్థవంతంగా నిర్వహించడానికి, సంస్థలు ఒక్కో పనికి $0.50 వంటి స్పష్టమైన ఖర్చు పరిమితులను ఏర్పాటు చేయాలి, ఎందుకంటే పెద్ద నమూనాలు త్వరగా ఖరీదైనవిగా మారతాయి. అదనంగా, పెద్ద ప్రాంప్ట్‌లు ఆఫ్‌లైన్ పనులకు బాగా సరిపోతాయి, అయితే RAG సిస్టమ్‌లు వేగవంతమైన ప్రతిస్పందనలు అవసరమయ్యే నిజ-సమయ అనువర్తనాల్లో రాణిస్తాయి.

గ్రాఫ్ RAG వంటి అభివృద్ధి చెందుతున్న ఆవిష్కరణలు సాంప్రదాయ వెక్టర్ పునరుద్ధరణ పద్ధతులతో జ్ఞాన గ్రాఫ్‌లను సమగ్రపరచడం ద్వారా ఈ అనుకూల వ్యవస్థలను మరింత మెరుగుపరచగలవు. ఈ ఏకీకరణ సంక్లిష్ట సంబంధాల సంగ్రహాన్ని మెరుగుపరుస్తుంది, దీని వలన వెక్టర్-మాత్రమే విధానాలతో పోలిస్తే 35% వరకు మెరుగైన సూక్ష్మమైన తార్కికం మరియు సమాధాన ఖచ్చితత్వం ఏర్పడుతుంది. లెట్రియా వంటి కంపెనీల ఇటీవలి అమలు సాంప్రదాయ RAGతో 50% నుండి హైబ్రిడ్ పునరుద్ధరణ వ్యవస్థల్లో గ్రాఫ్ RAGని ఉపయోగించి 80% పైకి పెరగడంతో ఖచ్చితత్వంలో నాటకీయ మెరుగుదలలను ప్రదర్శించింది.

యూరి కురాటోవ్ సరిగ్గా హెచ్చరించినట్లుగా, ‘తార్కికాన్ని మెరుగుపరచకుండా సందర్భాన్ని విస్తరించడం అంటే స్టీరింగ్ చేయలేని కార్ల కోసం విస్తృతమైన రహదారులను నిర్మించడం లాంటిది.’ AI యొక్క నిజమైన భవిష్యత్తు విస్తారమైన డేటాను ప్రాసెస్ చేయగల నమూనాలు మాత్రమే కాకుండా, ఏదైనా సందర్భ పరిమాణంలో సంబంధాలను నిజంగా అర్థం చేసుకునే నమూనాలలో ఉంది. ఇది తెలివితేటల గురించి, కేవలం జ్ఞాపకశక్తి గురించి కాదు.