பெரிய மொழி மாதிரி: பெரிது சிறந்ததா?

சூழல் நீள ஆயுதப் போட்டி: ஏன் AI நிறுவனங்கள் போட்டியிடுகின்றன

OpenAI, Google DeepMind, மற்றும் MiniMax போன்ற முன்னணி AI நிறுவனங்கள், சூழல் நீளத்தை அதிகரிப்பதில் தீவிரமாக போட்டியிடுகின்றன. சூழல் நீளம் என்பது ஒரு AI மாதிரி ஒரு நேரத்தில் எவ்வளவு உரையை செயலாக்க முடியும் என்பதைக் குறிக்கிறது. அதிக சூழல் நீளம் ஆழமான புரிதலை வழங்கும், தவறான தகவல்களைக் குறைக்கும், மேலும் தடையற்ற தொடர்புகளை உருவாக்கும் என்று நம்பப்படுகிறது.

தொழில்துறைகளுக்கு, இது AI ஆனது முழு ஒப்பந்தங்களையும் பகுப்பாய்வு செய்ய, பெரிய codebases ஐ debug செய்ய அல்லது நீண்ட அறிக்கைகளை சூழலை இழக்காமல் சுருக்க உதவுகிறது. chunking அல்லது retrieval-augmented generation (RAG) போன்ற தந்திரங்களை தவிர்ப்பதன் மூலம் AI வேலைப்பாய்வுகள் மென்மையாகவும் திறமையாகவும் மாறும் என்று எதிர்பார்க்கப்படுகிறது.

‘வைக்கோல் போரில் ஊசி’ பிரச்சினை: முக்கியமான தகவலைக் கண்டுபிடிப்பது

‘வைக்கோல் போரில் ஊசி’ பிரச்சினை, AI ஆனது பரந்த தரவுத்தொகுதிகளில் (வைக்கோல் போர்) மறைந்திருக்கும் முக்கியமான தகவலை (ஊசி) அடையாளம் காண்பதில் உள்ள சிரமத்தை எடுத்துக்காட்டுகிறது. LLM கள் பெரும்பாலும் முக்கிய விவரங்களை அடையாளம் காண போராடுகின்றன, இது பல்வேறு பகுதிகளில் திறமையின்மைக்கு வழிவகுக்கிறது:

  • தேடல் மற்றும் அறிவு மீட்டெடுப்பு: AI உதவியாளர்கள் விரிவான ஆவண களஞ்சியங்களிலிருந்து மிகவும் பொருத்தமான உண்மைகளை பிரித்தெடுப்பதில் பெரும்பாலும் சிரமப்படுகிறார்கள்.

  • சட்டம் மற்றும் இணக்கம்: வழக்கறிஞர்கள் நீண்ட ஒப்பந்தங்களுக்குள் உட்பிரிவு சார்புகளைக் கண்காணிக்க வேண்டும்.

  • தொழில்துறை பகுப்பாய்வு: நிதி ஆய்வாளர்கள் சிக்கலான அறிக்கைகளில் புதைந்துள்ள முக்கியமான நுண்ணறிவுகளைக் கவனிக்காமல் போகும் அபாயம் உள்ளது.

பெரிய சூழல் சாளரங்கள் மாதிரிகள் அதிக தகவல்களை வைத்திருக்க உதவுகின்றன, இது தவறான தகவல்களைக் குறைக்கிறது, துல்லியத்தை மேம்படுத்துகிறது மற்றும் செயல்படுத்துகிறது:

  • குறுக்கு-ஆவண இணக்கச் சரிபார்ப்புகள்: ஒரு 256K-டோக்கன் தூண்டுதல் ஒரு முழு கொள்கை கையேட்டை புதிய சட்டத்திற்கு எதிராக ஒப்பிடலாம்.

  • மருத்துவ இலக்கிய தொகுப்பு: ஆராய்ச்சியாளர்கள் தசாப்த கால ஆய்வுகளின் முடிவுகளை ஒப்பிட 128K+ டோக்கன் சாளரங்களைப் பயன்படுத்தலாம்.

  • மென்பொருள் மேம்பாடு: AI சார்புகளை இழக்காமல் மில்லியன் கணக்கான வரிக் குறியீட்டை ஸ்கேன் செய்யும்போது பிழைத்திருத்தம் மேம்படும்.

  • நிதி ஆராய்ச்சி: ஆய்வாளர்கள் முழு வருவாய் அறிக்கைகள் மற்றும் சந்தை தரவை ஒரே கேள்வியில் பகுப்பாய்வு செய்யலாம்.

  • வாடிக்கையாளர் ஆதரவு: நீண்ட நினைவகத்துடன் கூடிய Chatbots அதிக சூழல் சார்ந்த தொடர்புகளை வழங்க முடியும்.

சூழல் சாளரத்தை அதிகரிப்பது மாதிரி தொடர்புடைய விவரங்களை சிறப்பாகக் குறிப்பிட உதவுகிறது, இது தவறான அல்லது புனையப்பட்ட தகவல்களை உருவாக்கும் வாய்ப்பைக் குறைக்கிறது. 2024 ஆம் ஆண்டு ஸ்டான்போர்ட் ஆய்வு, இணைப்பு ஒப்பந்தங்களை பகுப்பாய்வு செய்யும் போது RAG அமைப்புகளுடன் ஒப்பிடும்போது 128K-டோக்கன் மாதிரிகள் தவறான தகவல்களை உருவாக்கும் விகிதத்தை 18% குறைத்துள்ளன என்று கண்டறிந்துள்ளது.

இந்த சாத்தியமான நன்மைகள் இருந்தபோதிலும், ஆரம்ப பயனர்கள் சவால்களைப் புகாரளித்துள்ளனர். JPMorgan Chase இன் ஆராய்ச்சி, மாதிரிகள் அவற்றின் சூழலில் தோராயமாக 75% இல் மோசமாக செயல்படுகின்றன, சிக்கலான நிதி பணிகளில் செயல்திறன் 32K டோக்கன்களுக்கு அப்பால் பூஜ்ஜியத்திற்கு அருகில் சரிவடைகிறது என்று நிரூபித்துள்ளது. மாதிரிகள் இன்னும் நீண்ட தூர நினைவுகூரலுடன் போராடுகின்றன, பெரும்பாலும் ஆழமான நுண்ணறிவுகளை விட சமீபத்திய தரவுகளுக்கு முன்னுரிமை அளிக்கின்றன.

இது முக்கியமான கேள்விகளை எழுப்புகிறது: 4 மில்லியன் டோக்கன் சாளரம் உண்மையிலேயே பகுத்தறிவை மேம்படுத்துமா, அல்லது இது நினைவகத்தின் விலையுயர்ந்த விரிவாக்கமா? இந்த பரந்த உள்ளீட்டில் மாதிரியின் செயல்திறன் எவ்வளவு உள்ளது? மேலும் நன்மைகள் அதிகரிக்கும் கணக்கீட்டு செலவுகளை விட அதிகமாக உள்ளதா?

RAG எதிராக பெரிய தூண்டுதல்கள்: பொருளாதாரப் பரிமாற்றங்கள்

Retrieval-augmented generation (RAG) என்பது LLM களின் திறன்களை மீட்டெடுக்கும் அமைப்புடன் இணைக்கிறது, இது தரவுத்தளங்கள் அல்லது ஆவண சேமிப்பகங்கள் போன்ற வெளிப்புற மூலங்களிலிருந்து தொடர்புடைய தகவல்களைப் பெறுகிறது. இது மாதிரி அதன் ஏற்கனவே உள்ள அறிவு மற்றும் மாறும் மீட்டெடுக்கப்பட்ட தரவு இரண்டையும் அடிப்படையாகக் கொண்டு பதில்களை உருவாக்க உதவுகிறது.

நிறுவனங்கள் சிக்கலான பணிகளுக்காக AI ஐ ஒருங்கிணைக்கும்போது, அவர்கள் ஒரு அடிப்படை முடிவை எதிர்கொள்கிறார்கள்: அவர்கள் பெரிய சூழல் சாளரங்களுடன் கூடிய பெரிய தூண்டுதல்களைப் பயன்படுத்த வேண்டுமா, அல்லது நிகழ்நேரத்தில் தொடர்புடைய தகவல்களைப் பெற RAG ஐ நம்ப வேண்டுமா?

  • பெரிய தூண்டுதல்கள்: பெரிய டோக்கன் சாளரங்களைக் கொண்ட மாதிரிகள் வெளிப்புற மீட்டெடுப்பு அமைப்புகளை பராமரிக்க வேண்டிய அவசியத்தை குறைத்து, குறுக்கு-ஆவண நுண்ணறிவுகளைப் பிடித்து, அனைத்தையும் ஒரே நேரத்தில் செயலாக்குகின்றன. இருப்பினும், இந்த அணுகுமுறை கணக்கீட்டு ரீதியாக விலை உயர்ந்தது, இது அதிக அனுமான செலவுகளுக்கும் அதிகரித்த நினைவகத் தேவைகளுக்கும் வழிவகுக்கிறது.

  • RAG: முழு ஆவணத்தையும் ஒரே நேரத்தில் செயலாக்குவதற்குப் பதிலாக, RAG ஒரு பதிலை உருவாக்குவதற்கு முன்பு மிகவும் பொருத்தமான பகுதிகளை மட்டுமே மீட்டெடுக்கிறது. இது டோக்கன் பயன்பாடு மற்றும் செலவுகளை கணிசமாகக் குறைக்கிறது, இது உண்மையான உலக பயன்பாடுகளுக்கு மிகவும் அளவிடக்கூடியதாக ஆக்குகிறது.

அனுமான செலவுகள்: பல-படி மீட்டெடுப்பு எதிராக பெரிய ஒற்றை தூண்டுதல்கள்

பெரிய தூண்டுதல்கள் வேலைப்பாய்வுகளை ஒழுங்குபடுத்தினாலும், அவை அதிக GPU சக்தி மற்றும் நினைவகத்தைக் கோருகின்றன, இதனால் அவற்றை அளவில் செயல்படுத்த விலை உயர்ந்ததாக ஆக்குகிறது. RAG அடிப்படையிலான அணுகுமுறைகள், பல மீட்டெடுப்பு படிகள் தேவைப்பட்டாலும், பெரும்பாலும் ஒட்டுமொத்த டோக்கன் நுகர்வு குறைக்கின்றன, இது துல்லியத்தை தியாகம் செய்யாமல் குறைந்த அனுமான செலவுகளுக்கு வழிவகுக்கிறது.

பெரும்பாலான நிறுவனங்களுக்கு, சிறந்த அணுகுமுறை குறிப்பிட்ட பயன்பாட்டு நிகழ்வைப் பொறுத்தது:

  • ஆவணங்களின் ஆழமான பகுப்பாய்வு தேவையா? பெரிய சூழல் மாதிரிகள் சிறந்த தேர்வாக இருக்கலாம்.
  • மாறும் வினவல்களுக்கு அளவிடக்கூடிய, செலவு குறைந்த AI தேவையா? RAG ஒரு புத்திசாலித்தனமான தேர்வாக இருக்கும்.

ஒரு பெரிய சூழல் சாளரம் குறிப்பாக எப்போது மதிப்புமிக்கது:

  • முழு உரையையும் ஒரே நேரத்தில் பகுப்பாய்வு செய்ய வேண்டும், அதாவது ஒப்பந்த மதிப்பாய்வுகள் அல்லது குறியீடு தணிக்கைகளில்.
  • மீட்டெடுப்பு பிழைகளை குறைப்பது முக்கியமானது, எடுத்துக்காட்டாக, ஒழுங்குமுறை இணக்கத்தில்.
  • சரியாக இருக்க வேண்டியது முக்கியம், மூலோபாய ஆராய்ச்சியில் இருப்பது போல தாமதம் ஒரு கவலையாக இல்லை.

Google இன் ஆராய்ச்சியின் படி, 10 ஆண்டுகால வருவாய் டிரான்ஸ்கிரிப்ட்களை பகுப்பாய்வு செய்யும் 128K-டோக்கன் சாளரங்களைப் பயன்படுத்தும் பங்கு கணிப்பு மாதிரிகள் RAG ஐ விட 29% சிறப்பாக செயல்பட்டன. இதற்கு நேர்மாறாக, GitHub Copilot இல் உள் சோதனை, monorepo இடமாற்றங்களுக்கு RAG க்கு பதிலாக பெரிய தூண்டுதல்களைப் பயன்படுத்தும்போது பணி நிறைவு 2.3 மடங்கு வேகமாக இருந்தது என்று காட்டியது.

பெரிய சூழல் மாதிரிகளின் வரம்புகள்: தாமதம், செலவுகள் மற்றும் பயன்பாடு

பெரிய சூழல் மாதிரிகள் ஈர்க்கக்கூடிய திறன்களை வழங்கினாலும், கூடுதல் சூழல் எவ்வளவு உண்மையிலேயே பயனுள்ளதாக இருக்கும் என்பதற்கு வரம்புகள் உள்ளன. சூழல் சாளரங்கள் விரிவடையும்போது, மூன்று முக்கிய காரணிகள் செயல்படுகின்றன:

  • தாமதம்: ஒரு மாதிரி எவ்வளவு டோக்கன்களை செயலாக்குகிறதோ, அவ்வளவு தாமதமாகும். பெரிய சூழல் சாளரங்கள் கணிசமான தாமதங்களுக்கு வழிவகுக்கும், குறிப்பாக நிகழ்நேர பதில்கள் தேவைப்படும்போது.

  • செலவுகள்: ஒவ்வொரு கூடுதல் டோக்கன் செயலாக்கப்படும்போதும் கணக்கீட்டு செலவுகள் அதிகரிக்கும். இந்த பெரிய மாதிரிகளைக் கையாள உள்கட்டமைப்பை அதிகரிப்பது தடைசெய்யும் அளவுக்கு விலை உயர்ந்ததாக மாறும், குறிப்பாக அதிக அளவு வேலைப்பளு உள்ள நிறுவனங்களுக்கு.

  • பயன்பாடு: சூழல் வளரும்போது, மாதிரி மிகவும் பொருத்தமான தகவலில் திறம்பட ‘கவனம்’ செலுத்தும் திறன் குறைகிறது. இது திறமையற்ற செயலாக்கத்திற்கு வழிவகுக்கும், அங்கு குறைந்த தொடர்புடைய தரவு மாதிரியின் செயல்திறனை பாதிக்கிறது, இதன் விளைவாக துல்லியம் மற்றும் செயல்திறன் இரண்டிற்கும் குறைந்து வருமானம் கிடைக்கும்.

Google இன் Infini-attention நுட்பம் தன்னிச்சையான நீள சூழலின் சுருக்கப்பட்ட பிரதிநிதித்துவங்களை கட்டுப்படுத்தப்பட்ட நினைவகத்துடன் சேமிப்பதன் மூலம் இந்த பரிமாற்றங்களை குறைக்க முயற்சிக்கிறது. இருப்பினும், சுருக்கம் தவிர்க்க முடியாமல் தகவல் இழப்புக்கு வழிவகுக்கிறது, மேலும் மாதிரிகள் உடனடி மற்றும் வரலாற்று தகவல்களை சமநிலைப்படுத்த போராடுகின்றன, இது பாரம்பரிய RAG உடன் ஒப்பிடும்போது செயல்திறன் தரமிறக்கம் மற்றும் அதிகரித்த செலவுகளுக்கு வழிவகுக்கிறது.

4M-டோக்கன் மாதிரிகள் ஈர்க்கக்கூடியதாக இருந்தாலும், நிறுவனங்கள் அவற்றை உலகளாவிய தீர்வுகளாகக் கருதாமல், சிறப்பு கருவிகளாகக் கருத வேண்டும். எதிர்காலம் என்பது RAG மற்றும் பெரிய தூண்டுதல்களுக்கு இடையில் குறிப்பிட்ட பணி தேவைகளின் அடிப்படையில் மாற்றியமைக்கும் கலப்பின அமைப்புகளில் உள்ளது.

நிறுவனங்கள் பெரிய சூழல் மாதிரிகள் மற்றும் RAG ஆகியவற்றுக்கு இடையே பகுத்தறிவு சிக்கலான தன்மை, செலவு பரிசீலனைகள் மற்றும் தாமத தேவைகளின் அடிப்படையில் தேர்ந்தெடுக்க வேண்டும். ஆழமான புரிதல் தேவைப்படும் பணிகளுக்கு பெரிய சூழல் சாளரங்கள் சிறந்தவை, அதே நேரத்தில் எளிய, உண்மைத் பணிகளுக்கு RAG மிகவும் செலவு குறைந்ததாகவும் திறமையானதாகவும் இருக்கும். செலவுகளை திறம்பட நிர்வகிக்க, நிறுவனங்கள் தெளிவான செலவு வரம்புகளை அமைக்க வேண்டும், ஒரு பணிக்கு $0.50 போன்றவை, ஏனெனில் பெரிய மாதிரிகள் விரைவில் விலை உயர்ந்ததாக மாறும். கூடுதலாக, பெரிய தூண்டுதல்கள் ஆஃப்லைன் பணிகளுக்கு மிகவும் பொருத்தமானவை, அதே நேரத்தில் RAG அமைப்புகள் வேகமான பதில்களைக் கோரும் நிகழ்நேர பயன்பாடுகளில் சிறந்து விளங்குகின்றன.

GraphRAG போன்ற வளர்ந்து வரும் கண்டுபிடிப்புகள் பாரம்பரிய திசையன் மீட்டெடுப்பு முறைகளுடன் அறிவு வரைபடங்களை ஒருங்கிணைப்பதன் மூலம் இந்த தழுவல் அமைப்புகளை மேலும் மேம்படுத்தலாம். இந்த ஒருங்கிணைப்பு சிக்கலான உறவுகளை கைப்பற்றுவதை மேம்படுத்துகிறது, இது திசையன்-மட்டும் அணுகுமுறைகளுடன் ஒப்பிடும்போது 35% வரை நுணுக்கமான பகுத்தறிவு மற்றும் பதில் துல்லியத்தை மேம்படுத்துகிறது. Lettria போன்ற நிறுவனங்களின் சமீபத்திய செயலாக்கங்கள் பாரம்பரிய RAG உடன் 50% முதல் கலப்பின மீட்டெடுப்பு அமைப்புகளுக்குள் GraphRAG ஐப் பயன்படுத்தும் போது 80% க்கும் அதிகமான துல்லியத்தில் வியத்தகு முன்னேற்றங்களைக் காட்டியுள்ளன.

யூரி குராடோவ் சரியாக எச்சரிப்பது போல், ‘பகுத்தறிவை மேம்படுத்தாமல் சூழலை விரிவுபடுத்துவது, ஸ்டீயரிங் செய்ய முடியாத கார்களுக்காக அகலமான நெடுஞ்சாலைகளை உருவாக்குவது போன்றது.’ AI இன் உண்மையான எதிர்காலம் எந்த சூழல் அளவிலும் உறவுகளை உண்மையிலேயே புரிந்துகொள்ளும் மாதிரிகளில் உள்ளது, பரந்த அளவிலான தரவை செயலாக்கக்கூடிய மாதிரிகளில் அல்ல. இது அறிவு, நினைவகம் மட்டுமல்ல.