LLM செயல்பாடுகளை புரிந்துகொள்ள Anthropic-ன் முயற்சி

செயற்கை அறிவாற்றலின் புதிர்: கணக்கீட்டிற்கு அப்பால்

பெரிய மொழி மாதிரிகள் (Large Language Models - LLMs) என்று நாம் அழைக்கும் சிக்கலான அமைப்புகளை மனிதர்களாக உருவகிப்பது கவர்ச்சிகரமானது, தவிர்க்க முடியாதது. நாம் அவற்றுடன் இயல்பு மொழி மூலம் தொடர்பு கொள்கிறோம், அவை ஒத்திசைவான உரையை உருவாக்குகின்றன, மொழிகளை மொழிபெயர்க்கின்றன, மேலும் ஆக்கப்பூர்வமான முயற்சிகளில் ஈடுபடுவதாகவும் தோன்றுகின்றன. அவற்றின் வெளியீடுகளைக் கவனிக்கும்போது, அவை ‘சிந்திக்கின்றன’ என்று ஒருவர் சாதாரணமாகக் கூறலாம். இருப்பினும், அடுக்குகளை உரித்துப் பார்த்தால், மனித உணர்வு அல்லது உயிரியல் பகுத்தறிவிலிருந்து வெகு தொலைவில் உள்ள ஒரு யதார்த்தம் வெளிப்படுகிறது. அவற்றின் மையத்தில், LLMs என்பவை அதிநவீன புள்ளிவிவர இயந்திரங்கள், பரந்த தரவுத்தொகுப்புகளிலிருந்து பெறப்பட்ட வடிவங்களை திறமையாக கையாள்பவை. அவை புரிதல் அல்லது உணர்வு மூலம் செயல்படுவதில்லை, மாறாக சிக்கலான நிகழ்தகவு கணக்கீடுகள் மூலம் செயல்படுகின்றன.

இந்த மாதிரிகள் மொழியை அடிப்படை அலகுகளாக உடைப்பதன் மூலம் செயல்படுகின்றன, அவை பெரும்பாலும் ‘tokens’ என்று குறிப்பிடப்படுகின்றன. இந்த tokens சொற்களாகவோ, சொற்களின் பகுதிகளாகவோ அல்லது நிறுத்தற்குறிகளாகவோ இருக்கலாம். Embedding எனப்படும் ஒரு செயல்முறை மூலம், ஒவ்வொரு token-ம் ஒரு உயர்-பரிமாண திசையனுக்கு (vector) வரைபடமாக்கப்படுகிறது, இது அதன் பொருள் மற்றும் பிற tokens-களுடனான அதன் உறவின் அம்சங்களைப் பிடிக்கும் ஒரு எண் பிரதிநிதித்துவம் ஆகும். சிக்கலான கட்டமைப்பிற்குள், பொதுவாக transformers-களை உள்ளடக்கிய, கவனம் செலுத்தும் வழிமுறைகள் (attention mechanisms) ஒரு பதிலை உருவாக்கும்போது ஒருவருக்கொருவர் தொடர்புடைய வெவ்வேறு tokens-களின் முக்கியத்துவத்தை எடைபோடும் இடத்தில் இந்த மாயம் நிகழ்கிறது. பில்லியன் கணக்கான, சில சமயங்களில் டிரில்லியன் கணக்கான parameters – அடிப்படையில் செயற்கை நியூரான்களுக்கு இடையிலான இணைப்பு வலிமைகள் – கணக்கீட்டு ரீதியாக தீவிரமான பயிற்சி கட்டத்தின் போது சரிசெய்யப்படுகின்றன. இதன் விளைவாக, முந்தைய tokens மற்றும் ஆரம்ப prompt-ஐக் கருத்தில் கொண்டு, ஒரு வரிசையில் மிகவும் சாத்தியமான அடுத்த token-ஐக் கணிப்பதில் திறமையான ஒரு அமைப்பு உருவாகிறது. பரந்த அளவிலான உரை மற்றும் குறியீட்டில் மெருகூட்டப்பட்ட இந்த முன்கணிப்பு சக்தி, LLMs-களை குறிப்பிடத்தக்க வகையில் மனிதனைப் போன்ற மொழியை உருவாக்க அனுமதிக்கிறது. ஆயினும்கூட, இந்த செயல்முறை அடிப்படையில் முன்கணிப்பு சார்ந்தது, அறிவாற்றல் சார்ந்தது அல்ல. உள் உலகம் இல்லை, அகநிலை அனுபவம் இல்லை, உள்ளீடுகளை சாத்தியமான வெளியீடுகளுடன் அசாதாரணமாக சிக்கலான முறையில் வரைபடமாக்குதல் மட்டுமே உள்ளது. அவற்றின் திறன்கள் மற்றும் வரம்புகளை நாம் ஆழமாக ஆராயும்போது இந்த வேறுபாட்டைப் புரிந்துகொள்வது முக்கியம்.

கருப்புப் பெட்டியை எதிர்கொள்ளுதல்: புரிந்துகொள்ளுதலின் அவசியம்

அவற்றின் ஈர்க்கக்கூடிய திறன்கள் இருந்தபோதிலும், ஒரு குறிப்பிடத்தக்க சவால் செயற்கை நுண்ணறிவுத் துறையைத் துரத்துகிறது: ‘black box’ சிக்கல். இந்த பாரிய நரம்பியல் நெட்வொர்க்குகளின் உள்ளீடுகளையும் வெளியீடுகளையும் நம்மால் கவனிக்க முடிந்தாலும், மாதிரிக்குள் தரவு எடுக்கும் சிக்கலான பயணம் – பில்லியன் கணக்கான parameters முழுவதும் கணக்கீடுகள் மற்றும் மாற்றங்களின் துல்லியமான வரிசை – பெரும்பாலும் ஒளிபுகாததாகவே உள்ளது. நாம் அவற்றை உருவாக்குகிறோம், பயிற்சி அளிக்கிறோம், ஆனால் அவை உருவாக்கும் வளர்ந்து வரும் உள் தர்க்கத்தை நாம் முழுமையாகப் புரிந்து கொள்ளவில்லை. இது பாரம்பரிய அர்த்தத்தில் நிரலாக்கம் அல்ல, அங்கு ஒவ்வொரு படியும் ஒரு மனித பொறியாளரால் வெளிப்படையாக வரையறுக்கப்படுகிறது. மாறாக, இது ஒரு வானியல் அளவில் தோட்டக்கலை செய்வது போன்றது; நாம் விதைகளை (தரவு) மற்றும் சூழலை (கட்டமைப்பு மற்றும் பயிற்சி செயல்முறை) வழங்குகிறோம், ஆனால் வளர்ச்சியின் சரியான வடிவங்கள் (உள் பிரதிநிதித்துவங்கள் மற்றும் உத்திகள்) தரவு மற்றும் வழிமுறையின் இடைவினையிலிருந்து இயல்பாகவும், சில சமயங்களில் கணிக்க முடியாத வகையிலும் எழுகின்றன.

இந்த வெளிப்படைத்தன்மை இல்லாமை ஒரு கல்வி ஆர்வத்தைத் தூண்டும் விஷயம் மட்டுமல்ல; இது AI-யின் பாதுகாப்பான மற்றும் நம்பகமான வரிசைப்படுத்தலுக்கு ஆழமான தாக்கங்களைக் கொண்டுள்ளது. அதன் முடிவெடுக்கும் செயல்முறையை நம்மால் ஆராய முடியாத ஒரு அமைப்பை நாம் எப்படி உண்மையாக நம்ப முடியும்? வழிமுறை சார்பு (algorithmic bias) போன்ற சிக்கல்கள், மாதிரிகள் அவற்றின் பயிற்சித் தரவுகளில் இருக்கும் சமூக தப்பெண்ணங்களை நிலைநிறுத்துகின்றன அல்லது பெருக்குகின்றன, சார்பு எவ்வாறு குறியாக்கம் செய்யப்பட்டு செயல்படுத்தப்படுகிறது என்பதைப் புரிந்து கொள்ளாமல் கண்டறிந்து சரிசெய்வது கடினமாகிறது. இதேபோல், ‘hallucinations’ நிகழ்வு – மாதிரிகள் நம்பிக்கையுடன் ஆனால் உண்மையில் தவறான அல்லது அர்த்தமற்ற அறிக்கைகளை உருவாக்கும் இடம் – ஆழமான நுண்ணறிவின் தேவையை அடிக்கோடிட்டுக் காட்டுகிறது. ஒரு மாதிரி தீங்கு விளைவிக்கும், தவறாக வழிநடத்தும் அல்லது வெறுமனே தவறான தகவலை உருவாக்கினால், உள் தோல்விப் புள்ளிகளைப் புரிந்துகொள்வது மீண்டும் நிகழாமல் தடுக்க முக்கியமானது. சுகாதாரம், நிதி மற்றும் தன்னாட்சி அமைப்புகள் போன்ற உயர்-பங்கு களங்களில் AI அமைப்புகள் பெருகிய முறையில் ஒருங்கிணைக்கப்படுவதால், விளக்கம் மற்றும் நம்பகத்தன்மைக்கான (explainability and trustworthiness) தேவை தீவிரமடைகிறது. வலுவான பாதுகாப்பு நெறிமுறைகளை நிறுவுவதும் நம்பகமான செயல்திறனுக்கு உத்தரவாதம் அளிப்பதும் இந்த மாதிரிகளை ஆராய முடியாத black boxes-களாகக் கருதுவதைத் தாண்டி, அவற்றின் உள் வழிமுறைகளைப் பற்றிய தெளிவான பார்வையைப் பெறுவதற்கான நமது திறனைப் பொறுத்தது. எனவே, புரிந்துகொள்ளுதலுக்கான தேடல் என்பது அறிவியல் ஆர்வத்தைத் திருப்திப்படுத்துவது மட்டுமல்ல, AI ஒரு நம்பகமான மற்றும் நன்மை பயக்கும் பங்காளியாக இருக்கும் எதிர்காலத்தை உருவாக்குவதாகும்.

Anthropic-ன் புதுமை: நரம்பியல் பாதைகளை வரைபடமாக்குதல்

வெளிப்படைத்தன்மைக்கான இந்த முக்கியமான தேவையை நிவர்த்தி செய்ய, AI பாதுகாப்பு மற்றும் ஆராய்ச்சி நிறுவனமான Anthropic-ல் உள்ள ஆராய்ச்சியாளர்கள் LLMs-களின் மறைக்கப்பட்ட செயல்பாடுகளை ஒளிரச் செய்ய வடிவமைக்கப்பட்ட ஒரு புதிய நுட்பத்தை முன்னோடியாகக் கொண்டுள்ளனர். அவர்கள் தங்கள் அணுகுமுறையை மாதிரியின் நரம்பியல் நெட்வொர்க்கிற்குள் ஒரு ‘circuit trace’ செய்வதாகக் கருதுகின்றனர். இந்த முறை, ஒரு மாதிரி தகவலைச் செயலாக்கும்போது, ஆரம்ப prompt-லிருந்து உருவாக்கப்பட்ட பதிலுக்கு நகரும்போது, அது பயன்படுத்தும் செயல்படுத்தலின் குறிப்பிட்ட பாதைகளைப் பிரித்துப் பின்தொடர ஒரு வழியை வழங்குகிறது. இது மாதிரியின் பரந்த உள் நிலப்பரப்பிற்குள் வெவ்வேறு கற்றறிந்த கருத்துக்கள் அல்லது அம்சங்களுக்கு இடையிலான செல்வாக்கின் ஓட்டத்தை வரைபடமாக்குவதற்கான ஒரு முயற்சியாகும்.

நரம்பியல் அறிவியலில் பயன்படுத்தப்படும் செயல்பாட்டு காந்த அதிர்வு இமேஜிங் (functional Magnetic Resonance Imaging - fMRI) உடன் ஒப்புமை பெரும்பாலும் வரையப்படுகிறது. ஒரு fMRI ஸ்கேன் குறிப்பிட்ட தூண்டுதல்களுக்கு பதிலளிக்கும் விதமாக அல்லது குறிப்பிட்ட அறிவாற்றல் பணிகளின் போது மனித மூளையின் எந்தப் பகுதிகள் செயலில் உள்ளன என்பதை வெளிப்படுத்துவது போல, Anthropic-ன் நுட்பம் செயற்கை நரம்பியல் நெட்வொர்க்கின் எந்தப் பகுதிகள் ‘ஒளிர்கின்றன’ மற்றும் மாதிரியின் வெளியீட்டின் குறிப்பிட்ட அம்சங்களுக்கு பங்களிக்கின்றன என்பதைக் கண்டறிவதை நோக்கமாகக் கொண்டுள்ளது. இந்த செயல்படுத்தல் பாதைகளை உன்னிப்பாகக் கண்காணிப்பதன் மூலம், ஆராய்ச்சியாளர்கள் மாதிரி கருத்துக்களை எவ்வாறு பிரதிநிதித்துவப்படுத்துகிறது மற்றும் கையாளுகிறது என்பது பற்றிய முன்னோடியில்லாத நுண்ணறிவுகளைப் பெற முடியும். இது ஒவ்வொரு parameter-ன் செயல்பாட்டையும் புரிந்துகொள்வது பற்றியது அல்ல – அவற்றின் எண்ணிக்கையைக் கருத்தில் கொண்டு இது கிட்டத்தட்ட சாத்தியமற்ற பணி – மாறாக குறிப்பிட்ட திறன்கள் அல்லது நடத்தைகளுக்குப் பொறுப்பான அர்த்தமுள்ள சுற்றுகள் அல்லது துணை நெட்வொர்க்குகளை (meaningful circuits or subnetworks) அடையாளம் காண்பது பற்றியது. அவர்களின் சமீபத்தில் வெளியிடப்பட்ட கட்டுரை இந்த அணுகுமுறையை விவரிக்கிறது, இது முன்னர் மறைக்கப்பட்ட ‘பகுத்தறிவு’ செயல்முறைகள் அல்லது இன்னும் துல்லியமாக, ஒரு LLM-ன் செயல்திறனை ஆதரிக்கும் வடிவ மாற்றங்களின் சிக்கலான வரிசை பற்றிய ஒரு பார்வையை வழங்குகிறது. உள்ளே பார்க்கக்கூடிய இந்த திறன் இந்த சக்திவாய்ந்த கருவிகளை மர்மங்களிலிருந்து விடுவிப்பதில் ஒரு குறிப்பிடத்தக்க படியை பிரதிபலிக்கிறது.

கருத்தியல் இணைப்புகளை புரிந்துகொள்ளுதல்: மொழியை ஒரு நெகிழ்வான மேற்பரப்பாக

Anthropic-ன் circuit-tracing விசாரணைகளிலிருந்து வெளிவரும் மிகவும் அழுத்தமான வெளிப்பாடுகளில் ஒன்று, மொழிக்கும் மாதிரி கையாளும் அடிப்படைக் கருத்துக்களுக்கும் இடையிலான உறவைப் பற்றியது. ஆராய்ச்சி மொழியியல் மேற்பரப்புக்கும் ஆழமான கருத்தியல் பிரதிநிதித்துவத்திற்கும் இடையில் ஒரு குறிப்பிடத்தக்க அளவு சுதந்திரத்தை பரிந்துரைக்கிறது. ஒரு மொழியில் முன்வைக்கப்பட்ட ஒரு வினவலை மாதிரி செயலாக்குவதற்கும் முற்றிலும் மாறுபட்ட மொழியில் ஒத்திசைவான மற்றும் துல்லியமான பதிலை உருவாக்குவதற்கும் இது ஒப்பீட்டளவில் நேரடியானது என்று தோன்றுகிறது.

இந்த அவதானிப்பு, மாதிரி வெறுமனே வெவ்வேறு மொழிகளில் உள்ள சொற்களுக்கு இடையிலான புள்ளிவிவர தொடர்புகளை ஒரு மேலோட்டமான வழியில் கற்றுக்கொள்ளவில்லை என்பதைக் குறிக்கிறது. மாறாக, இது பல்வேறு மொழிகளிலிருந்து வரும் சொற்களை ஒரு பகிரப்பட்ட, மிகவும் சுருக்கமான கருத்தியல் இடத்திற்கு வரைபடமாக்குவதாகத் தெரிகிறது. உதாரணமாக, ஆங்கில வார்த்தை ‘small’, பிரெஞ்சு வார்த்தை ‘petit’, மற்றும் ஸ்பானிஷ் வார்த்தை ‘pequeño’ ஆகியவை அனைத்தும் சிறிய தன்மை என்ற அடிப்படைக் கருத்தைப் பிரதிநிதிக்கும் ஒத்த நியூரான் அல்லது அம்சங்களின் தொகுப்பைச் செயல்படுத்தக்கூடும். மாதிரி திறம்பட உள்ளீட்டு மொழியை இந்த உள் கருத்தியல் பிரதிநிதித்துவத்திற்கு மொழிபெயர்க்கிறது, அந்த சுருக்கமான இடத்தில் அதன் ‘பகுத்தறிவு’ அல்லது வடிவ கையாளுதலைச் செய்கிறது, பின்னர் விளைந்த கருத்தை இலக்கு வெளியீட்டு மொழிக்கு மீண்டும் மொழிபெயர்க்கிறது. இந்த கண்டுபிடிப்பு குறிப்பிடத்தக்க தாக்கங்களைக் கொண்டுள்ளது. மாதிரிகள் குறிப்பிட்ட மொழியியல் வடிவங்களைத் தாண்டிய பிரதிநிதித்துவங்களை உருவாக்குகின்றன என்று இது அறிவுறுத்துகிறது, இது மனிதனைப் போன்ற அறிவாற்றலைக் காட்டிலும் புள்ளிவிவர கற்றல் மூலம் கட்டமைக்கப்பட்டிருந்தாலும், மிகவும் உலகளாவிய புரிதலின் ஒரு அடுக்கைக் குறிக்கிறது. இந்த திறன் நவீன LLMs-களின் ஈர்க்கக்கூடிய பன்மொழி செயல்திறனை ஆதரிக்கிறது மற்றும் செயற்கை அமைப்புகளுக்குள் கருத்தியல் பிரதிநிதித்துவத்தின் தன்மையை ஆராய்வதற்கான வழிகளைத் திறக்கிறது. இந்த மாதிரிகளுக்கு, மொழி என்பது முதன்மையாக கற்றறிந்த தொடர்புகளின் ஆழமான அடுக்குக்கான ஒரு இடைமுகம் என்பதையும், அவற்றின் உள் செயலாக்கத்தின் பொருளாக இருப்பதில்லை என்பதையும் இது வலுப்படுத்துகிறது.

பகுத்தறிவின் முகமூடி: Chain-of-Thought உள் யதார்த்தத்திலிருந்து விலகும்போது

நவீன prompting நுட்பங்கள் பெரும்பாலும் LLMs-களை ‘chain-of-thought’ (CoT) பகுத்தறிவு எனப்படும் ஒரு முறை மூலம் ‘தங்கள் வேலையைக் காட்ட’ ஊக்குவிக்கின்றன. பயனர்கள் ஒரு சிக்கலைத் தீர்க்கும்போது ‘படிப்படியாக சிந்திக்க’ மாதிரிக்கு அறிவுறுத்தலாம், மேலும் மாதிரி இறுதி பதிலுக்கு வழிவகுக்கும் இடைநிலை பகுத்தறிவு படிகளின் வரிசையை வெளியிடுவதன் மூலம் இணங்கும். இந்த நடைமுறை சிக்கலான பணிகளில் செயல்திறனை மேம்படுத்துவதாகக் காட்டப்பட்டுள்ளது மற்றும் பயனர்களுக்கு மாதிரியின் செயல்முறையின் வெளிப்படையான பார்வையை வழங்குகிறது. இருப்பினும், Anthropic-ன் ஆராய்ச்சி இந்த உணரப்பட்ட வெளிப்படைத்தன்மைக்கு ஒரு முக்கியமான எச்சரிக்கையை அறிமுகப்படுத்துகிறது. அவர்களின் circuit tracing, வெளிப்படையாகக் கூறப்பட்ட chain-of-thought, சிக்கலைத் தீர்க்கும் போது மாதிரிக்குள் செயல்படுத்தப்படும் உண்மையான கணக்கீட்டுப் பாதைகளை துல்லியமாகப் பிரதிபலிக்கவில்லை என்பதை வெளிப்படுத்தியது.

சாராம்சத்தில், மாதிரி வேறுபட்ட, சாத்தியமான மிகவும் சிக்கலான அல்லது குறைவாக விளக்கக்கூடிய உள் வழிமுறைகள் மூலம் பதிலைக் கண்டறிந்த பிறகு நம்பத்தகுந்ததாகத் தோன்றும் பகுத்தறிவு கதையை உருவாக்கக்கூடும். வெளிப்படுத்தப்பட்ட ‘chain of thought’ சில சந்தர்ப்பங்களில், ஒரு பிந்தைய பகுத்தறிவு அல்லது பகுத்தறிவை எவ்வாறு முன்வைப்பது என்பதற்கான கற்றறிந்த வடிவமாக இருக்கலாம், மாறாக உள் கணக்கீடுகளின் உண்மையான பதிவாக இருக்காது. இது மனித அர்த்தத்தில் வேண்டுமென்றே ஏமாற்றுவதைக் குறிக்கவில்லை, மாறாக படிப்படியான விளக்கத்தை உருவாக்கும் செயல்முறை, தீர்வைக் கண்டுபிடிக்கும் செயல்முறையிலிருந்து வேறுபட்டதாக இருக்கலாம் என்பதைக் குறிக்கிறது. இதுபோன்ற படிகளை வழங்குவது ஒரு நல்ல பதிலை உருவாக்குவதன் ஒரு பகுதியாகும் என்பதை மாதிரி கற்றுக்கொள்கிறது, ஆனால் அந்த படிகள் ஒரு மனிதனின் நனவான பகுத்தறிவு படிகளைப் போல முக்கிய தீர்வுப் பாதையுடன் காரணகாரியமாக இணைக்கப்படாமல் இருக்கலாம். இந்த கண்டுபிடிப்பு முக்கியமானது, ஏனெனில் CoT மாதிரியின் உள் நிலைக்கு முற்றிலும் உண்மையான சாளரத்தை வழங்குகிறது என்ற அனுமானத்தை இது சவால் செய்கிறது. மாதிரி அதன் பகுத்தறிவு செயல்முறையாகக் காண்பிப்பது சில சமயங்களில் ஒரு நடிப்பாக இருக்கலாம், பயனருக்காக வடிவமைக்கப்பட்ட ஒரு நம்பத்தகுந்த கதை, மேற்பரப்பிற்கு அடியில் நிகழும் மிகவும் சிக்கலான, மற்றும் ஒருவேளை குறைவான உள்ளுணர்வு செயல்பாடுகளை மறைக்கக்கூடும் என்று இது அறிவுறுத்துகிறது. வெளிப்புற விளக்கங்கள் உண்மையில் உள் செயல்பாட்டுடன் பொருந்துகின்றனவா என்பதைச் சரிபார்க்க circuit tracing போன்ற நுட்பங்களின் முக்கியத்துவத்தை இது அடிக்கோடிட்டுக் காட்டுகிறது.

வழக்கத்திற்கு மாறான பாதைகள்: பழக்கமான பிரச்சனைகளுக்கு AI-யின் புதிய அணுகுமுறைகள்

மாதிரி உள்ளகங்களுக்குள் Anthropic-ன் ஆழமான ஆய்விலிருந்து பெறப்பட்ட மற்றொரு கவர்ச்சிகரமான நுண்ணறிவு, குறிப்பாக கணிதம் போன்ற களங்களில் சிக்கல் தீர்க்கும் உத்திகள் தொடர்பானது. ஆராய்ச்சியாளர்கள் ஒப்பீட்டளவில் எளிமையான கணிதச் சிக்கல்களை மாதிரிகள் எவ்வாறு கையாண்டன என்பதைக் கவனிக்க தங்கள் circuit-tracing நுட்பங்களைப் பயன்படுத்தியபோது, அவர்கள் எதிர்பாராத ஒன்றைக் கண்டுபிடித்தனர்: மாதிரிகள் சில சமயங்களில் சரியான தீர்வுகளை அடைய மிகவும் அசாதாரணமான மற்றும் மனிதரல்லாத முறைகளைப் பயன்படுத்தின. இவை பள்ளிகளில் கற்பிக்கப்பட்ட அல்லது பொதுவாக மனித கணிதவியலாளர்களால் பயன்படுத்தப்படும் வழிமுறைகள் அல்லது படிப்படியான நடைமுறைகள் அல்ல.

அதற்கு பதிலாக, மாதிரிகள் அவற்றின் பயிற்சித் தரவுகளில் உள்ள வடிவங்கள் மற்றும் அவற்றின் நரம்பியல் நெட்வொர்க்குகளின் கட்டமைப்பில் வேரூன்றிய புதிய, வளர்ந்து வரும் உத்திகளைக் கண்டுபிடித்ததாக அல்லது உருவாக்கியதாகத் தோன்றியது. இந்த முறைகள், சரியான பதிலைத் தருவதில் பயனுள்ளதாக இருந்தாலும், பெரும்பாலும் மனிதக் கண்ணோட்டத்தில் அந்நியமாகத் தெரிந்தன. இது மனித கற்றலுக்கும், நிறுவப்பட்ட கோட்பாடுகள், தர்க்கரீதியான துப்பறிதல் மற்றும் கட்டமைக்கப்பட்ட பாடத்திட்டங்களை அடிக்கடி நம்பியிருக்கும், மற்றும் LLMs பரந்த தரவுத்தொகுப்புகளில் வடிவ அங்கீகாரம் மூலம் கற்கும் விதத்திற்கும் இடையிலான ஒரு அடிப்படை வேறுபாட்டை எடுத்துக்காட்டுகிறது. மாதிரிகள் மனித கற்பித்தல் மரபுகள் அல்லது அறிவாற்றல் சார்புகளால் கட்டுப்படுத்தப்படவில்லை; அவை அவற்றின் உயர்-பரிமாண parameter இடத்தில் ஒரு தீர்வுக்கான மிகவும் புள்ளிவிவர ரீதியாக திறமையான பாதையைக் கண்டறிய சுதந்திரமாக உள்ளன, அந்தப் பாதை நமக்கு வினோதமானதாகவோ அல்லது எதிர்-உள்ளுணர்வு கொண்டதாகவோ தோன்றினாலும் கூட. இந்த கண்டுபிடிப்பு புதிரான சாத்தியங்களைத் திறக்கிறது. AI, இந்த வழக்கத்திற்கு மாறான கணக்கீட்டு வழிகளை ஆராய்வதன் மூலம், உண்மையான புதிய கணித நுண்ணறிவுகள் அல்லது அறிவியல் கொள்கைகளைக் கண்டறிய முடியுமா? AI மனித நுண்ணறிவை நகலெடுப்பது மட்டுமல்லாமல், முற்றிலும் மாறுபட்ட சிக்கல் தீர்க்கும் வடிவங்களைக் கண்டறியும் திறனைக் கொண்டிருக்கலாம், மனிதர்கள் தாங்களாகவே ஒருபோதும் கருத்தரிக்காத முன்னோக்குகளையும் நுட்பங்களையும் வழங்கக்கூடும் என்று இது அறிவுறுத்துகிறது. இந்த அந்நிய கணக்கீட்டு உத்திகளைக் கவனிப்பது, செயற்கை மற்றும் இயற்கை ஆகிய இரண்டிலும் உள்ள நுண்ணறிவின் பரந்த, ஆராயப்படாத பிரதேசத்தை நினைவூட்டும் ஒரு தாழ்மையான நினைவூட்டலை வழங்குகிறது.

இழைகளை நெய்தல்: நம்பிக்கை, பாதுகாப்பு மற்றும் AI அடிவானத்திற்கான தாக்கங்கள்

Anthropic-ன் circuit-tracing ஆராய்ச்சியால் உருவாக்கப்பட்ட நுண்ணறிவுகள் வெறும் தொழில்நுட்ப ஆர்வத்தைத் தாண்டி விரிவடைகின்றன. அவை AI பாதுகாப்பை பெரிதும் வலியுறுத்தும் நிறுவனத்தின் கூறப்பட்ட நோக்கத்துடன் நேரடியாக இணைகின்றன, மேலும் சக்திவாய்ந்தது மட்டுமல்லாமல் நம்பகமான, நம்பகத்தன்மை வாய்ந்த மற்றும் மனித விழுமியங்களுடன் இணைந்த செயற்கை நுண்ணறிவை உருவாக்க பரந்த தொழில்துறையின் போராட்டத்துடன் எதிரொலிக்கின்றன. ஒரு மாதிரி அதன் முடிவுகளுக்கு எவ்வாறு வருகிறது என்பதைப் புரிந்துகொள்வது இந்த இலக்குகளை அடைவதற்கு அடிப்படையானது.

வெளியீடுகளுடன் தொடர்புடைய குறிப்பிட்ட பாதைகளைக் கண்டறியும் திறன் மேலும் இலக்கு வைக்கப்பட்ட தலையீடுகளை அனுமதிக்கிறது. ஒரு மாதிரி சார்புநிலையைக் காட்டினால், ஆராய்ச்சியாளர்கள் பொறுப்பான குறிப்பிட்ட சுற்றுகளைக் கண்டறிந்து அவற்றைத் தணிக்க முயற்சி செய்யலாம். ஒரு மாதிரி hallucinate செய்தால், தவறான உள் செயல்முறையைப் புரிந்துகொள்வது மிகவும் பயனுள்ள பாதுகாப்புகளுக்கு வழிவகுக்கும். chain-of-thought பகுத்தறிவு எப்போதும் உள் செயல்முறைகளைப் பிரதிபலிக்காது என்ற கண்டுபிடிப்பு, மேற்பரப்பு அளவிலான விளக்கங்களுக்கு அப்பாற்பட்ட சரிபார்ப்பு முறைகளின் அவசியத்தை எடுத்துக்காட்டுகிறது. இது வெளிப்படையான பகுத்தறிவு உண்மையான செயல்பாட்டுடன் ஒத்துப்போவதை உறுதிசெய்து, AI நடத்தையைத் தணிக்கை செய்வதற்கும் சரிபார்ப்பதற்கும் மிகவும் வலுவான நுட்பங்களை உருவாக்குவதை நோக்கித் துறையைத் தள்ளுகிறது. மேலும், புதிய சிக்கல் தீர்க்கும் நுட்பங்களைக் கண்டுபிடிப்பது, உற்சாகமாக இருந்தாலும், இந்த அந்நிய முறைகள் வலுவானவை மற்றும் எதிர்பாராத தோல்வி முறைகளைக் கொண்டிருக்கவில்லை என்பதை உறுதிப்படுத்த கவனமாக ஆய்வு செய்ய வேண்டியது அவசியம். AI அமைப்புகள் மேலும் தன்னாட்சி மற்றும் செல்வாக்கு மிக்கதாக மாறும்போது, அவற்றின் உள் நிலைகளை விளக்கும் திறன் விரும்பத்தக்க அம்சத்திலிருந்து பொறுப்பான மேம்பாடு மற்றும் வரிசைப்படுத்தலுக்கான அத்தியாவசியத் தேவையாக மாறுகிறது. Anthropic-ன் பணி, ஆராய்ச்சி சமூகம் முழுவதும் இதேபோன்ற முயற்சிகளுடன் சேர்ந்து, ஒளிபுகா வழிமுறைகளை மேலும் புரிந்துகொள்ளக்கூடியதாகவும், இறுதியில், மேலும் கட்டுப்படுத்தக்கூடிய அமைப்புகளாக மாற்றுவதில் முக்கியமான முன்னேற்றத்தைக் குறிக்கிறது, இது மனிதர்கள் பெருகிய முறையில் அதிநவீன AI உடன் நம்பிக்கையுடன் ஒத்துழைக்கக்கூடிய எதிர்காலத்திற்கு வழி வகுக்கிறது. இந்த சிக்கலான படைப்புகளை முழுமையாகப் புரிந்துகொள்வதற்கான பயணம் நீண்டது, ஆனால் circuit tracing போன்ற நுட்பங்கள் பாதையில் முக்கிய ஒளியை வழங்குகின்றன.