குறியீட்டுப் பணிகளுக்காக வடிவமைக்கப்பட்ட செயற்கை நுண்ணறிவின் சிறப்புத் துறையில் ஒரு சாத்தியமான மாற்றம் நிகழ்ந்து வருகிறது. கணிசமான காலத்திற்கு, Anthropic உருவாக்கிய மாதிரிகள், குறிப்பாக அதன் Claude தொடர், டெவலப்பர்களுக்கு குறியீடு எழுதுதல், பிழைதிருத்தம் செய்தல் மற்றும் புரிந்துகொள்வதில் உதவுவதில் முன்னணியில் இருப்பதாக அடிக்கடி குறிப்பிடப்பட்டது. இருப்பினும், சமீபத்திய முன்னேற்றங்கள் ஒரு வலிமையான புதிய போட்டியாளர் களத்தில் நுழைந்துள்ளதைக் குறிக்கின்றன: Google-இன் Gemini 2.5. பெஞ்ச்மார்க் செயல்திறன் மற்றும் ஆரம்ப டெவலப்பர் கருத்துக்கள் உட்பட ஆரம்ப குறிகாட்டிகள், இந்த சமீபத்திய மறு செய்கை AI-இயங்கும் கோடிங் உதவிக்கான தரங்களை மறுவரையறை செய்யக்கூடும் என்பதைக் குறிக்கின்றன, நிறுவப்பட்ட படிநிலை மாற்றியமைக்கப்படப் போகிறதா என்ற கேள்விகளை எழுப்புகிறது. குறிப்பாக Gemini 2.5 Pro Experimental-இன் தோற்றம், டெவலப்பர் சமூகத்திற்குள் தீவிரமான விவாதத்தையும் ஒப்பீட்டையும் தூண்டுகிறது.
பெஞ்ச்மார்க்கிங் திறமை: ஒரு அளவுசார்ந்த விளிம்பு?
புறநிலை அளவீடுகள் பெரும்பாலும் ஒரு புதிய மாதிரியின் திறன்களைப் பற்றிய முதல் பார்வையை வழங்குகின்றன, மேலும் இந்த வகையில், Gemini 2.5 ஒரு குறிப்பிடத்தக்க நுழைவைச் செய்துள்ளது. ஒரு குறிப்பாக பொருத்தமான மதிப்பீடு Aider Polyglot லீடர்போர்டு ஆகும், இது பல நிரலாக்க மொழிகளில் புதிய குறியீட்டை உருவாக்குதல் மற்றும் ஏற்கனவே உள்ள குறியீட்டுத் தளங்களை மாற்றுதல் போன்ற நடைமுறைப் பணிகளில் பெரிய மொழி மாதிரிகளின் (LLMs) திறமையை மதிப்பிடுவதற்கு உன்னிப்பாக வடிவமைக்கப்பட்ட ஒரு பெஞ்ச்மார்க் ஆகும். இந்த கோரும் மதிப்பீட்டிற்குள், Gemini 2.5 Pro-வின் சோதனை பதிப்பு 72.9% என்ற குறிப்பிடத்தக்க மதிப்பெண்ணைப் பெற்றது. இந்த எண்ணிக்கை Anthropic-இன் Claude 3.7 Sonnet (64.9% பதிவு செய்தது) உட்பட வலுவான போட்டியாளர்களை விட குறிப்பிடத்தக்க அளவில் முன்னிலை வகிக்கிறது. இது OpenAI-இன் o1 மாதிரி (61.7%) மற்றும் o3-mini உயர் மாறுபாடு (60.4%) போன்ற சலுகைகளையும் விஞ்சியது. கோடிங்-குறிப்பிட்ட பெஞ்ச்மார்க்கில் இத்தகைய முன்னிலை, இந்தத் துறையில் Gemini 2.5-இன் திறமைக்கான வலுவான அளவுசார்ந்த வாதமாகும்.
கோடிங்-மையப்படுத்தப்பட்ட மதிப்பீடுகளுக்கு அப்பால், Gemini 2.5 பகுத்தறிவு மற்றும் அறிவுப் பயன்பாட்டின் பரந்த சோதனைகளில் விதிவிலக்கான செயல்திறனை வெளிப்படுத்தியுள்ளது. இது GPQA (Graduate-Level Google-Proof Q&A) பெஞ்ச்மார்க்கில் முதலிடத்தைப் பிடித்தது, இது பட்டதாரி படிப்பு மட்டத்தில் பொதுவாக எதிர்கொள்ளும் பல்வேறு அறிவியல் துறைகளில் சிக்கலான கேள்விகளுடன் AI மாதிரிகளுக்கு சவால் விடும் ஒரு கடுமையான சோதனை. Gemini 2.5 இந்த பெஞ்ச்மார்க்கில் 83% மதிப்பெண்ணைப் பெற்றது. இந்த செயல்திறன் OpenAI-இன் o1-Pro மாதிரியை (79% மதிப்பெண் பெற்றது) மற்றும் Anthropic-இன் Claude 3.7 Sonnet (நீட்டிக்கப்பட்ட சிந்தனை நேர நுட்பங்களைப் பயன்படுத்தும்போது கூட 77% அடைந்தது) விஞ்சியது. கோடிங் போன்ற சிறப்புத் திறன்களுடன் பொதுவான பகுத்தறிவைச் சோதிக்கும் பெஞ்ச்மார்க் உட்பட பல்வேறு பெஞ்ச்மார்க்குகளில் நிலையான உயர் தரவரிசைகள், ஒரு வலுவான மற்றும் பல்துறை அடிப்படை கட்டமைப்பைக் குறிக்கின்றன. சிறப்பு கோடிங் திறன் மற்றும் பரந்த அறிவுசார் திறனின் இந்த கலவையானது ஒரு விரிவான AI உதவியாளரைத் தேடும் டெவலப்பர்களுக்கு ஒரு முக்கிய வேறுபாடாக இருக்கலாம்.
டெவலப்பர் பாராட்டு மற்றும் நிஜ உலக சரிபார்ப்பு
பெஞ்ச்மார்க்குகள் மதிப்புமிக்க அளவுசார்ந்த நுண்ணறிவுகளை வழங்கினாலும், ஒரு AI கோடிங் உதவியாளரின் உண்மையான சோதனை, நிஜ உலகத் திட்டங்களைக் கையாளும் டெவலப்பர்களால் அதன் நடைமுறைப் பயன்பாட்டில் உள்ளது. ஆரம்ப அறிக்கைகள் மற்றும் சான்றுகள் Gemini 2.5 கட்டுப்படுத்தப்பட்ட சோதனைகளில் சிறப்பாகச் செயல்படுவது மட்டுமல்லாமல், பயனர்களை அவர்களின் தினசரி பணிப்பாய்வுகளிலும் கவர்ந்திழுக்கிறது என்பதைக் குறிக்கின்றன. புதிய மாதிரியுடன் தீவிரமாக பரிசோதனை செய்து வரும் டெவலப்பர் Mckay Wrigley, ஒரு வலுவான ஒப்புதலை வழங்கினார், சந்தேகத்திற்கு இடமின்றி, ‘Gemini 2.5 Pro இப்போது குறியீட்டிற்கான சிறந்த மாதிரி‘ என்று கூறினார். அவரது அவதானிப்புகள் வெறும் குறியீடு உருவாக்கத்திற்கு அப்பாற்பட்டவை; மாதிரி ‘உண்மையான புத்திசாலித்தனத்தின் மின்னல்களை‘ வெளிப்படுத்திய நிகழ்வுகளை அவர் முன்னிலைப்படுத்தினார். மேலும், Wrigley ஒரு சாத்தியமான முக்கியமான பண்புக்கூறைக் சுட்டிக்காட்டினார்: மாதிரி பயனர் தூண்டுதல்களுடன் உடன்படுவதற்கு இயல்புநிலையாக இல்லை, ஆனால் மிகவும் விமர்சன ரீதியாக ஈடுபடுகிறது, இது ஆழமான புரிதல் அல்லது உருவகப்படுத்தப்பட்ட பகுத்தறிவைக் குறிக்கிறது. அவரது முடிவு உறுதியானது: ‘Google இங்கே ஒரு உண்மையான வெற்றியாளரை வழங்கியுள்ளது.’
இந்த நேர்மறையான உணர்வு மற்றவர்களால் பகிரப்படுவதாகத் தெரிகிறது, குறிப்பாக Anthropic-இன் மிகவும் மதிக்கப்படும் Claude 3.7 Sonnet உடன் நேரடி ஒப்பீடுகளை வரையும்போது. பல டெவலப்பர்கள் தங்கள் நடைமுறை அனுபவங்கள் Gemini 2.5-க்கு சாதகமான பெஞ்ச்மார்க் முடிவுகளுடன் ஒத்துப்போகின்றன என்பதைக் கண்டறிந்துள்ளனர். Reddit-இல் ஒரு பயனரிடமிருந்து ஒரு விளக்கமான கணக்கு வெளிவந்தது, அவர் Claude 3.7 Sonnet-ஐப் பயன்படுத்தி பல மணிநேரம் ஒரு பயன்பாட்டை உருவாக்குவதில் தனது போராட்டத்தை விவரித்தார். பயனரின் கூற்றுப்படி, இதன் விளைவாக, API விசைகளை குறியீட்டிற்குள் நேரடியாக உட்பொதித்தல் (hardcoding) போன்ற மோசமான பாதுகாப்பு நடைமுறைகளால் பாதிக்கப்பட்ட பெரும்பாலும் செயல்படாத குறியீடாக இருந்தது. விரக்தியடைந்த டெவலப்பர் Gemini 2.5-க்கு மாறினார். அவர்கள் Claude-ஆல் உருவாக்கப்பட்ட முழு குறைபாடுள்ள குறியீட்டுத் தளத்தையும் உள்ளீடாக வழங்கினர். Gemini 2.5 முக்கியமான குறைபாடுகளைக் கண்டறிந்து அவற்றை தெளிவாக விளக்கியது மட்டுமல்லாமல், முழு பயன்பாட்டையும் மீண்டும் எழுதியது, இதன் விளைவாக ஒரு செயல்பாட்டு மற்றும் பாதுகாப்பான பதிப்பு கிடைத்தது என்று கூறப்படுகிறது. இந்த நிகழ்வு சிக்கலான பிழைதிருத்தம் மற்றும் மறுசீரமைப்பு பணிகளை திறம்பட கையாள Gemini 2.5-இன் திறனை அடிக்கோடிட்டுக் காட்டுகிறது.
மேலும் ஒப்பீட்டு சோதனைகள் வளர்ச்சியின் வெவ்வேறு அம்சங்களில் கவனம் செலுத்தியுள்ளன. சமூக தளமான X-இல் ஆவணப்படுத்தப்பட்ட ஒரு நிகழ்வில், ஒரு பயனர் Gemini 2.5-ஐ Claude 3.7 Sonnet-க்கு எதிராக ஒரு காட்சிப் பணியில் நிறுத்தினார்: ChatGPT-இன் பயனர் இடைமுகத்தை (UI) மீண்டும் உருவாக்குதல். பயனரின் மதிப்பீட்டின்படி, Gemini 2.5 அதன் Anthropic எதிர்ப்பாளருடன் ஒப்பிடும்போது இலக்கு UI-இன் மிகவும் துல்லியமான காட்சிப் பிரதிநிதித்துவத்தை உருவாக்கியது. UI பிரதிபலிப்பு வளர்ச்சியின் ஒரு அம்சம் மட்டுமே என்றாலும், அத்தகைய பணிகளில் துல்லியம் ஒரு மாதிரியின் நுணுக்கமான விவரங்களுக்கு கவனம் செலுத்துவதையும், சிக்கலான விளக்கங்கள் அல்லது எடுத்துக்காட்டுகளை உறுதியான வெளியீடுகளாக மொழிபெயர்க்கும் திறனையும் குறிக்கலாம்.
மேம்பாடுகள் போட்டியாளர்களுடன் ஒப்பிடும்போது மட்டுமல்ல, Google-இன் சொந்த முந்தைய மாதிரிகளை விட குறிப்பிடத்தக்க முன்னேற்றத்தையும் குறிக்கின்றன. டெவலப்பர் Alex Mizrahi இந்த உள் முன்னேற்றத்தை எடுத்துக்காட்டும் ஒரு அனுபவத்தைப் பகிர்ந்து கொண்டார். அவர் Gemini 2.5-ஐப் பயன்படுத்தினார், மேலும் அது Rell (ஒரு குறிப்பிட்ட நிரலாக்க மொழி) க்கான தொடரியல் சுமார் 80-90% அதன் உள் அறிவுத் தளத்திலிருந்து மட்டுமே நினைவுபடுத்த முடியும் என்பதைக் கண்டறிந்தார். இது முந்தைய Gemini பதிப்புகளை விட கணிசமான முன்னேற்றத்தைக் குறித்தது, Mizrahi-இன் கூற்றுப்படி, தூண்டுதலுக்குள் வெளிப்படையாக எடுத்துக்காட்டுகள் வழங்கப்பட்டபோதும் Rell தொடரியல் உடன் கணிசமாகப் போராடியது. இது மாதிரியின் அடிப்படை பயிற்சித் தரவு மற்றும் குறைவான பொதுவான மொழிகள் அல்லது தொடரியல்களுக்கான நினைவுபடுத்தும் திறன்களில் மேம்பாடுகளைக் குறிக்கிறது.
கூட்டு கோடிங் மற்றும் சூழல்சார்ந்த நன்மைகள்
மூல குறியீடு உருவாக்கம் மற்றும் துல்லியத்திற்கு அப்பால், ஒரு AI மாதிரியின் தொடர்பு நடை மற்றும் சூழல்சார்ந்த திறன் ஒரு கோடிங் கூட்டாளியாக அதன் பயன்பாட்டை கணிசமாக பாதிக்கிறது. பயனர்கள் Gemini 2.5 உடன் பணிபுரியும் போது ஒரு கூட்டு உணர்வைப் புகாரளிக்கின்றனர். டெவலப்பர் Matthew Berman X-இல் ஒரு தனித்துவமான நடத்தையைக் குறிப்பிட்டார்: ‘அது (Gemini 2.5 Pro) வழியில் என்னிடம் தெளிவுபடுத்தும் கேள்விகளைக் கேட்கிறது, வேறு எந்த மாதிரியும் செய்யவில்லை.‘ அவர் இதை தொடர்பை ‘மிகவும்‘ கூட்டுறவாக மாற்றுவதாக விளக்கினார். இந்த முனைப்பான ஈடுபாடு - அனுமானங்களைச் செய்வதற்குப் பதிலாக தெளிவுபடுத்தலைத் தேடுவது - மிகவும் துல்லியமான விளைவுகளுக்கு வழிவகுக்கும், மறு செய்கைகளைக் குறைக்கும், மேலும் குறிப்பாக சிக்கலான அல்லது தெளிவற்ற வரையறுக்கப்பட்ட பணிகளில் தவறான புரிதல்களைத் தடுக்கலாம், இது டெவலப்பருக்கு பொதுவான யோசனை ஆனால் துல்லியமான விவரக்குறிப்பு இல்லாத ‘vibe coding’-இல் அடிக்கடி எதிர்கொள்ளப்படுகிறது.
சிக்கலான கோடிங் சூழ்நிலைகளில் Gemini 2.5-இன் சாத்தியமான மேன்மைக்கு பங்களிக்கும் ஒரு முக்கிய தொழில்நுட்ப காரணி அதன் பரந்த சூழல் சாளரம் ஆகும். மாதிரி 1 மில்லியன் உள்ளீட்டு டோக்கன்கள் வரை ஆதரவைப் பெருமைப்படுத்துகிறது. இது தற்போதைய போட்டியாளர்களை விட கணிசமான நன்மையைக் குறிக்கிறது. OpenAI-இன் முன்னணி மாதிரிகள், o1 மற்றும் o3-mini, தற்போது 250,000 டோக்கன்களின் சூழல் சாளரத்தை ஆதரிக்கின்றன. Anthropic அதன் சூழல் சாளரத்தை விரிவுபடுத்துவதில், சாத்தியமான 500,000 டோக்கன்களுக்கு, பணியாற்றி வருவதாகக் கூறப்பட்டாலும், Gemini 2.5-இன் தற்போதைய திறன் இந்த புள்ளிவிவரங்களை கணிசமாக விஞ்சுகிறது.
கோடிங்கிற்கு ஒரு பெரிய சூழல் சாளரம் ஏன் மிகவும் முக்கியமானது? நவீன மென்பொருள் மேம்பாடு பெரும்பாலும் விரிவான குறியீட்டுத் தளங்கள், பல கோப்புகள், சிக்கலான சார்புகள் மற்றும் மாற்றங்களின் நீண்ட வரலாறுகளுடன் பணிபுரிவதை உள்ளடக்கியது. ஒரு பெரிய சூழல் சாளரத்தைக் கொண்ட ஒரு மாதிரி இந்த சுற்றியுள்ள தகவல்களை ஒரே நேரத்தில் உட்கொள்ளலாம் மற்றும் செயலாக்கலாம். இது பெரிய திட்டங்களில் சிறந்த நிலைத்தன்மையை பராமரிக்கவும், வெவ்வேறு குறியீடு தொகுதிகளுக்கு இடையிலான சிக்கலான பரஸ்பர உறவுகளைப் புரிந்து கொள்ளவும், கோப்புகள் முழுவதும் மாறி பயன்பாடு மற்றும் செயல்பாட்டு வரையறைகளைக் கண்காணிக்கவும், மேலும் டெவலப்பர் தொடர்ந்து தொடர்புடைய சூழலின் துணுக்குகளை கைமுறையாக ஊட்ட வேண்டிய அவசியமின்றி ஏற்கனவே உள்ள கட்டமைப்பில் மிகவும் தடையின்றி ஒருங்கிணைக்கும் குறியீட்டை உருவாக்கவும் அனுமதிக்கிறது. பெரிய அளவிலான மறுசீரமைப்பு, மரபு அமைப்புகளைப் புரிந்துகொள்வது அல்லது ஒரு பயன்பாட்டின் பல பகுதிகளைத் தொடும் அம்சங்களை உருவாக்குதல் போன்ற பணிகளுக்கு, ஒரு மில்லியன்-டோக்கன் சூழல் சாளரம் ஒரு கேம்-சேஞ்சராக இருக்கலாம், பிழைகளைக் குறைத்து AI-இன் பங்களிப்புகளின் தரம் மற்றும் பொருத்தத்தை மேம்படுத்துகிறது.
நீடித்த குறைபாடுகள் மற்றும் மேற்பார்வையின் தேவை
ஈர்க்கக்கூடிய முன்னேற்றங்கள் மற்றும் நேர்மறையான கருத்துக்கள் இருந்தபோதிலும், முன்னோக்கைப் பேணுவது முக்கியம்: Gemini 2.5, குறிப்பாக அதன் தற்போதைய ‘Pro Experimental’ பதவியில், ஒரு குறைபாடற்ற கோடிங் ஆரக்கிள் அல்ல. இது மென்பொருள் மேம்பாட்டிற்காக பெரிய மொழி மாதிரிகளைப் பயன்படுத்துவதோடு தொடர்புடைய கிளாசிக் சவால்கள் மற்றும் சாத்தியமான ஆபத்துகளில் சிலவற்றை இன்னும் வெளிப்படுத்துகிறது. மனித தீர்ப்பு மற்றும் விடாமுயற்சியான மேற்பார்வைக்கான அடிப்படைத் தேவை முழுமையானதாக உள்ளது.
கவலையின் ஒரு குறிப்பிடத்தக்க பகுதி பாதுகாப்பு தொடர்ந்து உள்ளது. டெவலப்பர் Kaden Bilyeu X-இல் ஒரு நிகழ்வைப் பகிர்ந்து கொண்டார், அங்கு Gemini 2.5 அரட்டை பதில்களைக் கையாள ஒரு கிளையன்ட் பக்க API-ஐ உருவாக்கும் குறியீட்டை உருவாக்க முயன்றது. இந்த அணுகுமுறை இயல்பாகவே பாதுகாப்பற்றது, ஏனெனில் இது தவிர்க்க முடியாமல் கிளையன்ட் பக்க குறியீட்டிற்குள் API விசையின் வெளிப்பாடு அல்லது கசிவுக்கு வழிவகுக்கும், இது இறுதிப் பயனர்களுக்கு அணுகக்கூடியதாக இருக்கும். இது மேம்பட்ட மாதிரிகள் கூட பாதுகாப்பு சிறந்த நடைமுறைகளைப் பற்றிய அடிப்படை புரிதல் இல்லாமல் இருக்கலாம் என்பதை எடுத்துக்காட்டுகிறது, அவற்றின் வெளியீடு கண்மூடித்தனமாக நம்பப்பட்டால் முக்கியமான பாதிப்புகளை அறிமுகப்படுத்தலாம். டெவலப்பர்கள் AI-உருவாக்கிய குறியீட்டை, குறிப்பாக அங்கீகாரம், அங்கீகாரம் மற்றும் தரவு கையாளுதல் தொடர்பாக கடுமையாக மதிப்பாய்வு செய்ய வேண்டும்.
மேலும், மிக பெரிய குறியீட்டுத் தளங்களை திறம்பட நிர்வகிக்கும் மாதிரியின் திறன் கலவையான விமர்சனங்களைப் பெற்றுள்ளது, அதன் ஈர்க்கக்கூடிய சூழல் சாளரம் எப்போதும் அதிக சுமையின் கீழ் நடைமுறை செயல்திறனுக்கு சரியாக மொழிபெயர்க்கப்படாமல் இருக்கலாம் என்று பரிந்துரைக்கிறது. டெவலப்பர் Louie Bacaj சுமார் 3,500 வரிகளைக் கொண்ட ஒரு குறியீட்டுத் தளத்தில் செயல்பாடுகளை Gemini 2.5-க்கு பணிக்கும்போது குறிப்பிடத்தக்க போராட்டங்களைப் புகாரளித்தார். சூழல் கையாளலில் மாதிரியின் கூறப்படும் மேம்பாடுகள் மற்றும் சூழல் பெறப்பட்டதைக் குறிக்கும் வெற்றிகரமான API அழைப்புகள் இருந்தபோதிலும், இந்த பெரிய திட்ட நோக்கத்திற்குள் கோரப்பட்ட பணிகளை துல்லியமாக அல்லது விரிவாகச் செய்ய அது அடிக்கடி தவறியது என்று Bacaj குறிப்பிட்டார். இது கணிசமான ஏற்கனவே உள்ள குறியீட்டிற்குள் சிக்கலான பகுத்தறிவு அல்லது கையாளுதல் பணிகளுக்கு முழு சூழல் சாளரத்தையும் திறம்படப் பயன்படுத்துவதில் சாத்தியமான வரம்புகளைக் குறிக்கிறது, அல்லது குறியீட்டின் குறிப்பிட்ட தன்மை மற்றும் பணியைப் பொறுத்து செயல்திறனில் முரண்பாடுகள் இருக்கலாம்.
தற்போது கிடைக்கும் Gemini 2.5 Pro பதிப்போடு இணைக்கப்பட்டுள்ள ‘Experimental’ லேபிளும் குறிப்பிடத்தக்கது. Google இன்னும் மாதிரியை தீவிரமாகச் செம்மைப்படுத்துகிறது என்பதை இது சமிக்ஞை செய்கிறது. Google கருத்துக்களைச் சேகரித்து தொழில்நுட்பத்தை மறு செய்கை செய்வதால் பயனர்கள் சாத்தியமான உறுதியற்ற தன்மை, செயல்திறனில் மாறுபாடுகள் மற்றும் நடந்துகொண்டிருக்கும் மாற்றங்களை எதிர்பார்க்க வேண்டும். இந்த கட்டம் அதிநவீன திறன்களுக்கு ஆரம்ப அணுகலை அனுமதிக்கும் அதே வேளையில், மாதிரி இன்னும் இறுதி உற்பத்தி வெளியீட்டிலிருந்து எதிர்பார்க்கப்படும் முழு நம்பகத்தன்மை அல்லது மெருகூட்டலைக் கொண்டிருக்கவில்லை என்றும் அர்த்தம். தொடர்ச்சியான முன்னேற்றம் சாத்தியம், ஆனால் தற்போதைய பயனர்கள் ஒரு பெரிய அளவிலான பீட்டா சோதனையில் திறம்பட பங்கேற்கின்றனர். இந்த குறைபாடுகள் மனித டெவலப்பரின் ஈடுசெய்ய முடியாத பங்கை அடிக்கோடிட்டுக் காட்டுகின்றன - பிழைகளைப் பிடிப்பதற்கு மட்டுமல்ல, கட்டடக்கலை முடிவுகள், மூலோபாய திட்டமிடல் மற்றும் இறுதி தயாரிப்பு தேவைகள் மற்றும் தரத் தரங்களுடன் ஒத்துப்போவதை உறுதி செய்வதற்கும்.
பரந்த சவால்: சக்தியை அனுபவமாக தொகுத்தல்
Google DeepMind, Gemini 2.5 போன்ற மாதிரிகளுடன் குறிப்பிடத்தக்க தொழில்நுட்ப மைல்கற்களை அடைவதாகத் தோன்றினாலும், ஒரு தொடர்ச்சியான தீம் வெளிப்படுகிறது: மூல தொழில்நுட்ப சக்தியை கட்டாயப்படுத்தும், அணுகக்கூடிய மற்றும் ஈர்க்கும் பயனர் அனுபவங்களாக மொழிபெயர்ப்பதில் உள்ள சவால், இது சந்தையின் கவனத்தை ஈர்க்கிறது. Google சாத்தியமான உலகத் தரம் வாய்ந்த AI திறன்களை உருவாக்கும்போது கூட, இந்த திறன்களை பயனர்களுடன் பரவலாக எதிரொலிக்கும் வகையில், குறிப்பாக OpenAI போன்ற போட்டியாளர்களுடன் ஒப்பிடும்போது, தொகுத்து வழங்குவதில் சில சமயங்களில் தடுமாறுகிறது என்ற கருத்து உள்ளது.
இந்த சிக்கலை ஏஞ்சல் முதலீட்டாளர் Nikunj Kothari எடுத்துக்காட்டினார், அவர் Google DeepMind குழுவிற்கு ஒரு அளவு அனுதாபத்தை வெளிப்படுத்தினார். ‘நான் Google DeepMind குழுவிற்காக கொஞ்சம் உணர்கிறேன்,’ என்று அவர் குறிப்பிட்டார், சக்திவாய்ந்த மாதிரிகளின் வெளியீட்டிற்கும் போட்டியாளர்களால் அடிக்கடி உருவாக்கப்படும் வைரல் நிகழ்வுகளுக்கும் இடையிலான வேறுபாட்டைக் கவனித்தார். ‘நீங்கள் உலகை மாற்றும் மாதிரியை உருவாக்குகிறீர்கள், அதற்கு பதிலாக எல்லோரும் Ghibli-ified படங்களை இடுகிறார்கள்,’ என்று அவர் மேலும் கூறினார், OpenAI-இன் GPT-4o பட உருவாக்க திறன்களைச் சுற்றியுள்ள சலசலப்பைக் குறிப்பிடுகிறார், இது விரைவாக பொதுமக்களின் கற்பனையைக் கவர்ந்தது. Kothari இதை Google-க்கு ஒரு தொடர்ச்சியான சவாலாக அடையாளம் காட்டினார்: சிறந்த-வகுப்பு AI-ஐ உருவாக்கக்கூடிய மகத்தான தொழில்நுட்ப திறனைக் கொண்டிருப்பது, ஆனால் நுகர்வோர் எதிர்கொள்ளும் தயாரிப்பு வடிவமைப்பு மற்றும் அனுபவத்தின் முக்கியமான அடுக்கில் சாத்தியமான குறைவாக முதலீடு செய்வது. ‘அவர்களின் சிறந்த திறமையானவர்களில் 20% பேரை எடுத்து, உலகத் தரம் வாய்ந்த நுகர்வோர் அனுபவங்களை உருவாக்குவதில் அவர்களுக்கு இலவச கட்டுப்பாட்டைக் கொடுக்குமாறு நான் அவர்களிடம் கெஞ்சுகிறேன்,’ என்று அவர் வலியுறுத்தினார்.
இந்த உணர்வு மாதிரிகளின் உணரப்பட்ட ‘ஆளுமை’ வரை நீண்டுள்ளது. Kothari, Gemini 2.5-இன் ஊடாடும் பாணி மற்ற முன்னணி மாதிரிகளுடன் ஒப்பிடும்போது ‘மிகவும் அடிப்படையாக‘ உணர்ந்ததாகக் குறிப்பிட்டார். இந்த அகநிலை உறுப்பு, அளவிட கடினமாக இருந்தாலும், பயனர் ஈடுபாட்டையும் AI உடன் ஒத்துழைக்கும் உணர்வையும் பாதிக்கிறது. பல பிற பயனர்கள் இந்த அவதானிப்பை எதிரொலித்தனர், தொழில்நுட்ப ரீதியாக திறமையானதாக இருந்தாலும், மாதிரி போட்டியாளர்களால் வளர்க்கப்பட்ட மிகவும் ஈர்க்கக்கூடிய அல்லது நுணுக்கமான தொடர்பு பாணியைக் கொண்டிருக்கவில்லை என்று பரிந்துரைத்தனர்.
நடைமுறை பயன்பாட்டு சிக்கல்களும் வெளிவந்துள்ளன. உதாரணமாக, Gemini 2.0 Flash மாதிரியில் உள்ளமைக்கப்பட்ட பட உருவாக்கத்தின் வெளியீடு, அதன் திறன்களுக்காக தொழில்நுட்ப ரீதியாக பாராட்டப்பட்டது. இருப்பினும், பல பயனர்கள் அம்சத்தைக் கண்டுபிடித்துப் பயன்படுத்துவதில் சிரமத்தைப் புகாரளித்தனர். பயனர் இடைமுகம் உள்ளுணர்வு அற்றதாக விவரிக்கப்பட்டது, விருப்பங்கள் தேவையின்றி மெனுக்களுக்குள் கூடுகட்டப்பட்டுள்ளன. ஒரு சக்திவாய்ந்த அம்சத்தை அணுகுவதில் உள்ள இந்த உராய்வு, அடிப்படை தொழில்நுட்பத்தின் தரத்தைப் பொருட்படுத்தாமல், பயனர் உற்சாகத்தையும் தத்தெடுப்பையும் கணிசமாகக் குறைக்கலாம். ஒரு பயனர் ஒரு பணியைத் தொடங்க கூட சிரமப்பட்டால், மாதிரியின் சக்தி அவர்களுக்குப் பொருத்தமற்றதாகிவிடும்.
GPT-4o-இன் பட உருவாக்கத்தைச் சுற்றியுள்ள ‘Ghibli mania’-வைப் பிரதிபலிக்கும் போது, நிலைமை Google சந்தைப்படுத்தலில் முற்றிலும் தோல்வியடைவதைப் பற்றியதாக இல்லாமல், பயனர் உளவியலைப் புரிந்துகொள்வதிலும் பயன்படுத்துவதிலும் OpenAI-இன் திறமையைப் பற்றியதாக இருக்கலாம். OpenAI-இன் காட்சிப்படுத்தல் குறித்து X-இல் ஒரு பயனர் சுட்டிக்காட்டியபடி, ‘நீங்கள் இரண்டு படங்களை இடுகிறீர்கள், எல்லோரும் அதைப் புரிந்துகொள்கிறார்கள்.‘ காட்சியின் காட்சி, எளிதில் பகிரக்கூடிய மற்றும் இயல்பாகவே ஆக்கப்பூர்வமான தன்மை உடனடி பயனர் ஆர்வத்தைத் தட்டியது. இதற்கு நேர்மாறாக, Gemini 2.5 போன்ற ஒரு மொழி மாதிரியில் உள்ள நுணுக்கமான மேம்பாடுகளை மதிப்பிடுவதற்கு அதிக முயற்சி தேவைப்படுகிறது. ‘அதே நபர்களை 2.0 ஆல் உருவாக்கப்பட்ட அறிக்கையைப் படிக்கச் சொல்லி, அதை 2.5 உடன் ஒப்பிடுமாறு நீங்கள் கேட்கிறீர்கள், அதற்கு ஸ்க்ரோலிங் மற்றும் லைக் செய்வதை விட அதிக நேரம் தேவைப்படுகிறது,’ என்று பயனர் விவரித்தார்.
இந்த காட்சிகள் தற்போதைய AI நிலப்பரப்பில் ஒரு முக்கியமான பாடத்தை அடிக்கோடிட்டுக் காட்டுகின்றன: தொழில்நுட்ப மேன்மை மட்டும் சந்தை தலைமை அல்லது பயனர் விருப்பத்திற்கு உத்தரவாதம் அளிக்காது. பயன்பாட்டின் எளிமை, உள்ளுணர்வு வடிவமைப்பு, திறன்களின் பயனுள்ள தொடர்பு மற்றும் AI-இன் உணரப்பட்ட ஆளுமை அல்லது ஈடுபாட்டுக் காரணி போன்ற காரணிகள் முக்கிய பங்கு வகிக்கின்றன. சராசரி பயனர், உற்பத்தித்திறனில் கவனம் செலுத்தும் பல டெவலப்பர்கள் உட்பட, சக்திவாய்ந்தவை மட்டுமல்ல, சுவாரஸ்யமாகவும், தொடர்புபடுத்தக்கூடியதாகவும், அவர்களின் பணிப்பாய்வுகளில் தடையின்றி ஒருங்கிணைக்கப்பட்ட கருவிகளுக்கும் அடிக்கடி ஈர்க்கப்படுகிறார்கள். Google, Gemini 2.5 போன்ற மாதிரிகளின் திறனை முழுமையாகப் பயன்படுத்த, குறிப்பாக கோடிங் உதவி போன்ற போட்டித் துறைகளில், அதிநவீன ஆராய்ச்சிக்கும் விதிவிலக்கான பயனர் அனுபவத்திற்கும் இடையிலான இடைவெளியைக் குறைப்பது ஒரு முக்கிய முயற்சியாக உள்ளது.