AIயின் நெறிமுறைத் தரவு மாதிரி: ஒரு அறிவியல் புனைகதை நிஜமாகிறது
தொழில்நுட்பத் துறையின் சாத்தியமற்ற கூற்றுக்கு ஒரு வியத்தகு மறுப்பாக, அர்ப்பணிப்புள்ள ஆராய்ச்சியாளர்களின் குழு சாத்தியமற்றது என்று பலர் கருதியதைச் செய்து முடித்துள்ளது: முழுவதுமாக நெறிமுறை சார்ந்த தரவுகளின் அடிப்படையில் பயிற்சி செய்யப்பட்ட ஒரு AI மாதிரி. MIT, Cornell பல்கலைக்கழகம் மற்றும் டொராண்டோ பல்கலைக்கழகம் போன்ற புகழ்பெற்ற நிறுவனங்களின் நிபுணர்களால் முன்னெடுக்கப்பட்ட இந்த அற்புதமான சாதனை, AI வளர்ச்சியின் எதிர்காலத்திற்கான சாத்தியமான மற்றும் பொறுப்பான வரைபடத்தை வழங்குகிறது. இதன் ரகசிய சாஸ் என்ன? வெளிப்படையாக உரிமம் பெற்ற அல்லது பொது கள உள்ளடக்கத்தைக் கொண்ட ஒரு உன்னிப்பாகத் தொகுக்கப்பட்ட தரவுத்தளம்.
நெறிமுறை தரவு மூலத்தின் ஹெர்குலியன் பணி
இந்த நெறிமுறை AI சோலைக்கானப் பயணம் ஒரு பூங்காவில் நடப்பது போல இல்லை. ஆராய்ச்சியாளர்கள் ஒப்புக்கொள்வது போல், உண்மையான தடை கணக்கீட்டு சக்தி அல்ல ஆனால் முழு மனித முயற்சியே ஆகும். Common Pile v0.1 ஐ ஒன்று சேர்ப்பதற்கான செயல்முறை, எட்டு டெராபைட்களைத் தாண்டிய ஒரு விரிவான தரவுத்தொகுப்பு, AI பயிற்சிக்கு ஏற்றதாக மாற்றும் வகையில், உன்னிப்பான மேனுவல் சுத்தம் மற்றும் மறுவடிவமைப்பு தேவைப்பட்டது. தரவுத் தொகுப்பை சிதைக்கக்கூடிய எந்தவொரு பிழையையும் தேடி, முடிவில்லாத டிஜிட்டல் தகவல்களின் மலைகளை சலித்துப் பார்ப்பதை கற்பனை செய்து பாருங்கள்.
ஆனால் உண்மையான சவால் பதிப்புரிமை நிலையை நுணுக்கமாக இருமுறை சரிபார்ப்பதில் உள்ளது. இணையத்தின் குழப்பமான மண்டலத்தில், பரவலான தவறான உரிமம் என்பது ஒரு விதிமுறையாகும், இது பதிப்புரிமை சரிபார்ப்பை சிசிபியன் பணியாக மாற்றுகிறது.
"இது உங்களிடம் உள்ள வளங்களை நீங்கள் எளிதாக அதிகரிக்கக்கூடிய ஒரு விஷயம் அல்ல" என்று ஆய்வின் இணை ஆசிரியர் ஸ்டெல்லா பிடெர்மன் WaPo விடம் கூறினார். "நாங்கள் தானியங்கு கருவிகளைப் பயன்படுத்துகிறோம், ஆனால் எங்கள் விஷயங்கள் அனைத்தும் நாளின் முடிவில் கைமுறையாகக் குறிக்கப்பட்டு மக்களால் சரிபார்க்கப்பட்டன. அது மிகவும் கடினமானது.”
பதிப்புரிமை சிக்கல்களைக் கண்டறிய டெராபைட்களின் தரவை சலிக்கும் செயல்முறை எளிதானது அல்ல. ஆராய்ச்சியாளர்கள் கணினி சில்லுகளை மேலும் சேர்த்து ஒரு தீர்வைக் காணலாம் என்று நம்ப முடியவில்லை. அதற்கு பதிலாக, அவர்கள் அனைத்து தரவையும் கைமுறையாக சரிபார்த்து விளக்க வேண்டியிருந்தது.
பாதகத்தை மீறிய வெற்றி: நெறிமுறை AIயின் பிறப்பு
அச்சமூட்டும் தடைகள் இருந்தபோதிலும், பிடெர்மன் மற்றும் அவரது அர்ப்பணிப்புள்ள குழு விடாமுயற்சியுடன் இருந்தனர். Common Pile ஐ உருவாக்கும் கடினமான பணி முடிந்ததும், அவர்கள் ஏழு பில்லியன் அளவுரு Large Language Model (LLM) ஐப் பயிற்றுவிக்க அதன் திறனை வெளிப்படுத்தினர். இதன் விளைவாக உருவான AI Meta வின் Llama 1 மற்றும் Llama 2 7B போன்ற தொழில்துறை அளவுகோல்களுக்கு எதிராகத் தன்னை நிலைநிறுத்திக் கொண்டது மட்டுமல்லாமல், சுத்தமான நெறிமுறை மனசாட்சியுடன் அப்படிச் செய்தது.
ஆனால் AI ஆராய்ச்சி களம் ஒரு மின்னல் வேகத்தில் உருவாகிறது. Meta Llama 1 மற்றும் Llama 2வை இரண்டு ஆண்டுகளுக்கு முன்பு வெளியிட்டது என்பதை நினைவில் கொள்வது அவசியம், இது AI உலகில் ஒரு ஒப்பீட்டு நிலையற்றது.
ஒரு சிறிய, உறுதியான குழு வரையறுக்கப்பட்ட வளங்களைக் கொண்டு ஒப்பிடக்கூடிய முடிவுகளை அடைய முடிந்தது என்பது அவர்களின் புத்தி கூர்மைக்கு ஒரு சான்றாகும். குறிப்பாக ஒரு ஊக்கமளிக்கும் கண்டுபிடிப்பு லைப்ரரி ஆஃப் காங்கிரசின் 130,000 க்கும் மேற்பட்ட ஆங்கில மொழி புத்தகங்களின் புதையல், முன்பு கவனிக்கப்படாமல் இருந்தது.
AI மற்றும் பதிப்புரிமையின் தெளிவற்ற நீர்
AI யுகத்தில் பதிப்புரிமை ஒரு முட்கள் நிறைந்த நெறிமுறை மற்றும் சட்டப்பூர்வ பிரச்சினையாக உள்ளது. OpenAI மற்றும் Google போன்ற தொழில்துறை நிறுவனங்கள் செய்தி கட்டுரைகள் முதல் தனிப்பட்ட சமூக ஊடக இடுகைகள் வரை அனைத்தையும் உட்கொண்டு பரந்த தரவுத் தொகுப்புகளைக் குவித்துள்ளன. இந்த நடைமுறை அனைத்து தரப்பிலிருந்தும் விமர்சனங்களை ஈர்த்துள்ளது. AI மாதிரிகளுக்கு பயிற்சி அளிக்க பதிப்புரிமை பெற்ற புத்தகங்களை சட்டவிரோதமாகப் பயன்படுத்துவதாகக் கூறி ஆசிரியர்கள் வழக்குத் தொடுத்துள்ளனர்.
தொழில்நுட்பத் துறை அத்தகைய நடைமுறைகள் நியாயமான பயன்பாடு என்று வாதிடுகிறது, தரவுகளுக்கான தடையில்லா அணுகல் இல்லாமல் AI வளர்ச்சி "சாத்தியமற்றது" என்று வாதிடுகிறது. இந்த சமீபத்திய ஆராய்ச்சி அந்த சிலிக்கான் வேலி கதைக்கு ஒரு கூர்மையான கண்டனத்தை அளிக்கிறது.
இந்த சாதனை ஒரு முக்கியமான முன்னேற்றத்தைக் குறிக்கும் அதே வேளையில், இது அனைத்து நெறிமுறை பரிசீலனைகளையும் நீக்கவில்லை. மனித தொழிலாளர்களை இடம்பெயர்க்கும் திறன் கொண்ட பெரிய மொழி மாதிரிகள், தொழிலாளர் எதிர்காலம் பற்றிய அடிப்படைக் கேள்விகளை இன்னும் எழுப்புகின்றன. மேலும் பொது களத்தில் உள்ள படைப்புகளைப் பயன்படுத்துவது அனைவருக்கும் பொருத்தமாக இருக்காது, குறிப்பாக அவர்களின் ஆக்கப்பூர்வமான பங்களிப்புகள் இப்போது AI ஆல் கக்கப்படுகின்றன.
AI நிறுவனங்கள் தரவு பயன்பாட்டிற்காக அனுமதி கேட்க அல்லது இழப்பீடு வழங்க வேண்டிய ஒரு கருதுகோள் எதிர்காலத்திலும், பதிப்புரிமை வைத்திருப்பவர்கள் AI பயிற்சிக்கு அனுமதி அளிக்க தேவையற்ற அழுத்தத்தை சந்திக்க நேரிடலாம். AI மாதிரிகளுக்கு பயிற்சி அளிக்கும் போது செயல்படுத்தக்கூடிய மிகப்பெரிய வளங்கள், பெரும்பாலான பதிப்புரிமை வைத்திருப்பவர்கள் AI தரவு பயன்படுத்த அனுமதிக்க பெரிய AI நிறுவனங்களின் அழுத்தத்தை தாங்க முடியாது என்று அர்த்தம்.
AI இல் வெளிப்படைத்தன்மை மற்றும் பொறுப்புக்கூறலை நோக்கி
இருப்பினும், பிடெர்மன் யதார்த்தமாக இருக்கிறார். OpenAI போன்ற நிறுவனங்கள் திடீரென நெறிமுறை தரவு மூலத்தை ஏற்றுக்கொள்ளும் என்று அவர் எந்த மாயையும் கொண்டிருக்கவில்லை. அதற்கு பதிலாக, அவரது பணி தரவு பயன்பாட்டில் அதிக வெளிப்படைத்தன்மையை ஊக்குவிக்கும் என்று அவர் நம்புகிறார். எந்த AI தயாரிப்புகளுக்கு பயிற்சி அளிக்க எந்த தரவுத் தொகுப்புகள் பயன்படுத்தப்பட்டன? அந்த கேள்விக்கான பதிலை அறிவது AI இன் எதிர்காலத்திற்கு குறிப்பிடத்தக்க தாக்கங்களை ஏற்படுத்தும்.
"பகுதி வெளிப்படைத்தன்மை கூட ஒரு பெரிய அளவிலான சமூக மதிப்பையும் மிதமான அறிவியல் மதிப்பையும் கொண்டுள்ளது" என்று அவர் WaPo விடம் கூறினார்.
தற்போது ஒரு குறிப்பிட்ட AIக்கு பயிற்சி அளிக்கப் பயன்படுத்தப்படும் சரியான தரவுத் தொகுப்புகள் நெருக்கமாகப் பாதுகாக்கப்படும் ரகசியங்கள். AI மாதிரியை நகலெடுப்பதற்கான ஒரே வழி, தற்போதைய AI மாதிரி எவ்வாறு உருவாக்கப்பட்டது என்பதை சரியாகச் சொல்வது அல்லது AI மாதிரியை தலைகீழாக மாற்றுவது, அதற்கு நிறைய நேரம் மற்றும் முயற்சி தேவைப்படலாம்.
AI வளர்ச்சியில் ஒரு முன்னுதாரண மாற்றம்
இந்த ஆராய்ச்சியின் தாக்கங்கள் AI நெறிமுறைகளின் வரம்பைத் தாண்டி விரிவடைகின்றன. நெறிமுறை பரிசீலனைகள் மற்றும் தொழில்நுட்ப முன்னேற்றம் பரஸ்பரம் பிரத்தியேகமாக இருக்க வேண்டிய அவசியமில்லை என்பதை நிரூபித்து, AI எவ்வாறு உருவாக்கப்படலாம் என்பதில் இது ஒரு அடிப்படை மாற்றத்தைக் குறிக்கிறது. வெளிப்படைத்தன்மை, பொறுப்பான தரவு மூலம் மற்றும் மனிதமேற்பார்வைக்கு முன்னுரிமை அளிப்பதன் மூலம், AI மனிதகுலத்திற்கு சேவை செய்யும் ஒரு எதிர்காலத்தை நாம் உருவாக்க முடியும், மாறாக மற்ற வழியை விட.
நெறிமுறை கவலைகள் மற்றும் சமூக தாக்கங்களை நிவர்த்தி செய்தல்
நெறிமுறை தரவு பயன்பாடு என்பது கடக்க முடியாத தடை என்ற தொழில்நுட்பத் துறையின் வாதம் இப்போது உறுதியாக சவால் செய்யப்பட்டுள்ளது. இந்த திட்டத்தின் வெற்றி ஒரு உறுதியான நெறிமுறை அடித்தளத்தில் AI மாதிரிகளை உருவாக்குவதற்கான சாத்தியக்கூறுகளை அடிக்கோடிட்டுக் காட்டுகிறது. இருப்பினும், AI வளர்ச்சியின் நெறிமுறை பரிமாணங்கள் பதிப்புரிமை சிக்கல்களுக்கு அப்பாற்பட்டவை. வேலை இழப்பு மற்றும் அல்காரிதமிக் சார்பு உட்பட AI இன் சமூக பொருளாதார தாக்கங்கள் கவனமாக பரிசீலிக்கப்பட வேண்டும்.
AI மாதிரிகளை பாதிக்கும் நெறிமுறை பரிசீலனைகள் வெறுமனே மூலத்தை விட அதிகமாக செல்கின்றன. தரவு எந்தவொரு மக்கள் தொகை பிரிவினருக்கும் ஆதரவாகவோ அல்லது எதிராகவோ AI மாதிரிகள் சார்புடையதாக இல்லை என்பதையும் நாங்கள் சரிபார்க்க வேண்டும்.
வெளிப்படைத்தன்மை மற்றும் பொறுப்புக்கூறலை ஊக்குவித்தல்
நம்பிக்கையை வளர்க்க மற்றும் பொறுப்பான புதுமைகளை உறுதிப்படுத்த, AI தொழில் வெளிப்படைத்தன்மை மற்றும் பொறுப்புக்கூறலை ஏற்றுக்கொள்ள வேண்டும். நிறுவனங்கள் தங்கள் மாதிரிகளுக்குப் பயிற்சி அளிக்கப் பயன்படுத்தப்படும் தரவு ஆதாரங்கள் மற்றும் சார்புகளைக் குறைக்கப் பயன்படுத்தப்படும் முறைகள் குறித்து வெளிப்படையாக இருக்க வேண்டும். சுயாதீன தணிக்கைகள் மற்றும் வெளிப்புற மேற்பார்வை ஆகியவை பொறுப்புக்கூறலை மேலும் மேம்படுத்தலாம் மற்றும் நெறிமுறை தவறுகளைத் தடுக்கலாம்.
AI வெளிப்படைத்தன்மை என்பது AI மாதிரியில் சார்புநிலையைத் தவிர்க்க, தரவுத்தொகுப்புகள் போதுமான பரந்த விநியோகத்தைக் கொண்டிருக்கின்றன என்பதைச் சரிபார்க்க செயல்படுத்தப்படலாம். AI பொறுப்புக்கூறல் வெளிப்புற தணிக்கைகளால் சாத்தியமான நெறிமுறை தடுமாற்றங்களைச் சரிபார்க்க செயல்படுத்தப்படலாம்.
ஒத்துழைப்பு மற்றும் திறந்த மூல தீர்வுகள்
நெறிமுறையாலான AI உருவாக்கம் ஒத்துழைப்பு மற்றும் திறந்த மூல தீர்வுகள் தேவை. தரவுத்தொகுப்புகள், முறைகள் மற்றும் சிறந்த நடைமுறைகளைப் பகிர்வதன் மூலம், ஆராய்ச்சியாளர்கள் மற்றும் உருவாக்குநர்கள் முன்னேற்றத்தை விரைவுபடுத்தலாம் மற்றும் நெறிமுறை AI வளர்ச்சிக்கான சவால்களை கூட்டாக நிவர்த்தி செய்யலாம். திறந்த மூல முயற்சிகள் சிறிய நிறுவனங்களுக்கும் தனிநபர்களுக்கும் AI புரட்சியில் பங்கேற்க அதிகாரம் அளிக்கலாம், இந்த தொழில்நுட்பத்தின் நன்மைகள் மிகவும் சமமாகப் பகிர்ந்து கொள்ளப்படுவதை உறுதி செய்கிறது.
ஒரு பிரகாசமான எதிர்காலத்தின் வாக்குறுதி
முழுவதுமாக நெறிமுறை சார்ந்த தரவுகளின் அடிப்படையில் பயிற்சி அளிக்கப்பட்ட ஒரு AI மாதிரியை உருவாக்குவது பொறுப்பான மற்றும் பயனுள்ள AI க்கான தேடலில் ஒரு மைல்கல்லைக் குறிக்கிறது. இந்த அற்புதமான சாதனை நெறிமுறை AI வளர்ச்சி சாத்தியம் என்பதை நிரூபிப்பது மட்டுமல்லாமல், மற்றவர்கள் பின்பற்ற ஒரு சாலை வரைபடத்தையும் வழங்குகிறது. வெளிப்படைத்தன்மை, ஒத்துழைப்பு மற்றும் நெறிமுறை கோட்பாடுகளுக்கான அர்ப்பணிப்பு ஆகியவற்றை ஏற்றுக்கொள்வதன் மூலம், மனித மதிப்புகளைப் பாதுகாத்து மிகவும் நியாயமான மற்றும் சமமான எதிர்காலத்தை ஊக்குவிக்கும் அதே வேளையில் AI இன் முழு திறனையும் திறக்க முடியும்.