ஒரு புயல் உருவாகிறது: AI காலத்தில் பதிப்புரிமை
செயற்கை நுண்ணறிவு உலகம், குறிப்பாக OpenAI போன்ற தொழில் ஜாம்பவான்களால் உருவாக்கப்பட்ட அதிநவீன பெரிய மொழி மாதிரிகள் (LLMs), வளர்ந்து வரும் சட்ட மற்றும் நெறிமுறை புயலை எதிர்கொள்கிறது. இந்த புயலின் மையத்தில் ஒரு அடிப்படை கேள்வி உள்ளது: இந்த சக்திவாய்ந்த இயந்திரங்களுக்கு எந்த தரவு எரிபொருளாகிறது, மேலும் இந்த செயல்பாட்டில் படைப்பாளிகளின் உரிமைகள் மதிக்கப்பட்டனவா? நாவல்கள், கட்டுரைகள், குறியீடுகள் மற்றும் பலவற்றின் பரந்த அளவிலான பதிப்புரிமை பெற்ற பொருட்கள், தேவையான அனுமதிகள் அல்லது இழப்பீடு இல்லாமல், அவற்றின் பயிற்சி கட்டத்தில் இந்த மாதிரிகளால் உட்கொள்ளப்பட்டிருக்கலாம் என்று குற்றச்சாட்டுகள் அதிகரித்து வருகின்றன. இது வெறும் கல்வி விவாதம் அல்ல; இது விரைவாக உயர்-பங்கு வழக்குகளாக வளர்ந்து வருகிறது.
OpenAI, எழுத்தாளர்கள், புரோகிராமர்கள் மற்றும் பல்வேறு உரிமைதாரர்களால் தொடங்கப்பட்ட சட்டப் போராட்டங்களில் பெருகிய முறையில் சிக்கியுள்ளது. இந்த வாதிகள் தங்கள் அறிவுசார் சொத்துரிமை, தலைப்புச் செய்திகளை உருவாக்கி தொழில்களை மாற்றும் AI மாதிரிகளை உருவாக்க முறையற்ற முறையில் பயன்படுத்தப்பட்டது என்று வாதிடுகின்றனர். வணிக AI அமைப்புகளுக்கு பயிற்சி தீவனமாக பாதுகாக்கப்பட்ட படைப்புகளை மொத்தமாகப் பயன்படுத்த தற்போதைய பதிப்புரிமைச் சட்டம் வெளிப்படையாக அனுமதிக்கவில்லை என்ற கூற்றின் மீது அவர்களின் வாதம் தங்கியுள்ளது. OpenAI, பதிலுக்கு, ‘நியாயமான பயன்பாடு’ கோட்பாட்டை தொடர்ந்து வலியுறுத்தியுள்ளது, இது குறிப்பிட்ட சூழ்நிலைகளில் அனுமதியின்றி பதிப்புரிமை பெற்ற பொருட்களை வரையறுக்கப்பட்ட பயன்பாட்டிற்கு அனுமதிக்கும் ஒரு சிக்கலான சட்டக் கொள்கையாகும். இருப்பினும், AI பயிற்சியின் முன்னோடியில்லாத அளவு மற்றும் தன்மைக்கு நியாயமான பயன்பாட்டின் பொருந்தக்கூடிய தன்மை கடுமையாகப் போட்டியிடப்படும் ஒரு சாம்பல் பகுதியாக உள்ளது, இது முக்கிய சட்ட முன்னுதாரணங்களுக்கு களம் அமைக்கிறது. பதிப்புரிமை பெற்ற படைப்புகளை ஒரு மாதிரியில் புள்ளிவிவர வடிவங்களாக மாற்றுவது ஒரு ‘மாற்றும் பயன்பாடு’ - நியாயமான பயன்பாட்டின் முக்கிய அம்சம் - அல்லது பெரிய அளவில் அங்கீகரிக்கப்படாத மறுஉருவாக்கம் என்பதில் முக்கிய பதற்றம் சுழல்கிறது. இந்த வழக்குகளின் முடிவு AI வளர்ச்சியின் எதிர்காலப் பாதையை ஆழமாக வடிவமைக்கக்கூடும், இது மாதிரி உருவாக்குநர்களுக்கு குறிப்பிடத்தக்க கட்டுப்பாடுகள் அல்லது செலவுகளை விதிக்கக்கூடும்.
கருப்புப் பெட்டிக்குள் பார்ப்பது: மனப்பாடத்தைக் கண்டறிய ஒரு புதிய முறை
இந்த எரியும் விவாதத்திற்கு எரிபொருளைச் சேர்ப்பது, University of Washington, University of Copenhagen, மற்றும் Stanford University உள்ளிட்ட முக்கிய நிறுவனங்களின் ஆராய்ச்சியாளர்களின் கூட்டு குழுவால் நடத்தப்பட்ட சமீபத்திய ஆய்வு ஆகும். OpenAIயின் போன்ற கட்டுப்படுத்தப்பட்ட பயன்பாட்டு நிரலாக்க இடைமுகங்கள் (APIs) மூலம் மட்டுமே அணுகக்கூடிய AI மாதிரிகள் கூட, அவற்றின் பயிற்சித் தரவின் குறிப்பிட்ட பகுதிகளை ‘மனப்பாடம்’ செய்துள்ளதாகத் தோன்றும் நிகழ்வுகளைக் கண்டறிய பிரத்யேகமாக வடிவமைக்கப்பட்ட ஒரு புதுமையான நுட்பத்தை அவர்களின் பணி அறிமுகப்படுத்துகிறது. இது ஒரு முக்கியமான திருப்புமுனையாகும், ஏனெனில் GPT-4 போன்ற வணிக மாதிரிகளின் உள் செயல்பாடுகள் அல்லது சரியான பயிற்சி தரவுத்தொகுப்புகளை அணுகுவது பொதுவாக வெளிப்புற ஆய்வாளர்களுக்கு சாத்தியமற்றது.
இந்த மாதிரிகள் எவ்வாறு செயல்படுகின்றன என்பதைப் புரிந்துகொள்வது ஆய்வின் முக்கியத்துவத்தைப் புரிந்துகொள்வதற்கான திறவுகோலாகும். அவற்றின் மையத்தில், LLMs நம்பமுடியாத அளவிற்கு அதிநவீன கணிப்பு இயந்திரங்கள். அவை உண்மையிலேயே மிகப்பெரிய அளவிலான உரை மற்றும் குறியீட்டில் பயிற்சி அளிக்கப்படுகின்றன, சொற்கள், சொற்றொடர்கள் மற்றும் கருத்துகளுக்கு இடையிலான சிக்கலான புள்ளிவிவர உறவுகளைக் கற்றுக்கொள்கின்றன. இந்த கற்றல் செயல்முறை அவைகளை ஒத்திசைவான உரையை உருவாக்கவும், மொழிகளை மொழிபெயர்க்கவும், பல்வேறு வகையான ஆக்கப்பூர்வமான உள்ளடக்கத்தை எழுதவும், தகவலறிந்த முறையில் கேள்விகளுக்கு பதிலளிக்கவும் உதவுகிறது. மாதிரியானது தகவலை வெறுமனே சேமிப்பதை விட வடிவங்களை பொதுமைப்படுத்துவதே குறிக்கோளாக இருந்தாலும், பயிற்சித் தரவின் அளவு சில அளவு மனப்பாடத்தை கிட்டத்தட்ட தவிர்க்க முடியாததாக ஆக்குகிறது. எண்ணற்ற பாடப்புத்தகங்களைப் படிக்கும் ஒரு மாணவரைப் போல நினைத்துப் பாருங்கள்; அவர்கள் கருத்துக்களைப் புரிந்துகொள்வதை நோக்கமாகக் கொண்டாலும், அவர்கள் தற்செயலாக குறிப்பிட்ட வாக்கியங்கள் அல்லது வரையறைகளை, குறிப்பாக தனித்துவமானவற்றை மனப்பாடம் செய்யலாம். முந்தைய அவதானிப்புகள் ஏற்கனவே பட உருவாக்க மாதிரிகள் தாங்கள் பயிற்சி பெற்ற திரைப்படங்களிலிருந்து அடையாளம் காணக்கூடிய கூறுகளை மீண்டும் உருவாக்குவதையும், மொழி மாதிரிகள் செய்தி கட்டுரைகள் போன்ற மூலங்களிலிருந்து குறிப்பிடத்தக்க வகையில் ஒத்த அல்லது நேரடியாக நகலெடுக்கப்பட்ட உரையை உருவாக்குவதையும் காட்டியுள்ளன. இந்த நிகழ்வு திருட்டு மற்றும் AI-உருவாக்கிய உள்ளடக்கத்தின் உண்மையான அசல் தன்மை பற்றிய கடுமையான கவலைகளை எழுப்புகிறது.
ஆராய்ச்சியாளர்களால் முன்மொழியப்பட்ட முறை புத்திசாலித்தனமானது மற்றும் வெளிப்படுத்துகிறது. இது அவர்கள் ‘உயர்-ஆச்சரியம்’ (high-surprisal) சொற்கள் என்று குறிப்பிடுவதைக் கண்டறிந்து பயன்படுத்துவதை மையமாகக் கொண்டுள்ளது. இவை ஒரு வாக்கியம் அல்லது பத்தியின் குறிப்பிட்ட சூழலில் புள்ளிவிவர ரீதியாக அசாதாரணமானவை அல்லது எதிர்பாராதவை என்று தோன்றும் சொற்கள். இந்த சொற்றொடரைக் கவனியுங்கள்: ‘பண்டைய மாலுமி செக்ஸ்டன்ட் (sextant) இன் மங்கலான ஒளியால் வழிநடத்தப்பட்டார்.’ ‘செக்ஸ்டன்ட்’ என்ற சொல் உயர்-ஆச்சரியமாகக் கருதப்படலாம், ஏனெனில், உரையின் பொதுவான தொகுப்பில், ‘நட்சத்திரங்கள்,’ ‘சந்திரன்,’ அல்லது ‘திசைகாட்டி’ போன்ற சொற்கள் அந்த சூழலில் புள்ளிவிவரரீதியாக அதிக நிகழ்தகவு கொண்டதாக இருக்கலாம். ஒரு மாதிரி பயிற்சியின் போது ஒரு குறிப்பிட்ட உரைப் பகுதியை உண்மையாக மனப்பாடம் செய்திருந்தால், அந்தப் பகுதியிலிருந்து அவை அகற்றப்பட்டால், இந்த தனித்துவமான, உயர்-ஆச்சரியமான சொற்களைக் கணிப்பதில் அது விதிவிலக்காக சிறப்பாக இருக்கும் என்று ஆராய்ச்சியாளர்கள் கருதுகோள் செய்தனர்.
இந்த கருதுகோளைச் சோதிக்க, ஆராய்ச்சி குழு OpenAIயின் பல முதன்மை மாதிரிகளை, சக்திவாய்ந்த GPT-4 மற்றும் அதன் முன்னோடி GPT-3.5 உட்பட, முறையாக ஆய்வு செய்தது. அவர்கள் பிரபலமான புனைகதை நாவல்கள் மற்றும் The New York Times கட்டுரைகள் போன்ற அறியப்பட்ட மூலங்களிலிருந்து உரைத் துணுக்குகளை எடுத்தனர். முக்கியமாக, அவர்கள் இந்தத் துணுக்குகளிலிருந்து அடையாளம் காணப்பட்ட உயர்-ஆச்சரியமான சொற்களை மறைத்தனர் அல்லது அகற்றினர். பின்னர் மாதிரிகள் வெற்றிடங்களை நிரப்பும்படி கேட்கப்பட்டன - அடிப்படையில், காணாமல் போன, புள்ளிவிவர ரீதியாக சாத்தியமில்லாத சொற்களை ‘யூகிக்கும்படி’. ஆய்வின் முக்கிய தர்க்கம் கட்டாயப்படுத்துகிறது: ஒரு மாதிரி இந்த உயர்-ஆச்சரியமான சொற்களை தொடர்ந்து மற்றும் துல்லியமாக கணித்தால், மாதிரி பொதுவான மொழி வடிவங்களைக் கற்றுக்கொண்டது மட்டுமல்லாமல், அதன் பயிற்சித் தரவிலிருந்து அந்த சரியான உரை வரிசையின் ஒரு குறிப்பிட்ட நினைவகத்தைத் தக்க வைத்துக் கொண்டது என்பதை இது வலுவாகக் குறிக்கிறது. சீரற்ற வாய்ப்பு அல்லது பொதுவான மொழி புரிதல் மட்டும் குறிப்பிட்ட சூழல்களில் அசாதாரணமான சொற்களுக்கு இத்தகைய துல்லியமான யூகங்களை உருவாக்க வாய்ப்பில்லை.
கண்டுபிடிப்புகள்: AI வெளியீட்டில் பதிப்புரிமை பெற்ற உரையின் எதிரொலிகள்
இந்த நுணுக்கமான சோதனைகளிலிருந்து பெறப்பட்ட முடிவுகள், பதிப்புரிமை மீறல் கூற்றுக்களை ஆதரிக்கும் கட்டாயமான, பூர்வாங்க ஆதாரங்களை வழங்குகின்றன. ஆய்வின் வெளியிடப்பட்ட கண்டுபிடிப்புகளின்படி, GPT-4, ஆராய்ச்சியின் போது OpenAIயின் மிகவும் மேம்பட்ட பொதுவில் கிடைக்கும் மாதிரி, பிரபலமான புனைகதை புத்தகங்களின் சொற்களை அப்படியே மனப்பாடம் செய்ததற்கான குறிப்பிடத்தக்க அறிகுறிகளைக் காட்டியது. இது BookMIA எனப்படும் ஒரு குறிப்பிட்ட தரவுத்தொகுப்பில் காணப்படும் உரைகளை உள்ளடக்கியது, இது பதிப்புரிமை பெற்ற மின்னணு புத்தகங்களிலிருந்து எடுக்கப்பட்ட மாதிரிகளைக் கொண்டுள்ளது - இது சாத்தியமான மீறல் பயிற்சி ஆதாரங்கள் பற்றிய விவாதங்களில் அடிக்கடி குறிப்பிடப்படும் ஒரு தரவுத்தொகுப்பு. மாதிரி பொதுவான கருப்பொருள்கள் அல்லது பாணிகளை நினைவு கூர்வது மட்டுமல்ல; அது அந்த தனித்துவமான, உயர்-ஆச்சரியமான சொற்களைக் கொண்ட உரை வரிசைகளை துல்லியமாக மறுகட்டமைத்தது, இது எளிய முறை பொதுமைப்படுத்தலை விட ஆழமான தக்கவைப்பு அளவைக் குறிக்கிறது.
மேலும், GPT-4 New York Times கட்டுரைகளின் பகுதிகளை மனப்பாடம் செய்ததற்கான ஆதாரங்களையும் காட்டியது என்று விசாரணை வெளிப்படுத்தியது. இருப்பினும், புனைகதை புத்தகங்களுக்குக் காணப்பட்டதை விட செய்தி கட்டுரைகளுக்கான வெளிப்படையான மனப்பாட விகிதம் ஒப்பீட்டளவில் குறைவாக இருப்பதாக ஆராய்ச்சியாளர்கள் குறிப்பிட்டனர். இந்த வேறுபாடு அசல் பயிற்சி தரவுத்தொகுப்பில் இந்த வெவ்வேறு உரை வகைகளின் அதிர்வெண் அல்லது விளக்கக்காட்சி போன்ற பல்வேறு காரணிகளால் ஏற்படலாம், அல்லது ஒருவேளை மாதிரி பத்திரிகை உரைக்கு எதிராக கதை உரையினை எவ்வாறு செயலாக்கியது என்பதில் உள்ள வேறுபாடுகளால் இருக்கலாம். துல்லியமான விகிதத்தைப் பொருட்படுத்தாமல், இலக்கியப் படைப்புகள் மற்றும் பத்திரிகைத் துண்டுகள் ஆகிய இரண்டிலும் - வெவ்வேறு வகையான பதிப்புரிமை பெற்ற உள்ளடக்கம் முழுவதும் மனப்பாடம் நிகழ்ந்தது என்பது, இந்த நிகழ்வு ஒரு வகை அல்லது மூலத்திற்கு மட்டும் தனிமைப்படுத்தப்படவில்லை என்ற வாதத்தை வலுப்படுத்துகிறது.
இந்த கண்டுபிடிப்புகள் நடந்துகொண்டிருக்கும் சட்ட மற்றும் நெறிமுறை விவாதங்களில் கணிசமான எடையைக் கொண்டுள்ளன. GPT-4 போன்ற மாதிரிகள் உண்மையில் தாங்கள் பயிற்சி பெற்ற குறிப்பிட்ட, பதிப்புரிமை பெற்ற பத்திகளை மீண்டும் உருவாக்க முடிந்தால், அது OpenAIயின் நியாயமான பயன்பாட்டு வாதத்தை சிக்கலாக்குகிறது. நியாயமான பயன்பாடு பெரும்பாலும் அசல் படைப்பை மாற்றும் பயன்பாடுகளுக்கு சாதகமாக இருக்கும்; சொற்களை அப்படியே மறுஉருவாக்கம் செய்வது, தற்செயலாகவோ அல்லது நிகழ்தகவாகவோ இருந்தாலும், மாற்றத்திலிருந்து விலகி எளிய நகலெடுப்பை நோக்கிச் செல்கிறது. OpenAIயின் பயிற்சி நடைமுறைகள் மீறல் வழித்தோன்றல் படைப்புகளை உருவாக்கியது அல்லது மாதிரியின் வெளியீடுகளால் நேரடி மீறலை எளிதாக்கியது என்று வாதிடுவதற்கு பதிப்புரிமை வழக்குகளில் வாதிகளால் இந்த ஆதாரம் பயன்படுத்தப்படலாம். இது பயிற்சிக்கு பயன்படுத்தப்படும் தரவுக்கும் AI ஆல் உருவாக்கப்பட்ட குறிப்பிட்ட வெளியீடுகளுக்கும் இடையிலான உறுதியான இணைப்பை அடிக்கோடிட்டுக் காட்டுகிறது, இது ‘கற்றல் வடிவங்கள்’ என்ற சுருக்கமான கருத்தை உறுதியான மறுஉருவாக்கத்திற்கு மிகவும் நெருக்கமாக உணர வைக்கிறது.
AI வளர்ச்சியில் நம்பிக்கை மற்றும் வெளிப்படைத்தன்மைக்கான கட்டாயம்
University of Washington இல் முனைவர் பட்ட மாணவியும், ஆய்வின் இணை ஆசிரியர்களில் ஒருவருமான Abhilasha Ravichander, அவர்களின் ஆராய்ச்சியின் பரந்த தாக்கங்களை வலியுறுத்தினார். பல சமகால AI மாதிரிகளின் அடித்தளமாக இருக்கக்கூடிய ‘சர்ச்சைக்குரிய தரவு’ மீது இந்த கண்டுபிடிப்புகள் முக்கியமான வெளிச்சத்தைப் பாய்ச்சுகின்றன என்று அவர் சுட்டிக்காட்டினார். மனப்பாடம் செய்யப்பட்ட உள்ளடக்கத்தை அடையாளம் காணும் திறன், OpenAI போன்ற நிறுவனங்களால் பயன்படுத்தப்படும் மற்றபடி ஒளிபுகா பயிற்சி தரவுத்தொகுப்புகளில் ஒரு சிறிய ஜன்னலை வழங்குகிறது.
Ravichander AI ஆராய்ச்சி சமூகம் மற்றும் பொதுமக்களிடையே வளர்ந்து வரும் ஒரு உணர்வை வெளிப்படுத்தினார்: ‘நம்பகமான பெரிய மொழி மாதிரிகளைக் கொண்டிருக்க, நாம் அறிவியல் ரீதியாக ஆய்வு செய்யக்கூடிய, தணிக்கை செய்யக்கூடிய மற்றும் ஆராயக்கூடிய மாதிரிகளைக் கொண்டிருக்க வேண்டும்.’ இந்த அறிக்கை AI தொழில் எதிர்கொள்ளும் ஒரு முக்கியமான சவாலை அடிக்கோடிட்டுக் காட்டுகிறது. இந்த மாதிரிகள் செய்தி கட்டுரைகளை உருவாக்குவது மற்றும் குறியீடு எழுதுவது முதல் மருத்துவ நோயறிதல் மற்றும் நிதி பகுப்பாய்வில் உதவுவது வரை சமூகத்தின் பல்வேறு அம்சங்களில் மேலும் ஒருங்கிணைக்கப்படுவதால், நம்பிக்கை மற்றும் பொறுப்புக்கூறலின் தேவை முதன்மையாகிறது. பயனர்கள், கட்டுப்பாட்டாளர்கள் மற்றும் பொதுமக்கள் இந்த அமைப்புகள் நியாயமாகவும், நம்பகத்தன்மையுடனும், நெறிமுறையாகவும் செயல்படுகின்றன என்ற உத்தரவாதத்தை விரும்புகிறார்கள். பல தற்போதைய LLMகளின் ‘கருப்புப் பெட்டி’ தன்மை, அவற்றின் படைப்பாளிகள் கூட அவற்றின் உள் செயல்பாடுகளின் ஒவ்வொரு நுணுக்கத்தையும் அல்லது குறிப்பிட்ட வெளியீடுகளின் சரியான தோற்றத்தையும் முழுமையாகப் புரிந்து கொள்ளாமல் இருக்கலாம், இந்த நம்பிக்கையை நிறுவுவதைத் தடுக்கிறது.
ஆய்வின் முன்மொழியப்பட்ட முறை பதிப்புரிமை மனப்பாடத்தைக் கண்டறிவதற்கான ஒரு நுட்பத்தை விட மேலானது; இது பரந்த AI தணிக்கைக்கான சாத்தியமான கருவியாக செயல்படுகிறது. APIs வழியாக மட்டுமே அணுகக்கூடிய மாதிரிகளைக் கூட ஆய்வு செய்யும் திறன், சுயாதீன சரிபார்ப்பு மற்றும் பகுப்பாய்வை அனுமதிக்கிறது. Ravichander மேலும் ‘முழு சுற்றுச்சூழல் அமைப்பிலும் அதிக தரவு வெளிப்படைத்தன்மைக்கான அவசரத் தேவையை’ வலியுறுத்தினார். இந்த மாதிரிகள் எந்தத் தரவில் பயிற்சி அளிக்கப்படுகின்றன என்பதை அறியாமல், சாத்தியமான சார்புகளை மதிப்பிடுவது, பாதுகாப்பு பாதிப்புகளை அடையாளம் காண்பது, தீங்கு விளைவிக்கும் அல்லது தவறான வெளியீடுகளின் மூலத்தைப் புரிந்துகொள்வது, அல்லது, இந்த ஆய்வு எடுத்துக்காட்டுவது போல, சாத்தியமான பதிப்புரிமை மீறலின் அளவைத் தீர்மானிப்பது நம்பமுடியாத அளவிற்கு கடினமாகிறது. வெளிப்படைத்தன்மைக்கான அழைப்பு வெறும் கல்வி சார்ந்தது அல்ல; இது ஒரு பொறுப்பான மற்றும் நிலையான AI எதிர்காலத்தை உருவாக்குவதற்கான ஒரு அடிப்படைத் தேவையாகும். இது தனியுரிமத் தகவல் மற்றும் அறிவுசார் சொத்துரிமையைப் பாதுகாப்பதற்கும் (மாதிரிகள் உட்பட) பொதுப் பொறுப்புக்கூறல் மற்றும் பாதுகாப்பை உறுதி செய்வதற்கும் இடையிலான சிக்கலான வர்த்தக பரிமாற்றங்களை உள்ளடக்கியது. AI அதன் விரைவான முன்னேற்றத்தைத் தொடர்வதால், வலுவான தணிக்கைக் கருவிகள் மற்றும் கட்டமைப்புகளின் வளர்ச்சி, தரவு வெளிப்படுத்தலுக்கான தெளிவான தரங்களுடன், பெருகிய முறையில் முக்கியமானதாகி வருகிறது.
OpenAIயின் நிலைப்பாடு மற்றும் அறியப்படாத பாதை
படைப்பாளர்கள் மற்றும் சட்டமியற்றுபவர்களிடமிருந்து அதிகரித்து வரும் அழுத்தத்தை எதிர்கொண்டு, OpenAI AI மாதிரிகளுக்கு பயிற்சி அளிக்க பதிப்புரிமை பெற்ற பொருட்களை பரவலாகப் பயன்படுத்த அனுமதிக்கும் ஒரு சட்ட மற்றும் ஒழுங்குமுறை சூழலுக்கு தொடர்ந்து வாதிட்டு வருகிறது. அத்தகைய நெகிழ்வுத்தன்மை புதுமைக்கும், உலகளாவிய AI பந்தயத்தில் அமெரிக்கா ஒரு போட்டித்தன்மையை பராமரிப்பதற்கும் அவசியம் என்று நிறுவனம் வாதிடுகிறது. அவர்களின் பரப்புரை முயற்சிகள் உலகெங்கிலும் உள்ள அரசாங்கங்களை தற்போதுள்ள பதிப்புரிமைச் சட்டங்களை, குறிப்பாக அமெரிக்காவில் ‘நியாயமான பயன்பாடு’ என்ற கருத்தை, AI டெவலப்பர்களுக்கு சாதகமான முறையில் விளக்குவதற்கு அல்லது குறியீடாக்குவதற்கு தூண்டுவதில் கவனம் செலுத்தியுள்ளன. பதிப்புரிமை பெற்ற படைப்புகள் உட்பட பல்வேறு தரவுத்தொகுப்புகளில் மாதிரிகளுக்கு பயிற்சி அளிப்பது, சக்திவாய்ந்த மற்றும் பயனுள்ள AI அமைப்புகளை உருவாக்குவதற்கு அவசியமான ஒரு மாற்றும் பயன்பாடு என்று அவர்கள் வாதிடுகின்றனர்.
இருப்பினும், வளர்ந்து வரும் கவலைகளை அங்கீகரித்து, OpenAI இந்த சிக்கலைத் தீர்க்க சில நடவடிக்கைகளையும் எடுத்துள்ளது, இருப்பினும் விமர்சகர்கள் பெரும்பாலும் போதுமானதாகக் கருதாத நடவடிக்கைகள். நிறுவனம் சில வெளியீட்டாளர்கள் மற்றும் உள்ளடக்க படைப்பாளர்களுடன் உள்ளடக்க உரிம ஒப்பந்தங்களில் (content licensing agreements) நுழைந்துள்ளது, அவர்களின் பொருட்களைப் பயன்படுத்த வெளிப்படையான அனுமதியைப் பெற்றுள்ளது. இந்த ஒப்பந்தங்கள், குறிப்பிடத்தக்கவை என்றாலும், GPT-4 போன்ற மாதிரிகளுக்கு பயிற்சி அளிக்கப் பயன்படுத்தப்பட்டிருக்கக்கூடிய தரவின் ஒரு பகுதியை மட்டுமே பிரதிநிதித்துவப்படுத்துகின்றன. மேலும், OpenAI விலகல் வழிமுறைகளை (opt-out mechanisms) செயல்படுத்தியுள்ளது. பதிப்புரிமைதாரர்கள் தங்கள் உள்ளடக்கம் எதிர்கால AI பயிற்சி நோக்கங்களுக்காகப் பயன்படுத்தப்படக்கூடாது என்று முறையாகக் கோர இவை அனுமதிக்கின்றன. படைப்பாளர் உரிமைகளை மதிக்கும் ஒரு படியாகத் தோன்றினாலும், இந்த விலகல் அமைப்புகளின் செயல்திறன் மற்றும் நடைமுறைத்தன்மை விவாதத்திற்குரியது. அவை தனிப்பட்ட படைப்பாளர்களின் மீது தங்கள் படைப்பு பயன்படுத்தப்படலாம் என்பதைக் கண்டறிந்து, பின்னர் விலகுவதற்கு OpenAIயின் குறிப்பிட்ட நடைமுறைகளை வழிநடத்தும் பொறுப்பை வைக்கின்றன. மேலும், இந்த வழிமுறைகள் பொதுவாக ஏற்கனவே பயிற்சி பெற்ற மாடல்களில் உள்ளடக்கத்தைப் பயன்படுத்துவதைக் கையாளவில்லை.
தற்போதைய நிலைமை ஒரு அடிப்படை பதற்றத்தை பிரதிபலிக்கிறது: புதுமைக்காக தகவல்களின் பரந்த டிஜிட்டல் பிரபஞ்சத்தைப் பயன்படுத்த AI நிறுவனங்களின் விருப்பம் மற்றும் படைப்பாளர்களின் அசல் படைப்புகளைக் கட்டுப்படுத்தவும் பயனடையவும் உள்ள உரிமை. மனப்பாடத்தை நிரூபிக்கும் ஆய்வு மற்றொரு சிக்கலான அடுக்கைச் சேர்க்கிறது, இது ‘கற்றல்’ மற்றும் ‘நகலெடுத்தல்’ தரவுகளுக்கு இடையிலான கோடு மங்கலானது மற்றும் மாதிரி டெவலப்பர்களால் முன்னர் ஒப்புக் கொள்ளப்பட்டதை விட அடிக்கடி கடக்கப்படலாம் என்று பரிந்துரைக்கிறது. முன்னோக்கி செல்லும் பாதை நிச்சயமற்றதாகவே உள்ளது. இது AI பயிற்சித் தரவை குறிப்பாகக் கையாளும் புதிய சட்டத்தை, இந்த புதிய சூழலில் தற்போதுள்ள பதிப்புரிமைச் சட்டத்தை விளக்கும் முக்கிய நீதிமன்றத் தீர்ப்புகளை, தொழில்துறை அளவிலான சிறந்த நடைமுறைகள் மற்றும் உரிமக் கட்டமைப்புகளின் வளர்ச்சியை, அல்லது மேம்படுத்தப்பட்ட தரவு தோற்ற கண்காணிப்பு அல்லது மாதிரி மனப்பாடத்தைக் குறைக்கும் நுட்பங்கள் போன்ற தொழில்நுட்ப தீர்வுகளை உள்ளடக்கியிருக்கலாம். AI மற்றும் பதிப்புரிமை பற்றிய விவாதம் முடிவடையவில்லை என்பது தெளிவாகத் தெரிகிறது; உண்மையில், இது செயற்கை நுண்ணறிவின் எதிர்காலம் மற்றும் படைப்பாற்றல் பொருளாதாரம் ஆகிய இரண்டிற்கும் ஆழமான தாக்கங்களுடன் இப்போதுதான் தொடங்கியிருக்கலாம். மனப்பாடம் தொடர்பான கண்டுபிடிப்புகள், இந்த சக்திவாய்ந்த கருவிகளுக்கு எரிபொருளாகும் டிஜிட்டல் தரவுகளுக்கு தோற்றம், உரிமையாளர்கள் மற்றும் புறக்கணிக்க முடியாத உரிமைகள் உள்ளன என்பதை ஒரு கடுமையான நினைவூட்டலாக செயல்படுகின்றன.