ঝড়ের পূর্বাভাস: AI যুগে কপিরাইট
কৃত্রিম বুদ্ধিমত্তার জগৎ, বিশেষ করে OpenAI-এর মতো শিল্প জায়ান্টদের দ্বারা তৈরি অত্যাধুনিক বৃহৎ ভাষা মডেল (LLMs), একটি ক্রমবর্ধমান আইনি এবং নৈতিক ঝড়ের সম্মুখীন হচ্ছে। এই ঝড়ের কেন্দ্রবিন্দুতে একটি মৌলিক প্রশ্ন রয়েছে: এই শক্তিশালী যন্ত্রগুলিকে কোন ডেটা চালিত করে এবং এই প্রক্রিয়ায় নির্মাতাদের অধিকারকে সম্মান করা হয়েছিল কিনা? অভিযোগ উঠছে যে, প্রশিক্ষণের পর্যায়ে এই মডেলগুলি দ্বারা বিপুল পরিমাণ কপিরাইটযুক্ত উপাদান – উপন্যাস, নিবন্ধ, কোড এবং আরও অনেক কিছু – প্রয়োজনীয় অনুমতি বা ক্ষতিপূরণ ছাড়াই গ্রহণ করা হয়েছে। এটি কেবল একটি একাডেমিক বিতর্ক নয়; এটি দ্রুত উচ্চ ঝুঁকির মামলা মোকদ্দমায় পরিণত হচ্ছে।
OpenAI লেখক, প্রোগ্রামার এবং বিভিন্ন অধিকারধারীদের দ্বারা শুরু করা আইনি লড়াইয়ে ক্রমবর্ধমানভাবে জড়িয়ে পড়ছে। এই বাদীরা যুক্তি দেন যে তাদের মেধা সম্পত্তি অনুপযুক্তভাবে সেই AI মডেলগুলি তৈরি করতে ব্যবহার করা হয়েছিল যা শিরোনাম তৈরি করছে এবং শিল্পকে রূপান্তরিত করছে। তাদের যুক্তি এই দাবির উপর নির্ভর করে যে বর্তমান কপিরাইট আইন বাণিজ্যিক AI সিস্টেমের প্রশিক্ষণের জন্য সুরক্ষিত কাজের পাইকারি ব্যবহারের সুস্পষ্ট অনুমতি দেয় না। OpenAI, এর প্রতিক্রিয়ায়, ধারাবাহিকভাবে ‘ন্যায্য ব্যবহার’ (fair use) মতবাদের আশ্রয় নিয়েছে, এটি একটি জটিল আইনি নীতি যা নির্দিষ্ট পরিস্থিতিতে অনুমতি ছাড়াই কপিরাইটযুক্ত উপাদানের সীমিত ব্যবহারের অনুমতি দেয়। যাইহোক, AI প্রশিক্ষণের অভূতপূর্ব স্কেল এবং প্রকৃতির ক্ষেত্রে ন্যায্য ব্যবহারের প্রযোজ্যতা একটি তীব্র প্রতিদ্বন্দ্বিতাপূর্ণ ধূসর এলাকা, যা যুগান্তকারী আইনি নজির স্থাপনের মঞ্চ তৈরি করছে। মূল উত্তেজনা এই বিষয়টিকে কেন্দ্র করে আবর্তিত হয় যে কপিরাইটযুক্ত কাজগুলিকে একটি মডেলের মধ্যে পরিসংখ্যানগত প্যাটার্নে রূপান্তরিত করা একটি ‘রূপান্তরকারী ব্যবহার’ (transformative use) গঠন করে – ন্যায্য ব্যবহারের একটি মূল উপাদান – নাকি কেবল বিশাল স্কেলে অননুমোদিত পুনরুৎপাদন। এই মামলাগুলির ফলাফল AI বিকাশের ভবিষ্যতের গতিপথকে গভীরভাবে প্রভাবিত করতে পারে, সম্ভাব্যভাবে মডেল নির্মাতাদের উপর উল্লেখযোগ্য সীমাবদ্ধতা বা খরচ আরোপ করতে পারে।
ব্ল্যাক বক্সের ভেতরে উঁকি: মুখস্থ শনাক্ত করার নতুন পদ্ধতি
এই জ্বলন্ত বিতর্কে ইন্ধন যোগ করেছে University of Washington, University of Copenhagen, এবং Stanford University সহ বিশিষ্ট প্রতিষ্ঠানের গবেষকদের একটি সহযোগী দল দ্বারা পরিচালিত সাম্প্রতিক একটি গবেষণা। তাদের কাজ একটি উদ্ভাবনী কৌশল উপস্থাপন করে যা বিশেষভাবে সেইসব উদাহরণ শনাক্ত করার জন্য ডিজাইন করা হয়েছে যেখানে AI মডেলগুলি, এমনকি যেগুলি শুধুমাত্র OpenAI-এর মতো সীমাবদ্ধ অ্যাপ্লিকেশন প্রোগ্রামিং ইন্টারফেস (APIs) এর মাধ্যমে অ্যাক্সেস করা হয়, তাদের প্রশিক্ষণের ডেটার নির্দিষ্ট অংশ ‘মুখস্থ’ করেছে বলে মনে হয়। এটি একটি গুরুত্বপূর্ণ অগ্রগতি কারণ GPT-4-এর মতো বাণিজ্যিক মডেলগুলির অভ্যন্তরীণ কার্যকারিতা বা সঠিক প্রশিক্ষণ ডেটাসেটগুলিতে অ্যাক্সেস করা সাধারণত বাহ্যিক তদন্তকারীদের পক্ষে অসম্ভব।
এই মডেলগুলি কীভাবে কাজ করে তা বোঝা গবেষণার তাৎপর্য উপলব্ধি করার জন্য গুরুত্বপূর্ণ। তাদের মূলে, LLMs অবিশ্বাস্যভাবে অত্যাধুনিক ভবিষ্যদ্বাণী ইঞ্জিন। তারা পাঠ্য এবং কোডের বিশাল পরিমাণে প্রশিক্ষিত হয়, শব্দ, বাক্যাংশ এবং ধারণাগুলির মধ্যে জটিল পরিসংখ্যানগত সম্পর্ক শেখে। এই শেখার প্রক্রিয়া তাদের সুসংগত পাঠ্য তৈরি করতে, ভাষা অনুবাদ করতে, বিভিন্ন ধরণের সৃজনশীল সামগ্রী লিখতে এবং তথ্যপূর্ণ উপায়ে প্রশ্নের উত্তর দিতে সক্ষম করে। যদিও লক্ষ্য হল মডেলটি কেবল তথ্য হুবহু সংরক্ষণ করার পরিবর্তে প্যাটার্নগুলিকে সাধারণীকরণ করা, প্রশিক্ষণের ডেটার নিছক স্কেল কিছু মাত্রার মুখস্থকরণকে প্রায় অনিবার্য করে তোলে। এটিকে একজন ছাত্রের অগণিত পাঠ্যপুস্তক অধ্যয়নের মতো ভাবুন; যদিও তারা ধারণাগুলি বোঝার লক্ষ্য রাখে, তারা অসাবধানতাবশত নির্দিষ্ট বাক্য বা সংজ্ঞা মুখস্থ করতে পারে, বিশেষ করে স্বতন্ত্রগুলি। পূর্ববর্তী পর্যবেক্ষণগুলি ইতিমধ্যে দেখিয়েছে যে ইমেজ জেনারেশন মডেলগুলি তারা যে চলচ্চিত্রগুলিতে প্রশিক্ষিত হয়েছিল সেগুলি থেকে স্বীকৃত উপাদানগুলি পুনরুৎপাদন করছে এবং ভাষা মডেলগুলি সংবাদ নিবন্ধগুলির মতো উত্স থেকে আকর্ষণীয়ভাবে অনুরূপ বা সরাসরি অনুলিপি করা পাঠ্য তৈরি করছে। এই ঘটনাটি চুরি এবং AI-উত্পন্ন সামগ্রীর প্রকৃত মৌলিকত্ব সম্পর্কে গুরুতর উদ্বেগ উত্থাপন করে।
গবেষকদের প্রস্তাবিত পদ্ধতিটি চতুর এবং প্রকাশযোগ্য উভয়ই। এটি তারা যাকে ‘high-surprisal’ শব্দ বলে অভিহিত করে তা শনাক্তকরণ এবং ব্যবহারের উপর কেন্দ্র করে। এগুলি এমন শব্দ যা একটি বাক্য বা অনুচ্ছেদের নির্দিষ্ট প্রসঙ্গে পরিসংখ্যানগতভাবে অস্বাভাবিক বা অপ্রত্যাশিত বলে মনে হয়। এই বাক্যটি বিবেচনা করুন: ‘The ancient mariner navigated by the faint glow of the sextant.’ ‘sextant’ শব্দটিকে high-surprisal হিসাবে বিবেচনা করা যেতে পারে কারণ, পাঠ্যের একটি সাধারণ কর্পাসে, ‘stars,’ ‘moon,’ বা ‘compass’-এর মতো শব্দগুলি সেই প্রসঙ্গে পরিসংখ্যানগতভাবে বেশি সম্ভাব্য হতে পারে। গবেষকরা অনুমান করেছিলেন যে যদি কোনও মডেল প্রশিক্ষণের সময় একটি নির্দিষ্ট পাঠ্য অংশ সত্যিই মুখস্থ করে থাকে, তবে সেই অংশ থেকে এই অনন্য, high-surprisal শব্দগুলি সরিয়ে ফেলা হলে এটি সেগুলি ভবিষ্যদ্বাণী করতে ব্যতিক্রমীভাবে ভাল হবে।
এই হাইপোথিসিস পরীক্ষা করার জন্য, গবেষণা দলটি OpenAI-এর বেশ কয়েকটি ফ্ল্যাগশিপ মডেল, যার মধ্যে শক্তিশালী GPT-4 এবং এর পূর্বসূরি GPT-3.5 রয়েছে, সেগুলিকে পদ্ধতিগতভাবে অনুসন্ধান করেছে। তারা পরিচিত উত্স থেকে পাঠ্যের অংশগুলি নিয়েছে, যেমন জনপ্রিয় কল্পকাহিনী উপন্যাস এবং The New York Times-এর নিবন্ধ। গুরুত্বপূর্ণভাবে, তারা এই অংশগুলি থেকে চিহ্নিত high-surprisal শব্দগুলিকে মাস্ক বা অপসারণ করেছে। তারপরে মডেলগুলিকে শূন্যস্থান পূরণ করতে বলা হয়েছিল – মূলত, অনুপস্থিত, পরিসংখ্যানগতভাবে অসম্ভাব্য শব্দগুলি ‘অনুমান’ করতে। গবেষণার মূল যুক্তিটি বাধ্যতামূলক: যদি একটি মডেল ধারাবাহিকভাবে এবং সঠিকভাবে এই high-surprisal শব্দগুলির ভবিষ্যদ্বাণী করে, তবে এটি দৃঢ়ভাবে পরামর্শ দেয় যে মডেলটি কেবল সাধারণ ভাষার ধরণগুলিই শেখেনি বরং তার প্রশিক্ষণ ডেটা থেকে সেই সঠিক পাঠ্য ক্রমটির একটি নির্দিষ্ট স্মৃতিও ধরে রেখেছে। শুধুমাত্র এলোমেলো সুযোগ বা সাধারণ ভাষা বোঝার মাধ্যমে নির্দিষ্ট প্রসঙ্গে অস্বাভাবিক শব্দের জন্য এই ধরনের সঠিক অনুমান তৈরি করার সম্ভাবনা কম।
ফলাফল: AI আউটপুটে কপিরাইট করা লেখার প্রতিধ্বনি
এই সূক্ষ্ম পরীক্ষাগুলি থেকে প্রাপ্ত ফলাফলগুলি কপিরাইট লঙ্ঘনের দাবিগুলিকে সমর্থনকারী বাধ্যতামূলক, যদিও প্রাথমিক, প্রমাণ সরবরাহ করে। গবেষণার প্রকাশিত ফলাফল অনুসারে, GPT-4, গবেষণার সময় OpenAI-এর সবচেয়ে উন্নত সর্বজনীনভাবে উপলব্ধ মডেল, জনপ্রিয় কল্পকাহিনী বইগুলির অংশগুলি হুবহু মুখস্থ করার উল্লেখযোগ্য লক্ষণ দেখিয়েছে। এর মধ্যে BookMIA নামে পরিচিত একটি নির্দিষ্ট ডেটাসেটের মধ্যে পাওয়া পাঠ্য অন্তর্ভুক্ত ছিল, যা কপিরাইটযুক্ত ইলেকট্রনিক বই থেকে নেওয়া নমুনা নিয়ে গঠিত – একটি ডেটাসেট যা প্রায়শই সম্ভাব্য লঙ্ঘনকারী প্রশিক্ষণ উত্স সম্পর্কে আলোচনায় জড়িত থাকে। মডেলটি কেবল সাধারণ থিম বা শৈলীগুলি স্মরণ করছিল না; এটি সেই অনন্য, high-surprisal শব্দগুলি ধারণকারী পাঠ্য ক্রমগুলি সঠিকভাবে পুনর্গঠন করছিল, যা সাধারণ প্যাটার্ন সাধারণীকরণের চেয়ে গভীর স্তরের ধারণ নির্দেশ করে।
অধিকন্তু, তদন্তে প্রকাশিত হয়েছে যে GPT-4 New York Times-এর নিবন্ধগুলির অংশগুলি মুখস্থ করার প্রমাণও দেখিয়েছে। যাইহোক, গবেষকরা উল্লেখ করেছেন যে সংবাদ নিবন্ধগুলির জন্য আপাত মুখস্থ করার হার কল্পকাহিনী বইগুলির জন্য পরিলক্ষিত হারের তুলনায় তুলনামূলকভাবে কম ছিল। এই পার্থক্যটি সম্ভাব্যভাবে বিভিন্ন কারণের জন্য দায়ী করা যেতে পারে, যেমন মূল প্রশিক্ষণ ডেটাসেটের মধ্যে এই বিভিন্ন ধরণের পাঠ্যের ফ্রিকোয়েন্সি বা উপস্থাপনা, অথবা সম্ভবত মডেলটি সাংবাদিকতামূলক বনাম বর্ণনামূলক গদ্যকে কীভাবে প্রক্রিয়া করেছে তার ভিন্নতা। সুনির্দিষ্ট হার নির্বিশেষে, সত্য যে বিভিন্ন ধরণের কপিরাইটযুক্ত সামগ্রী – সাহিত্যকর্ম এবং সাংবাদিকতামূলক অংশ উভয় ক্ষেত্রেই – মুখস্থকরণ ঘটেছে তা এই যুক্তিকে শক্তিশালী করে যে ঘটনাটি একটি একক ধারা বা উৎসের মধ্যে সীমাবদ্ধ নয়।
এই ফলাফলগুলি চলমান আইনি এবং নৈতিক আলোচনায় যথেষ্ট ওজন বহন করে। যদি GPT-4-এর মতো মডেলগুলি প্রকৃতপক্ষে নির্দিষ্ট, কপিরাইটযুক্ত অংশগুলি যা তাদের উপর প্রশিক্ষিত হয়েছিল তা পুনরুৎপাদন করতে সক্ষম হয়, তবে এটি OpenAI-এর ন্যায্য ব্যবহার প্রতিরক্ষা জটিল করে তোলে। ন্যায্য ব্যবহার প্রায়শই এমন ব্যবহারগুলির পক্ষে থাকে যা মূল কাজকে রূপান্তরিত করে; হুবহু পুনরুৎপাদন, এমনকি যদি অনিচ্ছাকৃত বা সম্ভাব্য হয়, রূপান্তর থেকে দূরে এবং সাধারণ অনুলিপির দিকে ঝুঁকে পড়ে। এই প্রমাণগুলি সম্ভাব্যভাবে কপিরাইট মামলায় বাদীদের দ্বারা ব্যবহার করা যেতে পারে এই যুক্তি দেওয়ার জন্য যে OpenAI-এর প্রশিক্ষণ অনুশীলনগুলি লঙ্ঘনকারী ডেরিভেটিভ কাজ তৈরির দিকে পরিচালিত করেছে বা মডেলের আউটপুট দ্বারা সরাসরি লঙ্ঘনকে সহজতর করেছে। এটি প্রশিক্ষণের জন্য ব্যবহৃত ডেটা এবং AI দ্বারা উত্পন্ন নির্দিষ্ট আউটপুটগুলির মধ্যে বাস্তব সংযোগকে আন্ডারস্কোর করে, ‘শেখার ধরণ’-এর বিমূর্ত ধারণাটিকে কংক্রিট পুনরুৎপাদনের অনেক কাছাকাছি অনুভব করায়।
AI উন্নয়নে বিশ্বাস ও স্বচ্ছতার অপরিহার্যতা
Abhilasha Ravichander, University of Washington-এর একজন ডক্টরাল ছাত্রী এবং গবেষণার সহ-লেখকদের একজন, তাদের গবেষণার বৃহত্তর প্রভাবের উপর জোর দিয়েছেন। তিনি তুলে ধরেন যে এই ফলাফলগুলি সম্ভাব্য ‘বিতর্কিত ডেটা’-র উপর গুরুত্বপূর্ণ আলোকপাত করে যা অনেক সমসাময়িক AI মডেলের ভিত্তি তৈরি করতে পারে। মুখস্থ করা বিষয়বস্তু শনাক্ত করার ক্ষমতা OpenAI-এর মতো সংস্থাগুলির দ্বারা ব্যবহৃত অন্যথায় অস্বচ্ছ প্রশিক্ষণ ডেটাসেটগুলির মধ্যে একটি জানালা খুলে দেয়, যদিও তা ছোট।
Ravichander AI গবেষণা সম্প্রদায় এবং জনসাধারণের মধ্যে একটি ক্রমবর্ধমান অনুভূতি ব্যক্ত করেছেন: ‘বিশ্বাসযোগ্য বৃহৎ ভাষা মডেল থাকার জন্য, আমাদের এমন মডেল দরকার যা আমরা বৈজ্ঞানিকভাবে অনুসন্ধান, নিরীক্ষা এবং পরীক্ষা করতে পারি।’ এই বিবৃতিটি AI শিল্পের মুখোমুখি একটি গুরুত্বপূর্ণ চ্যালেঞ্জকে তুলে ধরে। যেহেতু এই মডেলগুলি সমাজের বিভিন্ন দিকগুলিতে আরও বেশি সংহত হচ্ছে – সংবাদ নিবন্ধ তৈরি করা এবং কোড লেখা থেকে শুরু করে চিকিৎসা নির্ণয় এবং আর্থিক বিশ্লেষণে সহায়তা করা পর্যন্ত – বিশ্বাস এবং জবাবদিহিতার প্রয়োজন সর্বাধিক হয়ে উঠছে। ব্যবহারকারী, নিয়ন্ত্রক এবং জনসাধারণের এই আশ্বাস প্রয়োজন যে এই সিস্টেমগুলি ন্যায্যভাবে, নির্ভরযোগ্যভাবে এবং নৈতিকভাবে কাজ করে। অনেক বর্তমান LLM-এর ‘ব্ল্যাক বক্স’ প্রকৃতি, যেখানে এমনকি তাদের নির্মাতারাও তাদের অভ্যন্তরীণ কার্যকারিতার প্রতিটি সূক্ষ্মতা বা নির্দিষ্ট আউটপুটগুলির সুনির্দিষ্ট উত্স সম্পূর্ণরূপে বুঝতে পারে না, এই বিশ্বাস প্রতিষ্ঠায় বাধা দেয়।
গবেষণার প্রস্তাবিত পদ্ধতিটি কেবল কপিরাইট মুখস্থকরণ শনাক্ত করার একটি কৌশলের চেয়ে বেশি কিছু উপস্থাপন করে; এটি বৃহত্তর AI নিরীক্ষার জন্য একটি সম্ভাব্য হাতিয়ার হিসাবে কাজ করে। মডেলগুলি অনুসন্ধান করার ক্ষমতা, এমনকি যেগুলি শুধুমাত্র APIs এর মাধ্যমে অ্যাক্সেস করা হয়, স্বাধীন যাচাইকরণ এবং বিশ্লেষণের অনুমতি দেয়। Ravichander আরও জোর দিয়েছিলেন ‘পুরো ইকোসিস্টেমে বৃহত্তর ডেটা স্বচ্ছতার জরুরি প্রয়োজন।’ এই মডেলগুলি কোন ডেটার উপর প্রশিক্ষিত তা না জেনে, সম্ভাব্য পক্ষপাতগুলি মূল্যায়ন করা, নিরাপত্তা দুর্বলতাগুলি শনাক্ত করা, ক্ষতিকারক বা ভুল আউটপুটগুলির উত্স বোঝা, বা, যেমন এই গবেষণাটি তুলে ধরেছে, সম্ভাব্য কপিরাইট লঙ্ঘনের পরিমাণ নির্ধারণ করা অবিশ্বাস্যভাবে কঠিন হয়ে পড়ে। স্বচ্ছতার আহ্বান কেবল একাডেমিক নয়; এটি একটি দায়িত্বশীল এবং টেকসই AI ভবিষ্যত গড়ে তোলার জন্য একটি মৌলিক প্রয়োজনীয়তা। এর মধ্যে মালিকানাধীন তথ্য এবং মেধা সম্পত্তি (মডেলগুলি সহ) রক্ষা করা এবং জনসাধারণের জবাবদিহিতা ও নিরাপত্তা নিশ্চিত করার মধ্যে জটিল লেনদেন জড়িত। শক্তিশালী নিরীক্ষা সরঞ্জাম এবং কাঠামোর বিকাশ, ডেটা প্রকাশের জন্য স্পষ্ট মানগুলির পাশাপাশি, AI তার দ্রুত অগ্রগতি অব্যাহত রাখার সাথে সাথে ক্রমবর্ধমানভাবে গুরুত্বপূর্ণ হয়ে উঠছে।
OpenAI-এর অবস্থান এবং ভবিষ্যতের অজানা পথ
নির্মাতা এবং আইন প্রণেতাদের কাছ থেকে ক্রমবর্ধমান চাপের সম্মুখীন হয়ে, OpenAI ধারাবাহিকভাবে একটি আইনি এবং নিয়ন্ত্রক পরিবেশের পক্ষে কথা বলেছে যা AI মডেল প্রশিক্ষণের জন্য কপিরাইটযুক্ত উপকরণগুলির ব্যাপক ব্যবহারের অনুমতি দেয়। সংস্থাটি যুক্তি দেয় যে এই ধরনের নমনীয়তা উদ্ভাবনের জন্য এবং মার্কিন যুক্তরাষ্ট্রের জন্য বিশ্বব্যাপী AI দৌড়ে প্রতিযোগিতামূলক প্রান্ত বজায় রাখার জন্য অপরিহার্য। তাদের তদবির প্রচেষ্টা বিশ্বব্যাপী সরকারগুলিকে বিদ্যমান কপিরাইট আইন, বিশেষ করে মার্কিন যুক্তরাষ্ট্রে ‘ন্যায্য ব্যবহার’ ধারণাটিকে AI বিকাশকারীদের অনুকূলে ব্যাখ্যা বা সংহিতাবদ্ধ করতে প্ররোচিত করার উপর দৃষ্টি নিবদ্ধ করেছে। তারা যুক্তি দেয় যে কপিরাইটযুক্ত কাজ সহ বিভিন্ন ডেটাসেটে মডেলদের প্রশিক্ষণ দেওয়া একটি রূপান্তরকারী ব্যবহার যা শক্তিশালী এবং উপকারী AI সিস্টেম তৈরির জন্য প্রয়োজনীয়।
যাইহোক, ক্রমবর্ধমান উদ্বেগ স্বীকার করে, OpenAI সমস্যাটির সমাধানের জন্য কিছু পদক্ষেপও নিয়েছে, যদিও সমালোচকরা প্রায়শই এই পদক্ষেপগুলিকে অপর্যাপ্ত বলে মনে করেন। সংস্থাটি নির্দিষ্ট প্রকাশক এবং বিষয়বস্তু নির্মাতাদের সাথে বিষয়বস্তু লাইসেন্সিং চুক্তিতে প্রবেশ করেছে, তাদের উপাদান ব্যবহারের জন্য সুস্পষ্ট অনুমতি সুরক্ষিত করেছে। এই চুক্তিগুলি, যদিও তাৎপর্যপূর্ণ, GPT-4-এর মতো মডেলগুলিকে প্রশিক্ষণের জন্য ব্যবহৃত ডেটার একটি ভগ্নাংশ মাত্র প্রতিনিধিত্ব করে। উপরন্তু, OpenAI অপট-আউট মেকানিজম প্রয়োগ করেছে। এগুলি কপিরাইট ধারকদের আনুষ্ঠানিকভাবে অনুরোধ করার অনুমতি দেয় যে তাদের বিষয়বস্তু ভবিষ্যতের AI প্রশিক্ষণের উদ্দেশ্যে ব্যবহার করা হবে না। যদিও এটি নির্মাতার অধিকারকে সম্মান করার দিকে একটি পদক্ষেপ বলে মনে হচ্ছে, এই অপট-আউট সিস্টেমগুলির কার্যকারিতা এবং বাস্তবতা বিতর্কযোগ্য। তারা স্বতন্ত্র নির্মাতাদের উপর এই বোঝা চাপিয়ে দেয় যে তাদের কাজ ব্যবহার করা হতে পারে তা আবিষ্কার করতে এবং তারপরে অপ্ট আউট করার জন্য OpenAI-এর নির্দিষ্ট পদ্ধতিগুলি নেভিগেট করতে হবে। তদুপরি, এই প্রক্রিয়াগুলি সাধারণত সেই মডেলগুলিতে সামগ্রীর ব্যবহারকে সম্বোধন করে না যা ইতিমধ্যে প্রশিক্ষিত হয়েছে।
বর্তমান পরিস্থিতি একটি মৌলিক উত্তেজনা প্রতিফলিত করে: উদ্ভাবনের জন্য তথ্যের বিশাল ডিজিটাল মহাবিশ্বকে কাজে লাগানোর জন্য AI সংস্থাগুলির আকাঙ্ক্ষা বনাম নির্মাতাদের তাদের মূল কাজগুলি নিয়ন্ত্রণ এবং তা থেকে উপকৃত হওয়ার অধিকার। মুখস্থকরণ প্রদর্শনকারী গবেষণাটি জটিলতার আরেকটি স্তর যুক্ত করে, পরামর্শ দেয় যে ‘থেকে শেখা’ এবং ডেটা ‘অনুলিপি করা’-র মধ্যেকার রেখাটি ঝাপসা এবং সম্ভবত মডেল বিকাশকারীদের দ্বারা পূর্বে স্বীকার করার চেয়ে বেশি ঘন ঘন অতিক্রম করা হয়। সামনের পথ অনিশ্চিত রয়ে গেছে। এতে AI প্রশিক্ষণ ডেটা বিশেষভাবে সম্বোধনকারী নতুন আইন, এই নতুন প্রসঙ্গে বিদ্যমান কপিরাইট আইনের ব্যাখ্যা প্রদানকারী যুগান্তকারী আদালতের রায়, শিল্প-ব্যাপী সর্বোত্তম অনুশীলন এবং লাইসেন্সিং কাঠামোর বিকাশ, বা উন্নত ডেটা প্রোভেন্যান্স ট্র্যাকিং বা মডেল মুখস্থকরণ হ্রাস করার কৌশলগুলির মতো প্রযুক্তিগত সমাধান জড়িত থাকতে পারে। যা স্পষ্ট মনে হচ্ছে তা হল AI এবং কপিরাইট নিয়ে বিতর্ক শেষ হওয়া থেকে অনেক দূরে; প্রকৃতপক্ষে, এটি কেবল শুরু হতে পারে, কৃত্রিম বুদ্ধিমত্তার ভবিষ্যত এবং সৃজনশীল অর্থনীতি উভয়ের জন্যই গভীর প্রভাব ফেলবে। মুখস্থকরণ সম্পর্কিত অনুসন্ধানগুলি একটি কঠোর অনুস্মারক হিসাবে কাজ করে যে এই শক্তিশালী সরঞ্জামগুলিকে চালিত করা ডিজিটাল ডেটার উত্স, মালিক এবং অধিকার রয়েছে যা উপেক্ষা করা যায় না।