OpenAI GPT-4o: পেওয়ালড ডেটা ব্যবহারের অভিযোগ

OpenAI-এর মতো বৃহৎ সংস্থাগুলির নেতৃত্বে কৃত্রিম বুদ্ধিমত্তার নিরলস অগ্রগতি প্রায়শই মেধা সম্পত্তি এবং ডেটা মালিকানার দীর্ঘস্থায়ী নীতিগুলির সাথে সংঘর্ষে লিপ্ত হয়। এই সংঘর্ষ আবারও বিতর্কের জন্ম দিয়েছে, নতুন অভিযোগ উঠেছে যে OpenAI-এর নতুন ফ্ল্যাগশিপ মডেল, GPT-4o, সম্ভবত পেওয়ালের আড়ালে থাকা কপিরাইটযুক্ত সামগ্রী ব্যবহার করে প্রশিক্ষিত হয়েছে, প্রয়োজনীয় অনুমতি সুরক্ষিত না করেই। এই দাবিগুলি একটি নতুন প্রতিষ্ঠিত নজরদারি গোষ্ঠী, AI Disclosures Project থেকে উদ্ভূত হয়েছে, যা অত্যাধুনিক AI সিস্টেম প্রশিক্ষণের জন্য ডেটার নৈতিক উৎস সম্পর্কিত ইতিমধ্যে জটিল বিতর্কে আরও একটি স্তর যুক্ত করেছে।

নজরদারি সংস্থার অভিযোগ: AI Disclosures Project-এর দাবি

২০২৪ সালে চালু হওয়া AI Disclosures Project নিজেকে একটি অলাভজনক সংস্থা হিসাবে প্রতিষ্ঠিত করেছে, যা AI শিল্পের প্রায়শই অস্বচ্ছ অনুশীলনগুলি পুঙ্খানুপুঙ্খভাবে পরীক্ষা করার জন্য নিবেদিত। এর প্রতিষ্ঠাতাদের মধ্যে উল্লেখযোগ্য ব্যক্তিত্বরা হলেন মিডিয়া উদ্যোক্তা Tim O’Reilly, যিনি O’Reilly Media-র প্রতিষ্ঠাতা, একটি বিশিষ্ট প্রযুক্তিগত বই প্রকাশক, এবং অর্থনীতিবিদ Ilan Strauss। O’Reilly Media-র সাথে এই সংযোগটি বিশেষভাবে প্রাসঙ্গিক, কারণ প্রকল্পটির প্রাথমিক বিস্ফোরক প্রতিবেদনটি GPT-4o-এর প্রশিক্ষণ ডেটাসেটে O’Reilly-র পেওয়ালযুক্ত বইয়ের বিষয়বস্তুর কথিত উপস্থিতির উপর বিশেষভাবে দৃষ্টি নিবদ্ধ করে।

তাদের গবেষণার কেন্দ্রীয় দাবিটি উত্তেজক: OpenAI এবং O’Reilly Media-র মধ্যে কোনও পরিচিত লাইসেন্সিং চুক্তি না থাকা সত্ত্বেও, GPT-4o মডেলটি O’Reilly-র কপিরাইটযুক্ত বই থেকে সরাসরি প্রাপ্ত সামগ্রীর সাথে একটি উল্লেখযোগ্যভাবে উচ্চ স্তরের পরিচিতি প্রদর্শন করে। প্রতিবেদনটি জোর দিয়ে বলেছে, এই পরিচিতি দৃঢ়ভাবে ইঙ্গিত দেয় যে এই পেওয়ালযুক্ত সামগ্রীগুলি মডেলের সক্ষমতা তৈরির জন্য ব্যবহৃত ডেটার বিশাল কর্পাসে অন্তর্ভুক্ত করা হয়েছিল। গবেষণাটি OpenAI-এর পুরোনো মডেলগুলির, বিশেষ করে GPT-3.5 Turbo-র তুলনায় একটি উল্লেখযোগ্য পার্থক্য তুলে ধরে, যা GPT-4o-এর বিকাশের আগে ডেটা অধিগ্রহণ পদ্ধতিতে একটি সম্ভাব্য পরিবর্তন বা সম্প্রসারণের ইঙ্গিত দেয়।

এর প্রভাব যথেষ্ট। যদি মালিকানাধীন, অর্থের বিনিময়ে প্রাপ্ত সামগ্রী অনুমোদন বা ক্ষতিপূরণ ছাড়াই AI মডেলগুলির দ্বারা গ্রহণ করা হয়, তবে এটি জেনারেটিভ AI-এর যুগে কপিরাইট আইন সম্পর্কে মৌলিক প্রশ্ন উত্থাপন করে। প্রকাশক এবং লেখকরা সাবস্ক্রিপশন বা ক্রয় মডেলের উপর নির্ভর করে, যা তাদের সামগ্রীর একচেটিয়া অধিকারের উপর ভিত্তি করে তৈরি। প্রশিক্ষণের জন্য এই উপাদানটির কথিত ব্যবহার এই ব্যবসায়িক মডেলগুলিকে দুর্বল করে দেখা যেতে পারে, যা তৈরি করতে উল্লেখযোগ্য বিনিয়োগের প্রয়োজন এমন সামগ্রীর মূল্য হ্রাস করতে পারে। এই নির্দিষ্ট অভিযোগটি সর্বজনীনভাবে উপলব্ধ ওয়েবসাইটগুলি স্ক্র্যাপ করার বাইরে চলে যায়, যা স্পষ্টভাবে অর্থপ্রদানকারী গ্রাহকদের জন্য উদ্দিষ্ট সামগ্রী অ্যাক্সেস করার ক্ষেত্রে প্রবেশ করে।

ব্ল্যাক বক্সের ভিতরে উঁকি: মেম্বারশিপ ইনফারেন্স অ্যাটাক

তাদের দাবি প্রমাণ করার জন্য, AI Disclosures Project-এর গবেষকরা একটি অত্যাধুনিক কৌশল ব্যবহার করেছেন যা ‘মেম্বারশিপ ইনফারেন্স অ্যাটাক’ নামে পরিচিত, বিশেষত তারা DE-COP নামে একটি পদ্ধতি ব্যবহার করে। এই পদ্ধতির মূল ধারণা হল পরীক্ষা করা যে একটি AI মডেল নির্দিষ্ট পাঠ্য অংশ ‘মুখস্থ’ করেছে কিনা বা অন্ততপক্ষে তার সাথে একটি শক্তিশালী পরিচিতি তৈরি করেছে কিনা। সংক্ষেপে, এই আক্রমণটি মডেলটিকে জিজ্ঞাসা করে দেখে যে এটি নির্ভরযোগ্যভাবে মূল পাঠ্য প্যাসেজ (এই ক্ষেত্রে, O’Reilly বই থেকে) এবং সেই একই প্যাসেজের সাবধানে তৈরি করা প্যারাফ্রেজড সংস্করণগুলির মধ্যে পার্থক্য করতে পারে কিনা, যা অন্য একটি AI দ্বারা তৈরি করা হয়েছে।

এর অন্তর্নিহিত যুক্তি হল যে যদি একটি মডেল ধারাবাহিকভাবে একটি ঘনিষ্ঠ প্যারাফ্রেজের তুলনায় মূল মানব-রচিত পাঠ্য সনাক্ত করার ক্ষেত্রে এলোমেলো সম্ভাবনার চেয়ে বেশি ক্ষমতা দেখায়, তবে এটি বোঝায় যে মডেলটি সেই মূল পাঠ্যের সম্মুখীন হয়েছে আগে – সম্ভবত তার প্রশিক্ষণের পর্যায়ে। এটি পরীক্ষা করার মতো যে কেউ একটি নির্দিষ্ট, কম পরিচিত ফটোগ্রাফ চিনতে পারে কিনা যা সে কখনও দেখেনি বলে দাবি করে; ধারাবাহিক স্বীকৃতি পূর্বের সংস্পর্শের ইঙ্গিত দেয়।

AI Disclosures Project-এর পরীক্ষার পরিধি ছিল যথেষ্ট। তারা ৩৪টি ভিন্ন O’Reilly Media বই থেকে নেওয়া ১৩,৯৬২টি স্বতন্ত্র অনুচ্ছেদ উদ্ধৃতি ব্যবহার করেছে। এই উদ্ধৃতিগুলি সেই ধরণের বিশেষায়িত, উচ্চ-মূল্যের সামগ্রীর প্রতিনিধিত্ব করে যা সাধারণত প্রকাশকের পেওয়ালের পিছনে পাওয়া যায়। গবেষণাটি তারপর GPT-4o এবং এর পূর্বসূরি, GPT-3.5 Turbo উভয়ের কর্মক্ষমতা এই পার্থক্যকরণ কার্যে পরিমাপ করেছে।

প্রতিবেদনে উপস্থাপিত ফলাফলগুলি ছিল চমকপ্রদ। GPT-4o পেওয়ালযুক্ত O’Reilly সামগ্রী সনাক্ত করার ক্ষেত্রে উল্লেখযোগ্যভাবে উন্নত ক্ষমতা প্রদর্শন করেছে। এর কর্মক্ষমতা একটি AUROC (Area Under the Receiver Operating Characteristic curve) স্কোর ব্যবহার করে পরিমাপ করা হয়েছিল, যা বাইনারি ক্লাসিফায়ারের কর্মক্ষমতা মূল্যায়নের জন্য একটি সাধারণ মেট্রিক। GPT-4o একটি AUROC স্কোর ৮২% অর্জন করেছে। বিপরীতে, GPT-3.5 Turbo মাত্র ৫০% এর উপরে স্কোর করেছে, যা মূলত এলোমেলো অনুমানের সমতুল্য – পরীক্ষিত উপাদানের কোনও নির্দিষ্ট স্বীকৃতি নির্দেশ করে না। এই সুস্পষ্ট পার্থক্য, প্রতিবেদনটি যুক্তি দেয়, বাধ্যতামূলক, যদিও পরোক্ষ, প্রমাণ সরবরাহ করে যে পেওয়ালযুক্ত সামগ্রীটি প্রকৃতপক্ষে GPT-4o-এর প্রশিক্ষণ ডায়েটের অংশ ছিল। একটি ৮২% স্কোর একটি শক্তিশালী সংকেত নির্দেশ করে, যা সুযোগ বা সাধারণ জ্ঞানের দ্বারা প্রত্যাশিতর চেয়ে অনেক বেশি।

প্রয়োজনীয় সতর্কতা এবং অমীমাংসিত প্রশ্ন

যদিও ফলাফলগুলি একটি বাধ্যতামূলক আখ্যান উপস্থাপন করে, গবেষণার সহ-লেখক, AI গবেষক Sruly Rosenblat সহ, প্রশংসনীয়ভাবে তাদের পদ্ধতিতে অন্তর্নিহিত সম্ভাব্য সীমাবদ্ধতা এবং AI প্রশিক্ষণের জটিল প্রকৃতি স্বীকার করেছেন। একটি উল্লেখযোগ্য সতর্কতা যা তারা উত্থাপন করেছে তা হল পরোক্ষ ডেটা গ্রহণের সম্ভাবনা। তারা উল্লেখ করেছে, এটা সম্ভব যে ChatGPT (OpenAI-এর জনপ্রিয় ইন্টারফেস) ব্যবহারকারীরা পেওয়ালযুক্ত O’Reilly বই থেকে উদ্ধৃতি সরাসরি চ্যাট ইন্টারফেসে কপি এবং পেস্ট করে থাকতে পারেন বিভিন্ন উদ্দেশ্যে, যেমন পাঠ্য সম্পর্কে প্রশ্ন জিজ্ঞাসা করা বা সারাংশ অনুরোধ করা। যদি এটি যথেষ্ট ঘন ঘন ঘটে থাকে, তবে মডেলটি প্রাথমিক প্রশিক্ষণ ডেটাসেটে সরাসরি অন্তর্ভুক্তির পরিবর্তে ব্যবহারকারীর মিথস্ক্রিয়াগুলির মাধ্যমে পরোক্ষভাবে বিষয়বস্তু শিখতে পারত। ব্যবহারকারীর প্রম্পটের মাধ্যমে পরোক্ষ শিক্ষা থেকে সরাসরি প্রশিক্ষণ এক্সপোজারকে আলাদা করা AI ফরেনসিক্সে একটি উল্লেখযোগ্য চ্যালেঞ্জ হিসাবে রয়ে গেছে।

অধিকন্তু, গবেষণার পরিধি OpenAI-এর একেবারে সর্বশেষ বা বিশেষায়িত মডেল পুনরাবৃত্তি পর্যন্ত প্রসারিত হয়নি যা GPT-4o-এর প্রধান প্রশিক্ষণ চক্রের সমসাময়িক বা পরবর্তীতে বিকশিত বা প্রকাশিত হতে পারে। মডেলগুলির মধ্যে সম্ভাব্যভাবে GPT-4.5 (যদি এটি সেই নির্দিষ্ট নামকরণ বা সক্ষমতা স্তরের অধীনে বিদ্যমান থাকে) এবং যুক্তি-কেন্দ্রিক মডেল যেমন o3-mini এবং o1 একই মেম্বারশিপ ইনফারেন্স আক্রমণের শিকার হয়নি। এটি এই প্রশ্নটি খোলা রাখে যে ডেটা সোর্সিং অনুশীলনগুলি আরও বিকশিত হয়েছে কিনা, বা এই নতুন মডেলগুলি পেওয়ালযুক্ত সামগ্রীর সাথে পরিচিতির অনুরূপ ধরণ প্রদর্শন করে কিনা। AI বিকাশে দ্রুত পুনরাবৃত্তি চক্রের অর্থ হল যে কোনও স্ন্যাপশট বিশ্লেষণ প্রায় অবিলম্বে কিছুটা পুরানো হওয়ার ঝুঁকিতে থাকে।

এই সীমাবদ্ধতাগুলি অগত্যা গবেষণার মূল ফলাফলগুলিকে বাতিল করে না, তবে তারা সূক্ষ্মতার গুরুত্বপূর্ণ স্তর যুক্ত করে। একটি ফাউন্ডেশন মডেল প্রশিক্ষণের জন্য ব্যবহৃত টেরাবাইট ডেটার মধ্যে কী রয়েছে তা নিশ্চিতভাবে প্রমাণ করা কুখ্যাতভাবে কঠিন। মেম্বারশিপ ইনফারেন্স অ্যাটাকগুলি সম্ভাব্যতা ভিত্তিক প্রমাণ সরবরাহ করে, যা নিখুঁত নিশ্চয়তা দেওয়ার পরিবর্তে সম্ভাবনার পরামর্শ দেয়। OpenAI, অন্যান্য AI ল্যাবগুলির মতো, তার প্রশিক্ষণ ডেটার গঠন ঘনিষ্ঠভাবে রক্ষা করে, মালিকানা সংক্রান্ত উদ্বেগ এবং প্রতিযোগিতামূলক সংবেদনশীলতার উল্লেখ করে।

একটি বৃহত্তর সংঘাত: AI অঙ্গনে কপিরাইট যুদ্ধ

AI Disclosures Project দ্বারা উত্থাপিত অভিযোগগুলি শূন্যস্থানে বিদ্যমান নেই। তারা প্রশিক্ষণের উদ্দেশ্যে কপিরাইটযুক্ত উপাদানের ব্যবহার নিয়ে AI ডেভেলপার এবং নির্মাতাদের মধ্যে একটি অনেক বৃহত্তর, চলমান সংঘাতের সর্বশেষ সংঘর্ষের প্রতিনিধিত্ব করে। OpenAI, Google, Meta, এবং Microsoft-এর মতো অন্যান্য বিশিষ্ট খেলোয়াড়দের সাথে, একাধিক হাই-প্রোফাইল মামলায় জড়িয়ে পড়েছে। লেখক, শিল্পী, সংবাদ সংস্থা এবং অন্যান্য অধিকারধারীদের দ্বারা আনা এই আইনি চ্যালেঞ্জগুলি সাধারণত জেনারেটিভ AI মডেলগুলিকে প্রশিক্ষণের জন্য ইন্টারনেট থেকে বিপুল পরিমাণ পাঠ্য এবং চিত্র অননুমোদিত স্ক্র্যাপিং এবং গ্রহণ থেকে উদ্ভূত ব্যাপক কপিরাইট লঙ্ঘনের অভিযোগ করে।

AI সংস্থাগুলির দ্বারা প্রায়শই উত্থাপিত মূল প্রতিরক্ষা ন্যায্য ব্যবহার (fair use) মতবাদের (মার্কিন যুক্তরাষ্ট্রে) বা অন্যান্য বিচারব্যবস্থায় অনুরূপ ব্যতিক্রমগুলির উপর নির্ভর করে। তারা যুক্তি দেয় যে প্রশিক্ষণের জন্য কপিরাইটযুক্ত কাজ ব্যবহার করা একটি ‘রূপান্তরমূলক’ ব্যবহার গঠন করে – AI মডেলগুলি কেবল মূল কাজগুলি পুনরুৎপাদন করছে না বরং ডেটা ব্যবহার করে প্যাটার্ন, শৈলী এবং তথ্য শিখছে সম্পূর্ণ নতুন আউটপুট তৈরি করতে। এই ব্যাখ্যার অধীনে, প্রশিক্ষণ প্রক্রিয়া নিজেই, একটি শক্তিশালী নতুন সরঞ্জাম তৈরির লক্ষ্যে, গৃহীত প্রতিটি ডেটার জন্য লাইসেন্সের প্রয়োজন ছাড়াই অনুমোদিত হওয়া উচিত।

যাইহোক, অধিকারধারীরা এই দৃষ্টিভঙ্গির তীব্র বিরোধিতা করে। তারা যুক্তি দেয় যে জড়িত অনুলিপিকরণের নিছক স্কেল, নির্মিত AI পণ্যগুলির বাণিজ্যিক প্রকৃতি এবং AI আউটপুটগুলির মূল কাজগুলির সাথে সরাসরি প্রতিযোগিতা করার এবং প্রতিস্থাপন করার সম্ভাবনা ন্যায্য ব্যবহারের অনুসন্ধানের বিরুদ্ধে প্রবলভাবে ওজন করে। বিতর্কটি হল যে AI সংস্থাগুলি নির্মাতাদের ক্ষতিপূরণ না দিয়েই সৃজনশীল কাজের উপর ভিত্তি করে বহু বিলিয়ন ডলারের উদ্যোগ তৈরি করছে।

এই মামলা মোকদ্দমার পটভূমিতে, OpenAI বিভিন্ন বিষয়বস্তু সরবরাহকারীদের সাথে লাইসেন্সিং চুক্তি করে কিছু ঝুঁকি কমানোর জন্য সক্রিয়ভাবে চেষ্টা করেছে। প্রধান সংবাদ প্রকাশক (যেমন Associated Press এবং Axel Springer), সোশ্যাল মিডিয়া প্ল্যাটফর্ম (যেমন Reddit), এবং স্টক মিডিয়া লাইব্রেরি (যেমন Shutterstock) এর সাথে চুক্তি ঘোষণা করা হয়েছে। এই চুক্তিগুলি OpenAI-কে অর্থপ্রদানের বিনিময়ে নির্দিষ্ট ডেটাসেটে বৈধ অ্যাক্সেস সরবরাহ করে, সম্ভাব্যভাবে সম্ভাব্য লঙ্ঘনকারী ওয়েব-স্ক্র্যাপ করা ডেটার উপর এর নির্ভরতা হ্রাস করে। সংস্থাটি সাংবাদিকদের নিয়োগ করেছে বলেও জানা গেছে, তাদের মডেলের আউটপুটগুলির গুণমান এবং নির্ভরযোগ্যতা পরিমার্জন এবং উন্নত করতে সহায়তা করার দায়িত্ব দেওয়া হয়েছে, যা উচ্চ-মানের, সম্ভাব্যভাবে কিউরেটেড, ইনপুটের প্রয়োজনীয়তা সম্পর্কে সচেতনতা নির্দেশ করে।

রিপল এফেক্ট: কন্টেন্ট ইকোসিস্টেমের উদ্বেগ

AI Disclosures Project-এর প্রতিবেদনটি OpenAI-এর জন্য তাৎক্ষণিক আইনি প্রভাবের বাইরেও তার উদ্বেগ প্রসারিত করে। এটি বিষয়টিকে একটি পদ্ধতিগত হুমকি হিসাবে ফ্রেম করে যা সমগ্র ডিজিটাল সামগ্রী ইকোসিস্টেমের স্বাস্থ্য এবং বৈচিত্র্যকে নেতিবাচকভাবে প্রভাবিত করতে পারে। গবেষণাটি একটি সম্ভাব্য ক্ষতিকর প্রতিক্রিয়া লুপ স্থাপন করে: যদি AI সংস্থাগুলি নির্মাতাদের ক্ষতিপূরণ না দিয়ে অবাধে উচ্চ-মানের, পেশাদারভাবে তৈরি সামগ্রী (পেওয়ালযুক্ত উপাদান সহ) ব্যবহার করতে পারে, তবে এটি প্রথম স্থানে এই জাতীয় সামগ্রী তৈরির আর্থিক কার্যকারিতা হ্রাস করে।

পেশাদার বিষয়বস্তু তৈরি – তা অনুসন্ধানী সাংবাদিকতা, গভীর প্রযুক্তিগত ম্যানুয়াল, কথাসাহিত্য লেখা, বা একাডেমিক গবেষণা হোক না কেন – প্রায়শই উল্লেখযোগ্য সময়, দক্ষতা এবং আর্থিক বিনিয়োগের প্রয়োজন হয়। পেওয়াল এবং সাবস্ক্রিপশন মডেলগুলি প্রায়শই এই কাজটি অর্থায়নের জন্য অপরিহার্য প্রক্রিয়া। যদি এই প্রচেষ্টাগুলিকে সমর্থনকারী রাজস্ব প্রবাহগুলি হ্রাস পায় কারণ বিষয়বস্তুটি কার্যকরভাবে পারিশ্রমিক ছাড়াই প্রতিযোগী AI সিস্টেমগুলিকে প্রশিক্ষণের জন্য ব্যবহার করা হচ্ছে, তবে উচ্চ-মানের, বৈচিত্র্যময় সামগ্রী তৈরির প্রণোদনা হ্রাস পেতে পারে। এটি একটি কম অবহিত জনসাধারণ, বিশেষায়িত জ্ঞান সংস্থান হ্রাস এবং সম্ভাব্যভাবে নিম্ন-মানের বা AI-উত্পন্ন সামগ্রী দ্বারা প্রভাবিত একটি ইন্টারনেটের দিকে নিয়ে যেতে পারে যাতে মানুষের দক্ষতা এবং যাচাইকরণের অভাব রয়েছে।

ফলস্বরূপ, AI Disclosures Project AI সংস্থাগুলির কাছ থেকে তাদের প্রশিক্ষণ ডেটা অনুশীলন সম্পর্কিত বৃহত্তর স্বচ্ছতা এবং জবাবদিহিতার জন্য দৃঢ়ভাবে সমর্থন করে। তারা শক্তিশালী নীতি এবং সম্ভাব্য নিয়ন্ত্রক কাঠামোর বাস্তবায়নের আহ্বান জানায় যা নিশ্চিত করে যে বিষয়বস্তু নির্মাতারা ন্যায্যভাবে ক্ষতিপূরণ পান যখন তাদের কাজ বাণিজ্যিক AI মডেলগুলির বিকাশে অবদান রাখে। এটি বিশ্বব্যাপী নির্মাতা গোষ্ঠীগুলির কাছ থেকে বৃহত্তর আহ্বানের প্রতিধ্বনি করে যারা তাদের মেধা সম্পত্তির উপর প্রশিক্ষিত AI সিস্টেম দ্বারা উত্পন্ন মূল্যের একটি অংশ নিশ্চিত করার জন্য প্রক্রিয়াগুলি সন্ধান করে – তা লাইসেন্সিং চুক্তি, রয়্যালটি সিস্টেম বা সম্মিলিত দর কষাকষির মাধ্যমেই হোক না কেন। বিতর্কটি একটি টেকসই ভারসাম্য খুঁজে বের করার উপর কেন্দ্র করে যেখানে AI উদ্ভাবন মানব সৃজনশীলতা এবং জ্ঞান উৎপাদনের জন্য একটি সমৃদ্ধ ইকোসিস্টেমের পাশাপাশি বিকাশ লাভ করতে পারে। চলমান আইনি লড়াইয়ের সমাধান এবং নতুন আইন বা শিল্পের মানগুলির সম্ভাবনা এই ভবিষ্যতের ভারসাম্য গঠনে গুরুত্বপূর্ণ হবে। বিশাল, জটিল AI মডেলগুলিতে ডেটার উৎস ট্র্যাক করা এবং মূল্য নির্ধারণ করার প্রশ্নটি একটি উল্লেখযোগ্য প্রযুক্তিগত এবং নৈতিক বাধা হিসাবে রয়ে গেছে।