‘ওপেন সোর্স’ শব্দটি একসময় স্পষ্টতা বহন করত, জ্ঞান ভাগাভাগি এবং সহযোগিতামূলক অগ্রগতির প্রতিশ্রুতি দিত যা অগণিত বৈজ্ঞানিক ও প্রযুক্তিগত উল্লম্ফনকে চালিত করেছে। এটি এমন সম্প্রদায়ের ছবি তুলে ধরত যারা একসাথে তৈরি করছে, একে অপরের কাজ পরীক্ষা করছে এবং পূর্বসূরিদের কাজের উপর ভিত্তি করে এগিয়ে যাচ্ছে কারণ নকশাগুলো অবাধে উপলব্ধ ছিল। এখন, Artificial Intelligence (AI)-এর জগতে বিচরণ করতে গিয়ে শব্দটি ক্রমবর্ধমানভাবে… পিচ্ছিল মনে হচ্ছে। যেমনটা Nature পত্রিকার পাতায় তুলে ধরা হয়েছে এবং ল্যাব ও বোর্ডরুমে ফিসফাস শোনা যাচ্ছে, AI গোল্ড রাশের উদ্বেগজনক সংখ্যক খেলোয়াড় তাদের সৃষ্টিকে ‘ওপেন সোর্স’-এর আবরণে ঢেকে রাখছে, অথচ সত্যিকারের গুরুত্বপূর্ণ উপাদানগুলো তালাবদ্ধ করে রেখেছে। এটি কেবল একটি শব্দার্থগত বিতর্ক নয়; এটি এমন একটি অনুশীলন যা বৈজ্ঞানিক সততার ভিত্তিকে ক্ষয় করে এবং ভবিষ্যতের উদ্ভাবনের পথকে অস্পষ্ট করার হুমকি দেয়। গবেষণা সম্প্রদায়, যে গোষ্ঠীটি সবচেয়ে বেশি লাভবান বা ক্ষতিগ্রস্ত হতে পারে, তাদের এই প্রহসনকে চিনতে হবে এবং সেই AI সিস্টেমগুলির জন্য জোরালোভাবে সওয়াল করতে হবে যা স্বচ্ছতা ও পুনরুৎপাদনযোগ্যতার নীতিগুলিকে সত্যিকার অর্থে ধারণ করে, যার উপর আমরা দীর্ঘদিন ধরে নির্ভর করে এসেছি।
উন্মুক্ততার স্বর্ণযুগ: এক ঐতিহ্য হুমকির মুখে
কয়েক দশক ধরে, ওপেন-সোর্স আন্দোলন বৈজ্ঞানিক অগ্রগতির এক অঘোষিত নায়ক। পরিসংখ্যানগত জাদুকরীর জন্য R Studio বা ফ্লুইড ডাইনামিক্স মডেলিংয়ের জন্য OpenFOAM-এর মতো পরিচিত সরঞ্জামগুলির বাইরেও ভাবুন। Linux-এর মতো ভিত্তি সিস্টেমগুলির কথা বিবেচনা করুন, যা ইন্টারনেট এবং বৈজ্ঞানিক কম্পিউটিং ক্লাস্টারগুলির বিশাল অংশকে শক্তি জোগায়, অথবা Apache ওয়েব সার্ভার, যা সহযোগিতামূলক সফ্টওয়্যার বিকাশের একটি প্রমাণ। দর্শনটি ছিল সোজাসাপ্টা: সোর্স কোডে অ্যাক্সেস প্রদান করা, অনুমতিমূলক লাইসেন্সের অধীনে পরিবর্তন ও পুনর্বিতরণের অনুমতি দেওয়া এবং একটি বিশ্বব্যাপী ইকোসিস্টেম তৈরি করা যেখানে উন্নতিগুলো সবার উপকারে আসে।
এটা নিছক পরার্থপরতা ছিল না; এটা ছিল বাস্তবসম্মত প্রতিভা। উন্মুক্ততা আবিষ্কারকে ত্বরান্বিত করেছে। গবেষকরা পরীক্ষাগুলো প্রতিলিপি করতে, ফলাফল যাচাই করতে এবং বিদ্যমান কাজের উপর ভিত্তি করে নতুন কিছু তৈরি করতে পারতেন, চাকা নতুন করে আবিষ্কার না করে বা অস্বচ্ছ মালিকানাধীন সিস্টেমগুলির মধ্যে দিয়ে না গিয়ে। এটি বিশ্বাস তৈরি করেছিল, কারণ অভ্যন্তরীণ কার্যকারিতা পরিদর্শনের জন্য উপলব্ধ ছিল, যা বাগ খুঁজে বের করতে এবং সম্মিলিতভাবে ঠিক করতে সাহায্য করেছিল। এটি অ্যাক্সেসকে গণতান্ত্রিক করেছিল, বিশ্বব্যাপী বিজ্ঞানী এবং ডেভেলপারদের, প্রাতিষ্ঠানিক وابستگی বা বাজেট নির্বিশেষে, অত্যাধুনিক কাজে অংশগ্রহণ করতে সক্ষম করেছিল। এই সহযোগিতামূলক চেতনা, ভাগ করা অ্যাক্সেস এবং পারস্পরিক যাচাইয়ের উপর নির্মিত, বৈজ্ঞানিক পদ্ধতির মধ্যেই গভীরভাবে প্রোথিত হয়ে গিয়েছিল, যা বিভিন্ন ক্ষেত্রে দৃঢ়তা নিশ্চিত করে এবং দ্রুত অগ্রগতিকে উৎসাহিত করে। ব্যবহৃত সরঞ্জামগুলি বিশ্লেষণ, বোঝা এবং পরিবর্তন করার ক্ষমতাই ছিল মুখ্য। এটি কেবল সফ্টওয়্যার ব্যবহার করার বিষয় ছিল না; এটি ছিল এটি কীভাবে কাজ করে তা বোঝা, একটি নির্দিষ্ট বৈজ্ঞানিক কাজের জন্য এর উপযুক্ততা নিশ্চিত করা এবং সম্মিলিত জ্ঞান ভাণ্ডারে অবদান রাখা। এই পুণ্য চক্র অভূতপূর্ব গতিতে উদ্ভাবনকে চালিত করেছিল।
AI-এর ডেটা নির্ভরতা: কেন ‘কোডই রাজা’ ধারণাটি যথেষ্ট নয়
বৃহৎ আকারের Artificial Intelligence (AI)-এর যুগে প্রবেশ করুন, বিশেষ করে সেই ভিত্তি মডেলগুলি যা এত মনোযোগ এবং বিনিয়োগ আকর্ষণ করে। এখানে, ঐতিহ্যগত ওপেন-সোর্স প্যারাডাইম, যা প্রাথমিকভাবে সোর্স কোডকে কেন্দ্র করে গঠিত, একটি মৌলিক অমিলের সম্মুখীন হয়। যদিও একটি AI মডেল তৈরি করতে ব্যবহৃত অ্যালগরিদম এবং কোড অবশ্যই ছবির অংশ, তবে তারা পুরো গল্প থেকে অনেক দূরে। আধুনিক AI, বিশেষ করে ডিপ লার্নিং মডেলগুলি, ডেটার অতৃপ্ত ভোক্তা। প্রশিক্ষণ ডেটা কেবল একটি ইনপুট নয়; এটি তর্কযোগ্যভাবে মডেলের ক্ষমতা, পক্ষপাত এবং সীমাবদ্ধতার প্রাথমিক নির্ধারক।
মডেলের কোড, বা এমনকি তার চূড়ান্ত প্রশিক্ষিত প্যারামিটার (‘ওয়েটস’) প্রকাশ করা, প্রশিক্ষণের জন্য ব্যবহৃত বিশাল ডেটাসেটগুলিতে অর্থপূর্ণ অ্যাক্সেস বা বিস্তারিত তথ্য সরবরাহ না করে, কাউকে গাড়ির চাবি দেওয়ার মতো কিন্তু এটি কী ধরণের জ্বালানী নেয়, এটি কোথায় চালানো হয়েছে, বা ইঞ্জিনটি আসলে কীভাবে একত্রিত হয়েছিল তা বলতে অস্বীকার করার মতো। আপনি হয়তো এটি চালাতে পারবেন, কিন্তু এর পারফরম্যান্সের অদ্ভুততা বোঝার, সম্ভাব্য সমস্যা নির্ণয় করার বা নতুন যাত্রার জন্য নির্ভরযোগ্যভাবে এটি পরিবর্তন করার ক্ষমতা আপনার সীমিত।
অধিকন্তু, এই মডেলগুলিকে স্ক্র্যাচ থেকে প্রশিক্ষণ দেওয়ার জন্য প্রয়োজনীয় কম্পিউটেশনাল সংস্থানগুলি বিশাল, প্রায়শই একটি একক প্রশিক্ষণ রানের জন্য মিলিয়ন ডলারে চলে যায়। এটি আরেকটি বাধা তৈরি করে। এমনকি যদি কোড এবং ডেটা সম্পূর্ণরূপে উপলব্ধ থাকত, তবুও কেবল মুষ্টিমেয় কিছু সংস্থা প্রশিক্ষণ প্রক্রিয়াটি প্রতিলিপি করার জন্য পরিকাঠামোর অধিকারী। এই বাস্তবতা ঐতিহ্যগত সফ্টওয়্যারের তুলনায় গতিশীলতাকে মৌলিকভাবে পরিবর্তন করে, যেখানে কোড কম্পাইল করা সাধারণত বেশিরভাগ ডেভেলপার বা গবেষকদের নাগালের মধ্যে থাকে। AI-এর জন্য, প্রকৃত পুনরুৎপাদনযোগ্যতা এবং পুনরায় প্রশিক্ষণের মাধ্যমে পরীক্ষা করার ক্ষমতা প্রায়শই অধরা থেকে যায়, এমনকি যখন উপাদানগুলিকে ‘ওপেন’ লেবেল দেওয়া হয়। অতএব, কোডের জন্য পরিকল্পিত পুরানো ওপেন-সোর্স সংজ্ঞাগুলি কেবল প্রয়োগ করা এই নতুন, ডেটা-কেন্দ্রিক এবং কম্পিউট-ইনটেনসিভ ডোমেনের প্রয়োজনীয়তাগুলি ধারণ করে না।
‘ওপেনওয়াশিং’: ভেড়ার চামড়ায় নেকড়ে
ঐতিহ্যগত ওপেন-সোর্স ধারণা এবং AI বিকাশের বাস্তবতার মধ্যে এই ব্যবধান ‘ওপেনওয়াশিং’ নামে পরিচিত একটি ঘটনার জন্য উর্বর ক্ষেত্র তৈরি করেছে। কোম্পানিগুলি আগ্রহের সাথে তাদের AI মডেলগুলিতে ‘ওপেন সোর্স’ লেবেল লাগিয়ে দেয়, এই শব্দটির সাথে যুক্ত জনসংযোগ সুবিধা এবং সদিচ্ছা অর্জন করে, যখন লাইসেন্স বা অ্যাক্সেস বিধিনিষেধ ব্যবহার করে যা প্রকৃত উন্মুক্ততার চেতনাকে লঙ্ঘন করে, যদি কঠোর (এবং তর্কযোগ্যভাবে পুরানো) অক্ষরকে নাও করে।
বাস্তবে এটি কেমন দেখায়?
- ডেটা ছাড়া কোড প্রকাশ: একটি কোম্পানি মডেলের আর্কিটেকচার কোড এবং সম্ভবত প্রি-ট্রেইনড ওয়েটস প্রকাশ করতে পারে, যা অন্যদের মডেলটি ‘যেমন আছে তেমন’ ব্যবহার করতে বা ছোট ডেটাসেটে ফাইন-টিউন করতে দেয়। যাইহোক, বিশাল, ভিত্তি প্রশিক্ষণ ডেটাসেট – গোপন সস যা মডেলের মূল ক্ষমতা নির্ধারণ করে – মালিকানাধীন এবং লুকানো থাকে।
- সীমাবদ্ধ লাইসেন্সিং: মডেলগুলি এমন লাইসেন্সের অধীনে প্রকাশ করা হতে পারে যা প্রথম নজরে উন্মুক্ত বলে মনে হয় তবে এতে বাণিজ্যিক ব্যবহার সীমিত করার, নির্দিষ্ট পরিস্থিতিতে স্থাপনা সীমাবদ্ধ করার বা নির্দিষ্ট ধরণের পরিবর্তন বা বিশ্লেষণ নিষিদ্ধ করার ধারা থাকে। এই বিধিনিষেধগুলি সাধারণত ওপেন-সোর্স সফ্টওয়্যারের সাথে যুক্ত স্বাধীনতার পরিপন্থী।
- অস্পষ্ট ডেটা প্রকাশ: ডেটা উৎস, সংগ্রহ পদ্ধতি, পরিষ্কার করার প্রক্রিয়া এবং সম্ভাব্য পক্ষপাত সম্পর্কে বিস্তারিত তথ্যের পরিবর্তে, কোম্পানিগুলি অস্পষ্ট বিবরণ দিতে পারে বা গুরুত্বপূর্ণ বিবরণ সম্পূর্ণরূপে বাদ দিতে পারে। এই ‘ডেটা স্বচ্ছতার’ অভাব মডেলের নির্ভরযোগ্যতা বা নৈতিক প্রভাব সম্পূর্ণরূপে মূল্যায়ন করা অসম্ভব করে তোলে।
কেন এই ধরনের অনুশীলনে জড়িত? প্রেরণা সম্ভবত বিভিন্ন। ‘ওপেন সোর্স’-এর ইতিবাচক অর্থ নিঃসন্দেহে প্রতিভা আকর্ষণ, ডেভেলপার কমিউনিটি তৈরি (এমনকি সীমাবদ্ধ হলেও) এবং অনুকূল প্রেস তৈরি করার জন্য মূল্যবান। আরও নিন্দনীয়ভাবে, যেমন Nature পরামর্শ দেয়, নিয়ন্ত্রক প্রণোদনা থাকতে পারে। উদাহরণস্বরূপ, ইউরোপীয় ইউনিয়নের ব্যাপক 2024 AI Act-এ ওপেন সোর্স হিসাবে শ্রেণীবদ্ধ সিস্টেমগুলির জন্য সম্ভাব্য ছাড় বা হালকা প্রয়োজনীয়তা অন্তর্ভুক্ত রয়েছে। কৌশলগতভাবে লেবেল ব্যবহার করে, কিছু সংস্থা কম ঘর্ষণে জটিল নিয়ন্ত্রক ল্যান্ডস্কেপ নেভিগেট করার আশা করতে পারে, সম্ভাব্যভাবে শক্তিশালী, সাধারণ-উদ্দেশ্য AI সিস্টেমগুলির জন্য উদ্দিষ্ট যাচাই এড়িয়ে যেতে পারে। এই কৌশলগত ব্র্যান্ডিং অনুশীলন ওপেন-সোর্স আন্দোলনের ঐতিহাসিক সদিচ্ছাকে কাজে লাগায় এবং সম্ভাব্যভাবে দায়িত্বশীল AI স্থাপনা নিশ্চিত করার প্রচেষ্টাকে দুর্বল করে।
উন্মুক্ততার একটি বর্ণালী: উদাহরণ পরীক্ষা করা
এটা স্বীকার করা অত্যন্ত গুরুত্বপূর্ণ যে AI-তে উন্মুক্ততা অগত্যা একটি বাইনারি অবস্থা নয়; এটি একটি বর্ণালীতে বিদ্যমান। যাইহোক, বর্তমান লেবেলিং অনুশীলনগুলি প্রায়শই অস্পষ্ট করে যে একটি নির্দিষ্ট মডেল সেই বর্ণালীতে সত্যিই কোথায় বসে।
এই প্রসঙ্গে প্রায়শই আলোচিত কিছু বিশিষ্ট উদাহরণ বিবেচনা করুন:
- Meta-র Llama সিরিজ: যদিও Meta Llama মডেলগুলির জন্য ওয়েটস এবং কোড প্রকাশ করেছে, অ্যাক্সেসের জন্য প্রাথমিকভাবে আবেদনের প্রয়োজন ছিল, এবং লাইসেন্সে বিধিনিষেধ অন্তর্ভুক্ত ছিল, বিশেষ করে খুব বড় কোম্পানিগুলির দ্বারা ব্যবহার এবং নির্দিষ্ট অ্যাপ্লিকেশন সম্পর্কিত। সমালোচনামূলকভাবে, অন্তর্নিহিত প্রশিক্ষণ ডেটা প্রকাশ করা হয়নি, যা সম্পূর্ণ পুনরুৎপাদনযোগ্যতা এবং এর বৈশিষ্ট্যগুলির গভীর বিশ্লেষণকে সীমিত করে। যদিও পরবর্তী সংস্করণগুলি শর্তাবলী সামঞ্জস্য করেছে, ডেটা অস্বচ্ছতার মূল সমস্যাটি প্রায়শই থেকে যায়।
- Microsoft-এর Phi-2: Microsoft Phi-2 কে একটি ‘ওপেন-সোর্স’ ছোট ভাষা মডেল হিসাবে উপস্থাপন করেছে। যদিও মডেল ওয়েটস উপলব্ধ, লাইসেন্সের নির্দিষ্ট ব্যবহারের সীমাবদ্ধতা রয়েছে, এবং এর প্রশিক্ষণ ডেটাসেট সম্পর্কে বিস্তারিত তথ্য, যা এর ক্ষমতা এবং সম্ভাব্য পক্ষপাত বোঝার জন্য অত্যন্ত গুরুত্বপূর্ণ (বিশেষ করে ‘সিন্থেটিক’ ডেটাতে এর প্রশিক্ষণের কারণে), সম্পূর্ণরূপে স্বচ্ছ নয়।
- Mistral AI-এর Mixtral: এই মডেলটি, একটি বিশিষ্ট ইউরোপীয় AI স্টার্টআপ দ্বারা প্রকাশিত, তার পারফরম্যান্সের জন্য মনোযোগ আকর্ষণ করেছে। যদিও উপাদানগুলি একটি অনুমতিমূলক Apache 2.0 লাইসেন্সের (কোড/ওয়েটসের জন্য একটি প্রকৃত উন্মুক্ত লাইসেন্স) অধীনে প্রকাশ করা হয়েছিল, প্রশিক্ষণ ডেটা কম্পোজিশন এবং কিউরেশন প্রক্রিয়া সম্পর্কিত সম্পূর্ণ স্বচ্ছতা সীমিত রয়ে গেছে, যা গভীর বৈজ্ঞানিক যাচাইকে বাধাগ্রস্ত করে।
এগুলির সাথে ঐতিহ্যগত ওপেন-সোর্স নীতিগুলির সাথে বৃহত্তর সামঞ্জস্যের জন্য সচেষ্ট উদ্যোগগুলির তুলনা করুন:
- Allen Institute for AI-এর OLMo: এই প্রকল্পটি স্পষ্টভাবে একটি সত্যিকারের উন্মুক্ত ভাষা মডেল তৈরি করার লক্ষ্য নিয়েছিল, শুধুমাত্র মডেল ওয়েটস এবং কোডই নয়, প্রশিক্ষণ ডেটা (Dolma ডেটাসেট) এবং বিস্তারিত প্রশিক্ষণ লগ প্রকাশের উপর অগ্রাধিকার দিয়ে। এই প্রতিশ্রুতি বৃহত্তর গবেষণা সম্প্রদায়ের দ্বারা অভূতপূর্ব স্তরের পুনরুৎপাদনযোগ্যতা এবং বিশ্লেষণের অনুমতি দেয়।
- LLM360-এর CrystalCoder: এই সম্প্রদায়-চালিত প্রচেষ্টা একইভাবে মডেল ডেভেলপমেন্ট লাইফসাইকেলের সমস্ত উপাদান প্রকাশের উপর জোর দেয়, যার মধ্যে মধ্যবর্তী চেকপয়েন্ট এবং ডেটা ও প্রশিক্ষণ প্রক্রিয়া সম্পর্কে বিস্তারিত ডকুমেন্টেশন অন্তর্ভুক্ত, যা কর্পোরেট প্রকাশগুলিতে প্রায়শই অনুপস্থিত স্বচ্ছতার একটি স্তর তৈরি করে।
এই বিপরীত উদাহরণগুলি তুলে ধরে যে AI-তে প্রকৃত উন্মুক্ততা সম্ভব, তবে এর জন্য কেবল কোড বা ওয়েটস প্রকাশের বাইরে একটি ইচ্ছাকৃত প্রতিশ্রুতি প্রয়োজন। এটি ডেটা এবং প্রক্রিয়া সম্পর্কে স্বচ্ছতা দাবি করে, এর সাথে আসা যাচাইকে আলিঙ্গন করে। ‘ওপেনওয়াশিং’ দ্বারা সৃষ্ট বর্তমান অস্পষ্টতা গবেষকদের জন্য কোন সরঞ্জামগুলি সত্যিই উন্মুক্ত বৈজ্ঞানিক অনুসন্ধানকে সমর্থন করে তা নির্ণয় করা কঠিন করে তোলে।
বিশ্বাসের ক্ষয়: বৈজ্ঞানিক সততা ঝুঁকির মুখে
এই ব্যাপক ‘ওপেনওয়াশিং’-এর প্রভাব নিছক ব্র্যান্ডিংয়ের বাইরেও বিস্তৃত। যখন গবেষকরা এমন AI মডেলগুলির উপর নির্ভর করেন যাদের অভ্যন্তরীণ কার্যকারিতা, বিশেষ করে যে ডেটার উপর তাদের প্রশিক্ষণ দেওয়া হয়েছিল, তা অস্বচ্ছ, তখন এটি বৈজ্ঞানিক পদ্ধতির কেন্দ্রবিন্দুতে আঘাত করে।
- পুনরুৎপাদনযোগ্যতা ক্ষুণ্ণ: বৈজ্ঞানিক বৈধতার একটি ভিত্তি হল স্বাধীন গবেষকদের দ্বারা ফলাফল পুনরুৎপাদন করার ক্ষমতা। যদি প্রশিক্ষণ ডেটা এবং সঠিক প্রশিক্ষণ পদ্ধতি অজানা থাকে, তবে প্রকৃত প্রতিলিপি অসম্ভব হয়ে পড়ে। গবেষকরা একটি প্রি-ট্রেইনড মডেল ব্যবহার করতে পারেন, কিন্তু তারা এর নির্মাণ যাচাই করতে বা লুকানো ডেটা থেকে প্রাপ্ত এর মৌলিক বৈশিষ্ট্যগুলি অনুসন্ধান করতে পারে না।
- যাচাইকরণ বাধাগ্রস্ত: বিজ্ঞানীরা কীভাবে একটি মডেলের আউটপুটগুলিতে বিশ্বাস করতে পারেন যদি তারা যে ডেটা থেকে শিখেছে তা পরিদর্শন করতে না পারে? প্রশিক্ষণ ডেটাতে এমবেড করা লুকানো পক্ষপাত, ভুল, বা নৈতিক উদ্বেগ অনিবার্যভাবে মডেলের আচরণে প্রকাশ পাবে, তবুও স্বচ্ছতা ছাড়া, এই ত্রুটিগুলি সনাক্ত করা, নির্ণয় করা বা প্রশমিত করা কঠিন। বৈজ্ঞানিক আবিষ্কারের জন্য এই ধরনের ব্ল্যাক বক্স ব্যবহার করা অগ্রহণযোগ্য স্তরের অনিশ্চয়তা প্রবর্তন করে।
- উদ্ভাবন রুদ্ধ: বিজ্ঞান পূর্ববর্তী কাজের উপর ভিত্তি করে অগ্রসর হয়। যদি ভিত্তি মডেলগুলি বিধিনিষেধ সহ বা প্রয়োজনীয় স্বচ্ছতা ছাড়া (বিশেষ করে ডেটা সম্পর্কিত) প্রকাশ করা হয়, তবে এটি অন্যদের উদ্ভাবন করার, বিকল্প প্রশিক্ষণ পদ্ধতির সাথে পরীক্ষা করার বা মূল নির্মাতারা কল্পনা করতে পারে না এমন উপায়ে অভিনব বৈজ্ঞানিক অ্যাপ্লিকেশনগুলির জন্য মডেলগুলিকে অভিযোজিত করার ক্ষমতাকে বাধাগ্রস্ত করে। অগ্রগতি এই আধা-অস্বচ্ছ সিস্টেমগুলির সরবরাহকারীদের দ্বারা নিয়ন্ত্রিত হয়ে যায়।
বন্ধ বা আংশিকভাবে বন্ধ কর্পোরেট সিস্টেমগুলির উপর নির্ভরতা গবেষকদের সক্রিয় অংশগ্রহণকারী এবং উদ্ভাবকের পরিবর্তে একটি নিষ্ক্রিয় ভোক্তা ভূমিকায় বাধ্য করে। এটি এমন একটি ভবিষ্যত তৈরি করার ঝুঁকি তৈরি করে যেখানে গুরুত্বপূর্ণ বৈজ্ঞানিক পরিকাঠামো কয়েকটি বড় সত্তা দ্বারা নিয়ন্ত্রিত হয়, সম্ভাব্যভাবে উন্মুক্ত বৈজ্ঞানিক অনুসন্ধানের প্রয়োজনের চেয়ে বাণিজ্যিক স্বার্থকে অগ্রাধিকার দেয়। স্বচ্ছতার এই ক্ষয় সরাসরি আধুনিক গবেষণার ভিত্তি সরঞ্জামগুলির প্রতি বিশ্বাসের ক্ষয়তে রূপান্তরিত হয়।
বাজারের কেন্দ্রীকরণ এবং উদ্ভাবনের উপর শীতল প্রভাব
বৈজ্ঞানিক অনুশীলনের উপর তাৎক্ষণিক প্রভাবের বাইরে, AI-তে নকল ওপেন সোর্সের প্রচলন উল্লেখযোগ্য অর্থনৈতিক এবং বাজারের প্রভাব বহন করে। বৃহৎ ভিত্তি মডেলগুলির বিকাশের জন্য কেবল উল্লেখযোগ্য দক্ষতাই নয়, বিশাল ডেটাসেট এবং বিপুল কম্পিউটেশনাল শক্তিতে অ্যাক্সেসও প্রয়োজন – সম্পদ যা বৃহৎ প্রযুক্তি কর্পোরেশনগুলির হাতে অসামঞ্জস্যপূর্ণভাবে কেন্দ্রীভূত।
যখন এই কর্পোরেশনগুলি ‘ওপেন সোর্স’ ব্যানারের অধীনে মডেলগুলি প্রকাশ করে কিন্তু গুরুত্বপূর্ণ প্রশিক্ষণ ডেটার উপর নিয়ন্ত্রণ বজায় রাখে বা সীমাবদ্ধ লাইসেন্স আরোপ করে, তখন এটি একটি অসম ক্ষেত্র তৈরি করে।
- প্রবেশে বাধা: স্টার্টআপ এবং ছোট গবেষণা ল্যাবগুলির স্ক্র্যাচ থেকে তুলনামূলক ভিত্তি মডেল তৈরি করার জন্য সম্পদের অভাব রয়েছে। যদি ক্ষমতাসীনদের দ্বারা প্রকাশিত তথাকথিত ‘ওপেন’ মডেলগুলি শর্তাবলী সহ আসে (যেমন বাণিজ্যিক ব্যবহারের বিধিনিষেধ বা ডেটা অস্বচ্ছতা যা গভীর পরিবর্তন প্রতিরোধ করে), তবে এটি এই ছোট খেলোয়াড়দের কার্যকরভাবে প্রতিযোগিতা করার বা উপরে সত্যিকারের উদ্ভাবনী অ্যাপ্লিকেশন তৈরি করার ক্ষমতাকে সীমিত করে।
- ক্ষমতাসীনদের অবস্থান সুদৃঢ় করা: ‘ওপেনওয়াশিং’ একটি কৌশলগত পরিখা হিসাবে কাজ করতে পারে। উপযোগী কিন্তু সত্যিকারের উন্মুক্ত নয় এমন মডেলগুলি প্রকাশ করে, বড় কোম্পানিগুলি তাদের প্রযুক্তির উপর নির্ভরশীল ইকোসিস্টেম তৈরি করতে পারে এবং প্রতিযোগীদের তাদের মূল সম্পদগুলি (ডেটা এবং পরিমার্জিত প্রশিক্ষণ প্রক্রিয়া) সম্পূর্ণরূপে প্রতিলিপি করা বা উল্লেখযোগ্যভাবে উন্নত করা থেকে বিরত রাখতে পারে। এটি দেখতে উন্মুক্ততার মতো কিন্তু একটি নিয়ন্ত্রিত প্ল্যাটফর্ম কৌশলের কাছাকাছি কাজ করে।
- বিভিন্ন পদ্ধতির হ্রাস: যদি উদ্ভাবন কয়েকটি প্রভাবশালী, আধা-অস্বচ্ছ ভিত্তি মডেলের উপর অতিরিক্ত নির্ভরশীল হয়ে পড়ে, তবে এটি AI বিকাশের একজাতীয়করণের দিকে নিয়ে যেতে পারে, সম্ভাব্যভাবে বিকল্প আর্কিটেকচার, প্রশিক্ষণ প্যারাডাইম বা ডেটা কৌশলগুলিকে উপেক্ষা করে যা ছোট, স্বাধীন গোষ্ঠীগুলি অন্বেষণ করতে পারত যদি ক্ষেত্রটি সত্যিই উন্মুক্ত থাকত।
প্রকৃত ওপেন সোর্স ঐতিহাসিকভাবে প্রতিযোগিতা এবং বিতরণকৃত উদ্ভাবনের একটি শক্তিশালী ইঞ্জিন। AI-তে বর্তমান প্রবণতা ক্ষমতা কেন্দ্রীভূত করার এবং সেই গতিশীলতাকে দমন করার ঝুঁকি তৈরি করে যা উন্মুক্ত সহযোগিতার মাধ্যমে উৎসাহিত হওয়ার কথা, সম্ভাব্যভাবে একটি কম প্রাণবন্ত এবং আরও কেন্দ্রীয়ভাবে নিয়ন্ত্রিত AI ল্যান্ডস্কেপের দিকে নিয়ে যায়।
নিয়ন্ত্রক অন্ধ স্থান এবং নৈতিক টানাপোড়েন
‘ওপেনওয়াশিং’-এর নিয়ন্ত্রক ফাঁকফোকরগুলিকে কাজে লাগানোর সম্ভাবনা, বিশেষ করে EU AI Act-এর মতো কাঠামোর বিষয়ে, আরও নিবিড় পরীক্ষা প্রাপ্য। এই আইনটি AI সিস্টেমগুলির জন্য ঝুঁকি-ভিত্তিক প্রবিধান প্রতিষ্ঠা করার লক্ষ্য রাখে, উচ্চ-ঝুঁকিপূর্ণ অ্যাপ্লিকেশনগুলির উপর কঠোর প্রয়োজনীয়তা আরোপ করে। ওপেন-সোর্স AI-এর জন্য ছাড় বা হালকা বাধ্যবাধকতা উদ্ভাবনকে উৎসাহিত করতে এবং ওপেন-সোর্স সম্প্রদায়ের উপর অতিরিক্ত বোঝা এড়াতে উদ্দিষ্ট।
যাইহোক, যদি কোম্পানিগুলি প্রকৃত স্বচ্ছতার অভাবযুক্ত মডেলগুলির জন্য (বিশেষ করে ডেটা এবং প্রশিক্ষণ সম্পর্কিত) সফলভাবে ‘ওপেন সোর্স’ দাবি করতে পারে, তবে তারা গুরুত্বপূর্ণ সুরক্ষা ব্যবস্থাগুলি এড়িয়ে যেতে পারে। এটি গুরুত্বপূর্ণ প্রশ্ন উত্থাপন করে:
- অর্থপূর্ণ যাচাই: নিয়ন্ত্রকরা কি একটি শক্তিশালী AI মডেলের ঝুঁকিগুলি পর্যাপ্তভাবে মূল্যায়ন করতে পারে যদি এর প্রশিক্ষণ ডেটা – এর আচরণ এবং সম্ভাব্য পক্ষপাতের একটি মূল নির্ধারক – দৃষ্টির আড়ালে থাকে? ভুল লেবেলিং সম্ভাব্য উচ্চ-ঝুঁকিপূর্ণ সিস্টেমগুলিকে উদ্দিষ্টের চেয়ে কম তত্ত্বাবধানে কাজ করার অনুমতি দিতে পারে।
- জবাবদিহিতার ফাঁক: যখন কিছু ভুল হয় – যদি একটি মডেল ক্ষতিকারক পক্ষপাত প্রদর্শন করে বা বিপজ্জনক আউটপুট তৈরি করে – অন্তর্নিহিত ডেটা এবং প্রশিক্ষণ প্রক্রিয়া অস্বচ্ছ হলে কে জবাবদিহি করবে? প্রকৃত উন্মুক্ততা তদন্ত এবং জবাবদিহিতাকে সহজতর করে; ‘ওপেনওয়াশিং’ এটিকে অস্পষ্ট করে।
- নৈতিক শাসন: দায়িত্বের সাথে AI স্থাপন করার জন্য এর সীমাবদ্ধতা এবং সম্ভাব্য সামাজিক প্রভাবগুলি বোঝা প্রয়োজন। এই বোঝাপড়া মৌলিকভাবে আপোস করা হয় যখন প্রশিক্ষণ ডেটার মতো মূল উপাদানগুলি গোপন রাখা হয়। এটি স্বাধীন অডিট, পক্ষপাত মূল্যায়ন এবং নৈতিক পর্যালোচনাগুলিকে উল্লেখযোগ্যভাবে আরও চ্যালেঞ্জিং করে তোলে, যদি অসম্ভব না হয়।
নিয়ন্ত্রণ নেভিগেট করার জন্য ‘ওপেন সোর্স’ লেবেলের কৌশলগত ব্যবহার কেবল একটি আইনি কৌশল নয়; এর গভীর নৈতিক প্রভাব রয়েছে। এটি জনসাধারণের বিশ্বাসকে ক্ষুণ্ণ করার এবং AI উন্নয়ন একটি নিরাপদ, ন্যায্য এবং জবাবদিহিযোগ্য পদ্ধতিতে এগিয়ে যাওয়ার প্রচেষ্টা বাধাগ্রস্ত করার ঝুঁকি তৈরি করে। ‘ওপেন সোর্স AI’-এর নিয়ন্ত্রক সংজ্ঞাগুলি প্রকৃত স্বচ্ছতার নীতিগুলির সাথে সামঞ্জস্যপূর্ণ তা নিশ্চিত করা তাই সর্বাগ্রে গুরুত্বপূর্ণ।
সত্যিকারের AI উন্মুক্ততার দিকে একটি পথ নির্ধারণ
সৌভাগ্যবশত, বিপদের ঘণ্টা বাজছে, এবং AI-এর যুগে ‘ওপেন সোর্স’-এর অর্থ পুনরুদ্ধার করার প্রচেষ্টা চলছে। Open Source Initiative (OSI), ওপেন-সোর্স সংজ্ঞাগুলির একটি দীর্ঘস্থায়ী তত্ত্বাবধায়ক, Open Source AI-এর জন্য স্পষ্ট মান প্রতিষ্ঠার জন্য একটি বিশ্বব্যাপী পরামর্শ প্রক্রিয়া শুরু করেছে (যার ফলে OSAID 1.0 সংজ্ঞা তৈরি হয়েছে)।
এই প্রচেষ্টার একটি মূল উদ্ভাবন হল ‘ডেটা ইনফরমেশন’ ধারণা। স্বীকার করে যে বিশাল কাঁচা ডেটাসেট প্রকাশ করা কিছু ক্ষেত্রে আইনত বা লজিস্টিক্যালি অসম্ভব হতে পারে (গোপনীয়তা, কপিরাইট বা নিছক স্কেলের কারণে), OSAID কাঠামো ডেটা সম্পর্কে ব্যাপক প্রকাশের প্রয়োজনীয়তার উপর জোর দেয়। এর মধ্যে রয়েছে বিস্তারিত তথ্য:
- উৎস: ডেটা কোথা থেকে এসেছে?
- বৈশিষ্ট্য: এটি কী ধরণের ডেটা (টেক্সট, ছবি, কোড)? এর পরিসংখ্যানগত বৈশিষ্ট্যগুলি কী কী?
- প্রস্তুতি: ডেটা কীভাবে সংগ্রহ, ফিল্টার, পরিষ্কার এবং প্রি-প্রসেস করা হয়েছিল? পক্ষপাত কমাতে কী পদক্ষেপ নেওয়া হয়েছিল?
এই স্তরের স্বচ্ছতা, এমনকি কাঁচা ডেটা ছাড়াই, গবেষকদের একটি মডেলের সম্ভাব্য ক্ষমতা, সীমাবদ্ধতা এবং সম্ভাব্য পক্ষপাতগুলি বোঝার জন্য গুরুত্বপূর্ণ প্রসঙ্গ সরবরাহ করে। এটি একটি বাস্তবসম্মত আপস প্রতিনিধিত্ব করে, বিদ্যমান সীমাবদ্ধতার মধ্যে সর্বাধিক স্বচ্ছতার জন্য চাপ দেয়। OSI-এর পাশাপাশি, Open Future-এর মতো সংস্থাগুলি একটি ‘ডেটা-কমন্স’ মডেলের দিকে একটি বৃহত্তর পরিবর্তনের জন্য সওয়াল করছে, AI প্রশিক্ষণের জন্য ভাগ করা, নৈতিকভাবে উৎসপ্রাপ্ত এবং খোলাখুলিভাবে অ্যাক্সেসযোগ্য ডেটাসেট তৈরি করার উপায়গুলি অন্বেষণ করছে, যা প্রবেশের বাধা আরও কমিয়ে আনবে এবং সহযোগিতামূলক উন্নয়নকে উৎসাহিত করবে। এই ধরনের স্পষ্ট, সম্প্রদায়-পরীক্ষিত মান প্রতিষ্ঠা এবং মেনে চলা ‘ওপেনওয়াশিং’-এর কুয়াশা দূর করার অপরিহার্য প্রথম পদক্ষেপ।
গবেষণা সম্প্রদায়ের জন্য অপরিহার্যতা
বিজ্ঞানী এবং গবেষকরা কেবল AI সরঞ্জামগুলির ভোক্তা নন; তারা এই সরঞ্জামগুলি বৈজ্ঞানিক মানগুলির সাথে সামঞ্জস্যপূর্ণ তা নিশ্চিত করার ক্ষেত্রে গুরুত্বপূর্ণ অংশীদার। OSAID 1.0-এর মতো বিকশিত সংজ্ঞা এবং মানগুলির সাথে সক্রিয়ভাবে জড়িত হওয়া অত্যাবশ্যক। তবে পদক্ষেপ কেবল সচেতনতার বাইরে যেতে হবে:
- স্বচ্ছতার দাবি: প্রকাশনা, অনুদান প্রস্তাব এবং সরঞ্জাম নির্বাচনে, গবেষকদের তাদের ব্যবহৃত AI মডেলগুলি সম্পর্কিত বৃহত্তর স্বচ্ছতার উপর অগ্রাধিকার দেওয়া এবং দাবি করা উচিত। এর মধ্যে মডেল প্রকাশের সাথে বিস্তারিত ‘ডেটা ইনফরমেশন’ কার্ড বা ডেটাশিটগুলির জন্য চাপ দেওয়া অন্তর্ভুক্ত।
- প্রকৃত উন্মুক্ততাকে সমর্থন: OLMo বা অন্যান্য উদ্যোগের মতো প্রকল্পগুলিতে সক্রিয়ভাবে অবদান রাখুন, ব্যবহার করুন এবং উদ্ধৃত করুন যা কোড, ডেটা এবং পদ্ধতি প্রকাশের প্রতি প্রকৃত প্রতিশ্রুতি প্রদর্শন করে। ডাউনলোড এবং উদ্ধৃতি দিয়ে ভোট দেওয়া একটি শক্তিশালী বাজার সংকেত পাঠায়।
- মূল্যায়ন মান উন্নয়ন: সম্প্রদায়ের একটি AI মডেলের উন্মুক্ততার মাত্রা মূল্যায়নের জন্য শক্তিশালী পদ্ধতি এবং চেকলিস্ট প্রয়োজন, সরল লেবেলের বাইরে গিয়ে। পিয়ার রিভিউ প্রক্রিয়াগুলিতে গবেষণায় ব্যবহৃত AI সরঞ্জামগুলির সাথে যুক্ত স্বচ্ছতার দাবিগুলির যাচাই অন্তর্ভুক্ত করা উচিত।
- প্রতিষ্ঠানগুলির মধ্যে সওয়াল: বিশ্ববিদ্যালয়, গবেষণা প্রতিষ্ঠান এবং পেশাদার সমিতিগুলিকে এমন নীতি গ্রহণ করতে উৎসাহিত করুন যা প্রকৃত উন্মুক্ত এবং স্বচ্ছ AI সরঞ্জাম এবং প্ল্যাটফর্মগুলির ব্যবহারকে সমর্থন করে বা প্রয়োজন করে।
বৈজ্ঞানিক সম্প্রদায়ের যথেষ্ট প্রভাব রয়েছে। সম্মিলিতভাবে পুনরুৎপাদনযোগ্যতা, স্বচ্ছতা এবং সহযোগিতামূলক অ্যাক্সেস বজায় রাখে এমন মানগুলির উপর জোর দিয়ে, গবেষকরা বিভ্রান্তিকর দাবির বিরুদ্ধে রুখে দাঁড়াতে এবং কঠোর বৈজ্ঞানিক আবিষ্কারের জন্য সহায়ক একটি AI ইকোসিস্টেম গঠনে সহায়তা করতে পারে।
নীতি, অর্থায়ন এবং সামনের পথ
সরকার এবং পাবলিক ফান্ডিং এজেন্সিগুলিও AI ল্যান্ডস্কেপ গঠনে উল্লেখযোগ্য ক্ষমতা রাখে। তাদের নীতিগুলি হয় পরোক্ষভাবে ‘ওপেনওয়াশিং’কে সমর্থন করতে পারে অথবা সক্রিয়ভাবে প্রকৃত উন্মুক্ততাকে উৎসাহিত করতে পারে।
- উন্মুক্ততার জন্য ম্যান্ডেট: মার্কিন যুক্তরাষ্ট্রের National Institutes of Health (NIH)-এর মতো প্রতিষ্ঠানগুলির ইতিমধ্যে ম্যান্ডেট রয়েছে যা তাদের অর্থায়িত গবেষণার জন্য ওপেন লাইসেন্সিং এবং ডেটা শেয়ারিংয়ের প্রয়োজন। পাবলিক অর্থায়নে বিকশিত AI মডেল এবং ডেটাসেটগুলিতে অনুরূপ নীতিগুলি প্রসারিত করা একটি যৌক্তিক এবং প্রয়োজনীয় পদক্ষেপ। যদি পাবলিক ফান্ড AI উন্নয়নকে সমর্থন করে, তবে ফলাফলগুলি সর্বাধিক সম্ভাব্য পরিমাণে সর্বজনীনভাবে অ্যাক্সেসযোগ্য এবং যাচাইযোগ্য হওয়া উচিত।
- প্রকিউরমেন্ট পাওয়ার: সরকারী সংস্থাগুলি প্রযুক্তির প্রধান ভোক্তা। পাবলিক প্রকিউরমেন্ট চুক্তিতে প্রকৃত ওপেন-সোর্স AI-এর (OSAID-এর মতো মান মেনে) প্রয়োজনীয়তা নির্দিষ্ট করে, সরকারগুলি কোম্পানিগুলিকে আরও স্বচ্ছ অনুশীলন গ্রহণ করার জন্য একটি উল্লেখযোগ্য বাজার প্রণোদনা তৈরি করতে পারে। পাবলিক প্রশাসনে ওপেন-সোর্স সফ্টওয়্যারের জন্য ইতালির প্রয়োজনীয়তা একটি সম্ভাব্য টেমপ্লেট সরবরাহ করে।
- উন্মুক্ত পরিকাঠামোতে বিনিয়োগ: নিয়ন্ত্রণের বাইরে, ‘ডেটা কমন্স’ উদ্যোগে পাবলিক বিনিয়োগ, গবেষকদের জন্য উন্মুক্ত কম্পিউটেশনাল সংস্থান এবং সত্যিকারের উন্মুক্ত AI মডেলগুলি হোস্ট এবং মূল্যায়ন করার জন্য নিবেদিত প্ল্যাটফর্মগুলি রূপান্তরকারী হতে পারে। এটি খেলার ক্ষেত্রকে সমতল করতে এবং মালিকানাধীন বা আধা-উন্মুক্ত সিস্টেমগুলির জন্য কার্যকর বিকল্প সরবরাহ করতে সহায়তা করতে পারে।
- বিশ্বব্যাপী সহযোগিতা: AI বিকাশের বিশ্বব্যাপী প্রকৃতির পরিপ্রেক্ষিতে, ওপেন-সোর্স AI মান নির্ধারণ এবং প্রচারের বিষয়ে আন্তর্জাতিক সহযোগিতা নিয়ন্ত্রক বিভাজন এড়াতে এবং বিশ্বব্যাপী স্বচ্ছতা ও জবাবদিহিতার একটি সামঞ্জস্যপূর্ণ ভিত্তি নিশ্চিত করার জন্য অপরিহার্য।
নীতির লিভারগুলি, যখন চিন্তাভাবনা করে প্রয়োগ করা হয়, তখন প্রতারণামূলক লেবেলিং থেকে দূরে প্রণোদনাগুলিকে উল্লেখযোগ্যভাবে পরিবর্তন করতে পারে যা প্রকৃতভাবে বৈজ্ঞানিক সততা এবং ব্যাপক উদ্ভাবনকে সমর্থন করে। AI-তে ‘ওপেন সোর্স’ বিভ্রমের বিরুদ্ধে লড়াইয়ের জন্য একটি সমন্বিত প্রচেষ্টা প্রয়োজন। গবেষকদের অবশ্যই সতর্ক সমালোচক হতে হবে, বৈজ্ঞানিক কঠোরতার জন্য প্রয়োজনীয় স্বচ্ছতার দাবি করতে হবে। OSI-এর মতো মান-নির্ধারণকারী সংস্থাগুলিকে অবশ্যই সংজ্ঞা পরিমার্জন করতে হবে যা AI-এর অনন্য প্রকৃতিকে প্রতিফলিত করে। এবং নীতিনির্ধারকদের অবশ্যই তাদের প্রভাব ব্যবহার করে যাচাইযোগ্য, বিশ্বস্ত এবং অ্যাক্সেসযোগ্য কৃত্রিম বুদ্ধিমত্তার জনস্বার্থের সাথে সামঞ্জস্যপূর্ণ অনুশীলনগুলিকে উৎসাহিত এবং বাধ্যতামূলক করতে হবে। বিজ্ঞানে AI-এর ভবিষ্যতের গতিপথ—এটি আবিষ্কারের জন্য সত্যিকারের উন্মুক্ত সীমান্ত হয়ে উঠবে নাকি অস্বচ্ছ কর্পোরেট সিস্টেম দ্বারা প্রভাবিত একটি ল্যান্ডস্কেপ—তা ভারসাম্যের উপর ঝুলে আছে।