ডিপসিকের এআই ট্রেনিং: গুগল জেমিনির অবদান? | bn

সাম্প্রতিককালে চিনা এআই ল্যাবরেটরি DeepSeek-এর বিরুদ্ধে Google-এর Gemini AI মডেলের ডেটা ব্যবহার করে তাদের নতুন R1 রিজনিং এআই মডেলকে প্রশিক্ষণ দেওয়ার অভিযোগ উঠেছে। এই মডেলটি গণিত এবং কোডিংয়ের ক্ষেত্রে শক্তিশালী কর্মক্ষমতা দেখিয়েছে। DeepSeek R1-কে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত ডেটা উৎস সম্পর্কে নীরব থাকলেও, বেশ কয়েকজন এআই গবেষক মনে করছেন যে Gemini, অথবা Gemini-এর কিছু অংশ এতে ভূমিকা রেখেছে।

প্রমাণ এবং অভিযোগ

মেলবোর্ন-ভিত্তিক ডেভেলপার স্যাম পেচ, যিনি এআই-এর জন্য "ইমোশনাল ইন্টেলিজেন্স" মূল্যায়ন তৈরি করতে বিশেষজ্ঞ, তিনি এমন কিছু প্রমাণ উপস্থাপন করেছেন যা তার মতে DeepSeek মডেলটিকে Gemini দ্বারা তৈরি আউটপুট ব্যবহার করে প্রশিক্ষণ দেওয়া হয়েছিল। পেচ X (পূর্বে Twitter)-এ একটি পোস্টে উল্লেখ করেছেন যে DeepSeek-এর মডেল, বিশেষ করে R1-0528 সংস্করণ, Google-এর Gemini 2.5 Pro-এর মতো ভাষা এবং অভিব্যক্তি ব্যবহার করতে পছন্দ করে।

এছাড়াও, স্পিচম্যাপের (SpeechMap) স্রষ্টা, এআই-এর জন্য একটি "ফ্রি স্পিচ ইভাল" ছদ্মনামে পরিচিত আরেকজন ডেভেলপার লক্ষ্য করেছেন যে DeepSeek মডেলটি সিদ্ধান্তে পৌঁছানোর জন্য যে "চিন্তা" তৈরি করে, তা Gemini ট্রেসের সাথে ঘনিষ্ঠভাবে সাদৃশ্যপূর্ণ। এই পর্যবেক্ষণ অভিযোগগুলোকে আরও একধাপ এগিয়ে নিয়ে যায়।

এই প্রথম নয় যে DeepSeek প্রতিদ্বন্দ্বী এআই মডেল থেকে ডেটা ব্যবহার করার অভিযোগে অভিযুক্ত হয়েছে। গত ডিসেম্বরে, ডেভেলপাররা লক্ষ্য করেছিলেন যে DeepSeek-এর V3 মডেল প্রায়শই নিজেকে OpenAI-এর জনপ্রিয় চ্যাটবট প্ল্যাটফর্ম ChatGPT হিসাবে চিহ্নিত করত। এতে বোঝা যায় যে মডেলটিকে ChatGPT চ্যাট লগগুলির উপর প্রশিক্ষণ দেওয়া হয়েছে, যা ডেটা ব্যবহারের অনুশীলন সম্পর্কে উদ্বেগ সৃষ্টি করেছে।

আরও গভীর অভিযোগ: ডিস্টিলেশন এবং ডেটা সরানো

এই বছরের শুরুতে, OpenAI ফিনান্সিয়াল টাইমসকে জানিয়েছিল যে তারা DeepSeek-কে ডিস্টিলেশন (Distillation) নামক একটি কৌশল ব্যবহারের সাথে যুক্ত প্রমাণ খুঁজে পেয়েছে। ডিস্টিলেশনে বৃহত্তর, আরও অত্যাধুনিক মডেল থেকে ডেটা নিষ্কাশন করে এআই মডেলকে প্রশিক্ষণ দেওয়া হয়। ব্লুমবার্গ রিপোর্ট করেছে যে মাইক্রোসফট, OpenAI-এর একজন প্রধান সহযোগী এবং বিনিয়োগকারী, 2024 সালের শেষের দিকে OpenAI ডেভেলপার অ্যাকাউন্টগুলির মাধ্যমে উল্লেখযোগ্য পরিমাণে ডেটা সরানো সনাক্ত করেছে। OpenAI মনে করে এই অ্যাকাউন্টগুলি DeepSeek-এর সাথে যুক্ত।

ডিস্টিলেশন সহজাতভাবে অনৈতিক না হলেও, যখন এটি পরিষেবার শর্তাবলী লঙ্ঘন করে তখন সমস্যা তৈরি করে। OpenAI-এর শর্তাবলীতে স্পষ্টভাবে উল্লেখ করা হয়েছে যে গ্রাহকরা প্রতিদ্বন্দ্বী এআই সিস্টেম তৈরি করতে কোম্পানির মডেল আউটপুট ব্যবহার করতে পারবেন না। এটি DeepSeek-এর এই শর্তাবলী মেনে চলা নিয়ে গুরুতর প্রশ্ন তোলে।

এআই প্রশিক্ষণ ডেটার ঘোলাটে জল

এটা স্বীকার করা গুরুত্বপূর্ণ যে এআই মডেলগুলি প্রায়শই নিজেদের ভুলভাবে শনাক্ত করে এবং একই রকম শব্দ এবং বাক্যাংশ ব্যবহার করে। এর কারণ হল মুক্ত ওয়েব, যা অনেক এআই কোম্পানির জন্য প্রশিক্ষণ ডেটার প্রাথমিক উৎস হিসাবে কাজ করে। ওয়েব ক্রমবর্ধমান এআই-উত্পাদিত সামগ্রী দিয়ে পরিপূর্ণ। কনটেন্ট ফার্মগুলি ক্লিকবেইট তৈরি করতে এআই ব্যবহার করছে এবং বটগুলি Reddit এবং X-এর মতো প্ল্যাটফর্মগুলিতে এআই-উত্পাদিত পোস্ট দিয়ে ভরিয়ে দিচ্ছে।

এই "দূষণ" প্রশিক্ষণ ডেটাসেট থেকে এআই আউটপুটগুলিকে কার্যকরভাবে ফিল্টার করা অবিশ্বাস্যভাবে কঠিন করে তোলে, যা DeepSeek ইচ্ছাকৃতভাবে Gemini ডেটা ব্যবহার করেছে কিনা সেই প্রশ্নের উত্তর দেওয়া আরও কঠিন করে তোলে।

বিশেষজ্ঞের মতামত এবং দৃষ্টিভঙ্গি

দাবিগুলো নিশ্চিতভাবে প্রমাণ করার চ্যালেঞ্জ সত্ত্বেও, কিছু এআই বিশেষজ্ঞ মনে করেন যে DeepSeek Google-এর Gemini থেকে ডেটা ব্যবহার করে প্রশিক্ষণ নিয়েছে, এটি বিশ্বাসযোগ্য। অলাভজনক এআই গবেষণা ইনস্টিটিউট AI2-এর গবেষক নাথান ল্যাম্বার্ট X-এ বলেছেন, “যদি আমি DeepSeek হতাম, তবে আমি অবশ্যই সেরা API মডেল থেকে প্রচুর সিন্থেটিক ডেটা তৈরি করতাম। DeepSeek-এর GPU-এর অভাব রয়েছে এবং অর্থের প্রাচুর্য আছে। এটি আক্ষরিক অর্থে তাদের জন্য আরও বেশি কম্পিউটিং শক্তি।”

ল্যাম্বার্টের দৃষ্টিভঙ্গি DeepSeek-এর বিদ্যমান এআই মডেলগুলি ব্যবহার করে তাদের নিজস্ব সক্ষমতা বাড়ানোর অর্থনৈতিক প্রণোদনাগুলোকে তুলে ধরে, বিশেষ করে তাদের সম্পদের সীমাবদ্ধতার কারণে।

নিরাপত্তা ব্যবস্থা এবং পাল্টা ব্যবস্থা

এআই সংস্থাগুলি ডিস্টিলেশনের মতো অনুশীলন প্রতিরোধ করতে আংশিকভাবে নিরাপত্তা ব্যবস্থা জোরদার করেছে। OpenAI, এপ্রিল মাসে, কিছু উন্নত মডেল অ্যাক্সেস করার জন্য সংস্থাগুলোকে একটি আইডি যাচাইকরণ প্রক্রিয়া সম্পন্ন করতে বলা শুরু করেছে। এই প্রক্রিয়ার মধ্যে OpenAI-এর API দ্বারা সমর্থিত একটি দেশ থেকে সরকারের ইস্যু করা আইডি জমা দিতে হয়। উল্লেখযোগ্যভাবে, চীন এই তালিকায় নেই।

আরেকটি পদক্ষেপে, Google সম্প্রতি তার এআই স্টুডিও ডেভেলপার প্ল্যাটফর্মের মাধ্যমে উপলব্ধ মডেলগুলির দ্বারা তৈরি করা ট্রেসগুলিকে "সংক্ষিপ্ত" করা শুরু করেছে। এই পদক্ষেপ Gemini ট্রেসগুলিতে প্রতিদ্বন্দ্বী মডেলগুলিকে প্রশিক্ষণ দেওয়া কঠিন করে তোলে। একইভাবে, Anthropic মে মাসে ঘোষণা করেছে যে তারা তাদের নিজস্ব মডেলের ট্রেসগুলিকে সংক্ষিপ্ত করা শুরু করবে, এই যুক্তিতে যে এটি তাদের "প্রতিযোগিতামূলক সুবিধা" রক্ষা করার প্রয়োজনীয়তা। এই ব্যবস্থাগুলি এআই মডেল আউটপুটগুলির সম্ভাব্য অপব্যবহার সম্পর্কে ক্রমবর্ধমান সচেতনতা এবং এই ধরনের ঝুঁকি হ্রাস করার জন্য একটি সক্রিয় প্রচেষ্টার ইঙ্গিত দেয়।

প্রভাব এবং পরিণতি

DeepSeek-এর বিরুদ্ধে অভিযোগগুলি এআই প্রশিক্ষণের নৈতিকতা এবং বৈধতা সম্পর্কে গুরুত্বপূর্ণ প্রশ্ন তৈরি করেছে। DeepSeek যদি সত্যিই তার R1 মডেলটিকে প্রশিক্ষণ দেওয়ার জন্য Gemini ডেটা ব্যবহার করে থাকে, তবে এটি আইনি প্রতিক্রিয়ার সম্মুখীন হতে পারে এবং খ্যাতি ক্ষতিগ্রস্ত হতে পারে। এই পরিস্থিতি এআই শিল্পে আরও বেশি স্বচ্ছতা এবং নিয়ন্ত্রণের প্রয়োজনীয়তার উপর জোর দেয়, বিশেষ করে ডেটা সোর্সিং এবং ব্যবহারের ক্ষেত্রে।

DeepSeek-এর বিরুদ্ধে অভিযোগ একটি গুরুত্বপূর্ণ দ্বিধা তুলে ধরে: বুদ্ধিবৃত্তিক সম্পত্তি রক্ষা এবং ন্যায্য প্রতিযোগিতা নিশ্চিত করার প্রয়োজনীয়তার সাথে এআই-এর উদ্ভাবন এবং অগ্রগতির আকাঙ্ক্ষাকে কীভাবে ভারসাম্য বজায় রাখা যায়। এআই শিল্প দ্রুত বিকশিত হচ্ছে এবং জটিল আইনি ও নৈতিক পরিস্থিতি মোকাবেলা করার জন্য স্পষ্ট নির্দেশিকা এবং নৈতিক কাঠামো অপরিহার্য। আস্থা বজায় রাখতে এবং সম্ভাব্য আইনি দায়বদ্ধতা এড়াতে সংস্থাগুলিকে তাদের ডেটা উৎস সম্পর্কে স্বচ্ছ হতে হবে এবং পরিষেবার শর্তাবলী চুক্তি মেনে চলতে হবে।

তাছাড়া, এআই-উত্পাদিত সামগ্রী প্রশিক্ষণ ডেটাসেটগুলিকে দূষিত করার বিষয়টি সমগ্র এআই সম্প্রদায়ের জন্য একটি বড় চ্যালেঞ্জ তৈরি করেছে। এআই মডেলগুলি যখন বিশ্বাসযোগ্য পাঠ্য, চিত্র এবং অন্যান্য ধরণের সামগ্রী তৈরি করতে আরও দক্ষ হয়ে উঠছে, তখন মানুষ-উত্পাদিত এবং এআই-উত্পাদিত ডেটার মধ্যে পার্থক্য করা ক্রমশ কঠিন হয়ে উঠছে। এই "দূষণ" এআই মডেলগুলির একটি সমরূপতা ঘটাতে পারে, যেখানে তারা সকলেই একই রকম পক্ষপাতিত্ব এবং সীমাবদ্ধতা প্রদর্শন করতে শুরু করে।

এই চ্যালেঞ্জ মোকাবেলা করার জন্য, এআই সংস্থাগুলিকে আরও অত্যাধুনিক ডেটা ফিল্টারিং কৌশলগুলিতে বিনিয়োগ করতে হবে এবং বিকল্প প্রশিক্ষণ ডেটা উৎসগুলি সন্ধান করতে হবে। তাদের প্রশিক্ষণ ডেটাসেটগুলির গঠন এবং এআই-উত্পাদিত সামগ্রী ফিল্টার করার জন্য ব্যবহৃত পদ্ধতি সম্পর্কে আরও স্বচ্ছ হতে হবে।

এআই প্রশিক্ষণের ভবিষ্যতের পথ

DeepSeek বিতর্ক এআই প্রশিক্ষণের ভবিষ্যতের বিষয়ে আরও বিশদ আলোচনার প্রয়োজনীয়তার উপর জোর দেয়। এআই মডেলগুলি যখন আরও শক্তিশালী হয়ে উঠছে এবং ডেটা আরও দুষ্প্রাপ্য হয়ে উঠছে, তখন সংস্থাগুলি হয়তো ভুল পথে চালিত হয়ে অনৈতিক বা অবৈধ কাজে লিপ্ত হতে পারে। তবে, এই ধরনের অনুশীলনগুলি শেষ পর্যন্ত এআই শিল্পের দীর্ঘমেয়াদী স্থিতিশীলতা এবং বিশ্বাসযোগ্যতাকে দুর্বল করে।

গবেষক, নীতিনির্ধারক এবং শিল্প নেতাদের সমন্বিত একটি সহযোগী প্রচেষ্টা প্রয়োজন যা দায়িত্বশীল এআই বিকাশের প্রচারের জন্য নৈতিক নির্দেশিকা এবং আইনি কাঠামো তৈরি করবে। এই নির্দেশিকাগুলিতে ডেটা সোর্সিং, স্বচ্ছতা এবং জবাবদিহিতার মতো বিষয়গুলি অন্তর্ভুক্ত করা উচিত। এছাড়াও, তাদের উচিত সংস্থাগুলিকে নৈতিক এবং টেকসই এআই প্রশিক্ষণ পদ্ধতিতে বিনিয়োগ করতে উৎসাহিত করা।

এআই প্রশিক্ষণের ভবিষ্যতের জন্য মূল বিবেচ্য বিষয়:

স্বচ্ছতা: সংস্থাগুলিকে তাদের এআই মডেলগুলিকে প্রশিক্ষণ দেওয়ার জন্য ব্যবহৃত ডেটা উৎস এবং এআই-উত্পাদিত সামগ্রী ফিল্টার করার জন্য ব্যবহৃত পদ্ধতি সম্পর্কে স্বচ্ছ হতে হবে।
নৈতিকতা: এআই বিকাশকে নৈতিক নীতিগুলির সাথে সঙ্গতি রেখে পরিচালনা করতে হবে যা ন্যায্যতা, জবাবদিহিতা এবং বুদ্ধিবৃত্তিক সম্পত্তির প্রতি সম্মান প্রদর্শন করে।
নিয়ন্ত্রণ: নীতিনির্ধারকদের উচিত স্পষ্ট আইনি কাঠামো তৈরি করা যা এআই প্রশিক্ষণ দ্বারা সৃষ্ট অনন্য চ্যালেঞ্জগুলোকে মোকাবেলা করবে।
সহযোগিতা: গবেষক, নীতিনির্ধারক এবং শিল্প নেতাদের উচিত এআই বিকাশের জন্য নৈতিক নির্দেশিকা এবং সর্বোত্তম অনুশীলন তৈরি করতে সহযোগিতা করা।
ডেটা বৈচিত্র্য: পক্ষপাতিত্ব কমাতে এবং এআই মডেলগুলির সামগ্রিক কর্মক্ষমতা উন্নত করতে এআই প্রশিক্ষণে ডেটা বৈচিত্র্যকে অগ্রাধিকার দেওয়া উচিত।
টেকসইতা: এআই প্রশিক্ষণ টেকসই পদ্ধতিতে পরিচালনা করা উচিত, এর পরিবেশগত প্রভাব হ্রাস করে।
নিরাপত্তা: নিরাপত্তা ব্যবস্থাগুলি অননুমোদিত অ্যাক্সেস এবং ব্যবহার থেকে এআই মডেল এবং প্রশিক্ষণ ডেটা রক্ষা করবে।

এই মূল বিবেচ্য বিষয়গুলি মোকাবেলা করে, এআই শিল্প নিশ্চিত করতে পারে যে এআই বিকাশ একটি দায়িত্বশীল এবং নৈতিক পদ্ধতিতে পরিচালিত হচ্ছে, সম্ভাব্য ঝুঁকি হ্রাস করার সাথে সাথে উদ্ভাবনকে উত্সাহিত করা হচ্ছে।

ভবিষ্যতের পথ

DeepSeek-এর বিরুদ্ধে উত্থাপিত অভিযোগগুলি এআই সম্প্রদায়ের জন্য একটি সতর্কবার্তা। এগুলি এআই বিকাশে বৃহত্তর স্বচ্ছতা, নৈতিক আচরণ এবং শক্তিশালী সুরক্ষার প্রয়োজনীয়তার উপর জোর দেয়। এআই আমাদের জীবনের বিভিন্ন ক্ষেত্রে প্রবেশ করতে শুরু করায়, এর দায়িত্বশীল এবং উপকারী ব্যবহার নিশ্চিত করার জন্য আমাদের সুস্পষ্ট সীমানা এবং নৈতিক নির্দেশিকা স্থাপন করা অপরিহার্য।

DeepSeek কেসের চূড়ান্ত ফলাফল যাই হোক না কেন, এটি নিঃসন্দেহে এআই নৈতিকতা সম্পর্কিত চলমান আলোচনাকে রূপ দেবে এবং এআই বিকাশের ভবিষ্যত গতিপথকে প্রভাবিত করবে। এটি একটি অনুস্মারক হিসাবে কাজ করে যে উদ্ভাবনের সাধনাকে নৈতিক নীতিগুলির প্রতি প্রতিশ্রুতি এবং আমাদের কর্মের সম্ভাব্য পরিণতিগুলির স্বীকৃতির সাথে সংযত করতে হবে। এআই-এর ভবিষ্যৎ আমাদের প্রজ্ঞা এবং দূরদর্শিতার সাথে এই জটিল চ্যালেঞ্জগুলো মোকাবেলা করার ক্ষমতার উপর নির্ভর করে।

হালনাগাদ করা হয়েছে ২০২৫-০৬-০৪

# Gemini # AIGC # DeepSeek