এআই (AI) জগত DeepSeek-এর R1 মডেল নিয়ে সরগরম। গুগলের জেমিনি (Gemini) এআইয়ের সম্ভাব্য ভূমিকা নিয়ে জল্পনা চলছে।
DeepSeek-এর R1 মডেল: একটি বিশদ আলোচনা
DeepSeek-এর R1 মডেলটি গাণিতিক সমস্যা সমাধান এবং কোডিংয়ের মতো ক্ষেত্রগুলিতে তার কর্মক্ষমতার জন্য মনোযোগ আকর্ষণ করেছে। মডেলের প্রশিক্ষণে ব্যবহৃত নির্দিষ্ট ডেটা উৎস প্রকাশে কোম্পানির অনিচ্ছা এআই গবেষণা সম্প্রদায়ের মধ্যে জল্পনা উস্কে দিয়েছে।
জেমিনির প্রভাবের অভিযোগ
বিতর্কের কেন্দ্রবিন্দুতে রয়েছে গুগল জেমিনির আউটপুট ব্যবহার করে DeepSeek তার নিজস্ব মডেলকে উন্নত করেছে কিনা সেই সম্ভাবনা। “ইমোশনাল ইন্টেলিজেন্স” মূল্যায়নে বিশেষজ্ঞ এআই ডেভেলপার স্যাম পেখ প্রমাণ দিয়েছেন যে DeepSeek-এর R1-0528 মডেলটি গুগল জেমিনি 2.5 প্রো দ্বারা পছন্দের ভাষা এবং অভিব্যক্তির প্রতি পছন্দ প্রদর্শন করে। যদিও এই পর্যবেক্ষণটি একা চূড়ান্ত প্রমাণ গঠন করে না, তবে এটি চলমান আলোচনায় অবদান রেখেছে।
আলোচনার আরেকটি বিষয় হল, “স্পীচম্যাপ”-এর বেনামী স্রষ্টা, যা বাকস্বাধীনতার উপর দৃষ্টি নিবদ্ধ করা একটি এআই মূল্যায়ন সরঞ্জাম, তিনি উল্লেখ করেছেন যে DeepSeek মডেল দ্বারা উত্পন্ন “চিন্তা” - সিদ্ধান্তের উপর পৌঁছানোর জন্য ব্যবহৃত অভ্যন্তরীণ যুক্তি প্রক্রিয়া - জেমিনির ট্রেস প্যাটার্নের সাথে সাদৃশ্যপূর্ণ। এটি আরও তীব্র করে তোলে যে DeepSeek গুগল (Google)-এর জেমিনি পরিবার থেকে ডেটা ব্যবহার করেছে কিনা।
পূর্বের অভিযোগ এবং OpenAI-এর উদ্বেগ
এই প্রথম নয় যে DeepSeek প্রতিদ্বন্দ্বী এআই মডেল থেকে ডেটা ব্যবহারের অভিযোগের মুখোমুখি হয়েছে। ডিসেম্বরে, দেখা গিয়েছিল যে DeepSeek-এর V3 মডেল প্রায়শই নিজেকে OpenAI-এর বহুল ব্যবহৃত এআই চ্যাটবট ChatGPT হিসাবে চিহ্নিত করত। এর ফলে সন্দেহ সৃষ্টি হয় যে মডেলটিকে ChatGPT চ্যাট লগগুলিতে প্রশিক্ষণ দেওয়া হতে পারে।
আরও জানা যায়, OpenAI এই বছরের শুরুর দিকে DeepSeek-এর সঙ্গে ডিস্টিলেশন (distillation) ব্যবহারের যোগসূত্র খুঁজে পেয়েছে, যেখানে বৃহত্তর, আরও শক্তিশালী এআই মডেল থেকে ডেটা নিষ্কাশন করে ছোট মডেলগুলিকে প্রশিক্ষণ দেওয়া হয়। প্রতিবেদন অনুসারে, মাইক্রোসফ্ট (Microsoft), OpenAI-এর একজন গুরুত্বপূর্ণ সহযোগী এবং বিনিয়োগকারী, 2024 সালের শেষের দিকে OpenAI ডেভেলপার অ্যাকাউন্টগুলির মাধ্যমে উল্লেখযোগ্য পরিমাণে ডেটা সরিয়ে নেওয়ার বিষয়টি সনাক্ত করেছিল। OpenAI বিশ্বাস করে যে এই অ্যাকাউন্টগুলি DeepSeek-এর সাথে যুক্ত।
যদিও ডিস্টিলেশন এআই জগতে একটি সাধারণ অনুশীলন, OpenAI-এর পরিষেবার শর্তাবলী স্পষ্টভাবে ব্যবহারকারীদের প্রতিদ্বন্দ্বী এআই সিস্টেম তৈরি করতে কোম্পানির মডেল আউটপুট ব্যবহার করতে নিষেধ করে। এটি OpenAI-এর নীতি লঙ্ঘনের সম্ভাবনা সম্পর্কে উদ্বেগ সৃষ্টি করে।
এআই “দূষণ”-এর চ্যালেঞ্জ
এটা মনে রাখা গুরুত্বপূর্ণ যে এআই মডেলগুলি প্রশিক্ষণের সময় একই রকম শব্দভাণ্ডার এবং শব্দচয়নের উপর একত্রিত হতে পারে। এর মূল কারণ হল খোলা ওয়েব, এআই কোম্পানিগুলির জন্য প্রশিক্ষণের ডেটার প্রাথমিক উৎস, ক্রমবর্ধমান এআই-উত্পাদিত সামগ্রী দ্বারা পরিপূর্ণ। কনটেন্ট ফার্মগুলি ক্লিকবেইট নিবন্ধ তৈরি করতে এআই ব্যবহার করে এবং বটগুলি Reddit এবং X-এর মতো প্ল্যাটফর্মগুলিতে এআই-উত্পাদিত পোস্ট দিয়ে ভরে দেয়।
ডেটা ল্যান্ডস্কেপের এই “দূষণ” প্রশিক্ষণ ডেটাসেট থেকে এআই-উত্পাদিত সামগ্রী কার্যকরভাবে ফিল্টার করাকে কঠিন করে তোলে। ফলস্বরূপ, কোনও মডেলের আউটপুট সত্যিই অন্য মডেলের ডেটা থেকে উদ্ভূত হয়েছে নাকি কেবল ওয়েবে এআই-উত্পাদিত সামগ্রীর সর্বত্র উপস্থিতির প্রতিফলন, তা নির্ণয় করা কঠিন হতে পারে।
এই বিষয়ে বিশেষজ্ঞদের মতামত
লিঙ্কের বিষয়টি প্রমাণ করা কঠিন হওয়া সত্ত্বেও AI2-এর এআই গবেষণা ইনস্টিটিউটের গবেষক নাথান ল্যাম্বার্টের মতো এআই বিশেষজ্ঞরা মনে করেন যে DeepSeek-এর গুগল জেমিনির ডেটাতে প্রশিক্ষণ নেওয়ার সম্ভাবনা একেবারে উড়িয়ে দেওয়া যায় না। ল্যাম্বার্ট পরামর্শ দেন যে DeepSeek, জিপিইউ প্রাপ্যতার সীমাবদ্ধতার সম্মুখীন হলেও পর্যাপ্ত আর্থিক সংস্থান থাকার কারণে উপলব্ধ সেরা এপিআই মডেল দ্বারা উত্পন্ন সিন্থেটিক ডেটা ব্যবহার করা আরও বেশি সুবিধাজনক মনে করতে পারে।
এআই কোম্পানিগুলি নিরাপত্তা ব্যবস্থা জোরদার করছে
ডিস্টিলেশন এবং অননুমোদিত ডেটা ব্যবহারের বিষয়ে উদ্বেগের কারণে এআই কোম্পানিগুলি তাদের নিরাপত্তা ব্যবস্থা জোরদার করছে। উদাহরণস্বরূপ, OpenAI এখন কিছু উন্নত মডেল অ্যাক্সেস করার জন্য সংস্থাগুলিকে একটি আইডি যাচাইকরণ প্রক্রিয়া সম্পন্ন করতে হয়। এই প্রক্রিয়ার জন্য OpenAI-এর API দ্বারা সমর্থিত দেশ থেকে একটি সরকার-বরাদ্দ আইডি প্রয়োজন, যেখানে চীন অন্তর্ভুক্ত নয়।
গুগলও ডিস্টিলেশনের সম্ভাবনা কমাতে পদক্ষেপ নিয়েছে। তারা সম্প্রতি তাদের এআই স্টুডিও ডেভেলপার প্ল্যাটফর্মের মাধ্যমে উপলব্ধ মডেলগুলি দ্বারা উত্পন্ন ট্রেসগুলির “সারাংশ” তৈরি করা শুরু করেছে। এটি জেমিনি ট্রেস থেকে বিস্তারিত তথ্য নিষ্কাশন করে প্রতিদ্বন্দ্বী মডেলগুলিকে প্রশিক্ষণ দেওয়াকে আরও কঠিন করে তোলে। একইভাবে, অ্যানথ্রোপিক তার নিজস্ব মডেলের ট্রেসগুলির সারসংক্ষেপ করার পরিকল্পনা ঘোষণা করেছে, তাদের “প্রতিযোগিতামূলক সুবিধা” রক্ষার প্রয়োজনীয়তার কথা উল্লেখ করে।
এআই ল্যান্ডস্কেপের জন্য প্রভাব
DeepSeek এবং গুগল জেমিনির ডেটা ব্যবহারের সম্ভাবনা সম্পর্কিত বিতর্ক এআই ল্যান্ডস্কেপের বেশ কয়েকটি গুরুত্বপূর্ণ বিষয় তুলে ধরে:
- ডেটা নীতি ও দায়িত্বশীল এআই বিকাশ: এআই মডেলগুলি যত বেশি অত্যাধুনিক হচ্ছে, ডেটা সোর্সিং এবং ব্যবহারের আশেপাশের নৈতিক বিবেচনাগুলি তত বেশি গুরুত্বপূর্ণ হয়ে উঠছে। এআই কোম্পানিগুলিকে নিশ্চিত করতে হবে যে তারা নৈতিক নির্দেশিকা মেনে চলছে এবং অন্যের বুদ্ধিবৃত্তিক সম্পত্তির অধিকারকে সম্মান করছে।
- এআই-উত্পাদিত সামগ্রীর প্রভাব: ওয়েবে এআই-উত্পাদিত সামগ্রীর বিস্তার এআই প্রশিক্ষণের জন্য একটি চ্যালেঞ্জ তৈরি করে। ডেটা যত বেশি “দূষিত” হবে, এআই মডেলগুলির গুণমান এবং অখণ্ডতা নিশ্চিত করা তত কঠিন হয়ে পড়বে।
- স্বচ্ছতা এবং জবাবদিহিতার প্রয়োজনীয়তা: এআই কোম্পানিগুলির তাদের ডেটা উৎস এবং প্রশিক্ষণ পদ্ধতি সম্পর্কে স্বচ্ছ হওয়া উচিত। এটি আস্থা তৈরি করতে এবং নিশ্চিত করতে সাহায্য করবে যে এআই দায়িত্বশীলভাবে তৈরি এবং ব্যবহৃত হচ্ছে।
- জোরData governance-এর গুরুত্ব: এআই শিল্প (AI Industry) যত বেশি প্রতিযোগিতামূলক হচ্ছে, এআই কোম্পানিগুলিকে তাদের ডেটা এবং মডেলগুলিতে অননুমোদিত অ্যাক্সেস রোধ করতে শক্তিশালী নিরাপত্তা ব্যবস্থা প্রয়োগ করতে হবে।
এআই বিকাশের ভবিষ্যৎ
DeepSeek বিতর্ক এআই শিল্প যে জটিল নৈতিক এবং প্রযুক্তিগত চ্যালেঞ্জগুলির মুখোমুখি হচ্ছে তার একটি অনুস্মারক হিসাবে কাজ করে। এআই ক্রমাগত বিকশিত হওয়ার সাথে সাথে এআই সংস্থা, গবেষক এবং নীতিনির্ধারকদের একসাথে কাজ করা অপরিহার্য যাতে এআই এমনভাবে বিকাশ লাভ করে এবং ব্যবহৃত হয় যা সমাজের উপকারে আসে। এর মধ্যে স্বচ্ছতা, জবাবদিহিতা এবং নৈতিক ডেটা অনুশীলন প্রচার করা অন্তর্ভুক্ত।
চলমান বিতর্ক: DeepSeek-এর বিরুদ্ধে অভিযোগ ডেটা গোপনীয়তা, নিরাপত্তা এবং নৈতিক এআই বিকাশের চারপাশে ক্রমবর্ধমান উদ্বেগকে তুলে ধরে। ডেটা সোর্সিংয়ের অভাব এবং বৈধ ডেটা সংগ্রহ এবং অননুমোদিত ডেটা স্ক্র্যাপিংয়ের মধ্যে ক্রমবর্ধমান ঝাপসা রেখা এআই সম্প্রদায়ের মধ্যে স্পষ্ট নিয়মাবলী এবং দায়িত্বশীল অনুশীলনের দাবি রাখে। প্রযুক্তির অগ্রগতির সাথে সাথে শিল্পকে বুদ্ধিবৃত্তিক সম্পত্তির অধিকার, “এআই দূষণ”-এর ঝুঁকি এবং অনিচ্ছাকৃত পরিণতির সম্ভাবনা সহ বিভিন্ন বিষয় নিয়ে কাজ করতে হবে।
এআই প্রশিক্ষণ ডেটার নৈতিকতা: DeepSeek-এর বিতর্ক এআই মডেলগুলির জন্য প্রশিক্ষণ ডেটা সংগ্রহ করার সময় যে নৈতিক বিবেচনাগুলি আসে তাও তুলে ধরে। ইন্টারনেট থেকে স্ক্র্যাপ করা বিশাল ডেটাসেটের উপর ক্রমবর্ধমান নির্ভরতার সাথে, ডেটার মালিক কে, কীভাবে সম্মতি নেওয়া হয় (বা উপেক্ষা করা হয়) এবং ডেটা ন্যায্যভাবে এবং দায়িত্বশীলতার সাথে ব্যবহার করা হয় কিনা - এই প্রশ্নগুলি আরও জরুরি হয়ে উঠছে। এআই সম্প্রদায়কে ডেটা সোর্সিংয়ের জন্য স্পষ্ট নির্দেশিকা তৈরি করতে হবে যা কপিরাইট আইনকে সম্মান করে, ব্যক্তিগত তথ্য সুরক্ষা করে এবং পক্ষপাতিত্ব কম করে।
এআই আধিপত্যের জন্য প্রতিযোগিতা: DeepSeek-এর বিরুদ্ধে অভিযোগগুলি মার্কিন যুক্তরাষ্ট্র এবং চীনের মধ্যে এআই আধিপত্যের জন্য তীব্র প্রতিযোগিতার প্রতিফলন হিসাবেও ব্যাখ্যা করা যেতে পারে। উভয় দেশই এআই গবেষণা এবং উন্নয়নে বিলিয়ন বিলিয়ন ডলার বিনিয়োগ করছে এবং সাফল্যের জন্য চাপ প্রতিযোগিতা বাড়াচ্ছে এবং সম্ভাব্যভাবে কিছু প্রক্রিয়াকে সংক্ষিপ্ত করছে। DeepSeek যদি সত্যিই OpenAI বা Google-এর ডেটা অনুমতি ব্যতীত ব্যবহার করে থাকে, তবে এটিকে আক্রমণাত্মক কৌশলগুলির একটি উদাহরণ হিসাবে ব্যাখ্যা করা যেতে পারে।
এআই ইকোসিস্টেমের জন্য বৃহত্তর প্রভাব: যদিও ফোকাস বর্তমানে DeepSeek-এর উপর, এই ক্ষেত্রে পুরো এআই ইকোসিস্টেমের জন্য বৃহত্তর প্রভাব ফেলতে পারে। যদি প্রমাণিত হয় যে DeepSeek অবৈধভাবে ChatGPT বা Gemini থেকে ডেটা ব্যবহার করেছে, তবে এটি অন্যান্য কোম্পানিগুলোকে তাদের নিজস্ব ডেটা সোর্সিং অনুশীলনগুলি কঠোরভাবে নিরীক্ষণ করতে প্ররোচিত করতে পারে, যা উন্নয়নের গতি কমিয়ে দিতে পারে। এটি ডেটা সংগ্রহ এবং ব্যবহারের চারপাশে কঠোর নিয়মকানুনের দিকে পরিচালিত করতে পারে, শুধু মার্কিন যুক্তরাষ্ট্র এবং চীনে নয়, বিশ্বব্যাপী।
সিনথেটিকভাবে উৎপাদিত ডেটার প্রভাব: সিনথেটিক ডেটার উত্থান, ল্যাম্বার্ট প্রস্তাবিত, প্রশিক্ষণ মডেলের একটি সম্ভাব্য বিকল্প হিসাবে এআই বিকাশের ভবিষ্যৎ সম্পর্কে মৌলিক প্রশ্ন তোলে। যদিও সিনথেটিক ডেটাসেটগুলি বাস্তব-বিশ্বের ডেটা সম্পর্কিত কিছু নৈতিক উদ্বেগকে এড়িয়ে যায়, তবে সিনথেটিক ডেটাতে প্রশিক্ষিত মডেলগুলির কর্মক্ষমতা এবং নির্ভরযোগ্যতা প্রায়শই আসল ডেটাতে প্রশিক্ষিত মডেলগুলির সাথে মেলে না। এআই সম্প্রদায়কে অত্যাধুনিক সিনথেটিক ডেটাসেট তৈরি করার জন্য উদ্ভাবনী পদ্ধতি খুঁজে বের করতে হবে যা নির্ভুলতা এবং নির্ভরযোগ্যতার সাথে আপোস না করে শিল্পের চাহিদা পূরণ করে।
মডেল সারসংক্ষেপ ডেটা গভর্নেন্সের একটি রূপ: Google এবং Anthropic-এর তাদের মডেল দ্বারা তৈরি ট্রেসগুলির “সারসংক্ষেপ” শুরু করার সাম্প্রতিক সিদ্ধান্ত এআই শিল্পে ডেটা গভর্নেন্সের ক্রমবর্ধমান গুরুত্ব নির্দেশ করে। মডেলগুলির সিদ্ধান্ত গ্রহণ প্রক্রিয়ার মধ্যে বিস্তারিত তথ্য অস্পষ্ট করে, কোম্পানিগুলি অন্যদের জন্য তাদের প্রযুক্তিগুলিকে রিভার্স-ইঞ্জিনিয়ার করা আরও কঠিন করে তুলছে। এই পদ্ধতিটি বাণিজ্য গোপনীয়তা রক্ষা করতে এবং নৈতিক ডেটা সোর্সিং অনুশীলনগুলিকে সমর্থন করতে সাহায্য করতে পারে, তবে এটি এআই সিস্টেমগুলির স্বচ্ছতা এবং ব্যাখ্যার যোগ্যতা সম্পর্কেও প্রশ্ন উত্থাপন করে।
নৈতিক ও আইনি বিবেচনার সাথে উদ্ভাবনের ভারসাম্য রক্ষা: DeepSeek বিতর্ক এআই উদ্ভাবনকে উৎসাহিত করা এবং বুদ্ধিবৃত্তিক সম্পত্তির অধিকার রক্ষা করা এবং নৈতিক নীতিগুলির আনুগত্য নিশ্চিত করার মধ্যে একটি সাবধানে ভারসাম্য বজায় রাখার প্রয়োজনীয়তার উপর জোর দেয়। এআই মডেলগুলি ক্রমশ অত্যাধুনিক এবং জটিল হওয়ার সাথে সাথে শিল্পের মুখোমুখি হওয়া নৈতিক এবং আইনি চ্যালেঞ্জগুলি আরও প্রকট হবে। এই উদ্বেগের মধ্যে সঠিক ভারসাম্য খুঁজে বের করা এআই-এর দায়িত্বশীল এবং টেকসই বিকাশের জন্য গুরুত্বপূর্ণ হবে।