২০২৫ সালের শুরুতে কৃত্রিম বুদ্ধিমত্তার (Artificial Intelligence) জগতে একটি বিশাল পরিবর্তন আসে। চীনের DeepSeek টিম DeepSeek-R1 উন্মোচন করে। ৬৭১ বিলিয়ন প্যারামিটারের এই ওপেন-সোর্স ল্যাঙ্গুয়েজ মডেলটি খুব দ্রুত নিজেদের একটি শক্তিশালী প্রতিযোগী হিসেবে প্রতিষ্ঠিত করে, যা গণিত, প্রোগ্রামিং এবং যুক্তিবোধের মতো গুরুত্বপূর্ণ ক্ষেত্রগুলোতে OpenAI-এর শীর্ষস্থানীয় মডেলগুলোকে টেক্কা দিতে সক্ষম। DeepSeek-R1-এর জটিল সমস্যা সমাধানের ক্ষমতা বিশেষভাবে উল্লেখযোগ্য ছিল, কারণ এটি reinforcement learning ব্যবহার করত। মডেলটির MIT লাইসেন্স বাণিজ্যিক বাধা দূর করে ল্যান্ডস্কেপটিকে আরও বেশি উন্মুক্ত করে তোলে। DeepSeek-R1-এর আত্মপ্রকাশ প্রযুক্তি বিশ্বে এবং এমনকি আর্থিক বাজারেও আলোড়ন ফেলেছিল, যার ফলে এর প্রকাশের এক সপ্তাহের মধ্যে AI স্টকগুলিতে উল্লেখযোগ্য পতন ঘটেছিল বলে জানা যায়।
DeepSeek-R1 উচ্চ-স্তরের ল্যাঙ্গুয়েজ মডেলের ক্ষেত্রে চীনের ওপেন-সোর্স AI আন্দোলনের জন্য একটি উল্লেখযোগ্য অগ্রগতি ছিল। এই অপ্রত্যাশিত চ্যালেঞ্জ মার্কিন যুক্তরাষ্ট্র এবং চীন উভয় দেশের AI জগতের প্রধান সংস্থাগুলোকে তাদের কার্যক্রম আরও দ্রুত করতে উৎসাহিত করেছে এবং প্রযুক্তি ও বাজারের অবস্থান উভয় ক্ষেত্রেই তাদের কৌশল প্রকাশ করেছে। এটি DeepSeek-R1 মডেলকে কেন্দ্র করে একটি AI প্রতিযোগিতা শুরু করেছে।
আসুন দেখা যাক AI অঙ্গনের প্রধান খেলোয়াড়রা - Meta, Google, OpenAI, Anthropic, Alibaba, এবং Baidu - এই নতুন প্রতিযোগিতার প্রতি কীভাবে সাড়া দিয়েছে।
Meta: LLaMA 4-এর মাধ্যমে স্কেল এবং দক্ষতা বৃদ্ধি
ওপেন-সোর্স মডেল কমিউনিটিতে Meta একটি অগ্রণী সংস্থা। DeepSeek R1-এর প্রতিক্রিয়ায় তারা LLaMA 4 নিয়ে আসে। এপ্রিল ২০২৫-এ Meta তাদের সবচেয়ে শক্তিশালী মডেল LLaMA 4 লঞ্চ করে এবং Cloudflare-এর মতো প্ল্যাটফর্মের মাধ্যমে API অ্যাক্সেস প্রদান করে। LLaMA 4 একটি Mixture-of-Experts (MoE) আর্কিটেকচার ব্যবহার করে, যা মডেলটিকে সাব-মডেলগুলিতে বিভক্ত করে এবং প্রতিটি inference-এর সময় শুধুমাত্র কিছু অংশ সক্রিয় করে। এই নকশা বৃহৎ আকারের প্যারামিটার এবং inference দক্ষতার মধ্যে ভারসাম্য বজায় রাখে।
LLaMA 4 সিরিজে বেশ কয়েকটি সাব-মডেল রয়েছে, যার মধ্যে “Scout”-এর মোট ১০৯ বিলিয়ন প্যারামিটার রয়েছে এবং এর মধ্যে শুধুমাত্র ১৭ বিলিয়ন সক্রিয় থাকে, যা এটিকে একটি একক H100 কার্ডে চালানোর অনুমতি দেয়। “Maverick” মডেলটিতে ৪০০ বিলিয়ন প্যারামিটার (১২৮ জন বিশেষজ্ঞ) রয়েছে, তবে সক্রিয় প্যারামিটারের সংখ্যা ১৭ বিলিয়ন, যার জন্য একটি DGX ক্লাস্টারের প্রয়োজন হয়। এই ডিজাইন LLaMA 4-কে ১০ মিলিয়ন টোকেন পর্যন্ত context windows সমর্থন করতে সক্ষম করে, যা এটিকে এই ক্ষমতা দেওয়া প্রথম ওপেন-সোর্স মডেলগুলির মধ্যে অন্যতম করে তুলেছে। এটি দীর্ঘ ডকুমেন্ট সংক্ষিপ্ত করার জন্য এবং বৃহৎ কোড ভাণ্ডার বিশ্লেষণের জন্য বিশেষভাবে উপযোগী।
LLaMA 4 দ্রুত সাড়া দিতে পারে এবং এর MoE আর্কিটেকচারের কারণে ছবি, অডিও এবং ভিডিওর জন্য মাল্টিমোডাল ইনপুট সমর্থন করে। Meta দক্ষতার একটি কৌশল বেছে নিয়েছে। DeepSeek যেখানে inference ক্ষমতার উপর মনোযোগ দিয়েছে, সেখানে Meta মাল্টিমোডাল সক্ষমতা বৃদ্ধি এবং কার্যক্রমকে সুবিন্যস্ত করার মাধ্যমে ওপেন-সোর্স সেক্টরে নিজেদের অবস্থানকে আরও শক্তিশালী করতে চাইছে।
Google: স্বায়ত্তশাসিত বুদ্ধিমান এজেন্টের দিকে জেমিনির বিবর্তন
OpenAI এবং DeepSeek-এর সম্মিলিত চাপের মুখে Google প্রযুক্তিগত উদ্ভাবনের কৌশল বেছে নিয়েছে। ফেব্রুয়ারি ২০২৫-এ Google জেমিনি ২.০ সিরিজ চালু করে, যাতে Flash, Pro, এবং Lite সংস্করণ রয়েছে। এটি “বুদ্ধিমান এজেন্ট” ক্ষমতার দিকে একটি পদক্ষেপ।
জেমিনি ২.০-এর এজেন্ট ক্ষমতা একটি উল্লেখযোগ্য অগ্রগতি। এই মডেলটি একাধিক modality বুঝতে পারে এবং সক্রিয়ভাবে সার্চ ইঞ্জিন, কোড স্যান্ডবক্স এবং ওয়েব ব্রাউজিং ব্যবহার করতে পারে। Google-এর Project Mariner AI-চালিত Chrome ব্রাউজার কার্যক্রমের অনুমতি দেয়, যা AI-কে ফর্ম পূরণ করতে এবং বোতামে ক্লিক করতে সক্ষম করে।
Google তাদের এজেন্ট ইকোসিস্টেমকে সমর্থন করার জন্য Agent2Agent প্রোটোকল চালু করেছে, যা বিভিন্ন বুদ্ধিমান এজেন্টকে যোগাযোগ করতে এবং একসাথে কাজ করতে দেয়। এছাড়াও, তৃতীয় পক্ষের ডেভেলপারদের অংশগ্রহণের জন্য উৎসাহিত করতে Agent Garden নামে একটি টুল এবং ডেভেলপমেন্ট কিট তৈরি করেছে।
DeepSeek এবং OpenAI-এর সাথে প্যারামিটার প্রতিযোগিতার বিপরীতে Google AI-এর টুল-ভিত্তিক এবং স্বায়ত্তশাসিত ক্ষমতার দিকে মনোনিবেশ করে বুদ্ধিমান এজেন্ট সহযোগিতার মাধ্যমে পরবর্তী যুগের মূল পরিস্থিতিগুলো পুনরায় সংজ্ঞায়িত করছে। জেমিনির বিবর্তন শুধুমাত্র একটি মডেল আপগ্রেড নয়, এটি একটি কৌশলগত পরিবর্তন।
OpenAI: নির্ভরযোগ্যতা এবং নেতৃত্বের জন্য মডেল পুনরাবৃত্তি এবং ইকোসিস্টেম একত্রীকরণ
DeepSeek R1-এর প্রতিক্রিয়ায় OpenAI তাদের মডেল পুনরাবৃত্তি এবং পণ্য স্থাপনার গতি বাড়িয়েছে। ফেব্রুয়ারি ২০২৫-এ OpenAI GPT-4.5 চালু করে, যা GPT-4-এর একটি অন্তর্বর্তী সংস্করণ। এটি যুক্তিবোধের ধারাবাহিকতা এবং বাস্তবভিত্তিক নির্ভুলতা উন্নত করে, যা GPT-5-এর জন্য পথ প্রশস্ত করে।
GPT-4.5 কে শেষ প্রধান মডেল হিসেবে বিবেচনা করা হয়, যেখানে chain-of-thought reasoning অন্তর্ভুক্ত নেই। GPT-5 পরীক্ষামূলক রিজনিং মডেল o3-mini এবং GPT সিরিজের বৈশিষ্ট্যগুলিকে একত্রিত করে একটি সমন্বিত “সাধারণ জ্ঞানীয় মডেল” তৈরি করবে। OpenAI আরও জানিয়েছে যে GPT-5-এর বুদ্ধি এবং টুল ব্যবহারের ক্ষমতা অত্যন্ত পরিবর্তনযোগ্য হবে।
OpenAI সিদ্ধান্ত নিয়েছে যে ChatGPT-এর বিনামূল্যে ব্যবহারকারীরা GPT-5-এর প্রাথমিক সংস্করণ ব্যবহার করতে পারবে, যেখানে পেইড ব্যবহারকারীরা আরও উন্নত বৈশিষ্ট্যগুলিতে অ্যাক্সেস পাবে। এর মাধ্যমে ব্যবহারকারীদের ওপেন-সোর্স বিকল্পে চলে যাওয়ার ঝুঁকি কমানো যাবে। এই কৌশলটির লক্ষ্য হল ব্যাপক কভারেজের মাধ্যমে ব্যবহারকারীদের ধরে রাখা।
OpenAI প্লাগইন, ব্রাউজার এবং কোড এক্সিকিউটরের মতো ক্ষমতাগুলোকে আলাদা না রেখে GPT কোর মডেলে একত্রিত করছে, যাতে একটি “পূর্ণ বৈশিষ্ট্যযুক্ত AI” তৈরি করা যায়। R1-এর চ্যালেঞ্জ মোকাবিলায় OpenAI পদ্ধতিগতভাবে বুদ্ধিমত্তাকে একত্রিত এবং বৃদ্ধি করছে।
Anthropic: মিশ্র রিজনিং এবং থিংকিং বাজেট দিয়ে শক্তিশালী বুদ্ধিমত্তাকে আরও গভীর করা
Anthropic ফেব্রুয়ারি ২০২৫-এ Claude 3.7 Sonnet চালু করেছে, যা “মিশ্র রিজনিং” এবং “থিংকিং বাজেট” এর উপর দৃষ্টি নিবদ্ধ করে। ব্যবহারকারীরা দ্রুত প্রতিক্রিয়ার জন্য “স্ট্যান্ডার্ড মোড” বেছে নিতে পারেন অথবা গভীর, ধাপে ধাপে চিন্তাভাবনার জন্য “এক্সটেন্ডেড মোড” সক্রিয় করতে পারেন।
এই পদ্ধতিটি কঠিন কাজগুলির সম্মুখীন হলে মানুষের “আরও বেশি চিন্তা” করার মতোই, কারণ এটি AI-কে নির্ভুলতা উন্নত করার জন্য আরও বেশি সময় ধরে চিন্তা করতে দেয়। Anthropic ব্যবহারকারীদের রিজনিং গভীরতা এবং কলিং খরচগুলির মধ্যে ভারসাম্য বজায় রাখার জন্য “চিন্তাভাবনার সময়” নির্ধারণ করতে দেয়।
Claude 3.7 তার পূর্বসূরি ৩.৫ এর চেয়ে প্রোগ্রামিং এবং যুক্তির মতো কঠিন কাজগুলোতে ভালো পারফর্ম করে এবং এটি শিল্পের অন্যতম মডেল যা রিজনিং প্রক্রিয়ার স্বচ্ছতার উপর জোর দেয়। সাম্প্রতিক মূল্যায়নগুলোতে এর কোড ক্ষমতা ৭০.৩% নির্ভুলতা অর্জন করেছে।
Claude 3.7 “নিয়ন্ত্রণযোগ্য বুদ্ধিমত্তা” এর প্রতি Anthropic-এর অঙ্গীকার প্রদর্শন করে। Anthropic প্যারামিটার স্ট্যাকিংয়ের পরিবর্তে ব্যাখ্যাযোগ্য, স্থিতিশীল এবং কাস্টমাইজযোগ্য চিন্তাভাবনার মডেল তৈরি করার উপর মনোযোগ দিয়েছে। R1-চালিত “রিজনিং রেস”-এ Anthropic ধীরে ধীরে নিজেদের গতিতে এগিয়ে যাচ্ছে।
Alibaba: Qwen-এর মাধ্যমে একটি চীনা ওপেন-সোর্স ইকোসিস্টেম তৈরি করা
DeepSeek R1 প্রকাশের মাত্র এক সপ্তাহ পরেই Alibaba-র Damo Academy দ্রুত তাদের Qwen মডেল ফ্যামিলি আপডেট করে। ফেব্রুয়ারি ২০২৫-এ Qwen 2.5 সিরিজ এবং এপ্রিলের শেষের দিকে নতুন Qwen 3 সিরিজ প্রকাশ করে, যা শক্তিশালী পণ্য প্রতিক্রিয়া এবং কৌশলগত দৃষ্টিভঙ্গি প্রদর্শন করে।
Qwen 3 সিরিজে ৬০০ মিলিয়ন থেকে ২৩৫ বিলিয়ন প্যারামিটার পর্যন্ত মডেল সংস্করণ রয়েছে। এটি কম কম্পিউটিং রিসোর্স ব্যবহার করে মডেলের কর্মক্ষমতা বজায় রাখার জন্য MoE আর্কিটেকচার ব্যবহার করে। ফ্ল্যাগশিপ মডেল, Qwen3-235B-A22B-এর অ্যাক্টিভেশন প্যারামিটার অপ্টিমাইজ করার মাধ্যমে স্থাপনার জন্য শুধুমাত্র চারটি উচ্চ-পারফরম্যান্স GPU-এর প্রয়োজন হয়, যা ব্যবসাগুলোর জন্য বৃহৎ মডেল বাস্তবায়নের বাধা অনেক কমিয়ে দেয়। বেশ কয়েকটি স্ট্যান্ডার্ড পরীক্ষায় Qwen 3-এর সামগ্রিক কর্মক্ষমতা DeepSeek R1, OpenAI o1 এবং Gemini 2.5 Pro-এর মতো শীর্ষ আন্তর্জাতিক মডেলগুলোকে ছাড়িয়ে গেছে।
Alibaba প্রযুক্তিগত প্রতিযোগিতার পাশাপাশি একটি ওপেন-সোর্স ইকোসিস্টেম গড়ে তোলার উপর জোর দেয়। Qwen 3 সম্পূর্ণরূপে Apache 2.0 লাইসেন্সের অধীনে ওপেন-সোর্স করা হয়েছে, যেখানে ওপেন ওয়েট, প্রশিক্ষণ কোড এবং স্থাপনার সরঞ্জাম রয়েছে। এর লক্ষ্য হল একটি মৌলিক মডেল তৈরি করা, যা বিশ্বব্যাপী ডেভেলপাররা সরাসরি ব্যবহার এবং কাস্টমাইজ করতে পারবে। এটি বহুভাষিক (119টি ভাষা) এবং মাল্টিমোডাল অ্যাপ্লিকেশন সমর্থন করে।
Alibaba-র “প্রযুক্তি + ইকোসিস্টেম” কৌশল DeepSeek-এর হালকা পদ্ধতির পরিপূরক। একটি দ্রুত পুনরাবৃত্তি এবং নেতৃস্থানীয় inference-এর উপর জোর দেয়, অন্যটি ইকোসিস্টেম নির্মাণ এবং স্কেল ও বৈচিত্র্যের মধ্যে ভারসাম্য রক্ষার উপর জোর দেয়। Qwen ধীরে ধীরে দেশীয় বাজারে ওপেন-সোর্স বৃহৎ মডেলগুলির “ইকোসিস্টেম হাব” হিসাবে নিজেকে প্রতিষ্ঠিত করছে। DeepSeek-এর কারণে শিল্পে যে ব্যাঘাত ঘটেছে, Qwen তার একটি স্থিতিশীল প্রতিক্রিয়া।
Baidu: ERNIE বট আপগ্রেডের সাথে মাল্টিমোডালিটি এবং প্লাগইন সরঞ্জাম বৃদ্ধি
Baidu মার্চ মাসে তাদের ফ্ল্যাগশিপ মডেল ERNIE বট-এর উল্লেখযোগ্য আপগ্রেড করেছে। তারা ERNIE বট ৪.৫ এবং ERNIE X1 জনসাধারণের জন্য প্রকাশ করেছে। ERNIE X1-কে একটি “গভীর চিন্তাভাবনার মডেল” হিসেবে позициони করা হয়েছে, যা জটিল কাজগুলো বোঝার, পরিকল্পনা করার এবং সম্পাদন করার জন্য AI-এর ক্ষমতা বাড়ানোর উপর দৃষ্টি নিবদ্ধ করে।
ERNIE 4.5 হল Baidu-এর প্রথম নেটিভ মাল্টিমোডাল লার্জ মডেল, যা টেক্সট, ছবি, অডিও এবং ভিডিওর যৌথ মডেলিং সমর্থন করে। এই সংস্করণটি উল্লেখযোগ্যভাবে হ্যালুসিনেশন জেনারেশন কমিয়ে দেয় এবং কোড বোঝা ও যুক্তিবোধের উন্নতি ঘটায়, যা একাধিক চীনা পরিস্থিতিতে GPT-4.5-এর স্তরকে ছাড়িয়ে গেছে।
Baidu একটি “AI টুল ইকোসিস্টেম” তৈরি করছে, যা আরও বেশি উপযোগী। X1 মডেলটি সার্চ, ডকুমেন্ট প্রশ্নোত্তর, PDF রিডিং, কোড এক্সিকিউশন, ইমেজ রিকগনিশন, ওয়েব অ্যাক্সেস এবং ব্যবসার তথ্য অনুসন্ধানের কাজগুলো ব্যবহার করতে পারে। এর মাধ্যমে AI-এর “হাতে-কলমে কাজ করার ক্ষমতা” প্রকাশ করা সম্ভব হবে, যা Google Gemini-এর এজেন্ট রুটের প্রতিধ্বনি করে।
Baidu আরও ঘোষণা করেছে যে তারা ২০২৫ সালের জুনের মধ্যে ERNIE মডেলের কিছু প্যারামিটার ওপেন-সোর্স করবে এবং এন্টারপ্রাইজ-স্তরের গ্রাহকদের সাথে অ্যাপ্লিকেশন ইন্টিগ্রেশন আরও প্রসারিত করবে। ERNIE সিরিজ একটি ক্লোজড-লুপ পণ্য থেকে একটি প্ল্যাটফর্ম ইকোসিস্টেমে রূপান্তরিত হচ্ছে, যা API এবং প্লাগইন সিস্টেমের মাধ্যমে ডেভেলপার এবং ব্যবসাগুলোকে আকর্ষণ করবে।
R1 এবং Qwen-এর সাথে সরাসরি ওপেন-সোর্স স্পেসে প্রতিযোগিতা না করে Baidu চীনা কন্টেন্ট, সার্চ সার্ভিস এবং নলেজ গ্রাফে তাদের গভীর অভিজ্ঞতা ব্যবহার করে মডেলটিকে সার্চ, অফিস এবং ইনফরমেশন ফ্লো-এর মতো পণ্যের সাথে গভীরভাবে একত্রিত করছে, যা আরও স্থানীয় AI পণ্য পোর্টফোলিও তৈরি করছে।
সংক্ষেপে বলা যায়, DeepSeek R1-এর প্রকাশ শুধুমাত্র একটি প্রযুক্তিগত সাফল্য ছিল না, এটি ছিল বিশ্বব্যাপী AI অঙ্গনে একটি অনুঘটক। এটি জায়ান্টদের inference কর্মক্ষমতা উন্নত করতে বাধ্য করেছে, দেশীয় সংস্থাগুলোকে ওপেন-সোর্সের জন্য প্রতিযোগিতা করতে উৎসাহিত করেছে এবং আমেরিকান সংস্থাগুলোকে এজেন্ট, ইন্টিগ্রেশন এবং মাল্টিমোডালিটির বিকাশকে ত্বরান্বিত করতে উৎসাহিত করেছে।
চীনা এবং আমেরিকান AI জায়ান্টদের প্রতিক্রিয়া ভিন্ন হলেও তাদের লক্ষ্য একই: আরও শক্তিশালী, নির্ভরযোগ্য এবং নমনীয় বৃহৎ মডেল তৈরি করা এবং প্রযুক্তি, ইকোসিস্টেম এবং ব্যবহারকারীর মধ্যে ত্রিপক্ষীয় প্রতিযোগিতায় জয়ী হওয়া। এই প্রক্রিয়া এখনও শেষ হয়নি। GPT-5, Gemini 3, Claude 4 এবং এমনকি DeepSeek R2 এবং Qwen 4 একের পর এক প্রকাশিত হওয়ার সাথে সাথে বিশ্বব্যাপী AI “সর্পিল উত্থানের” একটি নতুন স্তরে প্রবেশ করছে।
এন্টারপ্রাইজ ব্যবহারকারী এবং ডেভেলপারদের জন্য এই প্রতিযোগিতা আরও বেশি পছন্দ, কম খরচ এবং আরও শক্তিশালী বৃহৎ মডেল সরঞ্জাম নিয়ে আসবে। বিশ্বব্যাপী AI ক্ষমতা অভূতপূর্ব গতিতে ছড়িয়ে পড়ছে এবং গণতান্ত্রিক হচ্ছে এবং পরবর্তী নির্ণায়ক প্রযুক্তিগত সাফল্য হয়তো ইতিমধ্যেই পথে আছে।
```