AI যুক্তিতে DeepSeek-এর নতুন পথচলা

কৃত্রিম বুদ্ধিমত্তার শ্রেষ্ঠত্বের নিরলস দৌড়ে, যেখানে মাথা ঘুরিয়ে দেওয়ার মতো গতিতে নতুন আবিষ্কার ঘোষিত হচ্ছে, সেখানে যন্ত্রের যুক্তি প্রয়োগের ক্ষমতা এক বিরাট চ্যালেঞ্জ হিসেবে রয়ে গেছে। একটি Large Language Model (LLM)-এর পক্ষে বাক্যের পরবর্তী শব্দটি অনুমান করা এক জিনিস; কিন্তু একটি যৌক্তিক পথ অনুসরণ করা, নিজের আউটপুটকে সমালোচনা করা এবং সঠিক সিদ্ধান্তে পৌঁছানো সম্পূর্ণ ভিন্ন বিষয়, বিশেষ করে যখন নতুন বা জটিল প্রশ্নের সম্মুখীন হতে হয়। এই প্রেক্ষাপটে, দ্রুত উঠে আসা চীনা AI স্টার্টআপ DeepSeek-এর সাম্প্রতিক প্রকাশনা গভীর মনোযোগের দাবি রাখে। কোম্পানিটি, যা ইতিমধ্যেই তার পূর্ববর্তী মডেল প্রকাশের মাধ্যমে নজর কেড়েছে, LLM-এর যুক্তি ক্ষমতা উল্লেখযোগ্যভাবে শক্তিশালী করার জন্য ডিজাইন করা একটি অত্যাধুনিক নতুন কৌশল উন্মোচন করেছে। এই ঘোষণাটি এমন এক সময়ে এসেছে যখন তাদের পরবর্তী প্রজন্মের AI মডেলের আসন্ন আগমন সম্পর্কে গুঞ্জন তীব্র হচ্ছে।

এটি কেবল আরেকটি ক্রমবর্ধমান পরিবর্তন নয়। DeepSeek, Tsinghua University-র সম্মানিত গবেষকদের সাথে সহযোগিতায়—যা এই ক্ষেত্রে বাণিজ্যিক উচ্চাকাঙ্ক্ষা এবং একাডেমিক কঠোরতার মধ্যে গুরুত্বপূর্ণ সমন্বয় তুলে ধরে—একটি অভিনব দ্বিমুখী কৌশলের বিস্তারিত বিবরণ দিয়েছে। এই পদ্ধতিটি চতুরভাবে Generative Reward Modeling (GRM) এবং সেলফ-প্রিন্সিপলড ক্রিটিক টিউনিং (self-principled critique tuning)-কে একত্রিত করে। অনলাইন রিপোজিটরি arXiv-এ নীরবে প্রকাশিত একটি টেকনিক্যাল পেপারে বর্ণিত উদ্দেশ্যটি উচ্চাভিলাষী কিন্তু অত্যন্ত গুরুত্বপূর্ণ: এমন LLM তৈরি করা যা কেবল বিস্তৃত সাধারণ প্রম্পটগুলিতে আরও নির্ভুলভাবে প্রতিক্রিয়া জানায় না, বরং আরও দক্ষতার সাথে তা করে।

দ্বৈত পদ্ধতির বিশ্লেষণ: GRM এবং সেলফ-ক্রিটিকের মেলবন্ধন

DeepSeek-এর উদ্ভাবনের সম্ভাব্য প্রভাব বুঝতে হলে এই দুটি উপাদানকে খুলে বিশ্লেষণ করা এবং তাদের সম্মিলিত শক্তি উপলব্ধি করা প্রয়োজন। AI বিশ্ব ইতিমধ্যেই রিওয়ার্ড মডেলিংয়ের সাথে পরিচিত, যা প্রায়শই Reinforcement Learning from Human Feedback (RLHF)-এর সাথে যুক্ত একটি ভিত্তিপ্রস্তর কৌশল। প্রচলিত RLHF-এ, মানব পর্যালোচকরা বিভিন্ন AI-উৎপন্ন প্রতিক্রিয়ার রেটিং দেয়, যা মডেলকে কার্যকরভাবে শেখায় কোন ধরনের আউটপুট পছন্দসই। এই ফিডব্যাক লুপ মডেলটিকে মানুষের মূল্যবোধ এবং প্রত্যাশার সাথে সামঞ্জস্যপূর্ণ করতে সাহায্য করে। যাইহোক, এই প্রক্রিয়াটি শ্রমসাধ্য, ব্যয়বহুল এবং মানব প্রতিক্রিয়ার পরিধি ও সামঞ্জস্যের দ্বারা সীমিত হতে পারে।

Generative Reward Modeling (GRM), যেমনটি DeepSeek অনুসরণ করছে, একটি সম্ভাব্য আরও পরিমাপযোগ্য এবং সূক্ষ্ম বিবর্তন বলে মনে হচ্ছে। পছন্দের ইঙ্গিতকারী একটি স্কেলার ‘রিওয়ার্ড’ স্কোর শেখার পরিবর্তে, একটি GRM পদ্ধতিতে একটি মডেলকে প্রশিক্ষণ দেওয়া হতে পারে যাতে এটি ব্যাখ্যা বা যুক্তি তৈরি করতে পারে কেন একটি প্রতিক্রিয়া অন্যটির চেয়ে ভাল। এটি কেবল পছন্দের ফলাফল চেনার পরিবর্তে, ভাল প্রতিক্রিয়ার অন্তর্নিহিত নীতিগুলি শেখে। এই জেনারেটিভ ক্ষমতা রিওয়ার্ড মডেলটিকে নিজেই LLM-এর প্রশিক্ষণ প্রক্রিয়ার সময় আরও সমৃদ্ধ, আরও তথ্যপূর্ণ প্রতিক্রিয়া প্রদান করতে সক্ষম করতে পারে। কল্পনা করুন, আপনার উত্তরটি কেবল ‘ভাল’ বলা হচ্ছে না, বরং এটি কেন ভাল তার একটি বিশদ ব্যাখ্যা দেওয়া হচ্ছে, যা স্পষ্টতা, বাস্তব নির্ভুলতা, যৌক্তিক সামঞ্জস্য এবং সহায়কতার মতো দিকগুলি কভার করে। একটি GRM সম্ভাব্যভাবে এই ধরনের বিস্তারিত প্রতিক্রিয়া স্বয়ংক্রিয় বা বৃদ্ধি করতে পারে, সাধারণ পছন্দের স্কোরের বাইরে গিয়ে। DeepSeek পেপারটি ইঙ্গিত দেয় যে তাদের GRM মডেলগুলি ইতিমধ্যেই প্রতিষ্ঠিত পাবলিক রিওয়ার্ড মডেলগুলির তুলনায় ‘প্রতিযোগিতামূলক কর্মক্ষমতা’ প্রদর্শন করেছে, যা এই জেনারেটিভ পদ্ধতির কার্যকারিতা এবং শক্তির ইঙ্গিত দেয়। এই ভিড়যুক্ত ক্ষেত্রে যেকোনো নতুন কৌশলের জন্য শক্তিশালী, বহুল ব্যবহৃত বেঞ্চমার্কগুলির সাথে সমতা অর্জন একটি গুরুত্বপূর্ণ বৈধতা বিন্দু।

GRM-এর পরিপূরক হলো সেলফ-প্রিন্সিপলড ক্রিটিক টিউনিং (self-principled critique tuning)-এর ধারণা। এই উপাদানটি LLM-এর পরিমার্জন প্রক্রিয়ায় একটি আত্মদর্শন ক্ষমতা যুক্ত করে। এটি প্রস্তাব করে যে মডেলটি কেবল নিষ্ক্রিয়ভাবে প্রতিক্রিয়া গ্রহণ করছে না (মানুষ বা GRM থেকে হোক), বরং এটি শেখা নীতিগুলির একটি সেটের উপর ভিত্তি করে সক্রিয়ভাবে তার নিজস্ব আউটপুট মূল্যায়ন করছে। এই ‘নীতিগুলি’ যুক্তির নিয়ম, নৈতিক নির্দেশিকা, বাস্তব ভিত্তির প্রয়োজনীয়তা বা নির্দিষ্ট শৈলীগত সীমাবদ্ধতা অন্তর্ভুক্ত করতে পারে। ‘সেলফ-ক্রিটিক’ দিকটি একটি অভ্যন্তরীণ ফিডব্যাক লুপ বোঝায় যেখানে মডেল তার নিজস্ব তৈরি করা পাঠ্যে ত্রুটি বা ঘাটতি চিহ্নিত করে এবং তারপর এই অন্তর্নিহিত নীতিগুলির দ্বারা পরিচালিত হয়ে সেগুলি সংশোধন করার চেষ্টা করে। ‘টিউনিং’ বলতে এই স্ব-মূল্যায়নের উপর ভিত্তি করে মডেলের প্যারামিটারগুলি সামঞ্জস্য করার প্রক্রিয়াকে বোঝায়।

GRM এবং সেলফ-প্রিন্সিপলড ক্রিটিক টিউনিংয়ের মধ্যে সমন্বয় বিশেষভাবে শক্তিশালী হতে পারে। GRM একটি উচ্চ-মানের প্রতিক্রিয়া কী গঠন করে তার একটি অত্যাধুনিক বোঝাপড়া প্রদান করে, সম্ভাব্যভাবে সেই নীতিগুলি তৈরি করে যা সেলফ-ক্রিটিক মেকানিজম ব্যবহার করে। সেলফ-ক্রিটিক মেকানিজম তখন এই নীতিগুলি তৈরি বা পরিমার্জনের সময় গতিশীলভাবে প্রয়োগ করে, মডেলটিকে পুনরাবৃত্তিমূলকভাবে তার নিজস্ব যুক্তি এবং আউটপুট গুণমান উন্নত করতে দেয়। এই অভ্যন্তরীণ গুণমান নিয়ন্ত্রণ প্রশিক্ষণের সময় দ্রুত কনভারজেন্স এবং স্থাপনার সময় আরও নির্ভরযোগ্য কর্মক্ষমতা আনতে পারে, সম্ভাব্যভাবে মডেলের হ্যালুসিনেশন বা যৌক্তিক ভুলের প্রবণতা হ্রাস করতে পারে – যা বর্তমান LLM-গুলির জন্য স্থায়ী চ্যালেঞ্জ। এটি AI-এর মধ্যে এক ধরণের জ্ঞানীয় স্ব-সংশোধনকে উৎসাহিত করে, এটিকে নমনীয়, অভিযোজিত যুক্তির কাছাকাছি নিয়ে যায় যা আমরা মানুষের বুদ্ধিমত্তার সাথে যুক্ত করি।

কর্মক্ষমতা, প্রতিশ্রুতি এবং অবস্থান

নতুন বিকশিত DeepSeek-GRM মডেলগুলি ‘প্রতিযোগিতামূলক কর্মক্ষমতা’ অর্জন করে এই দাবিটি স্বাভাবিকভাবেই একটি কেন্দ্রবিন্দু। যদিও একাডেমিক পেপার সম্ভবত নির্দিষ্ট বেঞ্চমার্ক এবং তুলনা প্রদান করে, বৃহত্তর তাৎপর্য হল যে এই অভিনব কৌশলটি কেবল একটি তাত্ত্বিক কৌতূহল নয়; এটি LLM যুক্তি এবং অ্যালাইনমেন্ট উন্নত করার জন্য বিদ্যমান অত্যাধুনিক পদ্ধতিগুলির সাথে তুলনীয় ফলাফল প্রদান করে। এটি DeepSeek-এর জন্য অত্যন্ত গুরুত্বপূর্ণ কারণ এটি বিশ্বব্যাপী AI বাজারে একটি উল্লেখযোগ্য অংশ দখল করতে চায়। বাস্তব কর্মক্ষমতা বৃদ্ধি প্রদর্শন তাদের গবেষণার দিকনির্দেশকে বৈধতা দেয় এবং তাদের মূল্য প্রস্তাবকে শক্তিশালী করে।

অধিকন্তু, DeepSeek-এর অবশেষে GRM মডেলগুলি ওপেন-সোর্স করার ঘোষিত অভিপ্রায় একটি কৌশলগতভাবে গুরুত্বপূর্ণ পদক্ষেপ। এমন একটি ইকোসিস্টেমে যেখানে মালিকানাধীন, বন্ধ মডেলগুলি প্রায়শই শিরোনামে আধিপত্য বিস্তার করে, গবেষণা সম্প্রদায়ে শক্তিশালী সরঞ্জামগুলি ফিরিয়ে দেওয়া যথেষ্ট সুবিধা দিতে পারে। ওপেন-সোর্সিং অন্যান্য গবেষকদের মডেলগুলির উপর ভিত্তি করে তৈরি করতে, পরীক্ষা করতে এবং উন্নত করতে অনুমতি দিয়ে উদ্ভাবনকে ত্বরান্বিত করতে পারে। এটি সদিচ্ছা তৈরি করে, প্রতিভা আকর্ষণ করে এবং DeepSeek-এর পদ্ধতিগুলিকে ক্ষেত্রের মধ্যে একটি সম্ভাব্য মান বা প্রভাবশালী পদ্ধতি হিসাবে প্রতিষ্ঠা করতে সহায়তা করতে পারে। এটি Meta (Llama মডেল) এবং Mistral AI-এর মতো খেলোয়াড়দের সাথে দেখা ক্রমবর্ধমান প্রবণতার সাথে সামঞ্জস্যপূর্ণ, যারা শক্তিশালী সম্প্রদায় সম্পৃক্ততা তৈরি করতে এবং প্রতিষ্ঠিত প্রতিদ্বন্দ্বীদের চ্যালেঞ্জ জানাতে ওপেন-সোর্স রিলিজ ব্যবহার করেছে। যাইহোক, প্রকাশের জন্য একটি নির্দিষ্ট সময়সীমার অভাব বিকল্পগুলি খোলা রাখে, যা DeepSeek-কে সম্ভবত মডেলগুলিকে আরও পরিমার্জিত করতে বা কৌশলগতভাবে রিলিজ সমন্বয় করতে দেয়, সম্ভবত তাদের প্রত্যাশিত পরবর্তী প্রজন্মের ফাউন্ডেশন মডেলের পাশাপাশি।

এই গবেষণা ঘোষণাটি শূন্যস্থানে ঘটছে না। এটি DeepSeek-এর পরবর্তী প্রধান পণ্য লঞ্চ ঘিরে স্পষ্ট প্রত্যাশার মধ্যে এসেছে। কোম্পানিটি তার DeepSeek-V3 ফাউন্ডেশন মডেল এবং বিশেষ করে তার DeepSeek-R1 রিজনিং মডেল দিয়ে উল্লেখযোগ্য আন্তর্জাতিক মনোযোগ আকর্ষণ করেছে। R1 মডেলটি মূলত তার কম্পিউটেশনাল খরচের তুলনায় চিত্তাকর্ষক কর্মক্ষমতার কারণে আলোড়ন সৃষ্টি করেছিল – যা নেতৃস্থানীয় বিশ্বব্যাপী মডেলগুলির প্রতিদ্বন্দ্বী ক্ষমতা প্রদান করে কিন্তু সম্ভাব্যভাবে বৃহত্তর দক্ষতার সাথে। বৃহৎ আকারের AI-এর সম্পদ-নিবিড় বিশ্বে, ব্যয়-কার্যকারিতা একটি শক্তিশালী পার্থক্যকারী, যা বিস্তৃত ডেভেলপার এবং এন্টারপ্রাইজদের কাছে আবেদন করে।

শিল্প পর্যবেক্ষকরা, কোম্পানির পরিকল্পনার সাথে পরিচিত সূত্রের বরাত দিয়ে Reuters অনুসারে, অনুমান করছেন যে DeepSeek-R2, চিত্তাকর্ষক R1-এর উত্তরসূরি, শীঘ্রই উন্মোচন করা হতে পারে, সম্ভবত এই মাসের মধ্যেই। যদিও DeepSeek একটি কর্পোরেট পোকার ফেস বজায় রেখেছে, এই গুজবগুলি নিশ্চিত বা অস্বীকার না করে, GRM গবেষণা প্রকাশের সময় অবশ্যই জল্পনা-কল্পনার আগুনে ঘি ঢালছে। এটি দৃঢ়ভাবে পরামর্শ দেয় যে GRM এবং সেলফ-ক্রিটিক টিউনিংয়ের মাধ্যমে অর্জিত যুক্তি ক্ষমতার অগ্রগতি কেবল একাডেমিক অনুশীলন নয় বরং সম্ভবত R2-এর জন্য পরিকল্পিত আর্কিটেকচার এবং কর্মক্ষমতা বৃদ্ধির অবিচ্ছেদ্য অংশ। যদি R2 এই অত্যাধুনিক যুক্তি প্রক্রিয়াকে অন্তর্ভুক্ত করে, তবে এটি একটি উল্লেখযোগ্য অগ্রগতি উপস্থাপন করতে পারে, সম্ভাব্যভাবে বাণিজ্যিকভাবে উপলব্ধ মডেলগুলির মধ্যে যুক্তিযুক্ত কাজের জন্য একটি নতুন বেঞ্চমার্ক স্থাপন করতে পারে, বিশেষ করে যদি এটি তার পূর্বসূরীর ব্যয়-কার্যকারিতার DNA বজায় রাখে।

AI জ্ঞানের বৃহত্তর অনুসন্ধান

DeepSeek-এর কাজ AI বিকাশের সবচেয়ে গুরুত্বপূর্ণ এবং চ্যালেঞ্জিং ক্ষেত্রগুলির মধ্যে একটিতে প্রবেশ করে: যুক্তি ক্ষমতা বৃদ্ধি করা। প্রাথমিক LLM গুলি বিশাল ডেটাসেট থেকে শেখা পরিসংখ্যানগত সম্পর্কের উপর ভিত্তি করে প্যাটার্ন সনাক্তকরণ এবং পাঠ্য তৈরিতে পারদর্শী ছিল। যাইহোক, প্রকৃত যুক্তি – যার মধ্যে বহু-পদক্ষেপ যৌক্তিক সিদ্ধান্ত, কার্যকারণ অনুমান, প্রতিবাস্তব চিন্তা, পরিকল্পনা এবং শক্তিশালী স্ব-সংশোধন জড়িত – অনেক বেশি অধরা প্রমাণিত হয়েছে। মডেলগুলি প্রায়শই জটিল গাণিতিক সমস্যা, জটিল যুক্তি ধাঁধা, বৈজ্ঞানিক হাইপোথিসিস তৈরি এবং গভীর বোঝার প্রয়োজন এমন কাজগুলির সাথে লড়াই করে যা উপরিভাগের প্যাটার্ন ম্যাচিংয়ের পরিবর্তে। তারা বিশ্বাসযোগ্য-শোনা পাঠ্য তৈরি করতে পারে যা বাস্তবিকভাবে ভুল বা যৌক্তিকভাবে ত্রুটিপূর্ণ (হ্যালুসিনেশন)।

যুক্তির উন্নতি সর্বাধিক গুরুত্বপূর্ণ কারণ এটি বিভিন্ন ডোমেন জুড়ে সত্যিকার অর্থে জটিল সমস্যাগুলি মোকাবেলা করার জন্য AI-এর সম্ভাবনা উন্মুক্ত করে:

  • বৈজ্ঞানিক আবিষ্কার: গবেষকদের হাইপোথিসিস তৈরি করতে, জটিল ডেটা বিশ্লেষণ করতে এবং এমনকি পরীক্ষা ডিজাইন করতে সহায়তা করা।
  • সফ্টওয়্যার ডেভেলপমেন্ট: কোড সমাপ্তির বাইরে গিয়ে প্রোগ্রাম লজিক বোঝা, জটিল ত্রুটি ডিবাগ করা এবং শক্তিশালী সফ্টওয়্যার আর্কিটেকচার ডিজাইন করা।
  • চিকিৎসা: ডাক্তারদের বিরল রোগ নির্ণয় করতে, জটিল রোগীর ইতিহাস বুঝতে এবং চিকিৎসা গবেষণা বিশ্লেষণ করতে সহায়তা করা।
  • শিক্ষা: সত্যিকার অর্থে অভিযোজিত টিউটর তৈরি করা যা শিক্ষার্থীদের যুক্তি প্রক্রিয়া বোঝে এবং উপযুক্ত নির্দেশনা প্রদান করে।
  • ব্যবসায়িক কৌশল: জটিল বাজারের গতিশীলতা বিশ্লেষণ করা, পরিস্থিতি অনুকরণ করা এবং জটিল সিদ্ধান্ত গ্রহণে সহায়তা করা।

শিল্প এই যুক্তির ব্যবধান পূরণ করার জন্য অসংখ্য পথ অন্বেষণ করছে। Chain-of-thought (CoT) প্রম্পটিং মডেলগুলিকে মধ্যবর্তী যুক্তির ধাপগুলি তৈরি করে ‘তাদের কাজ দেখাতে’ উৎসাহিত করে, যা প্রায়শই জটিল কাজগুলিতে কর্মক্ষমতা উন্নত করে। Tree-of-thoughts (ToT) এটিকে প্রসারিত করে মডেলগুলিকে একযোগে একাধিক যুক্তির পথ অন্বেষণ করতে এবং সেগুলি মূল্যায়ন করতে দেয়। অন্যান্য পদ্ধতির মধ্যে রয়েছে ক্যালকুলেটর, কোড ইন্টারপ্রেটার বা সিম্বলিক রিজোনারের মতো বাহ্যিক সরঞ্জামগুলির সাথে LLM-গুলিকে একীভূত করা, যা LLM-কে বিশেষ মডিউলগুলিতে নির্দিষ্ট কাজগুলি অফলোড করতে দেয়। আর্কিটেকচারাল উদ্ভাবন, যেমন Mixture-of-Experts (MoE) মডেল, এছাড়াও নেটওয়ার্কের বিশেষ অংশগুলিকে বিভিন্ন কাজের জন্য উৎসর্গ করার লক্ষ্য রাখে, সম্ভাব্যভাবে যুক্তির ফোকাস উন্নত করে।

DeepSeek-এর GRM এবং সেলফ-প্রিন্সিপলড ক্রিটিক টিউনিং এই সমৃদ্ধ গবেষণার ট্যাপেস্ট্রিতে আরেকটি গুরুত্বপূর্ণ থ্রেড উপস্থাপন করে। LLM-এর অভ্যন্তরীণ প্রতিক্রিয়া প্রক্রিয়া এবং স্ব-মূল্যায়ন ক্ষমতা উন্নত করার উপর ফোকাস করে, এটি জ্ঞানীয় বিশ্বস্ততা বাড়ানোর জন্য একটি সম্ভাব্য আরও সমন্বিত এবং সামগ্রিক পদ্ধতির প্রস্তাব দেয়। এটি কেবল মডেলটিকে আরও ভাল উত্তরের দিকে পরিচালিত করার লক্ষ্য রাখে না বরং এটিকে একটি গভীর উপলব্ধি দিয়ে সজ্জিত করে কেন নির্দিষ্ট উত্তরগুলি ভাল, কৃত্রিম যুক্তির একটি আরও শক্তিশালী এবং নির্ভরযোগ্য রূপকে উৎসাহিত করে।

যেহেতু DeepSeek তার সম্ভাব্য পরবর্তী পদক্ষেপ R2-এর জন্য প্রস্তুতি নিচ্ছে, এই অভিনব যুক্তি কৌশল দ্বারা সজ্জিত, বাজি অনেক বেশি। কোম্পানিটি একটি তীব্র প্রতিযোগিতামূলক ল্যান্ডস্কেপ নেভিগেট করছে, বিশ্বব্যাপী প্রতিষ্ঠিত প্রযুক্তি জায়ান্ট এবং চটপটে স্টার্টআপগুলির পাশাপাশি চীনের ক্রমবর্ধমান AI দৃশ্যে শক্তিশালী দেশীয় প্রতিদ্বন্দ্বীদের মুখোমুখি হচ্ছে। সাফল্য কেবল প্রযুক্তিগত দক্ষতার উপর নির্ভর করে না বরং কৌশলগত অবস্থান, বাজার গ্রহণ এবং নির্ভরযোগ্য, পরিমাপযোগ্য এবং সম্ভবত গুরুত্বপূর্ণভাবে, ব্যয়-কার্যকর AI সমাধান সরবরাহ করার ক্ষমতার উপরও নির্ভর করে। তাদের উন্নত যুক্তি পদ্ধতির উন্মোচন DeepSeek-এর উচ্চাকাঙ্ক্ষার একটি স্পষ্ট সংকেত যে তারা AI দৌড়ে কেবল একজন অংশগ্রহণকারীর চেয়ে বেশি হতে চায় – তারা একটি পথপ্রদর্শক হতে চায়, বিশেষ করে মেশিনগুলিকে আরও গভীরভাবে এবং নির্ভরযোগ্যভাবে চিন্তা করানোর গুরুত্বপূর্ণ ডোমেনে। আগামী সপ্তাহ এবং মাসগুলি নির্ধারণে মুখ্য ভূমিকা পালন করবে যে এই নতুন কৌশলটি, সম্ভাব্যভাবে DeepSeek-R2-তে মূর্ত, একাডেমিক প্রতিশ্রুতিকে বাজার-বিঘ্নকারী কর্মক্ষমতায় অনুবাদ করতে পারে কিনা।