GPT-4.5 কি ব্যর্থ ছিল? OpenAI-এর মডেলের বিশ্লেষণ

GPT-4.5 এর আকার এবং সুযোগ

GPT-4.5 হল OpenAI-এর এখন পর্যন্ত সবচেয়ে বড় আকারের প্রচেষ্টা। যদিও এর আর্কিটেকচার এবং প্রশিক্ষণের ডেটা সম্পর্কে সুনির্দিষ্ট বিবরণ অপ্রতুল, তবে এটি জানা যায় যে প্রশিক্ষণ প্রক্রিয়াটি এতটাই কম্পিউটেশনালি ইনটেনসিভ ছিল যে এটিকে একাধিক ডেটা সেন্টারে ডিস্ট্রিবিউট করতে হয়েছিল। এই বিষয়টিই এর বিকাশে ঢেলে দেওয়া বিশাল রিসোর্সের ইঙ্গিত দেয়।

মডেলটির মূল্য কাঠামো এটিকে একটি প্রিমিয়াম অফার হিসাবে প্রতিষ্ঠিত করে। এর পূর্বসূরিদের তুলনায় খরচ উল্লেখযোগ্যভাবে বেশি, GPT-4o-এর চেয়ে ১৫-৩০ গুণ, o1-এর চেয়ে ৩-৫ গুণ এবং Claude 3.7 Sonnet-এর চেয়ে ১০-২৫ গুণ বেশি। অ্যাক্সেস বর্তমানে ChatGPT Pro সাবস্ক্রাইবারদের ($200 প্রতি মাসে) এবং API ক্লায়েন্ট যারা প্রতি-টোকেন ভিত্তিতে অর্থ প্রদান করতে ইচ্ছুক তাদের মধ্যে সীমাবদ্ধ।

তবে, কার্যকারিতার উন্নতি, অন্তত কিছু ক্ষেত্রে, মূল্যবৃদ্ধির সাথে সঙ্গতিপূর্ণ হয়নি। প্রাথমিক বেঞ্চমার্কগুলিতে GPT-4o-এর তুলনায় সামান্য উন্নতি দেখা গেছে এবং এমনকি GPT-4.5, o1 এবং o3-mini-এর মতো মডেলগুলির চেয়ে যুক্তিনির্ভর (reasoning) কাজে পিছিয়ে ছিল।

GPT-4.5 এর উদ্দিষ্ট উদ্দেশ্য বোঝা

এটা স্বীকার করা অত্যন্ত গুরুত্বপূর্ণ যে OpenAI কখনই GPT-4.5 কে তাদের ফ্ল্যাগশিপ, সর্ব-উদ্দেশ্য মডেল হিসাবে বাজারজাত করেনি। প্রকৃতপক্ষে, তাদের ব্লগ পোস্টের প্রাথমিক সংস্করণগুলিতে স্পষ্ট করা হয়েছিল যে এটিকে ক্ষমতার পরম সীমানা ঠেলে দেওয়ার জন্য একটি ‘ফ্রন্টিয়ার মডেল’ হিসাবে তৈরি করা হয়নি। উপরন্তু, এটি প্রাথমিকভাবে একটি যুক্তিনির্ভর (reasoning) মডেল হিসাবে ডিজাইন করা হয়নি, তাই এটির সাথে সেই উদ্দেশ্যে অপ্টিমাইজ করা মডেলগুলির (যেমন o3 এবং DeepSeek-R1) সরাসরি তুলনা কিছুটা বিভ্রান্তিকর।

OpenAI ইঙ্গিত দিয়েছে যে GPT-4.5 হবে তাদের চূড়ান্ত নন-চেইন-অফ-থট মডেল। এর মানে হল এর প্রশিক্ষণটি জটিল যুক্তিনির্ভর (reasoning) ক্ষমতা বিকাশের পরিবর্তে বিশাল পরিমাণে বিশ্ব জ্ঞানকে এম্বেড করা এবং ব্যবহারকারীর পছন্দের সাথে সারিবদ্ধ করার উপর দৃষ্টি নিবদ্ধ করে।

যেখানে GPT-4.5 উজ্জ্বল হতে পারে: জ্ঞান এবং সূক্ষ্মতা

বৃহত্তর মডেলগুলির মূল সুবিধা প্রায়শই জ্ঞান অর্জনের জন্য তাদের প্রসারিত ক্ষমতার মধ্যে নিহিত থাকে। GPT-4.5, এই নীতির সাথে সঙ্গতি রেখে, তার ছোট প্রতিরূপগুলির তুলনায় হ্যালুসিনেট করার প্রবণতা কম দেখায়। এটি এমন পরিস্থিতিতে সম্ভাব্যভাবে মূল্যবান করে তোলে যেখানে তথ্য এবং প্রাসঙ্গিক তথ্যের প্রতি কঠোর আনুগত্য সর্বাগ্রে গুরুত্বপূর্ণ।

অধিকন্তু, GPT-4.5 ব্যবহারকারীর নির্দেশাবলী এবং পছন্দগুলি অনুসরণ করার একটি উন্নত ক্ষমতা প্রদর্শন করে। এটি OpenAI দ্বারা বিভিন্ন প্রদর্শনীতে প্রদর্শিত হয়েছে এবং অনলাইনে শেয়ার করা ব্যবহারকারীর অভিজ্ঞতা দ্বারা সমর্থিত হয়েছে। মডেলটি ব্যবহারকারীর অভিপ্রায়ের সূক্ষ্মতাগুলিকে আরও কার্যকরভাবে উপলব্ধি করতে পারে বলে মনে হয়, যার ফলে আরও উপযুক্ত এবং প্রাসঙ্গিক আউটপুট পাওয়া যায়।

গদ্যের গুণমান নিয়ে বিতর্ক: বিষয়ভিত্তিকতা এবং সম্ভাবনা

GPT-4.5 এর উন্নত গদ্য তৈরি করার ক্ষমতা সম্পর্কে একটি প্রাণবন্ত আলোচনা শুরু হয়েছে। কিছু OpenAI এক্সিকিউটিভ মডেলটির আউটপুট গুণমানের প্রশংসা করেছেন, CEO Sam Altman এমনও পরামর্শ দিয়েছেন যে এটির সাথে ইন্টারঅ্যাক্ট করা কিছু বিচক্ষণ পরীক্ষকের জন্য ‘AGI’ (কৃত্রিম সাধারণ বুদ্ধিমত্তা) এর একটি আভাস প্রদান করেছে।

যাইহোক, বৃহত্তর প্রতিক্রিয়া মিশ্রিত হয়েছে। OpenAI-এর সহ-প্রতিষ্ঠাতা Andrej Karpathy, বিশুদ্ধ যুক্তিনির্ভর (reasoning) উপর কম নির্ভরশীল কাজগুলিতে উন্নতির প্রত্যাশা করেছিলেন, ‘EQ’ (আবেগগত বুদ্ধিমত্তা), সৃজনশীলতা, সাদৃশ্য তৈরি এবং হাস্যরসের মতো ক্ষেত্রগুলির উপর জোর দিয়েছিলেন - যে দিকগুলি প্রায়শই বিশ্ব জ্ঞান এবং সাধারণ বোঝার দ্বারা বাধাগ্রস্ত হয়।

মজার ব্যাপার হল, Karpathy-এর পরিচালিত একটি সমীক্ষায় লেখার মানের ক্ষেত্রে GPT-4.5-এর প্রতিক্রিয়ার চেয়ে GPT-4o-এর প্রতিক্রিয়াগুলির প্রতি সাধারণ ব্যবহারকারীর পছন্দ প্রকাশ পেয়েছে। এটি গদ্য মূল্যায়নের অন্তর্নিহিত বিষয়গততাকে তুলে ধরে এবং পরামর্শ দেয় যে দক্ষ প্রম্পট ইঞ্জিনিয়ারিং ছোট, আরও দক্ষ মডেলগুলি থেকে তুলনামূলক গুণমান বের করে আনতে পারে।

Karpathy নিজেও ফলাফলের অস্পষ্টতা স্বীকার করেছেন, বিভিন্ন সম্ভাব্য ব্যাখ্যার পরামর্শ দিয়েছেন: ‘হাই-টেস্ট’ পরীক্ষকরা সূক্ষ্ম কাঠামোগত উন্নতিগুলি উপলব্ধি করতে পারে যা অন্যরা মিস করেছে, পরীক্ষিত উদাহরণগুলি আদর্শ নাও হতে পারে, অথবা পার্থক্যগুলি একটি ছোট নমুনার আকারে বোঝার জন্য খুব সূক্ষ্ম হতে পারে।

স্কেলিং এর সীমাবদ্ধতা এবং LLMs এর ভবিষ্যত

GPT-4.5 এর প্রকাশ, কিছু ক্ষেত্রে, বিশাল ডেটাসেটের উপর প্রশিক্ষিত মডেলগুলিকে কেবল স্কেল করার সম্ভাব্য সীমাবদ্ধতাগুলিকে তুলে ধরে। Ilya Sutskever, OpenAI-এর আরেক সহ-প্রতিষ্ঠাতা এবং প্রাক্তন প্রধান বিজ্ঞানী, NeurIPS 2024-এ বিখ্যাতভাবে বলেছিলেন যে ‘প্রি-ট্রেনিং যেমনটি আমরা জানি তা নিঃসন্দেহে শেষ হবে… আমরা সর্বোচ্চ ডেটাতে পৌঁছেছি এবং আর থাকবে না। আমাদের কাছে যে ডেটা আছে তা নিয়েই কাজ করতে হবে। একটাই ইন্টারনেট আছে।’

GPT-4.5-এর সাথে পরিলক্ষিত হ্রাসমান রিটার্নগুলি প্রাথমিকভাবে ইন্টারনেট ডেটার উপর প্রশিক্ষিত এবং মানব প্রতিক্রিয়া থেকে রিইনফোর্সমেন্ট লার্নিং (RLHF) এর মাধ্যমে অ্যালাইনমেন্টের জন্য ফাইন-টিউন করা সাধারণ-উদ্দেশ্য মডেলগুলিকে স্কেল করার চ্যালেঞ্জগুলির একটি প্রমাণ হিসাবে কাজ করে।

বৃহৎ ভাষা মডেলগুলির জন্য পরবর্তী ফ্রন্টিয়ার বলে মনে হচ্ছে টেস্ট-টাইম স্কেলিং (বা ইনফারেন্স-টাইম স্কেলিং)। এর মধ্যে রয়েছে চেইন-অফ-থট (CoT) টোকেন তৈরি করে দীর্ঘ সময় ধরে ‘চিন্তা’ করার জন্য মডেলগুলিকে প্রশিক্ষণ দেওয়া। টেস্ট-টাইম স্কেলিং একটি মডেলের জটিল যুক্তিনির্ভর (reasoning) সমস্যাগুলি মোকাবেলা করার ক্ষমতা বাড়ায় এবং o1 এবং R1-এর মতো মডেলগুলির সাফল্যের একটি মূল কারণ।

ব্যর্থতা নয়, একটি ভিত্তি

যদিও GPT-4.5 প্রতিটি কাজের জন্য সর্বোত্তম পছন্দ নাও হতে পারে, ভবিষ্যতের অগ্রগতির জন্য একটি ভিত্তিগত উপাদান হিসাবে এর সম্ভাব্য ভূমিকাটি স্বীকার করা অত্যন্ত গুরুত্বপূর্ণ। আরও উন্নত যুক্তিনির্ভর (reasoning) মডেলগুলির বিকাশের জন্য একটি শক্তিশালী জ্ঞানের ভিত্তি অপরিহার্য।

এমনকি যদি GPT-4.5 নিজেই বেশিরভাগ অ্যাপ্লিকেশনের জন্য গো-টু মডেল না হয়ে ওঠে, তবুও এটি পরবর্তী যুক্তিনির্ভর (reasoning) মডেলগুলির জন্য একটি গুরুত্বপূর্ণ বিল্ডিং ব্লক হিসাবে কাজ করতে পারে। এটা এমনকি যুক্তিসঙ্গত যে এটি ইতিমধ্যেই o3-এর মতো মডেলগুলির মধ্যে ব্যবহার করা হচ্ছে।

Mark Chen, OpenAI-এর চিফ রিসার্চ অফিসার যেমন ব্যাখ্যা করেছেন, ‘যুক্তিনির্ভর (reasoning) ক্ষমতা তৈরি করার জন্য আপনার জ্ঞানের প্রয়োজন। একটি মডেল অন্ধভাবে প্রবেশ করতে পারে না এবং স্ক্র্যাচ থেকে যুক্তিনির্ভর (reasoning) শিখতে পারে না। তাই আমরা এই দুটি দৃষ্টান্তকে একে অপরের পরিপূরক বলে মনে করি এবং আমরা মনে করি যে তাদের একে অপরের উপর প্রতিক্রিয়া লুপ রয়েছে।’

অতএব, GPT-4.5 এর বিকাশ একটি ডেড এন্ড নয়, বরং বৃহৎ ভাষা মডেলগুলির চলমান বিবর্তনের একটি কৌশলগত পদক্ষেপ। এটি AI গবেষণার পুনরাবৃত্তিমূলক প্রকৃতির একটি প্রমাণ, যেখানে প্রতিটি পদক্ষেপ, এমনকি যদি বিচ্ছিন্নভাবে আপাতদৃষ্টিতে অপ্রতুল মনে হয়, তবুও আরও সক্ষম এবং বহুমুখী AI সিস্টেমের দিকে বৃহত্তর অগ্রগতিতে অবদান রাখে। ফোকাস এখন এই শক্তিশালী জ্ঞানের ভিত্তিকে কাজে লাগিয়ে এমন মডেল তৈরি করার দিকে সরে যাচ্ছে যা কেবল তথ্য স্মরণ করতে পারে না, সেইসাথে অভূতপূর্ব কার্যকারিতার সাথে যুক্তি করতে এবং সমস্যার সমাধান করতে পারে। সত্যিকারের বুদ্ধিমান AI-এর দিকে যাত্রা অব্যাহত রয়েছে এবং GPT-4.5, তার মিশ্র অভ্যর্থনা সত্ত্বেও, সেই যাত্রায় একটি গুরুত্বপূর্ণ ভূমিকা পালন করে।
এখন ফোকাস শুধু একটি মডেল কতটা জানে তার উপর নয়, সেই জ্ঞানকে এটি কতটা ভালোভাবে ব্যবহার করতে পারে তার উপর। এটিই মূল চ্যালেঞ্জ যার সাথে AI সম্প্রদায় লড়াই করছে, এবং GPT-4.5, একটি নিখুঁত সমাধান না হলেও, মূল্যবান অন্তর্দৃষ্টি এবং ভবিষ্যতের সাফল্যের জন্য একটি শক্ত ভিত্তি প্রদান করে। সামনের পথে বিদ্যমান কৌশলগুলিকে পরিমার্জিত করা, নতুন আর্কিটেকচার অন্বেষণ করা এবং প্রশিক্ষণ ও মূল্যায়নের জন্য আরও উন্নত পদ্ধতি বিকাশের মতো একাধিক পদ্ধতির সমন্বয় জড়িত। চূড়ান্ত লক্ষ্য একই রয়ে গেছে: এমন AI সিস্টেম তৈরি করা যা কেবল মানুষের ভাষা বুঝতে এবং তৈরি করতে পারে না, সেইসাথে যুক্তি করতে, শিখতে এবং এমনভাবে মানিয়ে নিতে পারে যা একসময় মানুষের বুদ্ধিমত্তার বিশেষ ক্ষেত্র হিসাবে বিবেচিত হত।