GPT-4.5-এর উৎস: দুই বছরের যাত্রা
GPT-4.5 উদ্যোগটি, এর উৎক্ষেপণের দুই বছর আগে পরিকল্পিত হয়েছিল। OpenAI-এর সবচেয়ে সতর্কতার সাথে পরিকল্পনা করা উদ্যোগ ছিল এটি। এটির জন্য শত শত ব্যক্তির সম্মিলিত প্রচেষ্টার প্রয়োজন ছিল, যেখানে Altman উল্লেখ করেছেন যে প্রকল্পটি কার্যকরভাবে OpenAI-এর ‘প্রায় সবাই’-কে নিযুক্ত করেছে। এই ব্যাপক অংশগ্রহণ সংস্থার বৃহত্তর মিশনের মধ্যে GPT-4.5-এর কৌশলগত গুরুত্বকে তুলে ধরে।
উন্নয়ন পর্যায়ে, OpenAI দল ‘catastrophic problem’ নামক সমস্যার সম্মুখীন হয়েছিল। 100,000 GPU-এর একটি ক্লাস্টারের স্থাপনার ফলে সুপ্ত অবকাঠামোগত দুর্বলতা দেখা দেয় যা বিরল কিন্তু গভীর ব্যর্থতা হিসাবে প্রকাশ পায়। তত্পরতা এবং সর্বোত্তম কর্মক্ষমতার মধ্যে ভারসাম্য বজায় রাখার জন্য, সিস্টেম প্রকৌশলীরা একটি পুনরাবৃত্তিমূলক পদ্ধতি গ্রহণ করেন, মূলত একই সাথে ‘তৈরি এবং ঠিক’ করেন। একটি বিশেষ অধরা বাগ ক্লাস্টারটিকে পুনরাবৃত্ত ত্রুটিগুলির সাথে জর্জরিত করেছিল, যা প্রায় 40% সমাপ্ত না হওয়া পর্যন্ত সনাক্ত করা যায়নি।
বৈপরীত্যভাবে, এই পরীক্ষাগুলি OpenAI-এর প্রযুক্তিগত ভিত্তি জোরদার করতে অবদান রেখেছে। অর্জিত দক্ষতা এখন 5-10 জনের একটি ছোট দলকে GPT-4-এর মাত্রার একটি মডেল পুনরুত্পাদন করতে সক্ষম করে। GPT-4 থেকে GPT-4.5-এর কর্মক্ষমতা প্রায় দশগুণ বেশি ছিল, যা ‘পরিমাপ করা কঠিন কিন্তু ব্যাপক উন্নত বুদ্ধিমত্তা’ দ্বারা চিহ্নিত করা হয়েছে, এমনকি OpenAI-এর ভিতরের লোকদেরও অবাক করে দিয়েছে। এই গুণগত উল্লম্ফন নিছক স্কেলিংয়ের বাইরেও অগ্রগতির ইঙ্গিত দেয়, যা মডেলের যুক্তি এবং বোঝার ক্ষমতার মৌলিক উন্নতির দিকে ইঙ্গিত করে।
ভবিষ্যতে, OpenAI স্বীকার করে যে কর্মক্ষমতার পরবর্তী মাত্রা অর্জন শুধুমাত্র কম্পিউটেশনাল পাওয়ারের উপর নির্ভর করবে না, বরং ডেটা দক্ষতার উপর নির্ভর করবে। বিদ্যমান ডেটাসেট থেকে আরও বেশি জ্ঞান আহরণ করতে পারে এমন অ্যালগরিদম বিকাশের দিকে মনোযোগ সরানো হচ্ছে, যার ফলে উপলব্ধ কম্পিউট সংস্থানগুলির উপযোগিতা সর্বাধিক করা যায়।
আরও, আর্কিটেকচার একটি একক-ক্লাস্টার থেকে একটি মাল্টি-ক্লাস্টার ডিজাইনে বিকশিত হচ্ছে, ভবিষ্যতে 10 মিলিয়ন GPU-এর মতো জুড়ে সহযোগী শিক্ষা জড়িত প্রশিক্ষণের পরিস্থিতিগুলির পরিকল্পনা করা হচ্ছে। এই পরিবর্তনের জন্য এই ধরনের বৃহৎ আকারের বিতরণ করা সিস্টেমগুলির স্থিতিশীলতা এবং নির্ভরযোগ্যতা নিশ্চিত করতে ফল্ট সহনশীলতার উল্লেখযোগ্য উন্নতির প্রয়োজন।
আলোচনাটি ডেটার ‘দীর্ঘ লেজ’ এবং স্কেলিং আইনের মধ্যে সম্পর্ক, মেশিন লার্নিং এবং সিস্টেম টিমের মধ্যে ঘনিষ্ঠ সহযোগিতার সুবিধা (কো-ডিজাইন), তত্ত্বাবধানবিহীন শিক্ষার সারমর্ম এবং সতর্কতার সাথে সমস্যা সমাধানের সংস্কৃতি নিয়েও আলোচনা করে।
GPT-4.5-এর পিছনে থাকা মূল খেলোয়াড়
Altman ছাড়াও, অন্য তিনজন OpenAI দলের সদস্য যারা এই আলোচনায় অংশ নিয়েছিলেন তারা হলেন:
- Alex Paino: GPT-4.5-এর প্রাক-প্রশিক্ষণ মেশিন লার্নিং অ্যালগরিদমের জন্য দায়ী।
- Amin Tootoonchian: OpenAI-এর প্রধান সিস্টেম আর্কিটেক্ট।
- Daniel Selsam: ডেটা দক্ষতা এবং অ্যালগরিদম নিয়ে গবেষণা করেন।
GPT-4.5-এর উৎপত্তি ও বিবর্তন
Sam Altman: GPT-4.5-এর মতো একটি বড় মডেল তৈরি করতে আসলে কী লাগে?
Alex Paino: আমরা প্রায় দুই বছর আগে এই প্রকল্পটি শুরু করেছি। সেই সময়ে, OpenAI একটি নতুন বড় কম্পিউটিং ক্লাস্টার চালু করতে যাচ্ছিল, এবং আমাদের দল এই সুযোগটি দেখেছিল এবং মডেলটিতে অন্তর্ভুক্ত করা দরকার এমন ফাংশনগুলি নির্ধারণ করার জন্য ধারাবাহিক কাজ করে এবং প্রচুর ঝুঁকি হ্রাস অপারেশন পরীক্ষা পরিচালনা করে।
আমরা সিস্টেম থেকে মেশিন লার্নিং পর্যন্ত পুরো প্রযুক্তি স্ট্যাক জড়িত করে এর জন্য একটি দীর্ঘ পরিকল্পনা তৈরি করেছি। ঝুঁকি হ্রাস করা এবং প্রশিক্ষণের জন্য প্রস্তুতি একটি দীর্ঘ সম্পাদনের প্রক্রিয়া এবং প্রশিক্ষণ নিজেই একটি খুব বড় প্রকল্প।
Amin Tootoonchian: আমি মনে করি এই প্রক্রিয়ার জন্য মেশিন লার্নিং টিম এবং সিস্টেম টিমের মধ্যে শুরু থেকে ঘনিষ্ঠ সহযোগিতা প্রয়োজন, যতক্ষণ না আমরা স্পষ্টভাবে জানি যে আমরা কোন মডেলটি প্রশিক্ষণ দিতে চাই এবং তারপরে প্রশিক্ষণ শুরু করি।
আমরা মেশিন লার্নিং এবং সিস্টেমে ভবিষ্যদ্বাণী করেছি, প্রত্যাশা এবং বাস্তবতার মধ্যে ব্যবধান কমানোর চেষ্টা করছি। যাইহোক, কারণ আমাদের কাজের ছন্দ খুব দ্রুত এবং আমাদের সর্বশেষ কম্পিউটিং সংস্থানগুলি ব্যবহার করতে হবে, তাই মডেল প্রশিক্ষণ এমন কিছু হয়ে গেছে যা আগে থেকে পুরোপুরি পরিকল্পনা করা কঠিন।
আমরা প্রায় সবসময় অনেক অমীমাংসিত সমস্যা নিয়ে প্রশিক্ষণ শুরু করি এবং প্রক্রিয়া চলাকালীন চ্যালেঞ্জগুলি কাটিয়ে উঠতে এবং অগ্রগতি করার চেষ্টা করি। প্রধান সমাধান হল আরও কম্পিউটিং সংস্থান বৃদ্ধি করা।
চূড়ান্ত পর্যায়টি হল সম্পাদন, যার জন্য অনেক লোককে প্রশিক্ষণের প্রক্রিয়াটি সম্পূর্ণ করার জন্য দীর্ঘ সময় ধরে প্রচুর শক্তি এবং প্রেরণা বিনিয়োগ করতে হয়।
Sam Altman: আমাদের প্রত্যাশা এবং বাস্তবতার মধ্যে ব্যবধান কতটা বলে আপনি মনে করেন?
Amin Tootoonchian: সিস্টেমের ক্ষেত্রে, শুরুতে, আমরা সাধারণত প্রত্যাশিত অবস্থা থেকে অনেক দূরে থাকি। আমরা সর্বদা একটি পছন্দের মুখোমুখি হই: লঞ্চ স্থগিত করা এবং সমস্যাটি সমাধান হওয়ার জন্য অপেক্ষা করা, নাকি তাড়াতাড়ি শুরু করা এবং প্রক্রিয়ার মধ্যে সমস্যাটি সমাধান করা। প্রক্রিয়াটিতে অযৌক্তিক বিলম্ব এড়াতে এটির জন্য সর্বদা ট্রেড-অফের প্রয়োজন।
তবে প্রায় সবসময় অপ্রত্যাশিত সমস্যা থাকে এবং আমাদের যা করতে হয় তা হল এই নোডগুলিকে যতটা সম্ভব পরিচালনা করা, অজানা কারণগুলির সাথে মোকাবিলা করা এবং মডেল প্রশিক্ষণের জন্য একটি পরিকল্পনা তৈরি করা।
Alex Paino: এই প্রকল্পে, আমাদের লক্ষ্য হল GPT-4.5 তৈরি করা, যার মানে হল যে এর ক্ষমতা GPT-4-এর চেয়ে 10 গুণ বেশি স্মার্ট হওয়া উচিত। এটি প্রায় 2 বছর আগে আমরা যে প্রাথমিক লক্ষ্য নির্ধারণ করেছিলাম।
এই প্রক্রিয়ায় অনেক কিছু ঘটেছে। আমরা ভাবছিলাম যে আমরা প্রত্যাশার চেয়ে ভাল করতে পারব নাকি খারাপ? এটি একটি খুব জটিল প্রক্রিয়া, তবে শেষ পর্যন্ত, আমরা যে কার্যকর গণনা করেছি তার পরিপ্রেক্ষিতে, আমরা এমন একটি মডেল পেয়েছি যা আমরা মনে করি GPT-4-এর চেয়ে 10 গুণ বেশি স্মার্ট।
Amin Tootoonchian: সম্পাদনের ক্ষেত্রে, GPT-4.5 প্রকল্পে যে সময় ব্যয় করা হয়েছে তা আমরা প্রাথমিকভাবে যা প্রত্যাশা করেছিলাম তার থেকে অনেক দূরে।
ক্ষুদ্র দলের বিপ্লব: ন্যূনতম সংস্থান দিয়ে GPT-4 প্রশিক্ষণ
Sam Altman: ক্লাস্টারটি 10,000 কার্ড থেকে 100,000 কার্ডে প্রসারিত হলে, আপনি এত সমস্যা কেন সম্মুখীন হয়েছিলেন?
Amin Tootoonchian: আমি মনে করি যদি সিস্টেম ডেভেলপাররা যথেষ্ট সংবেদনশীল হন তবে বেশিরভাগ সমস্যা ছোট আকারের পর্যায়ে পর্যবেক্ষণ করা যেতে পারে।
এমন কিছু সমস্যাও রয়েছে যা বৃহৎ আকারের প্রশিক্ষণ পর্যায়ের জন্য অনন্য নয়, তবে মূলত ঘন ঘন ঘটেছে, তবে স্কেল বাড়ানোর পরে catastrophic problem হয়ে যাবে, বিশেষ করে যখন দল আগে থেকে অনুমান করেনি যে এই সমস্যাগুলি এত খারাপ হবে।
Sam Altman: কী কী জিনিস বিপর্যয়কর পরিণতি ঘটিয়েছে?
Amin Tootoonchian: আমি মনে করি অবকাঠামোগত সমস্যাগুলি সুপরিচিত। ব্যর্থতার হার, ব্যর্থতার ধরণ এবং ব্যর্থতার মোট পরিমাণ খুব বেশি। 100,000 কার্ডের ক্লাস্টার একটি বৃহৎ আকারের নমুনা পুল, তাই আমরা এমন সমস্যাও আবিষ্কার করেছি যা কম্পিউটিং পাওয়ার সরবরাহকারী পর্যবেক্ষণ করেনি।
নেটওয়ার্ক এটির একটি অংশ এবং পৃথক অ্যাক্সিলারেটরগুলিরও সমস্যা থাকতে পারে। তবে এটি এই সিস্টেমের সৌন্দর্যও - প্রত্যাশিত ফলাফল তৈরি করতে প্রায় সমস্ত উপাদানকে প্রত্যাশিতভাবে কাজ করতে হবে। আমাদের কাজ হল এই সমস্যাটি যতটা সম্ভব কমানো।
Sam Altman: ক্লাস্টার স্কেলের সীমাতে কাজ করা সত্যিই কঠিন, তবে আমি এটাও লক্ষ্য করেছি যে এমন কিছু করা যা আর প্রযুক্তির অগ্রভাগে নেই তা অনেক সহজ হয়ে গেছে। GPT-4.5 প্রশিক্ষণের জন্য শত শত লোকের প্রয়োজন, এবং OpenAI-এর প্রায় সবাই জড়িত।
তবে আজ, আপনি যদি OpenAI থেকে সবচেয়ে ছোট একটি দল বেছে নেন এবং আমরা জানি এমন সমস্ত জ্ঞান এবং সমস্ত সিস্টেম কাজ দিয়ে স্ক্র্যাচ থেকে GPT-4 কে পুনরায় প্রশিক্ষণ দেন, তাহলে এতে কতজন লোক লাগবে?
Alex Paino: আমি মনে করি এখন GPT-4-স্তরের মডেল তৈরি করতে প্রায় 5 থেকে 10 জন লোক লাগতে পারে। GPT-4.5 সম্পূর্ণ করার প্রক্রিয়ায় প্রযুক্তি স্ট্যাকের অনেক উন্নতি হয়েছে।
আসলে, আমরা GPT-4.5 প্রশিক্ষণের প্রক্রিয়ায় অনুরূপ কাজ করেছি - আমরা GPT-4o প্রশিক্ষণ দিয়েছি, যা একটি GPT-4-স্তরের মডেল, এবং GPT-4.5 গবেষণা প্রকল্পের অনেক একই সামগ্রী ব্যবহার করে এটিকে পুনরায় প্রশিক্ষণ দিয়েছি। সেই প্রশিক্ষণের জন্য কম লোক ব্যবহার করা হয়েছিল।
ডেটা দক্ষতা: মডেলের পরবর্তী প্রজন্মকে আনলক করার চাবিকাঠি
Sam Altman: আপনার দৃষ্টিকোণ থেকে, Dan? বড় মডেল প্রশিক্ষণ দেওয়া কঠিন কেন?
Daniel Selsam: আমি মনে করি নতুন কিছু করা কঠিন। আমি মনে করি এমনকি কেউ অন্য কিছু করেছে তা আবিষ্কার করাও অনেক সহজ করে তোলে, কারণ সবচেয়ে কঠিন অংশটি হল প্রথমে বিশ্বাস করা যে আপনি কিছু করতে পারেন। আমি মনে করি শুধু এটা জানা যে কিছু সম্ভব সেটি একটি সুপার চিট কোড, যা জিনিসগুলিকে অনেক সহজ করে তোলে।
Alex Paino: আমরা GPT প্রি-ট্রেনিং অপারেশনটিকে আগের চেয়ে 10 গুণ প্রসারিত করছি, এবং আমরা সর্বদা কিছু আকর্ষণীয় নতুন জিনিস খুঁজে পাব যা আপনি প্রয়োজনীয়ভাবে ভবিষ্যদ্বাণী করতে পারবেন না।
Sam Altman: প্রি-ট্রেনিং স্কেলে পরবর্তী 10x বা 100x বৃদ্ধি অর্জনের জন্য কী প্রয়োজন?
Daniel Selsam: ডেটা দক্ষতা। ট্রান্সফরমার আর্কিটেকচার (যা হল GPT) ডেটা ব্যবহারে খুব দক্ষ। এটি তথ্য শোষণ এবং ভালভাবে সংকুচিত করতে পারে এবং সাধারণীকরণ অর্জন করতে পারে। এর সবচেয়ে বড় বৈশিষ্ট্য হল এটি কম্পিউটিং সংস্থানগুলির সাথে দক্ষতার সাথে তথ্য শোষণ করতে পারে।
তবে, ডেটা থেকে প্রাপ্ত অন্তর্দৃষ্টির গভীরতা সীমিত। যখন কম্পিউটিং পাওয়ার দ্রুত বৃদ্ধি পায় যেখানে ডেটা তুলনামূলকভাবে ধীরে ধীরে বৃদ্ধি পায়, তখন এই স্ট্যান্ডার্ড মডেলে ডেটা একটি বাধা হয়ে দাঁড়ায়। এর জন্য অ্যালগরিদমিক উদ্ভাবনের প্রয়োজন, এমন পদ্ধতি তৈরি করা যা একই পরিমাণ ডেটা থেকে আরও বেশি জ্ঞান শিখতে আরও বেশি কম্পিউটিং পাওয়ার ব্যবহার করতে পারে।
Sam Altman: এটি ছাড়াও সম্প্রসারণ বজায় রাখতে আমাদের আর কী প্রয়োজন বলে আপনি মনে করেন?
Amin Tootoonchian: আমার উত্তরটি সিস্টেম সম্পর্কে। আমি মনে করি GPT-4.5-এর জন্য প্রয়োজনীয় বিশাল পরিমাণ কাজ মূলত মডেল স্পেসিফিকেশনের অনিবার্য ফলাফল। আমরা GPT-4.5 কে GPT-4 এর মতো একই প্রযুক্তিগত আর্কিটেকচার দিয়ে প্রশিক্ষণ দিতে পারি না।
স্টেট ম্যানেজমেন্টের ক্ষেত্রে, প্রয়োজনীয় কম্পিউটিং সংস্থানগুলি একটি একক ক্লাস্টারের বহন ক্ষমতা ছাড়িয়ে গেছে, তাই আমাদের একটি মাল্টি-ক্লাস্টার প্রশিক্ষণ আর্কিটেকচারে স্যুইচ করতে হবে। এই লক্ষ্য অর্জনের জন্য, আমাদের অবশ্যই অল্প সময়ের মধ্যে একাধিক ভিন্ন ওয়ার্কফ্লো একত্রিত করতে হবে।
যদিও এটি আমাদের একটি পর্যায়ক্রমিক সাফল্য অর্জনে সহায়তা করেছে, কর্মক্ষমতা উন্নতির পরবর্তী অর্ডারে পৌঁছানোর জন্য, আমাদের এখনও বেশ কয়েকটি পরিচিত তবে সাময়িকভাবে স্থগিত করা প্রযুক্তিগত সমস্যা সমাধান করতে হবে - এই সমস্যাগুলি এড়ানো যায় না। এটি এই ধরণের প্রযুক্তিগত ট্রেড-অফ যা ক্রমাগত একটি নিখুঁত সিস্টেমের বিকাশের চক্রকে দীর্ঘায়িত করে। আমরা সর্বদা সর্বোত্তম বাস্তবায়ন পরিকল্পনার অনুসরণে কৌশলগত ট্রেড-অফ করছি।
এটি স্পষ্ট হওয়া দরকার যে সিস্টেম নিজেই চূড়ান্ত লক্ষ্য নয়। এর প্রকৃত আউটপুট মান হল মূল বিবেচনা। পরবর্তী 10x কর্মক্ষমতা উন্নতির জন্য, আমি মনে করি ফল্ট সহনশীলতায় অগ্রগতি অত্যন্ত গুরুত্বপূর্ণ। আমাদের একটি ফল্ট-সহনশীল প্রক্রিয়া তৈরি করতে হবে যা অপারেশন এবং রক্ষণাবেক্ষণের উদ্বেগ উল্লেখযোগ্যভাবে কমাতে ওয়ার্কলোডের সাথে গভীরভাবে সহযোগিতা করে। বর্তমান সুপার-লার্জ সিস্টেমের অপারেশন এবং রক্ষণাবেক্ষণের জটিলতা মূলত আগের সিস্টেমগুলির থেকে আলাদা।
Sam Altman: GPT-4.5 প্রশিক্ষণের সময় নির্দিষ্ট উপাদানগুলির কারণে কত শতাংশ ব্যর্থতা হয়েছে তা কি আপনি জানেন?
Amin Tootoonchian: শেয়ার করার জন্য আমার কাছে নির্দিষ্ট সংখ্যা নেই, তবে সাধারণভাবে, নতুন প্রজন্মের হার্ডওয়্যারের প্রাথমিক স্থাপনার ক্ষেত্রে প্রায়শই অনেক প্রযুক্তিগত চ্যালেঞ্জের মুখোমুখি হতে হয় যা সম্পূর্ণরূপে বোঝা যায়নি। সমস্যাটি সম্পূর্ণরূপে স্পষ্ট হওয়ার আগে আমরা প্রকল্পটি এগিয়ে নিয়ে যাওয়ার সিদ্ধান্ত নিয়েছি, যার ফলে প্রাথমিকভাবে ব্যর্থতার হার বেশি ছিল।
তবে অভিজ্ঞতা দেখায় যে মূল কারণ সনাক্ত এবং সমাধান করার সাথে সাথে ব্যর্থতার হার উল্লেখযোগ্যভাবে হ্রাস পাবে। এই ঘটনাটি মূলত অবকাঠামোর বিষয়ে আমাদের গভীরতর বোঝাপড়াকে প্রতিফলিত করে - কেউ কেউ এটিকে অবকাঠামো পরিষ্কার করা বা অবকাঠামোর মৌলিক সমস্যা বোঝা বলে।
কার্যকরকরণের প্রথম পর্যায়গুলি প্রায় সবসময় বেশ বেদনাদায়ক হয়। আমরা প্রকল্পটি এগিয়ে নিয়ে যাওয়ার সময়, আমরা ক্রমাগত নতুন ব্যর্থতার পদ্ধতি আবিষ্কার এবং সমাধান করছি, তবে শেষ পর্যন্ত ব্যর্থতার হার ধীরে ধীরে হ্রাস পাবে এবং স্বাভাবিক চলমান সময় বাড়বে।
এটি মূলত অগ্রাধিকার ট্রেড-অফের বিষয়: অবকাঠামোর জীবনচক্রের প্রাথমিক পর্যায়ে, এর ব্যর্থতার ঝুঁকি প্রায়শই সঠিকভাবে অনুমান করা কঠিন; এবং যদি আমরা অতিরিক্ত পরিমাণে চূড়ান্ত আদর্শ অবস্থার (মূলটি হল ‘সিটি এস্টেট’, আদর্শ সিটি-স্টেট ডিজাইন) অনুসরণ করি তবে এটি সিস্টেমের দিকে পরিচালিত করতে পারে প্রাথমিকভাবে উপলব্ধতা কর্মক্ষমতা অত্যন্ত দুর্বল।
কম্পিউট ছাড়িয়ে: অ্যালগরিদমিক উদ্ভাবন এবং ডেটার অব্যবহৃত সম্ভাবনা
Sam Altman: যদিও অনুমিত মডেলটি আমাদের ভবিষ্যতের প্রযুক্তি স্ট্যাকের একটি মূল উপাদান, তবে আসুন আপাতত ঐতিহ্যবাহী প্রি-ট্রেনিং মডেলগুলির বিকাশের সীমানাগুলিতে ফোকাস করি। ধরে নিচ্ছি আমাদের কাছে সীমাহীন GPU কম্পিউটিং পাওয়ার, সীমাহীন নেটওয়ার্ক ব্যান্ডউইথ এবং সীমাহীন পাওয়ার সাপ্লাই রয়েছে, তবে বিদ্যমান প্রযুক্তিগত বাধা দ্বারা এখনও সীমাবদ্ধ - সিস্টেম নির্ভরযোগ্যতা সমস্যা, ফল্ট-সহনশীল প্রশিক্ষণের পদ্ধতির অভাব এবং বিদ্যমান ডেটাসেটের সীমাবদ্ধতা সহ।
প্রতিটি প্রধান GPT সংস্করণ নম্বরের জন্য 100-গুণ স্কেল বৃদ্ধির আমাদের বিবর্তন বিধি অনুসারে, বর্তমান প্রযুক্তিগত সীমানার ভিত্তিতে, প্রি-ট্রেনিং মডেলগুলির বিকাশ কোন স্তরে পৌঁছাতে পারে? বিশেষভাবে, GPT সিরিজের মডেলগুলির জন্য, আমাদের বিদ্যমান জ্ঞান ব্যবস্থার ভিত্তিতে, তাত্ত্বিকভাবে কী ধরণের মডেল প্রশিক্ষণ দেওয়া যেতে পারে? আমরা কি GPT-5.5 তৈরি করতে পারি?
Alex Paino: মেশিন লার্নিং এবং অ্যালগরিদম বিকাশের দৃষ্টিকোণ থেকে, আমরা এখনও একটি স্পষ্ট তাত্ত্বিক সীমায় পৌঁছাইনি। প্রকৃতপক্ষে, আমরা কেবল ডেটা দক্ষতার সাথে উচ্চতর অ্যালগরিদমগুলি কীভাবে তৈরি করা যায় এবং কীভাবে বিদ্যমান ডেটা সংস্থানগুলির আরও বেশি ব্যবহার করা যায় তা অনুসন্ধান করতে শুরু করেছি। এই পরিস্থিতিটি খুব আকর্ষণীয় - এমনকি GPT-4 এর মতো মডেলগুলিও মূলত সীমিত কম্পিউটিং সংস্থানগুলির অধীনে তৈরি করা হয়েছে, যা বেশিরভাগ পূর্ববর্তী গবেষণার দিকনির্দেশনা নির্ধারণ করেছে।
তবে পরিস্থিতি এখন সম্পূর্ণ আলাদা। GPT-4.5 এর পর থেকে, কিছু মূল মাত্রায়, গণনার চেয়ে ডেটা প্রধান বাধা হয়ে উঠছে। এই পরিবর্তনের কারণে সম্পর্কিত গবেষণা কম উত্তেজনাপূর্ণ হয়ে উঠছে।
Sam Altman: তবে এটি সত্যিই একটি আশ্চর্যজনক অগ্রগতি, এবং বিশ্ব সম্ভবত সম্পূর্ণরূপে উপলব্ধি করতে পারবে না যে আমরা তৈরি করতে পারি এমন সেরা মডেলের প্রধান বাধা আর কম্পিউটেশনাল সংস্থান নয়। এই পরিবর্তনটি খুব অর্থবহ, সর্বোপরি, আমরা অনেক দিন ধরে কম্পিউটেশনালি সীমিত পরিবেশে বাস করছি।
আশ্চর্যজনক উন্মোচন: পূর্বাভাসযোগ্যতা বনাম অপ্রত্যাশিত বুদ্ধিমত্তা
Sam Altman: GPT-4.5 এর প্রশিক্ষণে আমরা সবচেয়ে আকর্ষণীয় মেশিন লার্নিং অভিজ্ঞতা কী শিখেছি? আপনি যা ভাগ করতে চান তা বলুন।
Amin Tootoonchian: সাধারণভাবে, সবচেয়ে চিন্তামূলক জিনিসগুলি হল সেগুলি যা আমাদের ভবিষ্যদ্বাণী থেকে বিচ্যুত হয় - বিশেষ করে যখন আমরা বোঝার চেষ্টা করি কেন প্রকৃত কর্মক্ষমতা প্রত্যাশিত বক্ররেখা থেকে বিচ্যুত হয়।
Alex Paino: আমাদের জন্য সবচেয়ে আশ্চর্যজনক আবিষ্কারগুলির মধ্যে একটি হল বিভিন্ন মেশিন লার্নিং উপাদানগুলির খুব আলাদা মাপযোগ্য কর্মক্ষমতা রয়েছে। কিছু অংশ খুব ভালভাবে প্রসারিত করা যেতে পারে, অন্যরা পারে না। এটি আমরা প্রকৃত প্রশিক্ষণ প্রক্রিয়ার সময় উপলব্ধি করেছি। এই অভিজ্ঞতা আমাদের অনেক অনুপ্রেরণা দিয়েছে।
Daniel Selsam: আমি মনে করি GPT দৃষ্টান্তের দুটি মূল বৈশিষ্ট্য হল: প্রথমত, পরীক্ষার ক্ষতি (এমন একটি মেট্রিক যা পরিমাপ করে যে মডেলটি কতটা ভালোভাবে অদেখা পরীক্ষার ডেটাতে পারফর্ম করে) সঠিকভাবে অনুমান করা যেতে পারে; দ্বিতীয়ত, মডেলের কর্মক্ষমতা স্কেল বৃদ্ধির সাথে একটি পূর্বাভাসযোগ্য উন্নতি দেখায়। আরও আশ্চর্যজনক বিষয় হল পরীক্ষার ক্ষতির হ্রাস বিভিন্ন কঠিন-থেকে-পরিমাণ কিন্তু আশ্চর্যজনক এবং রহস্যময় উপায়ে একটি সর্বাত্মক উন্নত স্তরের বুদ্ধিমত্তায় রূপান্তরিত হবে।
Sam Altman: আপনি কি এই বিষয়ে একেবারে আশাবাদী? আপনি কি সম্পূর্ণরূপে এই দৃষ্টিভঙ্গির সাথে একমত?
Daniel Selsam: আসলে, আমি যা বলতে চাইছি তা হল আমরা GPT-4.5 পরীক্ষায় একটি বিশেষভাবে আকর্ষণীয় ঘটনা খুঁজে পেয়েছি - পুনরায় পরীক্ষা করার পরে, মডেলটি যে অনেক পরিশীলিত ক্ষমতা দেখিয়েছে তা সম্পূর্ণরূপে সবার প্রত্যাশা ছাড়িয়ে গেছে।
আমরা নিশ্চিত যে এটি বিভিন্ন উপায়ে আরও স্মার্ট হয়ে উঠবে যা আগে থেকে সংজ্ঞায়িত করা কঠিন, এবং এই সূক্ষ্ম উন্নতিগুলি প্রকৃত স্থাপনের পরে ব্যবহারকারীর সন্তুষ্টি থেকে পর্যবেক্ষণ করা যেতে পারে: শক্তিশালী সাধারণ জ্ঞান রিজার্ভ, আরও সঠিক প্রাসঙ্গিক বোঝার ক্ষমতা, এবং আরও সূক্ষ্ম শব্দার্থিক উপলব্ধি - এটি সেই অতিরিক্ত পরীক্ষার ক্ষতির দ্বারা আনা জাদু। আমার মতে, স্কেলিং আইন এই মাত্রায় পুরোপুরি যাচাই করা হয়েছে।
সহযোগিতার শক্তি: মেশিন লার্নিং এবং সিস্টেম টিমগুলি একত্রে কাজ করে
Sam Altman: পুরো প্রশিক্ষণ প্রক্রিয়ার সবচেয়ে ইতিবাচক মুহূর্ত কী ছিল? আপনার প্রিয় স্মৃতি কী? স্পষ্টতই অনেক কষ্ট আছে, তবে আমি আশা করি সেই কষ্ট লাঘব হয়েছে।
Alex Paino: আমার এমন একটি মুহূর্ত আছে। আমরা প্রশিক্ষণের সময় অনেক মেশিন লার্নিং কাজ করেছি এবং আমি মনে করি প্রক্রিয়ার সময় আমরা যে পরিবর্তনগুলি করেছি তার একটি বেশ ভাল প্রভাব ফেলেছে, সম্ভবত প্রত্যাশার চেয়েও ভাল, যা আমাদের জন্য একটি খুব উত্তেজনাপূর্ণ মুহূর্ত ছিল।
Amin Tootoonchian: আমার জন্য, প্রশিক্ষণের সাথে সাথে আমরা অবকাঠামোও তৈরি করছি। আমরা দৃঢ়ভাবে বিশ্বাস করি যে আমরা এই কর্মক্ষমতা ক্লিফ অতিক্রম করতে পারি, এবং আমাদের একটি পরিকল্পনা আছে, এবং সবাই এটি কার্যকর করছে, তবে এতে দীর্ঘ সময় লাগে। এটি কঠিন কাজ এবং অবশ্যই আমার ধারণার চেয়ে বেশি কঠিন। আমার ভবিষ্যদ্বাণী ভুল ছিল এবং আমি এই সমস্যাগুলি সমাধ