OpenAI-এর GPT-4.5 প্রশিক্ষণ: গভীরে অনুসন্ধান

OpenAI-এর GPT-4.5 প্রশিক্ষণ: কম্পিউটেশনাল চ্যালেঞ্জ এবং যুগান্তকারী সাফল্য

GPT-4.5-এর বিকাশ, যা দুই বছর আগে শুরু হয়েছিল, OpenAI-এর সবচেয়ে উচ্চাভিলাষী প্রচেষ্টা। এই বিশাল কর্মকাণ্ডে শত শত ব্যক্তি সম্মিলিতভাবে কাজ করেছেন। OpenAI-এর CEO স্যাম অল্টম্যান উল্লেখ করেছেন যে এই প্রকল্পের জন্য প্রায় সম্পূর্ণ সাংগঠনিক সম্পৃক্ততার প্রয়োজন ছিল।

বৃহৎ আকারের প্রশিক্ষণে ‘মারাত্মক সমস্যা’ অতিক্রম করা

GPT-4.5 তৈরি করার যাত্রাটি বাধা-বিপত্তিহীন ছিল না। গবেষণা ও উন্নয়ন পর্যায়ে দলটিকে অসংখ্য ‘মারাত্মক সমস্যা’ সম্মুখীন হতে হয়েছে। 100,000 GPU-এর একটি ক্লাস্টার ব্যবহার করে পূর্বে দেখা যায়নি এমন, স্বল্প-সম্ভাব্য, কিন্তু গভীর অবকাঠামোগত ত্রুটিগুলি উন্মোচিত হয়েছে। দ্রুততার সাথে অনুকূল কর্মক্ষমতার ভারসাম্য বজায় রাখতে, OpenAI-এর সিস্টেম টিমকে একটি ‘ঠিক-করতে-করতে-যাও’ পদ্ধতি গ্রহণ করতে বাধ্য করা হয়েছিল। একটি বিশেষ অধরা বাগ ঘন ঘন ত্রুটিগুলির সাথে ক্লাস্টারটিকে জর্জরিত করেছিল, যা প্রায় 40% প্রশিক্ষণ প্রক্রিয়া অতিবাহিত না হওয়া পর্যন্ত সনাক্ত করা যায়নি।

এই চ্যালেঞ্জগুলি সত্ত্বেও, GPT-4.5 প্রকল্পটি আরও শক্তিশালী প্রযুক্তি স্ট্যাকের বিকাশের অনুঘটক হিসেবে কাজ করেছে। বর্তমানে, মাত্র 5-10 জনের একটি ছোট দল GPT-4-এর মতো একটি বড় মডেল প্রতিলিপি করতে পারে। GPT-4 থেকে GPT-4.5-এর কর্মক্ষমতা প্রায় দশগুণ বৃদ্ধি পেয়েছে, যা ‘বুদ্ধিমত্তা তৈরি করেছে যা পরিমাণ করা কঠিন তবে সমস্ত দিক থেকে উন্নত’, এমন একটি ফলাফল যা OpenAI-এর কর্মীদেরও বিস্মিত করেছে।

ফোকাস পরিবর্তন: কম্পিউটেশনাল ক্ষমতা থেকে ডেটা দক্ষতা

OpenAI বুঝতে পেরেছে যে কর্মক্ষমতায় পরবর্তী দশগুণ বা শতগুণ উল্লম্ফন অর্জন শুধুমাত্র অপরিশোধিত কম্পিউটেশনাল ক্ষমতার উপর নির্ভর করে না, বরং ডেটা দক্ষতার উপর নির্ভর করে - বিশেষ করে, বৃহত্তর কম্পিউটেশনাল সংস্থান ব্যবহার করার সময় একই পরিমাণ ডেটা থেকে বেশি জ্ঞান আহরণের ক্ষমতা।

আর্কিটেকচারও একটি একক-ক্লাস্টার থেকে মাল্টি-ক্লাস্টার দৃষ্টান্তের দিকে বিকশিত হচ্ছে। ভবিষ্যতের প্রশিক্ষণ পুনরাবৃত্তিতে 10 মিলিয়ন পর্যন্ত GPU-এর মধ্যে সহযোগী শিক্ষা জড়িত থাকতে পারে, যার জন্য উন্নত ফল্ট টলারেন্সের প্রয়োজন হবে।

স্যাম অল্টম্যানের GPT-4.5 টিমের সাথে সংলাপ

স্যাম অল্টম্যান এবং OpenAI GPT-4.5 টিমের মধ্যে আলোচনার একটি সম্পাদিত সংকলন নিচে দেওয়া হল:

স্যাম অল্টম্যান: GPT-4.5-এর মতো এত বড় মডেল তৈরি করতে কী লাগে?

অ্যালেক্স পাইনো: আমরা প্রায় দুই বছর আগে এই প্রকল্পটি শুরু করি। সেই সময়ে, OpenAI একটি নতুন বৃহৎ কম্পিউটিং ক্লাস্টার চালু করতে যাচ্ছিল, এবং আমাদের দল এটিকে মডেলটিতে অন্তর্ভুক্ত করা দরকার এমন ফাংশনগুলি নির্ধারণ করার জন্য ধারাবাহিক কার্যক্রম পরিচালনার সুযোগ হিসেবে দেখেছিল এবং প্রচুর পরিমাণে ঝুঁকি হ্রাস করার জন্য অপারেশন পরীক্ষা চালিয়েছিল।

আমরা এর জন্য একটি দীর্ঘ পরিকল্পনা তৈরি করেছি, যেখানে সিস্টেম থেকে মেশিন লার্নিং পর্যন্ত পুরো প্রযুক্তি স্ট্যাক জড়িত। ঝুঁকি হ্রাস করা এবং প্রশিক্ষণের জন্য প্রস্তুতি একটি দীর্ঘ প্রক্রিয়া, এবং প্রশিক্ষণ নিজেই একটি বিশাল প্রকল্প।

আমিন টুটুনচিয়ান: আমি মনে করি এই প্রক্রিয়ার জন্য মেশিন লার্নিং টিম এবং সিস্টেম টিমের মধ্যে শুরু থেকে ঘনিষ্ঠ সহযোগিতা প্রয়োজন, যতক্ষণ না আমরা কোন মডেলটি প্রশিক্ষণ দিতে চাই তা স্পষ্ট করি এবং তারপর প্রশিক্ষণ শুরু করি।

আমরা মেশিন লার্নিং এবং সিস্টেম উভয় দিক থেকে ভবিষ্যদ্বাণী করেছি, যতটা সম্ভব প্রত্যাশা এবং বাস্তবতার মধ্যে ব্যবধান কমানোর চেষ্টা করেছি। তবে আমাদের কাজের ছন্দ দ্রুত এবং আমাদের সর্বশেষ কম্পিউটিং সংস্থান ব্যবহার করতে হয়, তাই মডেল প্রশিক্ষণ এমন কিছু হয়ে দাঁড়িয়েছে যা আগে থেকে পুরোপুরি পরিকল্পনা করা কঠিন।

আমরা প্রায় সবসময় অনেক অমীমাংসিত সমস্যা নিয়ে প্রশিক্ষণ শুরু করি এবং অপারেশন চলাকালীন চ্যালেঞ্জগুলি কাটিয়ে উঠতে এবং অগ্রগতি করার চেষ্টা করি। প্রধান সমাধান হল আরও কম্পিউটিং সংস্থান যুক্ত করা।

চূড়ান্ত পর্যায় হল সম্পাদন, যার জন্য প্রশিক্ষণ প্রক্রিয়া সম্পন্ন করতে অনেক লোককে দীর্ঘ সময় ধরে প্রচুর শক্তি এবং প্রেরণা বিনিয়োগ করতে হয়।

স্যাম অল্টম্যান: আমাদের প্রত্যাশা এবং বাস্তবতার মধ্যে ব্যবধান কতটা বলে আপনি মনে করেন?

আমিন টুটুনচিয়ান: সিস্টেমের ক্ষেত্রে, আমরা সাধারণত শুরুতে প্রত্যাশিত অবস্থা থেকে অনেক দূরে থাকি। আমাদের সামনে সবসময় একটি পছন্দ থাকে: শুরু স্থগিত করা এবং সমস্যা সমাধানের জন্য অপেক্ষা করা, নাকি তাড়াতাড়ি শুরু করা এবং প্রক্রিয়ার মধ্যে সমস্যা সমাধান করা। প্রক্রিয়ায় অযৌক্তিক বিলম্ব এড়াতে এটির জন্য সর্বদা একটি আপস প্রয়োজন।

তবে প্রায় সবসময় কিছু অপ্রত্যাশিত সমস্যা থাকে এবং আমাদের যা করতে হয় তা হল যতটা সম্ভব এই সমস্যাগুলি মোকাবেলা করা, অজানা কারণগুলি মোকাবেলা করা এবং মডেল প্রশিক্ষণের জন্য একটি পরিকল্পনা তৈরি করা।

অ্যালেক্স পাইনো: এই প্রকল্পে, আমাদের লক্ষ্য হল GPT-4.5 তৈরি করা, যার মানে হল এর ক্ষমতা GPT-4-এর চেয়ে 10 গুণ বেশি বুদ্ধিমান হওয়া উচিত। এটি প্রায় 2 বছর আগে আমরা যে প্রাথমিক লক্ষ্য নির্ধারণ করেছিলাম।

এই প্রক্রিয়া চলাকালীন অনেক কিছু ঘটেছে। আমরা ভাবছিলাম যে আমরা প্রত্যাশার চেয়ে ভাল করতে পারব নাকি খারাপ হব? এটি একটি খুব জটিল প্রক্রিয়া, তবে শেষ পর্যন্ত, আমরা যে কার্যকর গণনা বিনিয়োগ করেছি তার পরিপ্রেক্ষিতে, আমরা এমন একটি মডেল পেয়েছি যা আমরা মনে করি GPT-4-এর চেয়ে 10 গুণ বেশি বুদ্ধিমান।

আমিন টুটুনচিয়ান: সম্পাদনের ক্ষেত্রে, GPT-4.5 প্রকল্পে যে সময় ব্যয় হয়েছে তা আমরা প্রাথমিকভাবে যা প্রত্যাশা করেছিলাম তার থেকে অনেক দূরে।

স্যাম অল্টম্যান: 10,000 কার্ড থেকে 100,000 কার্ডে ক্লাস্টার প্রসারিত করার সময় আপনারা এত সমস্যার সম্মুখীন হয়েছিলেন কেন?

আমিন টুটুনচিয়ান: আমি মনে করি সিস্টেম ডেভেলপাররা যথেষ্ট সংবেদনশীল হলে, বেশিরভাগ সমস্যা ছোট আকারের পর্যায়ে পর্যবেক্ষণ করা যায়।

কিছু সমস্যা বড় আকারের প্রশিক্ষণ পর্যায়ের জন্য অনন্য নয়, তবে প্রায়শই আগে ঘটেছে, তবে স্কেল বাড়ানোর পরে মারাত্মক সমস্যা হয়ে উঠবে, বিশেষ করে যখন দল অনুমান করেনি যে এই সমস্যাগুলি এত মারাত্মক পর্যায়ে চলে যাবে।

স্যাম অল্টম্যান: কী কী জিনিসের কারণে বিপর্যয়কর পরিণতি ঘটেছে?

আমিন টুটুনচিয়ান: আমি মনে করি অবকাঠামোগত সমস্যাগুলি বহুল পরিচিত, ব্যর্থতার হার, ব্যর্থতার ধরণ বা ব্যর্থতার মোট পরিমাণ যাই হোক না কেন, তা অনেক বেশি। 100,000-কার্ড ক্লাস্টার একটি বৃহৎ আকারের নমুনা পুল, তাই আমরা এমন সমস্যাও আবিষ্কার করেছি যা কম্পিউটিং পাওয়ার সরবরাহকারী পর্যবেক্ষণ করেননি।

নেটওয়ার্ক তাদের মধ্যে একটি, এবং পৃথক অ্যাক্সিলারেটরেরও সমস্যা থাকতে পারে। তবে এটি এই সিস্টেমের সৌন্দর্যও - প্রত্যাশিত ফলাফল তৈরি করতে প্রায় সমস্ত উপাদানকে প্রত্যাশা অনুযায়ী কাজ করতে হবে। আমাদের কাজ হল যতটা সম্ভব এই সমস্যা কমানো।

স্যাম অল্টম্যান: ক্লাস্টারের আকারের সীমানায় কাজ করা সত্যিই কঠিন, তবে আমি এটাও লক্ষ্য করেছি যে প্রযুক্তির অগ্রভাগে নেই এমন কাজ করা অনেক সহজ হয়ে গেছে। GPT-4.5 প্রশিক্ষণের জন্য শত শত লোকের প্রয়োজন, এবং OpenAI-এর প্রায় সবাই এতে অংশ নিয়েছে।

তবে আজ, আপনি যদি OpenAI থেকে ক্ষুদ্রতম দল নির্বাচন করেন এবং আমরা যে জ্ঞান এবং সিস্টেমের কাজ জানি তার সাথে স্ক্র্যাচ থেকে GPT-4-কে পুনরায় প্রশিক্ষণ দেন, তবে কতজন লোকের প্রয়োজন হবে?

অ্যালেক্স পাইনো: আমি মনে করি এখন GPT-4-স্তরের মডেল তৈরি করতে প্রায় 5 থেকে 10 জন লোকের প্রয়োজন হতে পারে। GPT-4.5 সম্পন্ন করার প্রক্রিয়ায় প্রযুক্তি স্ট্যাকের অনেক উন্নতি হয়েছে।

আসলে, আমরা GPT-4.5 প্রশিক্ষণের প্রক্রিয়ায় অনুরূপ কাজ করেছি - আমরা GPT-4o প্রশিক্ষণ দিয়েছি, যা একটি GPT-4-স্তরের মডেল, এবং GPT-4.5 গবেষণা প্রকল্পের একই বিষয়বস্তু ব্যবহার করে এটিকে পুনরায় প্রশিক্ষণ দিয়েছি। সেই প্রশিক্ষণের জন্য কম লোক ব্যবহার করা হয়েছিল।

স্যাম অল্টম্যান: আপনার দৃষ্টিকোণ থেকে, ড্যান? বড় মডেল প্রশিক্ষণ দেওয়া কঠিন কেন?

ড্যানিয়েল সেলসাম: আমি মনে করি নতুন কিছু করা কঠিন। আমি মনে করি এমনকি অন্য কেউ কিছু করেছে তা আবিষ্কার করাও এটিকে অনেক সহজ করে তোলে, কারণ সবচেয়ে কঠিন অংশ হল প্রথমে কিছু করার সাহস রাখা। আমি মনে করি শুধুমাত্র এটা জানা যে কিছু সম্ভব, এটি একটি সুপার চিট কোড যা জিনিসগুলিকে অনেক সহজ করে তোলে।

অ্যালেক্স পাইনো: আমরা GPT প্রি-ট্রেনিং রানটিকে তার আগের আকারের চেয়ে 10 গুণ প্রসারিত করছি, এবং আমরা সবসময় কিছু আকর্ষণীয় নতুন জিনিস খুঁজে পাই যা আপনি অবশ্যই অনুমান করতে পারবেন না।

স্যাম অল্টম্যান: প্রি-ট্রেনিং স্কেলে পরবর্তী 10x বা 100x বৃদ্ধি অর্জনের জন্য কী প্রয়োজন?

ড্যানিয়েল সেলসাম: ডেটা দক্ষতা। ট্রান্সফরমার আর্কিটেকচার (যেমন GPT) ডেটা ব্যবহার করার ক্ষেত্রে খুবই দক্ষ। এটি তথ্য ভালোভাবে শোষণ এবং সংকুচিত করতে পারে এবং সাধারণীকরণ অর্জন করতে পারে। এর সবচেয়ে বড় বৈশিষ্ট্য হল এটি কম্পিউটিং সংস্থান দিয়ে দক্ষতার সাথে তথ্য শোষণ করতে পারে।

তবে, ডেটা থেকে এটি যে অন্তর্দৃষ্টি লাভ করে তা সীমিত। যখন কম্পিউটিং শক্তি দ্রুত বৃদ্ধি পায় এবং ডেটা তুলনামূলকভাবে ধীরে ধীরে বৃদ্ধি পায়, তখন ডেটা এই স্ট্যান্ডার্ড মডেলের জন্য একটি বাধা হয়ে দাঁড়ায়। এর জন্য অ্যালগরিদমিক উদ্ভাবনের প্রয়োজন হয় এমন পদ্ধতি তৈরি করার জন্য যা একই পরিমাণে ডেটা থেকে আরও জ্ঞান শিখতে আরও কম্পিউটিং শক্তি ব্যবহার করতে পারে।

স্যাম অল্টম্যান: সম্প্রসারণ বজায় রাখতে আমাদের আর কী দরকার বলে আপনি মনে করেন?

আমিন টুটুনচিয়ান: আমার উত্তর সিস্টেম সম্পর্কে। আমি মনে করি GPT-4.5-এর জন্য প্রয়োজনীয় বিশাল পরিমাণ কাজ মূলত মডেল স্পেসিফিকেশনের অনিবার্য ফলাফল। GPT-4-এর মতো একই প্রযুক্তিগত আর্কিটেকচার দিয়ে আমরা GPT-4.5 প্রশিক্ষণ দিতে পারি না।

স্টেট ম্যানেজমেন্টের ক্ষেত্রে, যেহেতু প্রয়োজনীয় কম্পিউটিং সংস্থান একটি একক ক্লাস্টারের ক্ষমতা ছাড়িয়ে গেছে, তাই আমাদের একটি মাল্টি-ক্লাস্টার প্রশিক্ষণ আর্কিটেকচারের দিকে ঝুঁকতে হবে। এই লক্ষ্য অর্জনের জন্য, আমাদের অবশ্যই অল্প সময়ের মধ্যে বিভিন্ন ওয়ার্কফ্লো একত্রিত করতে হবে।

যদিও এটি সত্যিই আমাদের পর্যায় অগ্রগতি অর্জনে সহায়তা করেছে, তবে পরবর্তী অর্ডারের ম্যাগনিটিউড কর্মক্ষমতা উন্নতির জন্য, আমাদের এখনও বেশ কয়েকটি পরিচিত তবে সাময়িকভাবে স্থগিত প্রযুক্তিগত সমস্যা সমাধান করতে হবে - এই সমস্যাগুলি এড়ানো যায় না। এটি এই ধরণের প্রযুক্তিগত আপস যা ক্রমাগত নিখুঁত সিস্টেমের গবেষণা ও উন্নয়ন চক্রকে প্রসারিত করে এবং আমরা সর্বদা সর্বোত্তম বাস্তবায়ন পরিকল্পনার অনুসরণে কৌশলগত আপস করছি।

এটা স্পষ্ট হওয়া দরকার যে সিস্টেম নিজেই চূড়ান্ত লক্ষ্য নয় এবং এর প্রকৃত আউটপুট মানই মূল বিবেচ্য বিষয়। পরবর্তী 10x কর্মক্ষমতা উন্নতির জন্য, আমি মনে করি ফল্ট টলারেন্সে যুগান্তকারী সাফল্য অত্যন্ত গুরুত্বপূর্ণ। অপারেশন এবং রক্ষণাবেক্ষণ উদ্বেগ কমাতে আমাদের অবশ্যই একটি ফল্ট-টলারেন্ট মেকানিজম তৈরি করতে হবে যা ওয়ার্কলোডের সাথে গভীরভাবে সমন্বিত। বর্তমান অতি-বৃহৎ আকারের সিস্টেমের অপারেশন এবং রক্ষণাবেক্ষণ জটিলতা মূলত আগের সিস্টেম থেকে আলাদা।

স্যাম অল্টম্যান: GPT-4.5 প্রশিক্ষণের সময় নির্দিষ্ট উপাদানের কারণে কত শতাংশ ব্যর্থতা ঘটেছে তা কি আপনারা জানেন?

আমিন টুটুনচিয়ান: আমার কাছে শেয়ার করার জন্য নির্দিষ্ট সংখ্যা নেই, তবে সাধারণভাবে, নতুন প্রজন্মের হার্ডওয়্যার স্থাপনের প্রাথমিক পর্যায়ে, সিস্টেম অপারেশন প্রায়শই অনেকগুলি প্রযুক্তিগত চ্যালেঞ্জের মুখোমুখি হয় যা সম্পূর্ণরূপে বোঝা যায় না। সমস্যাটি সম্পূর্ণরূপে সংজ্ঞায়িত করার আগে আমরা প্রকল্পটি এগিয়ে নিয়ে যাওয়ার সিদ্ধান্ত নিয়েছি, যার ফলে ব্যর্থতার হার প্রাথমিকভাবে বেশি ছিল।

তবে অভিজ্ঞতা দেখিয়েছে যে মূল কারণ সনাক্ত এবং সমাধান করার সাথে সাথে ব্যর্থতার হার উল্লেখযোগ্যভাবে হ্রাস পাবে। এই ঘটনাটি মূলত অবকাঠামোর গভীরতর বোঝাপড়াকে প্রতিফলিত করে - কেউ কেউ এটিকে অবকাঠামো পরিষ্কার করা বা অবকাঠামোর মৌলিক সমস্যাগুলি বোঝা বলে।

কার্যকর করার প্রাথমিক পর্যায়গুলি প্রায় সবসময় বেশ বেদনাদায়ক। প্রকল্পটি এগিয়ে নিয়ে যাওয়ার সময়, আমরা ক্রমাগত নতুন ব্যর্থতার ধরণগুলি আবিষ্কার এবং সমাধান করছি, তবে ব্যর্থতার হার ধীরে ধীরে হ্রাস পাবে এবং স্বাভাবিক অপারেশনের সময়কাল দীর্ঘ হবে।

এটি মূলত অগ্রাধিকার আপসের বিষয়: অবকাঠামোর জীবনচক্রের প্রাথমিক পর্যায়ে, এর ব্যর্থতার ঝুঁকি সঠিকভাবে অনুমান করা প্রায়শই কঠিন; এবং যদি আমরা অত্যধিকভাবে চূড়ান্ত আদর্শ অবস্থার (আসলটি হল ‘সিটি এস্টেট’, আদর্শ সিটি-স্টেট ডিজাইন) অনুসরণ করি, তবে এটি সিস্টেমের দিকে পরিচালিত করতে পারে প্রাথমিক পর্যায়ে উপলব্ধতা কর্মক্ষমতা অত্যন্ত দুর্বল।

স্যাম অল্টম্যান: যদিও যুক্তিবাদী মডেল আমাদের ভবিষ্যতের প্রযুক্তি স্ট্যাকের একটি মূল উপাদান, আসুন সাময়িকভাবে ঐতিহ্যবাহী প্রি-ট্রেনিং মডেলের বিকাশের সীমানার দিকে মনোনিবেশ করি। ধরুন আমাদের কাছে সীমাহীন GPU কম্পিউটিং শক্তি, সীমাহীন নেটওয়ার্ক ব্যান্ডউইথ এবং সীমাহীন পাওয়ার সাপ্লাই রয়েছে, তবে এখনও বিদ্যমান প্রযুক্তিগত বাধা দ্বারা সীমাবদ্ধ - সিস্টেম নির্ভরযোগ্যতার সমস্যা, ফল্ট-টলারেন্ট প্রশিক্ষণ পদ্ধতির অভাব এবং বিদ্যমান ডেটা সেটের সীমাবদ্ধতা সহ।

প্রতিটি প্রধান GPT সংস্করণ নম্বরে 100-গুণ স্কেল বৃদ্ধির আমাদের বিবর্তন আইন অনুসারে, বর্তমান প্রযুক্তিগত সীমানার উপর ভিত্তি করে, প্রি-ট্রেনিং মডেলের বিকাশ কোন স্তরে পৌঁছতে পারে? বিশেষভাবে GPT সিরিজের মডেলগুলির জন্য, আমাদের বিদ্যমান জ্ঞান সিস্টেমের সাথে, আমরা তাত্ত্বিকভাবে কোন ধরণের মডেল প্রশিক্ষণ দিতে পারি? GPT-5.5 তৈরি করা যেতে পারে?

অ্যালেক্স পাইনো: মেশিন লার্নিং এবং অ্যালগরিদম বিকাশের দৃষ্টিকোণ থেকে, আমরা এখনও একটি সুস্পষ্ট তাত্ত্বিক ঊর্ধ্ব সীমাতে পৌঁছাইনি। আসলে, আমরা সবেমাত্র উচ্চতর ডেটা দক্ষতার সাথে অ্যালগরিদমগুলি কীভাবে ব্যবহার করতে হয় এবং কীভাবে বিদ্যমান ডেটা সংস্থানগুলির আরও সম্পূর্ণরূপে ব্যবহার করতে হয় তা অন্বেষণ করতে শুরু করেছি। এই পরিস্থিতিটি খুব আকর্ষণীয় - এমনকি GPT-4-এর মতো মডেলগুলিও মূলত সীমিত কম্পিউটিং সংস্থানগুলির সীমাবদ্ধতার অধীনে তৈরি করা হয়েছে, যা পূর্ববর্তী বেশিরভাগ গবেষণার দিকও নির্ধারণ করে।

তবে পরিস্থিতি এখন সম্পূর্ণ আলাদা। GPT-4.5 থেকে, কিছু মূল মাত্রায়, কম্পিউটিংয়ের চেয়ে ডেটা প্রধান সীমাবদ্ধতা হয়ে উঠছে। এই পরিবর্তনের কারণে সম্পর্কিত গবেষণা কম উত্তেজনাপূর্ণ হয়ে উঠেছে।

স্যাম অল্টম্যান: তবে এটি সত্যিই একটি আশ্চর্যজনক অগ্রগতি, এবং বিশ্ব সম্পূর্ণরূপে উপলব্ধি করতে পারে না যে আমরা তৈরি করতে পারি এমন সেরা মডেলটিতে কম্পিউটিং সংস্থান আর প্রধান বাধা নয়। এই পরিবর্তনটি গভীর, সর্বোপরি, আমরা খুব বেশি দিন ধরে একটি কম্পিউটিং-সীমাবদ্ধ পরিবেশে বাস করেছি।

স্যাম অল্টম্যান: GPT-4.5 প্রশিক্ষণের প্রক্রিয়ায় আমরা সবচেয়ে আকর্ষণীয় মেশিন লার্নিং অভিজ্ঞতা কী শিখেছি? শুধু আপনি যা শেয়ার করতে চান তার সম্পর্কে বলুন।

আমিন টুটুনচিয়ান: সাধারণভাবে, সবচেয়ে চিন্তামূলক পরিস্থিতিগুলি আমাদের ভবিষ্যদ্বাণী থেকে বিচ্যুত হওয়া সেই পরিস্থিতিগুলি - বিশেষ করে যখন আমরা বোঝার চেষ্টা করি কেন প্রকৃত কর্মক্ষমতা প্রত্যাশিত বক্ররেখা থেকে বিচ্যুত হয়।

অ্যালেক্স পাইনো: আমাদের জন্য সবচেয়ে আশ্চর্যজনক আবিষ্কারগুলির মধ্যে একটি হল বিভিন্ন মেশিন লার্নিং উপাদানের স্কেলেবিলিটি কর্মক্ষমতা ব্যাপকভাবে পরিবর্তিত হয়। কিছু অংশ ভালোভাবে স্কেল করা যায়, অন্যরা যায় না। এটি আমরা প্রকৃত প্রশিক্ষণ প্রক্রিয়ায় সত্যিই উপলব্ধি করেছি। এই অভিজ্ঞতা আমাদের অনেক অনুপ্রেরণা দিয়েছে।

ড্যানিয়েল সেলসাম: আমি মনে করি GPT দৃষ্টান্তের দুটি মূল বৈশিষ্ট্য হল: প্রথমত, পরীক্ষার ক্ষতি (অদেখা পরীক্ষার ডেটাতে মডেলটি কতটা ভালো পারফর্ম করে তা পরিমাপ করার একটি মেট্রিক) সঠিকভাবে অনুমান করা যায়; দ্বিতীয়ত, মডেলের কর্মক্ষমতা স্কেল সম্প্রসারণের সাথে একটি অনুমানযোগ্য উন্নতি দেখায়। আরও জাদুকরীভাবে, পরীক্ষার ক্ষতির হ্রাস বিভিন্ন উপায়ে বুদ্ধিমত্তার একটি সর্ব-বৃত্তাকার উন্নত স্তরে রূপান্তরিত হবে যা পরিমাণ করা কঠিন তবে আশ্চর্যজনক।

স্যাম অল্টম্যান: আপনি কি এই বিষয়ে একেবারে আশাবাদী? আপনি কি এই মতামতের সাথে সম্পূর্ণরূপে একমত?

ড্যানিয়েল সেলসাম: আসলে, আমি যা বলতে চাইছি তা হল আমরা GPT-4.5 পরীক্ষায় বিশেষভাবে আকর্ষণীয় ঘটনা খুঁজে পেয়েছি - পুনরায় পরীক্ষা করার পরে, মডেলটি অনেকগুলি সূক্ষ্ম ক্ষমতা দেখিয়েছে যা সম্পূর্ণরূপে সবার প্রত্যাশা ছাড়িয়ে গেছে।

আমরা নিশ্চিত যে এটি বিভিন্ন উপায়ে আরও বুদ্ধিমান হয়ে উঠবে যা আগে থেকে সংজ্ঞায়িত করা যায় না এবং প্রকৃত স্থাপনের পরে, আমরা ব্যবহারকারীর সন্তুষ্টি থেকে উন্নতির এই সূক্ষ্ম স্তরগুলি পর্যবেক্ষণ করতে পারি: শক্তিশালী সাধারণ জ্ঞান রিজার্ভ, আরও সঠিক প্রাসঙ্গিক বোঝার ক্ষমতা এবং আরও সূক্ষ্ম শব্দার্থিক ধারণা - এটিই সেই অতিরিক্ত পরীক্ষার ক্ষতির দ্বারা আনা জাদু। আমার মতে, এই মাত্রায় স্কেলিং আইন সম্পূর্ণরূপে যাচাই করা হয়েছে।

স্যাম অল্টম্যান: পুরো প্রশিক্ষণ প্রক্রিয়ার সময় সবচেয়ে ইতিবাচক মুহূর্ত কোনটি ছিল? আপনার প্রিয় স্মৃতি কি? স্পষ্টতই অনেক কষ্ট আছে, তবে আমি আশা করি সেই কষ্টগুলি লাঘব হয়েছে।

অ্যালেক্স পাইনো: আমার এমন একটি মুহূর্ত আছে। আমরা প্রশিক্ষণের সময় অনেক মেশিন লার্নিং কাজ করেছি। আমি মনে করি অপারেশনের সময় আমরা যে পরিবর্তনগুলি করেছি তার একটি মোটামুটি ভালো প্রভাব পড়েছে, সম্ভবত প্রত্যাশার চেয়েও ভালো, যা আমাদের জন্য খুব উত্তেজনাপূর্ণ মুহূর্ত ছিল।

আমিন টুটুনচিয়ান: আমার জন্য, প্রশিক্ষণের সাথে সাথে আমরা অবকাঠামোও তৈরি করছি। আমরা দৃঢ়ভাবে বিশ্বাস করি যে আমরা এই কর্মক্ষমতার ক্লিফটি অতিক্রম করতে পারব, এবং আমাদের একটি পরিকল্পনা আছে এবং সবাই এটি কার্যকর করছে, তবে এটিতে দীর্ঘ সময় লাগে। এটি কঠিন কাজ এবং আমি যা ভেবেছিলাম তার চেয়ে অবশ্যই বেশি কঠিন। আমার ভবিষ্যদ্বাণী ভুল ছিল, এবং এই সমস্যাগুলি সমাধান করতে যে সময় লাগবে তা আমি কম করে দেখেছিলাম।

অবশেষে যখন দলটি সেই মূল সমস্যাগুলি কাটিয়ে উঠল এবং কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত হল, সেই মুহূর্তটি এখনও আমার স্মৃতিতে তাজা। আপনি স্পষ্টভাবে পুরো দলের শক্তি রূপান্তর অনুভব করতে পারেন - সবাই হঠাৎ করে শক্তিতে পূর্ণ এবং নতুন প্রেরণা নিয়ে চূড়ান্ত লক্ষ্যের দিকে ছুটে চলেছে।

সবচেয়ে জাদুকরী বিষয় হল আমাদের স্ট্যাটাস ট্র্যাকারে প্রদর্শিত আনুমানিক সমাপ্তির সময় প্রাথমিকের দুই বছর থেকে ক্রমাগত কমতে থাকে এবং অবশেষে একটি স্পষ্ট সময়ের নোডে লক হয়ে যায়। এই দৃশ্যমান অগ্রগতি দলের মনোবলকে অপরিসীমভাবে বাড়িয়ে তুলেছে। আমি মনে করি এটাই এর সৌন্দর্য।

আমি জোর দিতে চাই যে মেশিন লার্নিং কাজ কখনই থামেনি। এমনকি প্রশিক্ষণ শুরু হওয়ার পরেও, এই মেশিন লার্নিং সহ-ডিজাইন প্রক্রিয়া চলতে থাকে। মেশিন লার্নিং টিম কেবল সেই সমস্যাগুলির উপর সক্রিয়ভাবে ফলোআপ করে না যেগুলিকে “পরবর্তী প্রক্রিয়াকরণ” হিসাবে চিহ্নিত করা হয়েছিল, তবে প্রশিক্ষণ সময়কে সত্যিকার অর্থে অপ্টিমাইজ করে এমন উন্নতিগুলি সরবরাহ করতেও অবিরত থাকে।

এটি আমাদের দলের চেতনাকে সম্পূর্ণরূপে প্রতিফলিত করে - এখানে কোনও “প্রত্যেকের নিজের দরজার সামনে তুষার ঝাড়ু দেওয়া” কাজের সীমানা নেই, তবে সত্যিকারের নির্বিঘ্ন সহযোগিতা রয়েছে এবং এই সংহতিই আমাদের সবচেয়ে বড় শক্তি।

স্যাম অল্টম্যান: বাইরের বিশ্ব এই প্রশিক্ষণের চ্যালেঞ্জ এবং ভবিষ্যদ্বাণী নির্ভুলতা সম্পর্কে অনেক আলোচনা করেছে। তবে বাস্তবে, এই সমস্ত কিছুই অত্যন্ত পুঙ্খানুপুঙ্খ পরিকল্পনার উপর ভিত্তি করে তৈরি করা হয়েছে - আপনি কি এই বিষয়ে আরও বিস্তারিতভাবে কথা বলতে পারেন?

অ্যালেক্স পাইনো: এটি অবশ্যই আমাদের সবচেয়ে পুঙ্খানুপুঙ্খ পরিকল্পনা। আমি যেমন বলেছি, আমরা প্রশিক্ষণের আনুষ্ঠানিক শুরুর এক বছর আগে এই প্রকল্পের জন্য প্রস্তুতি শুরু করি। এই সময়ের মধ্যে, আমরা একাধিক বৃহৎ আকারের ঝুঁকি নিয়ন্ত্রণ পরীক্ষা চালিয়েছি।

আমরা ধীরে ধীরে সমস্ত উন্নতি প্রবর্তনের দিকে বিশেষ মনোযোগ দিই: একটি উচ্চ-বিশ্বাসের মৌলিক কনফিগারেশন থেকে শুরু করে - যা GPT-4 এর মতো একটি পরিপক্ক আর্কিটেকচার হিসাবে বোঝা যায়, আমরা মেশিন লার্নিং স্তরে এই কনফিগারেশনটি সম্পূর্ণরূপে আয়ত্ত করেছি - এবং তারপরে বিল্ডিং ব্লকের মতো স্তর দ্বারা স্তর নতুন বৈশিষ্ট্য যুক্ত করছি।

মূল বিষয় হল বিভিন্ন স্কেলে প্রতিটি উন্নতির স্কেলেবিলিটি কঠোরভাবে যাচাই করা: শুধুমাত্র কর্মক্ষমতা উন্নতি দেখতে নয়, এটিও নিশ্চিত করা যে মডেলের স্কেল প্রসারিত হওয়ার সাথে সাথে এই উন্নতিগুলি কার্যকর থাকে। অনেক উন্নতি ছোট আকারের পরীক্ষায় ভালোভাবে পারফর্ম করে, তবে বৃহৎ আকারের অ্যাপ্লিকেশনগুলিতে ব্যর্থ হবে।

অতএব, আমরা পুরো প্রক্রিয়া জুড়ে উচ্চ স্তরের সতর্কতা বজায় রেখেছি এবং আমাদের সম্প্রসারণ আইন পদ্ধতিকে পুনরাবৃত্তি ও উন্নত করতে অবিরত রয়েছি। এই ঝুঁকি নিয়ন্ত্রণ অনুশীলনের মাধ্যমে, আমরা অনেক মূল্যবান অভিজ্ঞতা অর্জন করেছি যা ভবিষ্যতের GPT সিরিজের মডেলগুলির বিকাশকে গাইড করতে থাকবে।

আমিন টুটুনচিয়ান: আমার একটি বিশেষভাবে আকর্ষণীয় মুহূর্ত মনে আছে যা আমি খুব মিস করি। আপনারা জানেন, আমরা প্রায় সবসময় প্রতিটি প্রশিক্ষণ কাজ শুরু করার সময় বিভিন্ন বাগের সম্মুখীন হই। এটি ইতিমধ্যেই একটি সাধারণ ঘটনা। তবে মূল বিষয় হল অগ্রগতি অবরুদ্ধ না করা এবং সর্বদা নিশ্চিত করা যে বর্তমান অগ্রগতি সত্যিই সঠিক পথে রয়েছে এবং এই বাগগুলির প্রশিক্ষণের স্বাস্থ্যের উপর মারাত্মক প্রভাব ফেলবে কিনা।

যদিও আমরা প্রাথমিকভাবে খুব আত্মবিশ্বাসী ছিলাম যে বড় ত্রুটি রয়েছে, আমরা যে পুরো পর্যবেক্ষণ সিস্টেমটি তৈরি করেছি তার মাধ্যমে, আমরা সমস্যার মূল কারণটি সঠিকভাবে আলাদা করতে সক্ষম হয়েছি: এটি কি হার্ডওয়্যারের ব্যর্থতা? কোন ধরণের হার্ডওয়্যার ব্যর্থতা? এটি কি ডেটা দুর্নীতি? নাকি এটি মেশিন লার্নিং মডেলের একটি বাগ? নাকি এটি কোডের একটি রেস কন্ডিশন?

সেই সময়ে, আমরা একই সময়ে একাধিক সমস্যা আলোচনার ক্ষেত্র খুলেছিলাম, বিভিন্ন উপসর্গ সহ। ধারাবাহিক বাগ ফিক্সের পরে, আমরা আটকে গিয়েছিলাম: আমাদের সামনে একাধিক অমীমাংসিত সমস্যা ছিল, এবং সবাই তাদের মস্তিষ্ক খাটিয়েছিল - এগুলো কি বিভিন্ন বাগের কারণে হয়েছে? নাকি এটি কাজে একটি বাগ?

পরে, আমরা সবচেয়ে সম্ভাব্য মূল কারণের জন্য দলের সদস্যদের ভোট দেওয়ার জন্য একটি ভোট অনুষ্ঠিত করেছি। সবচেয়ে কম প্রতিশ্রুতিবদ্ধ বিকল্পটি সত্যটিকে আঘাত করেছে: দেখা গেল যে PyTorch-এর আপস্ট্রিমে torch.sum ফাংশনের সাথে একটি সমস্যা ছিল, একটি সাধারণ যোগফল অপারেশন।

এই বাগটি বিশেষভাবে আকর্ষণীয়। আপনারা জানেন, আমরা মূলত ট্রিটন কার্নেল ব্যবহার করি এবং আমরা কিছু অগুরুত্বপূর্ণ প্রান্তিক পরিস্থিতিতে শুধুমাত্র মশাল ক্রিয়াকলাপের দিকে ফিরে যাব। এবং আমাদের নির্দিষ্ট কোড পাথ দ্বারা ট্রিগার করা torch.sum ফাংশন বাগটি ডেটা বিতরণের বৈশিষ্ট্যের কারণে অবৈধ মেমরি অ্যাক্সেস ঘটাবে - এটি মেমরি অফসেট গণনা করার সময় একটি ভুল করেছে।

সবচেয়ে নাটকীয় বিষয় হল যখন একজন প্রকৌশলী অবশেষে সমস্যাটি সনাক্ত করেন এবং একটি ফিক্স জমা দেন, তখন বিভিন্ন উপসর্গ সহ সমস্ত ত্রুটি প্রতিবেদন অদৃশ্য হয়ে যায়। সবাই আনন্দের সাথে স্ল্যাক চ্যানেলটিকে “মাল্টি-বাগ তত্ত্ব” থেকে “সিঙ্গেল-বাগ তত্ত্বে” পরিবর্তন করেছে এবং দৃশ্যটি খুব আনন্দিত ছিল।

এই বাগটি কতক্ষণ ধরে লুকিয়ে ছিল? এটি প্রশিক্ষণের প্রাথমিক পর্যায় থেকে বিদ্যমান ছিল এবং প্রায় 40% অগ্রগতি বারে না যাওয়া পর্যন্ত চিহ্নিত করা যায়নি। আবিষ্কার প্রক্রিয়াটিও নাটকে পূর্ণ ছিল: সেই সময়ে, একটি জটিল কার্নেল ক্রমান্বয়ে সিকোয়েন্স কল করেছিল এবং দ্বিতীয় কলটি অবৈধ মেমরি অ্যাক্সেস ট্রিগার করেছিল।

যদিও এই ক্র্যাশের ফ্রিকোয়েন্সি অত্যন্ত কম (এটি কয়েকশো বা এমনকি কয়েক হাজার প্রশিক্ষণের ধাপের মধ্যে একবার ঘটে), এটি মাঝে মাঝে ব্যর্থতা হিসাবে উপেক্ষা করা সহজ, তবে আমাদের দলের নির্দেশিকা হল: কোনও অসঙ্গতি ছেড়ে দেবেন না। এই গল্পের সেরা অংশটি সহজে হাল ছেড়ে না দেওয়ার এই অধ্যবসায়ের মধ্যে নিহিত।

স্যাম অল্টম্যান: GPT-4.5 প্রি-ট্রেনিং শুরু হওয়ার পরে আপনার আর কী করা দরকার?

অ্যালেক্স পাইনো: আমাদের সকলেরই ঘন ঘন ক্ষতির বক্ররেখা পর্যবেক্ষণ করা দরকার। এছাড়াও, প্রশিক্ষণ শুরু হওয়ার আগে সম্পূর্ণ না হওয়া সিস্টেমটিকে অপ্টিমাইজ এবং সহ-ডিজাইন উন্নত করতে আমাদের অবিরত থাকতে হবে। কোনও অপ্রত্যাশিত প্রবণতা নেই তা নিশ্চিত করার জন্য আমরা প্রশিক্ষণ প্রক্রিয়া চলাকালীন বিভিন্ন পরিসংখ্যান ঘনিষ্ঠভাবে পর্যবেক্ষণ করি। একই সময়ে, আমরা মেশিন লার্নিং দৃষ্টিকোণ থেকে সম্ভাব্য উন্নতি পরিকল্পনা অন্বেষণ করি। যদিও প্রি-ট্রেনিং শুরু হওয়ার পরে ডেটা-স্তরের কাজ সাময়িকভাবে হ্রাস করা হবে, তবুও প্রক্রিয়া করার জন্য প্রচুর কাজ রয়েছে।

আমিন টুটুনচিয়ান: আমি মনে করি মেশিন লার্নিং মূলত সঠিকতা বিচারের উপর নির্ভর করে। প্রি-ট্রেনিং শুরু হওয়ার পরে, প্রচুর পরিমাণে নয়েজ সিগন্যালের মুখোমুখি হয়ে, আমরা চায়ের ড্রিঙ্কস ব্যাখ্যা করা ভাগ্য বলার মতো এবং আমাদের বিচার করতে হবে যে সিস্টেমটি সুস্থ কিনা। এটি আমাদের দায়িত্ব।

স্যাম অল্টম্যান: সিস্টেম স্তরে, মডেল প্রশিক্ষণ পরিচালনা করতে আমাদের কী সীমাবদ্ধ করবে? এটি কি চিপ, প্রসেসর, মেমরি, নেটওয়ার্ক নাকি পাওয়ার সাপ্লাই?

আমিন টুটুনচিয়ান: সিস্টেমের সৌন্দর্য হল, যখন সহযোগী ডিজাইন করা হয়, তখন ওয়ার্কলোড আপনার তৈরি করা অবকাঠামোর সাথে খাপ খাইয়ে নিতে পারে। এমন কোনও সার্বজনীন কথা নেই যে নেটওয়ার্ক একটি বাধা, বা মেমরি ব্যান্ডউইথ একটি বাধা ইত্যাদি। এমনকি একই স্পেসিফিকেশনের মডেলগুলির জন্যও, আমরা সংস্থান প্রয়োজনীয়তা স্থানান্তর করতে পারি। আমরা একটি আরও ভারসাম্যপূর্ণ সিস্টেম তৈরি করতে বেছে নিতে পারি, তবে আরও মেমরি ব্যান্ডউইথ থাকা সর্বদা উপকারী। শর্ত সীমাবদ্ধ না করে এই প্রশ্নের উত্তর দেওয়া কঠিন।

GPT-4.5 ডিজাইন করার সময়, আমাদের সিস্টেমে একটি নির্দিষ্ট বৈশিষ্ট্য থাকতে হতে পারে, যা মানুষের নির্দেশের মাধ্যমে তৈরি করা দরকার। অতএব, মডেল আর্কিটেকচার এবং আর্কিটেকচারাল উপাদানগুলি গঠনের জন্য সহযোগী ডিজাইন খুবই গুরুত্বপূর্ণ এবং এটি সিস্টেম এবং মেশিন লার্নিং দিকগুলিকে একটি নির্দিষ্ট পরিমাণে সংযুক্ত করে। সিস্টেমে যদি এমন কোনও বৈশিষ্ট্য থাকে যা আমরা খুব বেশি পেতে চাই না। আমার আদর্শ পরিস্থিতি হল সবকিছুকে একে অপরের সাথে সর্বাধিক স্থান দেওয়ার জন্য আলাদা করা উচিত।

মাঝে মাঝে জিনিসগুলি একসাথে সংযুক্ত থাকে এবং আমাদের অবকাঠামোর প্রয়োজনীয়তা পূরণ করতে হবে, অথবা জিনিসগুলি এমন হওয়া উচিত। বেশিরভাগ সময়, আমাদের একটি ভারসাম্যপূর্ণ সিস্টেম, একটি ভারসাম্যপূর্ণ যোগাযোগ প্রয়োজন। এবং আমাদের কাছে নিয়ন্ত্রণের সর্বোত্তম উপায় হল এই সমস্ত সহযোগী ডিজাইন।

স্যাম অল্টম্যান: আমরা এই ধরনের একটি আদর্শ সিস্টেম লক্ষ্য থেকে কতটা দূরে আছি?

আমিন টুটুনচিয়ান: আমরা সেই লক্ষ্য থেকে অনেক দূরে আছি। একটি সিস্টেম তৈরির প্রক্রিয়া সর্বদা এইরকম: প্রথমে জিনিসগুলি কীভাবে কাজ করা উচিত তার একটি আদর্শ ধারণা থাকে এবং তারপরে সেই পার্থক্যগুলি বিদ্যমান সংস্থানগুলির সাথে সমন্বিত হয়।

আমি মনে করি না আমরা তত্ত্বের জন্য তত্ত্বের জন্য এটি করছি, তবে আমরা কেবল আলোচনা করছি যে আমরা এটিকে কী হতে চাই, এটিকে উপলব্ধি করতে এবং যতটা সম্ভব সেই আদর্শের কাছাকাছি যেতে চাই। এটি সম্ভবত সিস্টেম ক্ষেত্রের সবচেয়ে উত্তেজনাপূর্ণ অংশ। লোকেরা আগে বলত যে এটি একটি মার্জিত সিস্টেম ডিজাইন এবং শেষ পর্যন্ত ইতিহাস আমাদের বলবে এই পছন্দটি সঠিক নাকি ভুল।

স্যাম অল্টম্যান: আপনি যদি পরবর্তী বড় প্রশিক্ষণের আগে একটি মেশিন লার্নিং প্রশ্নের উত্তর পেতে পারেন, তবে আপনি সবচেয়ে বেশি কী জানতে চান?

অ্যালেক্স পাইনো: আমি জানতে চাই সীমিত ডেটা এবং নির্দিষ্ট ক্ষেত্রগুলিতে আমাদের কোন অ্যালগরিদম ব্যবহার করা উচিত। যদিও এটি একটি বিস্তৃত প্রশ্ন, এটি সত্যিই সবচেয়ে গুরুত্বপূর্ণ।

স্যাম অল্টম্যান: আপনি কি ভবিষ্যতে 10 মিলিয়ন বা তার বেশি GPU দিয়ে সিঙ্ক্রোনাস প্রি-ট্রেনিং পরিচালনা করবেন?

অ্যালেক্স পাইনো: আমি মনে করি হবে, তবে এটি ঐতিহ্যবাহী প্রি-ট্রেনিং মডেল নাও হতে পারে। এর ফর্ম বিদ্যমান প্রযুক্তি থেকে খুব আলাদা হতে পারে, তবে এটি এখনও তত্ত্বাবধানবিহীন শিক্ষার মূল বিষয়টিকে ধরে রাখবে।

আমিন টুটুনচিয়ান: আমি একটি আধা-সিঙ্ক্রোনাস মডেল পছন্দ করি। শারীরিক আইনের কারণে, সম্পূর্ণ সিঙ্ক্রোনাইজেশন খুব বাস্তবসম্মত নয়।

ড্যানিয়েল সেলসাম: আমি মনে করি এটি বিকেন্দ্রীভূত হওয়ার সম্ভাবনা বেশি। একটি AI সিস্টেমে অবশ্যই 10 মিলিয়ন GPU একসাথে কাজ করবে যা শিখবে এবং কাজগুলি সম্পাদন করবে, তবে মস্তিষ্কের বিভিন্ন অংশের মতো, তারা একে অপরের সাথে যোগাযোগ নাও করতে পারে।

স্যাম অল্টম্যান: বর্তমান সবচেয়ে উন্নত অ্যালগরিদম এবং মানুষের ডেটা দক্ষতার মধ্যে কতটা পার্থক্য রয়েছে? ভবিষ্যতে কি ধরা সম্ভব?

ড্যানিয়েল সেলসাম: দুটিকে সরাসরি তুলনা করা কঠিন। ভাষা শেখার ক্ষেত্রে ব্যবধান অবশ্যই বিশাল। মানুষের ভিজ্যুয়াল স্নায়ু দ্বারা প্রাপ্ত তথ্যের পরিমাণ কীভাবে সংজ্ঞায়িত করা যায় তার মূল চাবিকাঠি। আমি মনে করি অ্যালগরিদমের সামগ্রিক ডেটা দক্ষতা মানুষের চেয়ে অনেক কম।

কয়েক দশক ধরে, গভীর শিক্ষা কম্পিউটিং দক্ষতার উপর দৃষ্টি নিবদ্ধ করেছে। ডেটা এবং কম্পিউটিং শক্তির বৃদ্ধি ছাড়াও, অ্যালগরিদম উন্নতির দ্বারা উত্পাদিত সুপারইম্পোজড প্রভাবটি সত্যিই আশ্চর্যজনক। প্রতিবার অ্যালগরিদমের কর্মক্ষমতা 10% বা 20% উন্নত হলে, এটি ডেটা দক্ষতার উপর সুপারইম্পোজ করার সময় একটি উল্লেখযোগ্য প্রভাব ফেলবে। এখন পর্যন্ত, ডেটা দক্ষতার চারপাশে এমন কোনও সমাবেশ হয়নি, কারণ ডেটা প্রবাহিত না হলে এবং কম্পিউটিং শক্তি সীমিত হলে এটি মূল্যবান নয়।

এখন, আমরা AI গবেষণার একটি নতুন পর্যায়ে প্রবেশ করছি এবং আমরা ডেটা দক্ষতার বিজয় সংগ্রহ করতে শুরু করব। আমি মনে করি এখন ভবিষ্যদ্বাণী করা একটু বোকামি যে আমরা দুর্লঙ্ঘনীয় বাধার সম্মুখীন হব। মানুষের মস্তিষ্ক যেভাবে কাজ করে তা অবশ্যই আমাদের অ্যালগরিদম উন্নতির থেকে আলাদা এবং আমাদের এই বিষয়ে সতর্ক হওয়া উচিত। তবে আমি মনে করি অ্যালগরিদমের ভবিষ্যতের বিকাশ সম্পর্কে আমাদের আশাবাদী থাকা উচিত।

স্যাম অল্টম্যান: বৃহত্তর আকারের প্রি-ট্রেনিং এবং মডেলের শক্তিশালী শেখার এবং যুক্তিবাদী ক্ষমতার মধ্যে সম্পর্ক কী?

অ্যালেক্স পাইনো: আমরা যা পর্যবেক্ষণ করেছি তা হল আরও ভাল প্রি-ট্রেনিং এবং তত্ত্বাবধানবিহীন শিক্ষা মডেলের সামগ্রিক বুদ্ধিমত্তাকে উন্নত করে এবং সাধারণীকরণে ব্যাপকভাবে সহায়তা করে, যা যুক্তিবাদী ক্ষমতার পরিপূরক, যেখানে যুক্তিবাদীতা বুদ্ধিমত্তা উন্নত করতে কিছুটা নিস্তেজ হতে পারে। আমি মনে করি তারা পরিপূরক।

স্যাম অল্টম্যান: প্রি-ট্রেনিং অনেক কিছুতে সার্বজনীন বলে মনে হয়, যেখানে একটি মডেলকে প্রশিক্ষণ দেওয়া এটিকে শুধুমাত্র এক ধরণের জিনিসে ভাল করতে পারে, তাই না?

অ্যালেক্স পাইনো: এটি খুব আকর্ষণীয়, তবে আপনি যখন তাদের প্রশিক্ষণ দেয় এমন ডেটা দেখেন, তখন আপনি এই পরিস্থিতিতে অবাক হবেন না। প্রি-ট্রেনিং ডেটা সেটের পরিসর খুব বড় এবং আমরা যা অনুসরণ করি তা হল প্রশস্ততা এবং বৈচিত্র্য। মডেল রিইনফোর্সমেন্ট লার্নিং এবং এটিকে স্পষ্টভাবে ভাল পুরস্কার সংকেত এবং একটি ভাল প্রশিক্ষণ পরিবেশ তৈরি করার ক্ষেত্রে, আমি মনে করি ডেটা সেটের প্রশস্ততা বিবেচনা করা কঠিন।

ড্যানিয়েল সেলসাম: আমি একমত, তবে আমি মনে করি অন্য একটি কারণ রয়েছে। প্রি-ট্রেনিং মূলত ডেটা সংকুচিত করা, যার মাধ্যমে বিভিন্ন জিনিসের মধ্যে সংযোগ আবিষ্কার করা। এটি উপমা এবং আরও বিমূর্ত সম্পর্কে। যুক্তিবাদীতা এমন একটি দক্ষতা যা একটি নির্দিষ্ট ইস্যুতে সতর্ক চিন্তাভাবনার প্রয়োজন এবং এটি অনেক ধরণের সমস্যার সমাধানও পেতে পারে। তবে প্রি-ট্রেনিং প্রক্রিয়ায়, বিভিন্ন ক্ষেত্রে ডেটা সংকুচিত করার সময় আরও বিমূর্ত জ্ঞান অর্জন করা যায়।

স্যাম অল্টম্যান: তত্ত্বাবধানবিহীন শিক্ষা কার্যকর কেন?

ড্যানিয়েল সেলসাম: মূল চাবিকাঠি হল কম্প্রেশন। বুদ্ধিমত্তার আদর্শ রূপ হল সলোমনভ ইন্ডাকশন। সাধারণভাবে, মেশিন লার্নিং সমস্ত সম্ভাবনা বিবেচনা করবে, তবে পরীক্ষার জন্য সরল প্রোগ্রামগুলির সাথে শুরু করার প্রবণতা রয়েছে।

বর্তমান প্রি-ট্রেনিংয়ের সারমর্ম হল একটি কম্প্রেশন প্রক্রিয়া, যা মানুষের দ্বারা উত্পাদিত সমস্ত ডেটা ব্যাখ্যা করার জন্য সরল প্রোগ্রাম খুঁজে বের করে আনুমানিক অভিব্যক্তি অর্জন করে।

স্যাম অল্টম্যান: পরবর্তী টোকেন ভবিষ্যদ্বাণী কীভাবে কম্প্রেশন অর্জনে সহায়তা করে?

ড্যানিয়েল সেলসাম: পরিসংখ্যানে একটি প্যারাডক্স রয়েছে - কেন গভীর নেটওয়ার্কগুলি সংকুচিত করতে অক্ষম বলে মনে হয় তবে সাধারণীকরণ অর্জন করতে পারে? সাধারণত বলতে গেলে, যখন আপনার কাছে প্রচুর ডেটা এবং কিছু ছোট মডেল থাকে, তখন এই মডেলগুলিকে কিছু শিখতে কম্প্রেশনের মধ্য দিয়ে যেতে হবে।

প্রি-ট্রেনিংয়ে, ডেটা এবং মডেল উভয়ের স্কেল খুব বড়। কেউ কেউ মনে করেন যে এই প্রশিক্ষণটি কেবল মেমরি এবং ইন্টারপোলেশন লার্নিং। আসলে, তারা কম্প্রেশন বোঝার আরেকটি দৃষ্টিকোণ উপেক্ষা করে - প্রি-সিকোয়েনশিয়াল কম্প্রেশন। এটি একটি কম্প্রেসারের মতো। এমনকি যদি ডেটা ওজন খুব বড় হয় তবে বাইনারিকে এই তথ্য সংরক্ষণ করার দরকার নেই। পরবর্তী টোকেন ভবিষ্যদ্বাণীর ফলাফল দ্রুত দরকারী তথ্য পুনরুদ্ধার করতে এবং কম্প্রেশন দক্ষতা উন্নত করতে পারে।

স্যাম অল্টম্যান: GPT-4.5 প্রশিক্ষণের প্রক্রিয়ায় প্রচুর জনশক্তি, সময় এবং অর্থ ব্যয় হয়েছে, যা আসলে স্কেলিং আইন যাচাই করার একটি পরীক্ষা হিসাবে বিবেচিত হতে পারে এবং ফলাফল প্রমাণ করে যে এটি কার্যকর এবং দীর্ঘ সময় ধরে চলবে। কেন স্কেলিং আইনকে মহাবিশ্বের নিয়ম বলা যেতে পারে?

ড্যানিয়েল সেলসাম: কম্প্রেশনের মাত্রা যত বেশি, বুদ্ধিমত্তা তত বেশি শক্তিশালী, যার গভীর দার্শনিক প্রভাব রয়েছে। বড় মডেলগুলিকে প্রশিক্ষণ দিতে কেন বেশি সময় লাগে এবং কম্প্রেশন হার বেশি? এটিতে অনেক তত্ত্ব জড়িত, যার মধ্যে আমি স্পার্স উপস্থাপনা পছন্দ করি।

বাস্তবতার মূল ধারণাগুলি একটি পাওয়ার ল বিতরণ অনুসরণ করে। উদাহরণস্বরূপ, 100 তম সবচেয়ে গুরুত্বপূর্ণ ধারণাটি প্রতি 100টি নথিতে একবার প্রদর্শিত হতে পারে এবং একটি সুস্পষ্ট দীর্ঘ-লেজ প্রভাব রয়েছে। এই বিতরণ বৈশিষ্ট্যের অর্থ হল সমস্ত মূল ধারণাগুলি কার্যকরভাবে ক্যাপচার করার জন্য বৃহৎ আকারের ডেটা এবং কম্পিউটিং শক্তির প্রয়োজন এবং এটি নির্ধারণ করে যে স্কেলিং আইন দীর্ঘ সময় ধরে কার্যকর থাকবে।