গুগলের ক্ষণস্থায়ী গিগ থেকে এআই ইতিহাসের পুনর্গঠন: ট্রান্সফরমার লেখক নোয়াম শাজির এবং জেফ ডিনের সাথে কথোপকথন

গুগলের প্রযুক্তিগত অগ্রযাত্রার দুই উজ্জ্বল ব্যক্তিত্ব, বর্তমান প্রধান বিজ্ঞানী জেফ ডিন এবং ট্রান্সফরমার মডেলের পেছনের মূল ব্যক্তিত্ব নোয়াম শাজির, যিনি সম্প্রতি আবার যোগদান করেছেন, তারা একটি আলোকিত সংলাপে অংশ নিয়েছিলেন। বিখ্যাত পডকাস্টার দ্বারকেশ প্যাটেল কর্তৃক আয়োজিত এই আলোচনাটি এআই-এর বিবর্তনের একটি ঝলক দেখায়, যা ম্যাপরিডিউসের ভিত্তি থেকে শুরু করে ট্রান্সফরমার এবং এমওই আর্কিটেকচারের যুগে বিস্তৃত।

গুগলে কয়েক দশকের সম্মিলিত অভিজ্ঞতা সম্পন্ন এই অভিজ্ঞ ব্যক্তিরা কেবল ইন্টারনেট এবং কৃত্রিম বুদ্ধিমত্তার প্রযুক্তি দেখেননি, সক্রিয়ভাবে সেগুলোকে আকার দিয়েছেন। মজার ব্যাপার হল, শাজির স্বীকার করেছেন যে গুগল-এ যোগদানের তার প্রাথমিক উদ্দেশ্য ছিল একটি স্বল্পমেয়াদী আর্থিক সুবিধা লাভ করা, কিন্তু এই ক্ষেত্রে তার অবদানের দ্বারা নাটকীয়ভাবে পরিবর্তিত হয়েছিল।

এআই কম্পিউট-এর বর্তমান অবস্থা এবং ভবিষ্যতের গতিপথ

প্রায় দুই ঘণ্টার আলোচনায়, ডিন এবং শাজির এআই কম্পিউট-এর বর্তমান অবস্থা সম্পর্কে অন্তর্দৃষ্টি উন্মোচন করেছেন:

  • কার্যক্রমের পরিধি পৃথক ডেটা সেন্টারগুলিকে ছাড়িয়ে গেছে; জেমিনির প্রশিক্ষণ এখন বিভিন্ন মেট্রোপলিটন অঞ্চলে একাধিক ডেটা সেন্টার জুড়ে বিস্তৃত, যা অ্যাসিঙ্ক্রোনাসলি কাজ করে।
  • অনুমান কম্পিউটকে প্রসারিত করার যথেষ্ট সুযোগ রয়েছে, কারণ এআই-এর সাথে যোগাযোগ ঐতিহ্যবাহী পড়ার চেয়ে উল্লেখযোগ্যভাবে বেশি সাশ্রয়ী।
  • ভবিষ্যতের মডেল আর্কিটেকচারগুলি এমওই-এর চেয়ে বেশি নমনীয় হওয়ার কথা ভাবা হচ্ছে, যা বিভিন্ন দলের দ্বারা মডেল উপাদানগুলির স্বাধীন বিকাশের সুযোগ করে দেবে।

অভিজ্ঞতা থেকে অন্তর্দৃষ্টি: বাগ বাউন্টি এবং ভবিষ্যতের আর্কিটেকচার

এই আলোচনা সামাজিক মাধ্যমে আগ্রহের জন্ম দিয়েছে, যেখানে ব্যবহারকারীরা আকর্ষণীয় ধারণা তুলে ধরেছেন, যেমন:

  • মেমরিতে বিশাল এমওই মডেল সংরক্ষণের সম্ভাবনা।
  • কোডের অপ্রত্যাশিত ত্রুটিগুলির সুবিধা, যা স্কেল বাড়ার সাথে সাথে অজান্তেই যুগান্তকারী আবিষ্কারের দিকে পরিচালিত করতে পারে।

ডিন এআই কম্পিউট নিষিদ্ধভাবে ব্যয়বহুল এই ধারণাটিকে চ্যালেঞ্জ করেছেন। একটি বইয়ের সাথে যোগাযোগ করার খরচের তুলনায় একই বই সম্পর্কে একটি এআই-এর সাথে কথা বলার খরচের তুলনা করে তিনি একটি জোরালো যুক্তি তুলে ধরেছেন:

সবচেয়ে উন্নত ভাষা মডেলগুলি প্রতি অপারেশনে প্রায় $10^{-18}$ ব্যয়ে কাজ করে, যার অর্থ এক ডলারের বিনিময়ে দশ লক্ষ টোকেন প্রক্রিয়া করা যায়। বিপরীতে, একটি পেপারব্যাক বই কিনলে প্রতি ডলারে মাত্র ১০,০০০ টোকেন পাওয়া যায়।

এই সুস্পষ্ট পার্থক্য—এআই ইন্টারঅ্যাকশনের জন্য একশ গুণ বেশি সাশ্রয়ী—বৃদ্ধি করা অনুমান কম্পিউটের মাধ্যমে এআই বুদ্ধিমত্তা বাড়ানোর অব্যবহৃত সম্ভাবনাকে তুলে ধরে।

অবকাঠামোগত দৃষ্টিকোণ থেকে, অনুমান-সময়ের কম্পিউটেশনের ক্রমবর্ধমান গুরুত্ব ডেটা সেন্টার পরিকল্পনাকে নতুন আকার দিতে পারে। এর জন্য বিশেষভাবে অনুমান কার্যের জন্য তৈরি করা হার্ডওয়্যারের প্রয়োজন হতে পারে, যা গুগলের প্রথম প্রজন্মের টিপিইউ-এর কথা মনে করিয়ে দেয়, যা মূলত অনুমানের জন্য ডিজাইন করা হয়েছিল এবং পরে প্রশিক্ষণের জন্য অভিযোজিত হয়েছিল।

বিতরণ এবং অ্যাসিঙ্ক্রোনাস কম্পিউটেশন: একটি নতুন দৃষ্টান্ত

অনুমানের উপর ক্রমবর্ধমান জোর ইঙ্গিত দেয় যে ডেটা সেন্টারগুলির মধ্যে ক্রমাগত যোগাযোগের প্রয়োজন নাও হতে পারে, যা সম্ভবত আরও বিতরণ এবং অ্যাসিঙ্ক্রোনাস কম্পিউটেশনাল মডেলের দিকে পরিচালিত করবে।

জেমিনি ১.৫ ইতিমধ্যে এই পথে যাত্রা করেছে, বেশ কয়েকটি প্রধান শহর জুড়ে কম্পিউটেশনাল রিসোর্স ব্যবহার করে। উচ্চ-গতির নেটওয়ার্ক বিভিন্ন ডেটা সেন্টার থেকে গণনা সিঙ্ক্রোনাইজ করে, যা প্রশিক্ষণের অভূতপূর্ব স্কেল অর্জন করে। বড় মডেলগুলির জন্য, যেখানে প্রতিটি প্রশিক্ষণ ধাপে কয়েক সেকেন্ড সময় লাগতে পারে, সেখানে ৫০ মিলিসেকেন্ডের নেটওয়ার্ক লেটেন্সিও নগণ্য প্রভাব ফেলে।

অনুমানের ক্ষেত্রে, লেটেন্সি সংবেদনশীলতা একটি গুরুত্বপূর্ণ বিবেচ্য বিষয়। যেখানে তাৎক্ষণিক প্রতিক্রিয়ার জন্য অপ্টিমাইজড লো-লেটেন্সি পারফরম্যান্স প্রয়োজন, সেখানে জটিল প্রাসঙ্গিক বিশ্লেষণের মতো অ-জরুরি কাজগুলি বেশি সময় নিতে পারে।

আরও অভিযোজনযোগ্য এবং দক্ষ সিস্টেম একাধিক কাজকে অ্যাসিঙ্ক্রোনাসলি পরিচালনা করতে পারে, সামগ্রিক কর্মক্ষমতা বাড়াতে পারে এবং ব্যবহারকারীর অপেক্ষার সময় কমাতে পারে। এছাড়াও, ছোট ড্রাফ্ট মডেল ব্যবহার করার মতো অ্যালগরিদমিক উন্নতিগুলি অনুমানের প্রক্রিয়ার বাধাগুলি হ্রাস করতে পারে। এই পদ্ধতিতে ছোট মডেলগুলি সম্ভাব্য টোকেন তৈরি করে, যা পরে বড় মডেল দ্বারা যাচাই করা হয়, যা সমান্তরাল প্রক্রিয়াকরণের মাধ্যমে অনুমানের প্রক্রিয়াটিকে উল্লেখযোগ্যভাবে ত্বরান্বিত করে।

শাজির আরও বলেন যে অ্যাসিঙ্ক্রোনাস প্রশিক্ষণের সময়, প্রতিটি মডেল রেপ্লিকা স্বাধীনভাবে কাজ করে, অ্যাসিঙ্ক্রোনাস অ্যাপ্লিকেশনের জন্য একটি কেন্দ্রীয় সিস্টেমে গ্রেডিয়েন্ট আপডেট পাঠায়। ছোট প্যারামিটার ওঠানামার তাত্ত্বিক প্রভাব থাকা সত্ত্বেও, এই পদ্ধতিটি উল্লেখযোগ্যভাবে সফল প্রমাণিত হয়েছে।

অন্যদিকে, সিঙ্ক্রোনাস প্রশিক্ষণ স্থিতিশীলতা এবং পুনরুৎপাদনযোগ্যতা প্রদান করে, যা অনেক গবেষকের পছন্দ। প্রশিক্ষণে প্রতিলিপিকরণ নিশ্চিত করার জন্য, ডিন কার্যক্রমগুলি লগ করার অনুশীলনের উপর জোর দিয়েছেন, বিশেষ করে গ্রেডিয়েন্ট আপডেট এবং ডেটা ব্যাচ সিঙ্ক্রোনাইজেশন। এই লগগুলি পুনরায় প্লে করে, এমনকি অ্যাসিঙ্ক্রোনাস প্রশিক্ষণও পুনরুৎপাদনযোগ্য ফলাফল দিতে পারে, যা ডিবাগিংকে আরও সহজ করে এবং পরিবেশগত কারণগুলির কারণে সৃষ্ট অসঙ্গতিগুলি হ্রাস করে।

ত্রুটিগুলির অপ্রত্যাশিত ভূমিকা

এই বিষয়ে আরও বিস্তারিতভাবে বলতে গিয়ে, শাজির একটি আকর্ষণীয় দৃষ্টিভঙ্গি তুলে ধরেছেন:

মডেল প্রশিক্ষণের সময় বিভিন্ন ত্রুটি দেখা গেলেও, এই মডেলগুলির অন্তর্নিহিত নয়েজ সহনশীলতা স্ব-সংশোধনের সুযোগ দেয়, যা অপ্রত্যাশিত ফলাফলের দিকে পরিচালিত করে। কিছু ত্রুটি এমনকি ইতিবাচক প্রভাব ফেলে, যা স্কেল পরীক্ষামূলক অসঙ্গতিগুলিকে বাড়িয়ে তোলার সাথে সাথে উন্নতির সুযোগ তৈরি করে।

ডিবাগিং অনুশীলন সম্পর্কে জিজ্ঞাসা করা হলে, শাজির দ্রুত যাচাইকরণের জন্য অসংখ্য ছোট আকারের পরীক্ষা চালানোর পদ্ধতির কথা বর্ণনা করেন। এই পদ্ধতি কোডবেসকে সহজ করে এবং পরীক্ষার চক্রকে সপ্তাহ থেকে কমিয়ে কয়েক ঘন্টায় নিয়ে আসে, যা দ্রুত প্রতিক্রিয়া এবং সমন্বয়কে সহজ করে।

ডিন এর সাথে একমত পোষণ করে বলেন যে প্রাথমিকভাবে প্রতিকূল ফলাফলযুক্ত অনেক পরীক্ষাই পরে গুরুত্বপূর্ণ অন্তর্দৃষ্টি প্রদান করতে পারে। যাইহোক, গবেষকরা কোড জটিলতার চ্যালেঞ্জের মুখোমুখি হন; যদিও ক্রমবর্ধমান উন্নতি প্রয়োজন, তবে তারা কর্মক্ষমতা এবং রক্ষণাবেক্ষণের চ্যালেঞ্জও তৈরি করে, যার কারণে সিস্টেমের পরিচ্ছন্নতা এবং উদ্ভাবনের মধ্যে ভারসাম্য বজায় রাখা প্রয়োজন।

ভবিষ্যতের মডেলের জৈব কাঠামো

ডিন এবং শাজির এআই মডেলের ক্ষেত্রে এক বিশাল পরিবর্তন দেখতে পাচ্ছেন, যেখানে একক কাঠামো থেকে মডুলার আর্কিটেকচারে যাওয়া হবে।

জেমিনি ১.৫ প্রো-এর মতো মডেলগুলি ইতিমধ্যেই মিক্সচার অফ এক্সপার্টস (এমওই) আর্কিটেকচার ব্যবহার করে, যা কাজের উপর ভিত্তি করে বিভিন্ন উপাদান সক্রিয় করে। উদাহরণস্বরূপ, গাণিতিক সমস্যাগুলি গণিত-সংশ্লিষ্ট বিভাগকে সক্রিয় করে, যেখানে ইমেজ প্রসেসিং সংশ্লিষ্ট বিশেষ মডিউল সক্রিয় করে।

তবে, বর্তমান মডেল কাঠামো কিছুটা অনমনীয়, যেখানে বিশেষজ্ঞ মডিউলগুলি আকারে অভিন্ন এবং নমনীয়তার অভাব রয়েছে। ডিন একটি আরও ভবিষ্যৎমুখী দৃষ্টিভঙ্গি প্রস্তাব করেছেন: ভবিষ্যতের মডেলগুলিকে একটি জৈব কাঠামো গ্রহণ করা উচিত, যা বিভিন্ন দলকে মডেলের স্বতন্ত্র অংশগুলি স্বাধীনভাবে বিকাশ বা উন্নত করতে সহায়তা করবে।

উদাহরণস্বরূপ, দক্ষিণ-পূর্ব এশীয় ভাষার বিশেষজ্ঞরা প্রাসঙ্গিক মডিউলকে পরিমার্জন করতে পারেন, যেখানে অন্য একটি দল কোড বোঝার উন্নতিতে মনোযোগ দিতে পারে। এই মডুলার পদ্ধতি কেবল বিকাশের দক্ষতাই বাড়ায় না, বিশ্বব্যাপী দলগুলিকে মডেলের অগ্রগতিতে অবদান রাখতে সক্ষম করে।

প্রযুক্তিগতভাবে, মডেলগুলি ক্রমাগত ডিস্টিলেশনের মাধ্যমে পৃথক মডিউলগুলিকে অপ্টিমাইজ করতে পারে। এর মধ্যে রয়েছে বড়, উচ্চ-কার্যকারিতা সম্পন্ন মডিউলগুলিকে ছোট, দক্ষ সংস্করণে সংকুচিত করা, যা পরে নতুন জ্ঞান অর্জন করতে থাকে।

একটি রাউটার টাস্কের জটিলতার উপর ভিত্তি করে উপযুক্ত মডিউল সংস্করণ নির্বাচন করতে পারে, কর্মক্ষমতা এবং দক্ষতার মধ্যে ভারসাম্য বজায় রাখতে পারে—যা গুগলের পাথওয়ে আর্কিটেকচারের মূল ধারণা।

এই নতুন আর্কিটেকচারের জন্য শক্তিশালী অবকাঠামো প্রয়োজন, যার মধ্যে শক্তিশালী টিপিইউ ক্লাস্টার এবং পর্যাপ্ত উচ্চ-ব্যান্ডউইথ মেমরি (এইচবিএম) অন্তর্ভুক্ত। প্রতিটি কলে মডেলের প্যারামিটারগুলির একটি ভগ্নাংশ ব্যবহার করা হলেও, কনকারেন্ট অনুরোধগুলি পরিবেশন করার জন্য পুরো সিস্টেমটিকে সম্পূর্ণ মডেলটি মেমরিতে রাখতে হবে।

বর্তমান মডেলগুলি একটি কাজকে ১০টি উপ-কাজে বিভক্ত করতে পারে, যেখানে সাফল্যের হার ৮০%। ভবিষ্যতের মডেলগুলি সম্ভবত একটি কাজকে ১০০ বা ১,০০০ উপ-কাজে বিভক্ত করতে পারবে, যেখানে সাফল্যের হার ৯০% বা তার বেশি হবে।

"বিস্ময়কর" মুহূর্ত: বিড়ালের নির্ভুল স্বীকৃতি

পেছনে ফিরে তাকালে, ২০০৭ সাল ছিল বৃহৎ ভাষা মডেলগুলির (এলএলএম) জন্য একটি গুরুত্বপূর্ণ মাইলফলক

সেই সময়ে, গুগল মেশিন অনুবাদের জন্য ২ ট্রিলিয়ন টোকেন ব্যবহার করে একটি এন-গ্রাম মডেল তৈরি করেছিল। তবে, এন-গ্রাম ডেটার জন্য ডিস্ক স্টোরেজের উপর নির্ভর করার ফলে ব্যাপক ডিস্ক আই/ও (যেমন, প্রতি শব্দে ১০০,০০০ অনুসন্ধান) এর কারণে উচ্চ লেটেন্সি দেখা দেয়, যার ফলে একটি বাক্য অনুবাদ করতে ১২ ঘন্টা সময় লাগত।

এটি সমাধানের জন্য, তারা মেমরি কম্প্রেশন, ডিস্ট্রিবিউটেড আর্কিটেকচার এবং ব্যাচ প্রসেসিং এপিআই অপটিমাইজেশন সহ বেশ কয়েকটি কৌশল তৈরি করেছে:

  • মেমরি কম্প্রেশন: ডিস্ক আই/ও এড়াতে সম্পূর্ণ এন-গ্রাম ডেটা মেমরিতে লোড করা।
  • ডিস্ট্রিবিউটেড আর্কিটেকচার: সমান্তরাল প্রশ্নের জন্য একাধিক মেশিনে (যেমন, ২০০) ডেটা বিতরণ করা।
  • ব্যাচ প্রসেসিং এপিআই অপ্টিমাইজেশন: থ্রুপুট উন্নত করতে প্রতি-অনুরোধ ওভারহেড হ্রাস করা।

এই সময়ে, কম্পিউটেশনাল ক্ষমতা মুর’স ল অনুসরণ করতে শুরু করে, যা দ্রুত প্রবৃদ্ধির দিকে পরিচালিত করে।

“২০০৮ সালের শেষ দিক থেকে, মুর’স ল-এর কারণে, নিউরাল নেটওয়ার্কগুলি সত্যিই কাজ করতে শুরু করে।”

যখন একটি “বিস্ময়কর” মুহূর্ত সম্পর্কে জিজ্ঞাসা করা হয়েছিল—এমন একটি মুহূর্ত যখন একটি বিশেষ গবেষণা প্রচেষ্টা সত্যিই কাজ করেছে কিনা তা বিশ্বাস করা কঠিন ছিল—জেফ একটি পুরনো গুগল দলের প্রকল্পের কথা স্মরণ করেন যেখানে তারা ইউটিউব ভিডিও ফ্রেম থেকে উচ্চ-স্তরের বৈশিষ্ট্য (যেমন বিড়াল এবং পথচারীদের সনাক্তকরণ) শিখতে একটি মডেলকে প্রশিক্ষণ দিয়েছিল। ডিস্ট্রিবিউটেড ট্রেনিং (২,০০০ মেশিন, ১৬,০০০ কোর) এর মাধ্যমে, তারা বৃহৎ আকারের আনসুপারভাইজড লার্নিং অর্জন করেছে।

আনসুপারভাইজড প্রি-ট্রেনিংয়ের পরে, সুপারভাইজড টাস্কে (ইমেজনেট) মডেলের কর্মক্ষমতা ৬০% বৃদ্ধি পেয়েছে, যা বৃহৎ আকারের প্রশিক্ষণ এবং আনসুপারভাইজড লার্নিং এর সম্ভাবনা প্রদর্শন করে।

গুগল এখনও প্রাথমিকভাবে একটি তথ্য পুনরুদ্ধারকারী সংস্থা কিনা, এই প্রশ্নের উত্তরে জেফ জোর দিয়ে বলেন:

“এআই গুগলের আসল উদ্দেশ্য পূরণ করে।”

মূলত, এআই কেবল তথ্য পুনরুদ্ধার করে না, জটিল বিষয়বস্তু বুঝতে এবং তৈরি করতে পারে, যার বিশাল ভবিষ্যৎ সম্ভাবনা রয়েছে। গুগলের ভবিষ্যতের দিকনির্দেশনার ক্ষেত্রে, “আমি জানি না।”

তবে, গুগল এবং কিছু ওপেন-সোর্স কোড প্রতিটি ডেভেলপারদের প্রেক্ষাপটে একত্রিত হবে বলে আশা করা যায়। অন্য কথায়, মডেলগুলিকে আরও টোকেন পরিচালনা করতে সক্ষম করার মাধ্যমে, অনুসন্ধানের মধ্যে অনুসন্ধান মডেলের ক্ষমতা এবং উপযোগিতাকে আরও বাড়িয়ে তুলবে।

এই ধারণাটি ইতিমধ্যেই গুগল-এ অভ্যন্তরীণভাবে পরীক্ষা করা হচ্ছে।

“আসলে, আমরা আমাদের অভ্যন্তরীণ কোডবেসে অভ্যন্তরীণ ডেভেলপারদের জন্য জেমিনি মডেলের উপর আরও প্রশিক্ষণ পরিচালনা করেছি।”

আরও স্পষ্টভাবে বললে, গুগল অভ্যন্তরীণভাবে ২৫% কোড এআই দ্বারা লেখার লক্ষ্য অর্জন করেছে।

গুগলের সবচেয়ে আনন্দের সময়

আগ্রহজনকভাবে, এই জুটি গুগল সম্পর্কিত আরও আকর্ষণীয় অভিজ্ঞতা শেয়ার করেছেন।

নোয়ামের জন্য ১৯৯৯ সালে, গুগল-এর মতো একটি বড় কোম্পানিতে যোগদান করা প্রাথমিকভাবে আকর্ষণীয় ছিল না, কারণ তিনি মনে করেছিলেন যে তার দক্ষতা কম ব্যবহৃত হতে পারে। তবে, গুগল-এর দৈনিক অনুসন্ধানের পরিমাণ সূচক চার্ট দেখার পরে, তিনি দ্রুত তার মন পরিবর্তন করেন:

“এই লোকেরা সফল হতে বাধ্য, এবং মনে হচ্ছে তাদের সমাধান করার জন্য অনেক আকর্ষণীয় সমস্যা রয়েছে।”

তিনি একটি নির্দিষ্ট “ছোট” উদ্দেশ্য নিয়ে যোগদান করেছিলেন:

“কিছু অর্থ উপার্জন করা এবং তারপরে আনন্দের সাথে আমার নিজের এআই গবেষণা চালিয়ে যাওয়া।”

গুগলে যোগদানের পরে, তিনি তার পরামর্শদাতা জেফ-এর সাথে দেখা করেন (নতুন কর্মচারীদের পরামর্শদাতা নিয়োগ করা হয়েছিল) এবং তারা বেশ কয়েকটি প্রকল্পে সহযোগিতা করেন।

এই সময়ে, জেফ গুগল-এর প্রতি তার নিজের ভালো লাগার কথা বলেন:

“আমি আরএম ভিশনের (Responsive and Multimodal) জন্য গুগলের বিস্তৃত ম্যান্ডেট পছন্দ করি, এমনকি যদি এটি একটি দিকও হয়, আমরা অনেক ছোট প্রকল্প করতে পারি।”

এটি নোয়ামকে সেই স্বাধীনতাও দিয়েছিল যা “এসে আঘাত করে পালানো” পরিকল্পনা করা ব্যক্তিকে দীর্ঘমেয়াদে থাকতে পরিচালিত করেছিল।

এদিকে, যখন জেফ-এর কথা আসে, তখন প্যারালাল ব্যাকপ্রপাগেশন নিয়ে তার স্নাতক থিসিস পুনরায় আলোচনা করা হয়।

এই ৮ পৃষ্ঠার গবেষণাপত্রটি ১৯৯০ সালের সেরা স্নাতক থিসিস হিসাবে বিবেচিত হয়েছিল এবং মিনেসোটা বিশ্ববিদ্যালয়ের লাইব্রেরিতে সংরক্ষিত আছে। এতে, জেফ ব্যাকপ্রপাগেশনের উপর ভিত্তি করে নিউরাল নেটওয়ার্কের সমান্তরাল প্রশিক্ষণের জন্য দুটি পদ্ধতি অনুসন্ধান করেছেন:

  • প্যাটার্ন-পার্টিশনড অ্যাপ্রোচ: প্রতিটি প্রসেসরের উপর পুরো নিউরাল নেটওয়ার্ক উপস্থাপন করা এবং উপলব্ধ প্রসেসরগুলির মধ্যে ইনপুট প্যাটার্নগুলি ভাগ করা।
  • নেটওয়ার্ক-পার্টিশনড অ্যাপ্রোচ (পাইপলাইনড অ্যাপ্রোচ): উপলব্ধ প্রসেসরগুলিতে নিউরাল নেটওয়ার্কের নিউরন বিতরণ করা, একটি যোগাযোগকারী রিং তৈরি করা। বৈশিষ্ট্যগুলি এই পাইপলাইনের মাধ্যমে যায়, প্রতিটি প্রসেসরের নিউরন দ্বারা প্রক্রিয়া করা হয়।

তিনি বিভিন্ন আকারের নিউরাল নেটওয়ার্ক এবং বিভিন্ন ইনপুট ডেটা দিয়ে এই পদ্ধতিগুলি পরীক্ষা করেছেন। ফলাফলে দেখা গেছে যে প্যাটার্ন-পার্টিশনড অ্যাপ্রোচের জন্য, বৃহত্তর নেটওয়ার্ক এবং আরও ইনপুট প্যাটার্ন আরও ভাল ত্বরণ তৈরি করে।

সবচেয়ে উল্লেখযোগ্য বিষয় হল, গবেষণাপত্রটি প্রকাশ করে যে ১৯৯০ সালে একটি “বৃহৎ” নিউরাল নেটওয়ার্ক দেখতে কেমন ছিল:

“প্রতি স্তরে ১০, ২১ এবং ১০টি নিউরন সহ একটি ৩-স্তরীয় নিউরাল নেটওয়ার্ককে খুব বড় হিসাবে বিবেচনা করা হত।”

জেফ স্মরণ করেন যে তিনি তার পরীক্ষার জন্য ৩২টি পর্যন্ত প্রসেসর ব্যবহার করেছিলেন।

(সেই সময়ে, তিনি সম্ভবত কল্পনাও করতে পারেননি যে ১২ বছর পরে, তিনি অ্যান্ড্রু এনজি, কোওক লে এবং অন্যদের সাথে ১৬,০০০ সিপিইউ কোর ব্যবহার করে বিশাল ডেটা থেকে বিড়াল সনাক্ত করবেন।)

তবে, জেফ স্বীকার করেছেন যে এই গবেষণা ফলাফলগুলি সত্যিই কার্যকর হওয়ার জন্য, “আমাদের প্রায় মিলিয়ন গুণ বেশি কম্পিউটিং পাওয়ার দরকার ছিল।”

পরে, তারা এআই-এর সম্ভাব্য ঝুঁকি নিয়ে আলোচনা করেন, বিশেষ করে যখন এআই অত্যন্ত শক্তিশালী হয়ে ওঠে তখন প্রতিক্রিয়া লুপের সমস্যা নিয়ে। অন্য কথায়, এআই কোড লিখে বা তার অ্যালগরিদম উন্নত করে একটি অনিয়ন্ত্রিত ত্বরণ লুপে (যেমন, “বুদ্ধিমত্তার বিস্ফোরণ”) প্রবেশ করতে পারে।

এটি এআই-কে দ্রুত মানুষের নিয়ন্ত্রণের বাইরে নিয়ে যেতে পারে, এমনকি দূষিত সংস্করণ তৈরি করতে পারে। হোস্ট যেমনটি বলেছেন, কল্পনা করুন “জেফ-এর মতো মিলিয়ন শীর্ষ প্রোগ্রামার, শেষ পর্যন্ত মিলিয়ন খারাপ জেফ-এ পরিণত হচ্ছে।”

(নেটিজেন): “নতুন দুঃস্বপ্ন আনলকড, হাহা!”

অবশেষে, গুগলের সবচেয়ে আনন্দের সময় নিয়ে চিন্তা করতে গিয়ে দুজনেই তাদের স্মৃতি শেয়ার করেছেন।

জেফ-এর জন্য, গুগল-এর প্রথম দিকের সবচেয়ে আনন্দময় মুহূর্তগুলি ছিল গুগল-এর অনুসন্ধানের ট্রাফিকের বিস্ফোরক বৃদ্ধি দেখা।

“এমন কিছু তৈরি করা যা এখন ২ বিলিয়ন মানুষ ব্যবহার করে, তা অবিশ্বাস্য।”

সম্প্রতি, তিনি জেমিনি দলের সাথে এমন কিছু তৈরি করতে পেরে আনন্দিত যা পাঁচ বছর আগে কেউ বিশ্বাস করত না, এবং তিনি মডেলের প্রভাব আরও বাড়তে দেখবেন বলে আশা করছেন।

নোয়াম একই ধরনের অভিজ্ঞতা এবং লক্ষ্যের কথা বলেছেন, এমনকি গুগল-এর “মাইক্রো-কিচেন এলাকা”-র কথাও উল্লেখ করেছেন।

এটি প্রায় ৫০টি টেবিল সহ একটি বিশেষ স্থান, যেখানে কফি এবং স্ন্যাকস পাওয়া যায়, যেখানে লোকেরা অবাধে আড্ডা দিতে এবং ধারণা বিনিময় করতে পারে।

এই উল্লেখের সাথে, জেফ-ও উৎসাহিত হয়ে ওঠেন (ডজ)।