ডিফিউশন মডেল ইনফারেন্স স্কেলিং নতুন দৃষ্টান্ত

ডিফিউশন মডেলে ইনফারেন্স-টাইম স্কেলিং

সাম্প্রতিককালে লার্জ ল্যাঙ্গুয়েজ মডেলগুলির (LLMs) ইনফারেন্সের সময় স্কেলিংয়ের কার্যকারিতা দেখা গিয়েছে। o1, o3, DeepSeek R1, QwQ, এবং Step Reasoner mini-এর মতো মডেলগুলি দেখিয়েছে যে ইনফারেন্সের সময় গণনা বৃদ্ধি করলে কর্মক্ষমতা উল্লেখযোগ্যভাবে উন্নত হতে পারে। এই প্রেক্ষাপটে, প্রশ্ন উঠেছে যে এই নীতিটি ডিফিউশন মডেলগুলিতেও প্রয়োগ করা যেতে পারে কিনা।

নিউ ইয়র্ক ইউনিভার্সিটির একদল গবেষক এই প্রশ্নের উত্তর খুঁজে বের করার চেষ্টা করেছেন। একটি সাধারণ অনুসন্ধান কাঠামোর মাধ্যমে তারা প্রমাণ করেছেন যে ডিফিউশন মডেলের জন্য ইনফারেন্স-টাইম স্কেলিং সত্যিই কার্যকর। ইনফারেন্সের সময় গণনা বৃদ্ধি করলে উৎপাদিত নমুনার গুণমান উল্লেখযোগ্যভাবে বৃদ্ধি পায়।

মূল অনুসন্ধান

  • ইনফারেন্স-টাইম স্কেলিং ডিফিউশন মডেলের জন্য কার্যকর: ইনফারেন্সের সময় বেশি কম্পিউটেশনাল রিসোর্স ব্যবহার করলে উচ্চ মানের নমুনা পাওয়া যায়।
  • উপাদান সংমিশ্রণে নমনীয়তা: এই কাঠামো বিভিন্ন অ্যাপ্লিকেশনের জন্য বিভিন্ন উপাদানের কনফিগারেশনের অনুমতি দেয়।
  • ডিনয়েজিং ধাপের বাইরে: গবেষণাটি পরামর্শ দেয় যে স্যাম্পলিংয়ের সময় আরও ভালো নয়েজ খোঁজা NFE স্কেলিংয়ের আরেকটি মাত্রা, যা কেবল ডিনয়েজিং ধাপ বাড়ানোর বাইরেও কাজ করে।

দুটি ডিজাইন অক্ষ

এই কাঠামো দুটি মূল ডিজাইন অক্ষের উপর দৃষ্টি নিবদ্ধ করে:

  • যাচাইকারী: অনুসন্ধান প্রক্রিয়ার সময় প্রতিক্রিয়া প্রদান করে।
  • অ্যালগরিদম: আরও ভালো নয়েজ ক্যান্ডিডেট খুঁজে বের করে।

গবেষণা পদ্ধতি

গবেষকরা যাচাইকারীদের জন্য তিনটি ভিন্ন পরিস্থিতি অনুসন্ধান করেছেন:

  1. যেখানে চূড়ান্ত মূল্যায়ন সম্পর্কে বিশেষ তথ্য পাওয়া যায়।
  2. যেখানে জেনারেশন গাইড করার জন্য শর্তসাপেক্ষ তথ্য পাওয়া যায়।
  3. যেখানে কোনো অতিরিক্ত তথ্য পাওয়া যায় না।

অ্যালগরিদমের জন্য, তারা নিম্নলিখিত বিষয়গুলি নিয়ে কাজ করেছেন:

  1. র্যান্ডম সার্চ: একটি নির্দিষ্ট সেট থেকে সেরাটি নির্বাচন করা।
  2. জিরো-অর্ডার সার্চ: যাচাইকারীর প্রতিক্রিয়ার মাধ্যমে পুনরাবৃত্তিমূলকভাবে নয়েজ ক্যান্ডিডেট উন্নত করা।
  3. পাথ সার্চ: যাচাইকারীর প্রতিক্রিয়ার মাধ্যমে পুনরাবৃত্তিমূলকভাবে ডিফিউশন স্যাম্পলিং ট্র্যাজেক্টোরি উন্নত করা।

এই গবেষণাটি প্রাথমিকভাবে একটি তুলনামূলকভাবে সহজ ইমেজনেট ক্লাস-কন্ডিশনাল জেনারেশন সেটআপে ডিজাইন করা হয়েছিল। পরবর্তীতে, তারা এই ডিজাইনগুলি বৃহত্তর টেক্সট-কন্ডিশনাল জেনারেশনে প্রয়োগ করে এবং তাদের প্রস্তাবিত ফ্রেমওয়ার্ক মূল্যায়ন করে।

ইনফারেন্স সময় স্কেলিং

এই পেপারটি ডিফিউশন মডেলগুলিতে ইনফারেন্স সময় স্কেলিংয়ের জন্য একটি কাঠামো প্রস্তাব করে, যা অপ্টিমাল স্যাম্পলিং নয়েজের অনুসন্ধান হিসাবে কাজ করে। এই প্রক্রিয়ায় দুটি মূল উপাদান রয়েছে:

  • যাচাইকারী: এগুলি প্রি-ট্রেইনড মডেল যা জেনারেটেড নমুনার গুণমান মূল্যায়ন করে। তারা ঐচ্ছিক শর্তগুলির সাথে জেনারেটেড নমুনা গ্রহণ করে এবং একটি স্কেলার স্কোর আউটপুট করে।
  • অ্যালগরিদম: এই অ্যালগরিদমগুলি আরও ভালো ক্যান্ডিডেট নমুনা খুঁজে বের করার জন্য যাচাইকারীর স্কোর ব্যবহার করে।

মোট ইনফারেন্স বাজেট ফাংশন মূল্যায়নের মোট সংখ্যা (NFE) দ্বারা পরিমাপ করা হয়, যার মধ্যে ডিনয়েজিং ধাপ এবং অনুসন্ধানের খরচ উভয়ই অন্তর্ভুক্ত।

সার্চ যাচাইকারী

গবেষকরা প্রথমে ওরাকল যাচাইকারী ব্যবহার করেন, যার নির্বাচিত নমুনার চূড়ান্ত মূল্যায়ন সম্পর্কে সম্পূর্ণ তথ্য ছিল। ইমেজনেটের জন্য, এর মধ্যে FID এবং IS-এর মতো মেট্রিক অন্তর্ভুক্ত ছিল। এরপর তারা CLIP এবং DINO-এর মতো তত্ত্বাবধানে থাকা যাচাইকারী মডেলগুলি ব্যবহার করেন। এই মডেলগুলি নমুনাগুলিকে শ্রেণীবদ্ধ করতে এবং ক্লাস লেবেলের সাথে সম্পর্কিত সর্বোচ্চ লগিটের নমুনা নির্বাচন করতে ব্যবহৃত হয়েছিল।

তবে, তারা লক্ষ্য করেছেন যে এই ক্লাসিফায়ারগুলি FID স্কোরের উদ্দেশ্যগুলির সাথে আংশিকভাবে একত্রিত হয়েছে। এর ফলে কম্পিউটেশন বাড়ার সাথে সাথে নমুনার ভিন্নতা হ্রাস পায় এবং মোড ধসে পড়ে। এই ঘটনাটিকে “যাচাইকারী হ্যাকিং” বলা হয়, যা র্যান্ডম সার্চ অ্যালগরিদমের সীমাহীন অনুসন্ধান স্থানের কারণে দ্রুত হয়।

গবেষণায় দেখা গেছে যে, যাচাইকারীদের কার্যকরভাবে অনুসন্ধান পরিচালনা করার জন্য শর্তসাপেক্ষ তথ্যের প্রয়োজন নেই। তারা DINO/CLIP ক্লাসিফায়ার থেকে লগিটের মধ্যে একটি শক্তিশালী সম্পর্ক লক্ষ্য করেছেন।

সার্চ অ্যালগরিদম

যাচাইকারী হ্যাকিং কমাতে, গবেষকরা আরও পরিশীলিত অনুসন্ধান অ্যালগরিদম ব্যবহার করেছেন যা ধীরে ধীরে ক্যান্ডিডেট নমুনাগুলিকে অপ্টিমাইজ করে। এর মধ্যে একটি জিরো-অর্ডার অনুসন্ধান পদ্ধতি অন্তর্ভুক্ত ছিল:

  1. একটি পিভট পয়েন্ট হিসাবে র্যান্ডম গসিয়ান নয়েজ দিয়ে শুরু করা।
  2. পিভট পয়েন্টের আশেপাশে N সংখ্যক ক্যান্ডিডেট খুঁজে বের করা।
  3. নমুনা এবং যাচাইকারীর স্কোর পাওয়ার জন্য ODE সলভারের মাধ্যমে ক্যান্ডিডেটদের চালানো।
  4. সেরা ক্যান্ডিডেট দিয়ে পিভট পয়েন্ট আপডেট করা এবং ধাপ 1-3 পুনরাবৃত্তি করা।

তারা একটি পাথ সার্চ অ্যালগরিদমও নিয়ে কাজ করেছেন, যা স্যাম্পলিং ট্র্যাজেক্টোরি বরাবর অনুসন্ধানের সম্ভাবনা খতিয়ে দেখে:

  1. N সংখ্যক প্রাথমিক নয়েজ নমুনা নেওয়া এবং একটি নয়েজ লেভেল σ পর্যন্ত ODE সলভার চালানো।
  2. প্রতিটি নমুনায় নয়েজ যোগ করা এবং ফরোয়ার্ড নয়েজিং প্রক্রিয়া অনুকরণ করা।
  3. প্রতিটি নয়েজি নমুনায় একটি ODE সলভার চালানো এবং যাচাইকারীর স্কোরের ভিত্তিতে সেরা N সংখ্যক ক্যান্ডিডেট রাখা, যতক্ষণ না ODE সলভার σ=0 তে পৌঁছায় ততক্ষণ পর্যন্ত পুনরাবৃত্তি করা।
  4. বাকি N সংখ্যক নমুনার মধ্যে র্যান্ডমলি অনুসন্ধান করা এবং সেরাটি রাখা।

জিরো-অর্ডার এবং পাথ সার্চ অ্যালগরিদম উভয়ই র্যান্ডম সার্চের তুলনায় শক্তিশালী লোকালিটি বজায় রাখে।

টেক্সট-টু-ইমেজ পরিস্থিতিতে স্কেলিং

গবেষক দল বৃহত্তর টেক্সট-টু-ইমেজ টাস্কে অনুসন্ধান ফ্রেমওয়ার্কের স্কেলিং ক্ষমতা পরীক্ষা করেছেন। তারা DrawBench এবং T2I-CompBench ডেটাসেট ব্যবহার করেছেন, যেখানে FLUX.1-dev মডেল ছিল মূল ভিত্তি। তারা তত্ত্বাবধানে থাকা যাচাইকারীদের নির্বাচনও প্রসারিত করেছেন, যার মধ্যে রয়েছে এস্থেটিক স্কোর প্রেডিক্টর, CLIPScore, এবং ImageReward। এছাড়াও, তারা এই তিনটি যাচাইকারীকে একত্রিত করে একটি যাচাইকারী দল তৈরি করেছেন।

বিশ্লেষণ: যাচাইকারী-টাস্ক অ্যালাইনমেন্ট

গবেষণাটি বিভিন্ন ডেটাসেটে বিভিন্ন যাচাইকারী-অ্যালগরিদম সংমিশ্রণের ফলাফল তুলনা করেছে। DrawBench-এ, তারা দেখেছেন যে সমস্ত যাচাইকারী ব্যবহার করলে নমুনার গুণমান সাধারণত উন্নত হয়। তবে, তারা লক্ষ্য করেছেন যে এস্থেটিক এবং CLIP যাচাইকারীকে আলাদাভাবে ব্যবহার করলে তাদের নিজস্ব পক্ষপাতিত্বের কারণে একে অপরের উপর নেতিবাচক প্রভাব পড়তে পারে। এর কারণ হল তাদের মূল্যায়নের ফোকাসের পার্থক্য: এস্থেটিক স্কোর ভিজ্যুয়াল গুণমানের উপর ফোকাস করে, প্রায়শই উচ্চ শৈলীযুক্ত ছবি পছন্দ করে, যেখানে CLIP ভিজ্যুয়াল-টেক্সট অ্যালাইনমেন্টকে অগ্রাধিকার দেয়, কখনও কখনও ভিজ্যুয়াল গুণমানকে ত্যাগ করে।

তারা উল্লেখ করেছেন যে কিছু যাচাইকারী নির্দিষ্ট কাজের জন্য বেশি উপযুক্ত, এবং একটি যাচাইকারীর কার্যকারিতা টাস্কের প্রয়োজনীয়তার সাথে তার অ্যালাইনমেন্টের উপর নির্ভর করে।

অ্যালগরিদম কর্মক্ষমতা

তিনটি অনুসন্ধান অ্যালগরিদম (র্যান্ডম, জিরো-অর্ডার এবং পাথ) DrawBench-এ স্যাম্পলিং গুণমান কার্যকরভাবে উন্নত করেছে। তবে, র্যান্ডম সার্চ কিছু ক্ষেত্রে ভালো ফল দিয়েছে কারণ অন্য দুটি পদ্ধতির স্থানীয় প্রকৃতির কারণে। র্যান্ডম সার্চ যাচাইকারীর পক্ষপাতিত্বের দিকে দ্রুত অগ্রসর হয়েছে, যেখানে অন্য দুটি অ্যালগরিদমের কম অনুকূল ক্যান্ডিডেটদের উপর উন্নতি প্রয়োজন।

ফাইন-টিউনিং এর সাথে সামঞ্জস্যতা

গবেষক দল তাদের অনুসন্ধান পদ্ধতির ফাইন-টিউনড মডেলগুলির সাথে সামঞ্জস্যতা নিয়ে কাজ করেছেন। তারা একটি DPO-ফাইন-টিউনড স্টেবল ডিফিউশন XL মডেল ব্যবহার করেছেন এবং দেখেছেন যে অনুসন্ধান পদ্ধতিটি বিভিন্ন মডেলে সাধারণীকরণ করা যেতে পারে এবং ইতিমধ্যে অ্যালাইনড মডেলগুলির কর্মক্ষমতা উন্নত করতে পারে।

ইনফারেন্স গণনার বিভিন্ন দিকের প্রভাব

গবেষণায় দেখা গেছে যে ইনফারেন্স গণনার বিভিন্ন দিক ফলাফলের উপর প্রভাব ফেলে:

  • অনুসন্ধান পুনরাবৃত্তির সংখ্যা: পুনরাবৃত্তি বাড়ালে নয়েজ অপটিমামের কাছাকাছি আসে।
  • অনুসন্ধান পুনরাবৃত্তি প্রতি গণনা: পুনরাবৃত্তি প্রতি ডিনয়েজিং ধাপের সংখ্যা সামঞ্জস্য করলে বিভিন্ন গণনাগতভাবে অপ্টিমাল অঞ্চল পাওয়া যায়।
  • চূড়ান্ত জেনারেশন গণনা: দলটি সর্বোচ্চ চূড়ান্ত নমুনার গুণমান নিশ্চিত করার জন্য চূড়ান্ত ডিনয়েজিং ধাপের জন্য অপ্টিমাল সেটিংস ব্যবহার করেছে।

গণনায় বিনিয়োগের কার্যকারিতা

গবেষকরা ছোট ডিফিউশন মডেলগুলিতে ইনফারেন্স-টাইম স্কেলিংয়ের কার্যকারিতা নিয়ে কাজ করেছেন। তারা দেখেছেন যে ইমেজনেটের জন্য, ছোট মডেলগুলিকে স্কেল করা খুব কার্যকর হতে পারে। কিছু ক্ষেত্রে, ছোট মডেলে অনুসন্ধান করা বড় মডেলগুলিকে অনুসন্ধান ছাড়াই ছাড়িয়ে যেতে পারে। তবে, কার্যকারিতা ছোট মডেলের বেসলাইন কর্মক্ষমতার উপর নির্ভর করে।

টেক্সট-ভিত্তিক সেটিংসে, PixArt-Σ, FLUX-1.dev-এর তুলনায় কম গণনা ব্যবহার করেও ভালো ফল দিয়েছে। এই ফলাফলগুলি প্রমাণ করে যে প্রশিক্ষণের সময় ব্যয় করা উল্লেখযোগ্য গণনাগত সম্পদ জেনারেশনের সময় কম গণনার মাধ্যমে পূরণ করা যেতে পারে, যার ফলে আরও দক্ষতার সাথে উচ্চ মানের নমুনা পাওয়া যায়।