কেন AI ভিডিও মাঝে মাঝে ভুল করে

চীনা জেনারেটিভ ভিডিও মডেলের উত্থান

Tencent-এর Hunyuan Video ইতিমধ্যেই শখের AI সম্প্রদায়ে উল্লেখযোগ্য সাড়া ফেলেছে। এর ওপেন-সোর্স রিলিজ ব্যবহারকারীদের প্রযুক্তিটিকে তাদের নির্দিষ্ট চাহিদা অনুযায়ী তৈরি করার সুযোগ করে দিয়েছে।

এর পরেই রয়েছে Alibaba-র Wan 2.1, যা আরও সম্প্রতি প্রকাশিত হয়েছে। এই মডেলটি বর্তমানে উপলব্ধ সবচেয়ে শক্তিশালী ইমেজ-টু-ভিডিও Free and Open Source Software (FOSS) সমাধানগুলির মধ্যে অন্যতম, এবং এটি এখন Wan LoRA-এর মাধ্যমে কাস্টমাইজেশন সমর্থন করে।

এই উন্নয়নের পাশাপাশি, আমরা Alibaba-র VACE ভিডিও তৈরি এবং সম্পাদনা স্যুট এবং সেইসাথে সাম্প্রতিক মানব-কেন্দ্রিক ফাউন্ডেশন মডেল, SkyReels-এর উপলব্ধতার প্রত্যাশা করছি।

জেনারেটিভ ভিডিও AI গবেষণার ক্ষেত্রটিও বিস্ফোরক। মার্চ মাসের শুরুতেই, Arxiv-এর কম্পিউটার ভিশন বিভাগে (জেনারেটিভ AI পেপারগুলির জন্য একটি গুরুত্বপূর্ণ কেন্দ্র) প্রায় ৩৫০টি এন্ট্রি জমা পড়েছে – যা সাধারণত কনফারেন্স সিজনের শীর্ষে দেখা যায়।

২০২২ সালের গ্রীষ্মে Stable Diffusion-এর লঞ্চ (এবং পরবর্তীকালে Dreambooth এবং LoRA কাস্টমাইজেশন পদ্ধতির বিকাশ) হওয়ার পর থেকে গত দুই বছরে বড় ধরনের সাফল্যের অভাব দেখা গেছে। তবে, গত কয়েক সপ্তাহে নতুন রিলিজ এবং উদ্ভাবনের ঢেউ এসেছে, এতটাই দ্রুত যে সম্পূর্ণভাবে অবগত থাকা তো দূরের কথা, সবকিছু নিয়ে বিস্তারিত আলোচনা করাও প্রায় অসম্ভব।

টেম্পোরাল কনসিস্টেন্সির সমাধান, কিন্তু নতুন চ্যালেঞ্জের উদ্ভব

Hunyuan এবং Wan 2.1-এর মতো ভিডিও ডিফিউশন মডেলগুলি অবশেষে টেম্পোরাল কনসিস্টেন্সির সমস্যাটির সমাধান করেছে। কয়েক বছর ধরে শত শত গবেষণা উদ্যোগের অসফল প্রচেষ্টার পর, এই মডেলগুলি সময়ের সাথে সামঞ্জস্যপূর্ণ মানুষ, পরিবেশ এবং বস্তু তৈরি করার চ্যালেঞ্জগুলি অনেকাংশে সমাধান করেছে।

এতে কোন সন্দেহ নেই যে VFX স্টুডিওগুলি সক্রিয়ভাবে এই নতুন চীনা ভিডিও মডেলগুলিকে অভিযোজিত করার জন্য কর্মী এবং সংস্থান নিয়োগ করছে। তাদের তাৎক্ষণিক লক্ষ্য হল ফেস-সোয়াপিংয়ের মতো গুরুত্বপূর্ণ চ্যালেঞ্জগুলি মোকাবেলা করা, যদিও এই সিস্টেমগুলির জন্য বর্তমানে ControlNet-শৈলীর সহায়ক প্রক্রিয়া অনুপস্থিত।

এটি অবশ্যই একটি বিশাল স্বস্তি যে এত বড় একটি বাধা সম্ভাব্যভাবে অতিক্রম করা গেছে, এমনকি যদি এটি প্রত্যাশিত চ্যানেলের মাধ্যমে নাও হয়ে থাকে।

যাইহোক, অবশিষ্ট সমস্যাগুলির মধ্যে, একটি বিশেষ তাৎপর্যপূর্ণ হিসাবে দাঁড়িয়েছে:

বর্তমানে উপলব্ধ সমস্ত টেক্সট-টু-ভিডিও এবং ইমেজ-টু-ভিডিও সিস্টেম, বাণিজ্যিক ক্লোজড-সোর্স মডেল সহ, পদার্থবিদ্যা-অমান্যকারী ব্লান্ডার তৈরি করার প্রবণতা রয়েছে। উপরের উদাহরণে দেখানো হয়েছে একটি পাথর উপরের দিকে গড়িয়ে যাচ্ছে, যা এই প্রম্পট থেকে তৈরি করা হয়েছে: ‘একটি ছোট পাথর একটি খাড়া, পাথুরে পাহাড়ের ঢাল বেয়ে গড়িয়ে পড়ছে, মাটি এবং ছোট পাথর সরিয়ে দিচ্ছে’

কেন AI ভিডিওগুলি পদার্থবিদ্যা ভুল করে?

সম্প্রতি Alibaba এবং UAE-এর মধ্যে একটি একাডেমিক সহযোগিতায় প্রস্তাবিত একটি তত্ত্ব অনুসারে, মডেলগুলি এমনভাবে শিখছে যা তাদের টেম্পোরাল অর্ডার বোঝার ক্ষেত্রে বাধা সৃষ্টি করতে পারে। এমনকি ভিডিওগুলিতে প্রশিক্ষণ দেওয়ার সময়ও (যা প্রশিক্ষণের জন্য একক-ফ্রেম সিকোয়েন্সে বিভক্ত করা হয়), মডেলগুলি ‘আগে’ এবং ‘পরে’ চিত্রগুলির সঠিক ক্রমটি সহজাতভাবে উপলব্ধি করতে পারে না।

যাইহোক, সবচেয়ে সম্ভাব্য ব্যাখ্যা হল যে প্রশ্নবিদ্ধ মডেলগুলি ডেটা অগমেন্টেশন রুটিন ব্যবহার করেছে। এই রুটিনগুলিতে মডেলটিকে একটি উৎস প্রশিক্ষণ ক্লিপের সাথে ফরোয়ার্ড এবং ব্যাকওয়ার্ড উভয় দিকে উন্মুক্ত করা হয়, কার্যকরভাবে প্রশিক্ষণের ডেটা দ্বিগুণ করে।

কিছু সময় ধরে জানা গেছে যে এটি নির্বিচারে করা উচিত নয়। যদিও কিছু মুভমেন্ট রিভার্সে কাজ করে, অনেকগুলি করে না। যুক্তরাজ্যের ইউনিভার্সিটি অফ ব্রিস্টলের ২০১৯ সালের একটি গবেষণার লক্ষ্য ছিল একটি একক ডেটাসেটের মধ্যে equivariant, invariant, এবং irreversible উৎস ডেটা ভিডিও ক্লিপগুলির মধ্যে পার্থক্য করার একটি পদ্ধতি তৈরি করা। ডেটা অগমেন্টেশন রুটিন থেকে অনুপযুক্ত ক্লিপগুলি ফিল্টার করা ছিল এর লক্ষ্য।

সেই কাজের লেখকরা সমস্যাটি স্পষ্ট করে তুলে ধরেছিলেন:

*’আমরা দেখতে পাই যে বিপরীত ভিডিওগুলির বাস্তবতা রিভার্সাল আর্টিফ্যাক্টস দ্বারা বিশ্বাসঘাতকতা করে, দৃশ্যের এমন দিক যা একটি প্রাকৃতিক বিশ্বে সম্ভব হবে না। কিছু আর্টিফ্যাক্ট সূক্ষ্ম, অন্যরা সনাক্ত করা সহজ, যেমন একটি বিপরীত ‘নিক্ষেপ’ ক্রিয়া যেখানে নিক্ষিপ্ত বস্তুটি স্বতঃস্ফূর্তভাবে মেঝে থেকে উঠে আসে।

*’আমরা দুই ধরনের রিভার্সাল আর্টিফ্যাক্ট পর্যবেক্ষণ করি, ভৌত, যা প্রকৃতির নিয়ম লঙ্ঘনের প্রদর্শন করে এবং অসম্ভাব্য, যা একটি সম্ভাব্য কিন্তু অসম্ভাব্য পরিস্থিতির চিত্র তুলে ধরে। এগুলি এক্সক্লুসিভ নয় এবং অনেক বিপরীত ক্রিয়া উভয় ধরনের আর্টিফ্যাক্টে ভোগে, যেমন কাগজের একটি টুকরো কুঁচকে গেলে।

*’ভৌত আর্টিফ্যাক্টের উদাহরণগুলির মধ্যে রয়েছে: উল্টানো মাধ্যাকর্ষণ (যেমন ‘কিছু ফেলে দেওয়া’), বস্তুর উপর স্বতঃস্ফূর্ত আবেগ (যেমন ‘একটি কলম ঘোরানো’), এবং অপরিবর্তনীয় অবস্থার পরিবর্তন (যেমন ‘একটি মোমবাতি পোড়ানো’)। একটি অসম্ভাব্য আর্টিফ্যাক্টের উদাহরণ: আলমারি থেকে একটি প্লেট নেওয়া, এটি শুকানো এবং শুকানোর র‍্যাকে রাখা।

*’এই ধরনের ডেটার পুনঃব্যবহার প্রশিক্ষণের সময় খুব সাধারণ, এবং উপকারী হতে পারে – উদাহরণস্বরূপ, এটি নিশ্চিত করতে যে মডেলটি কোনও চিত্র বা বস্তুর কেবল একটি দৃশ্যই শেখে না যা তার কেন্দ্রীয় সংগতি এবং যুক্তি না হারিয়ে ফ্লিপ বা ঘোরানো যেতে পারে।

‘এটি শুধুমাত্র সেই বস্তুগুলির জন্য কাজ করে যা সত্যিই প্রতিসম, অবশ্যই; এবং একটি ‘বিপরীত’ ভিডিও থেকে পদার্থবিদ্যা শেখা তখনই কাজ করে যদি বিপরীত সংস্করণটি ফরোয়ার্ড সংস্করণের মতোই অর্থবহ হয়।’

আমাদের কাছে সুনির্দিষ্ট প্রমাণ নেই যে Hunyuan Video এবং Wan 2.1-এর মতো সিস্টেমগুলি প্রশিক্ষণের সময় নির্বিচারে “বিপরীত” ক্লিপগুলিকে অনুমতি দিয়েছে (কোনও গবেষণা গোষ্ঠীই তাদের ডেটা অগমেন্টেশন রুটিন সম্পর্কে নির্দিষ্ট করেনি)।

যাইহোক, অসংখ্য রিপোর্ট (এবং আমার নিজের ব্যবহারিক অভিজ্ঞতা) বিবেচনা করে, একমাত্র যুক্তিসঙ্গত ব্যাখ্যা হল যে এই মডেলগুলিকে শক্তি জোগানো হাইপারস্কেল ডেটাসেটগুলিতে এমন ক্লিপ থাকতে পারে যা সত্যিই বিপরীত দিকে ঘটা মুভমেন্টগুলিকে বৈশিষ্ট্যযুক্ত করে।

আগে এমবেড করা উদাহরণ ভিডিওর পাথরটি Wan 2.1 ব্যবহার করে তৈরি করা হয়েছিল। এটি একটি নতুন গবেষণায় বৈশিষ্ট্যযুক্ত যা তদন্ত করে যে ভিডিও ডিফিউশন মডেলগুলি পদার্থবিদ্যাকে কতটা ভালভাবে পরিচালনা করে।

এই প্রকল্পের পরীক্ষার জন্য, Wan 2.1 ধারাবাহিকভাবে ভৌত ​​আইন মেনে চলার ক্ষমতার ক্ষেত্রে মাত্র ২২% স্কোর অর্জন করেছে।

আশ্চর্যজনকভাবে, এটি পরীক্ষিত সমস্ত সিস্টেমের মধ্যে সেরা স্কোর, যা নির্দেশ করে যে আমরা সম্ভবত ভিডিও AI-এর জন্য পরবর্তী প্রধান বাধা চিহ্নিত করেছি:

VideoPhy-2-এর সূচনা: ভৌত কমনসেন্সের জন্য একটি নতুন বেঞ্চমার্ক

নতুন কাজের লেখকরা VideoPhy নামে একটি বেঞ্চমার্কিং সিস্টেম তৈরি করেছেন, যা এখন তার দ্বিতীয় পুনরাবৃত্তিতে রয়েছে। কোডটি GitHub-এ উপলব্ধ।

যদিও কাজের পরিধি এখানে ব্যাপকভাবে কভার করার জন্য খুব বিস্তৃত, আসুন এর পদ্ধতি এবং একটি মেট্রিক প্রতিষ্ঠার সম্ভাবনা পরীক্ষা করি যা ভবিষ্যতের মডেল-প্রশিক্ষণ সেশনগুলিকে এই উদ্ভট রিভার্সালের ঘটনাগুলি থেকে দূরে সরিয়ে দিতে পারে।

UCLA এবং Google Research-এর ছয়জন গবেষকের দ্বারা পরিচালিত এই গবেষণার শিরোনাম হল VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation। একটি বিস্তৃত সহগামী প্রকল্প সাইটও উপলব্ধ, GitHub-এ কোড এবং ডেটাসেট সহ, এবং Hugging Face-এ একটি ডেটাসেট ভিউয়ার।

লেখকরা সর্বশেষ সংস্করণ, VideoPhy-2-কে “বাস্তব-বিশ্বের অ্যাকশনগুলির জন্য একটি চ্যালেঞ্জিং কমনসেন্স মূল্যায়ন ডেটাসেট” হিসাবে বর্ণনা করেছেন। সংগ্রহটিতে হুলা-হুপিং, জিমন্যাস্টিকস এবং টেনিস-এর মতো বিভিন্ন শারীরিক কার্যকলাপের পাশাপাশি কোনও বস্তুকে বাঁকানো যতক্ষণ না এটি ভেঙে যায়-এর মতো অবজেক্ট ইন্টারঅ্যাকশন সহ ১৯৭টি অ্যাকশন রয়েছে।

এই বীজ অ্যাকশনগুলি থেকে ৩৮৪০টি প্রম্পট তৈরি করতে একটি বৃহৎ ভাষা মডেল (LLM) ব্যবহার করা হয়। এই প্রম্পটগুলি তারপর পরীক্ষা করা বিভিন্ন ফ্রেমওয়ার্ক ব্যবহার করে ভিডিও সংশ্লেষণ করতে ব্যবহৃত হয়।

এই প্রক্রিয়া জুড়ে, লেখকরা “প্রার্থী” ভৌত নিয়ম এবং আইনের একটি তালিকা সংকলন করেছেন যা AI-জেনারেটেড ভিডিওগুলির মেনে চলা উচিত, মূল্যায়নের জন্য ভিশন-ল্যাঙ্গুয়েজ মডেল ব্যবহার করে।

লেখকরা বলেছেন:

‘উদাহরণস্বরূপ, একজন ক্রীড়াবিদ টেনিস খেলছেন এমন একটি ভিডিওতে, একটি ভৌত নিয়ম হবে যে একটি টেনিস বল মাধ্যাকর্ষণের অধীনে একটি প্যারাবোলিক ট্র্যাজেক্টোরি অনুসরণ করবে। গোল্ড-স্ট্যান্ডার্ড বিচারের জন্য, আমরা মানব টীকা প্রদানকারীদের প্রতিটি ভিডিওকে সামগ্রিক শব্দার্থিক আনুগত্য এবং ভৌত কমনসেন্সের ভিত্তিতে স্কোর করতে এবং বিভিন্ন ভৌত নিয়মের সাথে এর সম্মতি চিহ্নিত করতে বলি।’

অ্যাকশনগুলি কিউরেট করা এবং প্রম্পট তৈরি করা

প্রাথমিকভাবে, গবেষকরা AI-জেনারেটেড ভিডিওগুলিতে ভৌত কমনসেন্স মূল্যায়নের জন্য অ্যাকশনগুলির একটি সেট তৈরি করেছিলেন। তারা Kinetics, UCF-101, এবং SSv2 ডেটাসেট থেকে ৬০০টিরও বেশি অ্যাকশন দিয়ে শুরু করেছিলেন, খেলাধুলা, অবজেক্ট ইন্টারঅ্যাকশন এবং বাস্তব-বিশ্বের পদার্থবিদ্যা জড়িত কার্যকলাপগুলির উপর দৃষ্টি নিবদ্ধ করে।

STEM-প্রশিক্ষিত ছাত্র টীকা প্রদানকারীদের দুটি স্বাধীন গ্রুপ (ন্যূনতম স্নাতক যোগ্যতা সহ) তালিকাটি পর্যালোচনা এবং ফিল্টার করেছে। তারা মাধ্যাকর্ষণ, ভরবেগ এবং স্থিতিস্থাপকতা-এর মতো নীতিগুলি পরীক্ষা করে এমন অ্যাকশনগুলি নির্বাচন করেছে, যখন টাইপিং, একটি বিড়ালকে আদর করা বা চিবানো-এর মতো কম গতির কাজগুলি সরিয়ে দিয়েছে।

ডুপ্লিকেটগুলি দূর করার জন্য Gemini-2.0-Flash-Exp-এর সাথে আরও পরিমার্জন করার পরে, চূড়ান্ত ডেটাসেটে ১৯৭টি অ্যাকশন অন্তর্ভুক্ত ছিল। ৫৪টিতে অবজেক্ট ইন্টারঅ্যাকশন জড়িত ছিল এবং ১৪৩টি শারীরিক ও ক্রীড়া কার্যকলাপকে কেন্দ্র করে ছিল:

দ্বিতীয় পর্যায়ে, গবেষকরা ডেটাসেটের প্রতিটি অ্যাকশনের জন্য ২০টি প্রম্পট তৈরি করতে Gemini-2.0-Flash-Exp ব্যবহার করেছেন, যার ফলে মোট ৩,৯৪০টি প্রম্পট হয়েছে। জেনারেশন প্রক্রিয়াটি দৃশ্যমান ভৌত ইন্টারঅ্যাকশনগুলির উপর দৃষ্টি নিবদ্ধ করে যা একটি জেনারেটেড ভিডিওতে স্পষ্টভাবে উপস্থাপন করা যেতে পারে। এটি আবেগ, সংবেদী বিবরণ এবং বিমূর্ত ভাষা-এর মতো অ-ভিজ্যুয়াল উপাদানগুলিকে বাদ দিয়েছে, কিন্তু বিভিন্ন অক্ষর এবং বস্তুগুলিকে অন্তর্ভুক্ত করেছে।

উদাহরণস্বরূপ, ‘একজন তীরন্দাজ তীরটি ছেড়ে দেয়’-এর মতো একটি সরল প্রম্পটের পরিবর্তে, মডেলটিকে আরও বিশদ সংস্করণ তৈরি করার জন্য গাইড করা হয়েছিল যেমন ‘একজন তীরন্দাজ ধনুকের তারটিকে সম্পূর্ণ টেনশনে টেনে আনে, তারপর তীরটি ছেড়ে দেয়, যা সোজা উড়ে যায় এবং একটি কাগজের টার্গেটে বুলসআইকে আঘাত করে’

যেহেতু আধুনিক ভিডিও মডেলগুলি দীর্ঘ বিবরণ ব্যাখ্যা করতে পারে, তাই গবেষকরা Mistral-NeMo-12B-Instruct প্রম্পট আপস্যাম্পলার ব্যবহার করে ক্যাপশনগুলিকে আরও পরিমার্জিত করেছেন। এটি মূল অর্থ পরিবর্তন না করে ভিজ্যুয়াল বিবরণ যুক্ত করেছে।

ভৌত নিয়মগুলি বের করা এবং চ্যালেঞ্জিং অ্যাকশনগুলি চিহ্নিত করা

তৃতীয় পর্যায়ের জন্য, ভৌত নিয়মগুলি টেক্সট প্রম্পট থেকে নয়, জেনারেটেড ভিডিওগুলি থেকে নেওয়া হয়েছিল। এর কারণ হল জেনারেটিভ মডেলগুলি শর্তযুক্ত টেক্সট প্রম্পটগুলি মেনে চলতে সংগ্রাম করতে পারে।

ভিডিওগুলি প্রথমে VideoPhy-2 প্রম্পট ব্যবহার করে তৈরি করা হয়েছিল, তারপর মূল বিবরণগুলি বের করার জন্য Gemini-2.0-Flash-Exp দিয়ে “আপ-ক্যাপশন” করা হয়েছিল। মডেলটি প্রতিটি ভিডিওর জন্য তিনটি প্রত্যাশিত ভৌত নিয়ম প্রস্তাব করেছিল। মানব টীকা প্রদানকারীরা এগুলি পর্যালোচনা করেছেন এবং অতিরিক্ত সম্ভাব্য লঙ্ঘন চিহ্নিত করে প্রসারিত করেছেন।

এরপরে, সবচেয়ে চ্যালেঞ্জিং অ্যাকশনগুলি চিহ্নিত করতে, গবেষকরা VideoPhy-2 ডেটাসেট থেকে প্রম্পট সহ CogVideoX-5B ব্যবহার করে ভিডিও তৈরি করেছেন। তারপরে তারা ১৯৭টি অ্যাকশনের মধ্যে ৬০টি নির্বাচন করেছে যেখানে মডেলটি প্রম্পট এবং মৌলিক ভৌত কমনসেন্স উভয়ই অনুসরণ করতে ধারাবাহিকভাবে ব্যর্থ হয়েছে।

এই অ্যাকশনগুলির মধ্যে ডিসকাস নিক্ষেপে ভরবেগ স্থানান্তর, কোনও বস্তুকে বাঁকানো পর্যন্ত বাঁকানোর মতো অবস্থার পরিবর্তন, টাইটরোপ হাঁটার মতো ব্যালেন্সিং কাজ এবং ব্যাক-ফ্লিপ, পোল ভল্টিং এবং পিৎজা টসিং সহ জটিল গতি অন্তর্ভুক্ত ছিল। সাব-ডেটাসেটের অসুবিধা বাড়ানোর জন্য মোট ১,২০০টি প্রম্পট বেছে নেওয়া হয়েছিল।

VideoPhy-2 ডেটাসেট: একটি বিস্তৃত মূল্যায়ন সংস্থান

ফলস্বরূপ ডেটাসেটটিতে ৩,৯৪০টি ক্যাপশন রয়েছে - যা VideoPhy-এর আগের সংস্করণের চেয়ে ৫.৭২ গুণ বেশি। মূল ক্যাপশনগুলির গড় দৈর্ঘ্য ১৬ টোকেন, যেখানে আপস্যাম্পল করা ক্যাপশনগুলি ১৩৮ টোকেনে পৌঁছায় - যথাক্রমে ১.৮৮ গুণ এবং ১৬.২ গুণ বেশি।

ডেটাসেটটিতে একাধিক ভিডিও জেনারেশন মডেল জুড়ে শব্দার্থিক আনুগত্য, ভৌত কমনসেন্স এবং নিয়ম লঙ্ঘনের কভার করে ১,০২,০০০ মানব টীকাও রয়েছে।

মূল্যায়নের মানদণ্ড এবং মানব টীকা সংজ্ঞায়িত করা

গবেষকরা তারপর ভিডিও মূল্যায়নের জন্য স্পষ্ট মানদণ্ড সংজ্ঞায়িত করেছেন। মূল লক্ষ্য ছিল প্রতিটি ভিডিও তার ইনপুট প্রম্পটের সাথে কতটা মিলেছে এবং মৌলিক ভৌত নীতিগুলি অনুসরণ করেছে তা মূল্যায়ন করা।

ভিডিওগুলিকে কেবল পছন্দের দ্বারা র‍্যাঙ্ক করার পরিবর্তে, তারা নির্দিষ্ট সাফল্য এবং ব্যর্থতাগুলি ক্যাপচার করার জন্য রেটিং-ভিত্তিক প্রতিক্রিয়া ব্যবহার করেছে। মানব টীকা প্রদানকারীরা একটি পাঁচ-পয়েন্ট স্কেলে ভিডিওগুলিকে স্কোর করেছেন, আরও বিশদ বিচারের অনুমতি দিয়েছেন। মূল্যায়নটি ভিডিওগুলি বিভিন্ন ভৌত নিয়ম এবং আইন অনুসরণ করেছে কিনা তাও পরীক্ষা করেছে।

মানব মূল্যায়নের জন্য, Amazon Mechanical Turk (AMT)-এ ট্রায়াল থেকে ১২ জন টীকা প্রদানকারীর একটি গ্রুপ নির্বাচন করা হয়েছিল এবং বিস্তারিত রিমোট নির্দেশাবলী পাওয়ার পরে রেটিং প্রদান করেছিল। ন্যায্যতার জন্য, শব্দার্থিক আনুগত্য এবং ভৌত কমনসেন্স আলাদাভাবে মূল্যায়ন করা হয়েছিল (মূল VideoPhy গবেষণায়, এগুলি যৌথভাবে মূল্যায়ন করা হয়েছিল)।

টীকা প্রদানকারীরা প্রথমে ভিডিওগুলি তাদের ইনপুট প্রম্পটগুলির সাথে কতটা মিলেছে তা রেট করেছেন, তারপর আলাদাভাবে ভৌত যুক্তিসঙ্গততা মূল্যায়ন করেছেন, নিয়ম লঙ্ঘন এবং সামগ্রিক বাস্তবতাকে পাঁচ-পয়েন্ট স্কেলে স্কোর করেছেন। মডেলগুলির মধ্যে একটি ন্যায্য তুলনা বজায় রাখার জন্য শুধুমাত্র মূল প্রম্পটগুলি দেখানো হয়েছিল।

স্বয়ংক্রিয় মূল্যায়ন: স্কেলেবল মডেল মূল্যায়নের দিকে

যদিও মানব বিচার এখনও গোল্ড স্ট্যান্ডার্ড, এটি ব্যয়বহুল এবং বেশ কয়েকটি সতর্কতার সাথে আসে। অতএব, দ্রুত এবং আরও স্কেলেবল মডেল মূল্যায়নের জন্য স্বয়ংক্রিয় মূল্যায়ন অপরিহার্য।

কাগজের লেখকরা শব্দার্থিক নির্ভুলতা এবং “ভৌত কমনসেন্স”-এর জন্য ভিডিও স্কোর করার ক্ষমতার উপর Gemini-2.0-Flash-Exp এবং VideoScore সহ বেশ কয়েকটি ভিডিও-ভাষা মডেল পরীক্ষা করেছেন।

মডেলগুলি আবার প্রতিটি ভিডিওকে পাঁচ-পয়েন্ট স্কেলে রেট করেছে। একটি পৃথক শ্রেণিবিন্যাস টাস্ক নির্ধারণ করেছে যে ভৌত নিয়মগুলি অনুসরণ করা হয়েছে, লঙ্ঘন করা হয়েছে বা অস্পষ্ট ছিল।

পরীক্ষাগুলি দেখিয়েছে যে বিদ্যমান ভিডিও-ভাষা মডেলগুলি মানব বিচারের সাথে মেলে ধরতে সংগ্রাম করেছে, প্রধানত দুর্বল ভৌত যুক্তি এবং প্রম্পটগুলির জটিলতার কারণে। স্বয়ংক্রিয় মূল্যায়ন উন্নত করতে, গবেষকরা VideoPhy-2-Autoeval তৈরি করেছেন, একটি ৭B-প্যারামিটার মডেল যা তিনটি বিভাগে আরও সঠিক ভবিষ্যদ্বাণী প্রদান করার জন্য ডিজাইন করা হয়েছে: শব্দার্থিক আনুগত্য; ভৌত কমনসেন্স; এবং নিয়ম সম্মতি। এটি ৫০,০০০ মানব টীকা* ব্যবহার করে VideoCon-Physics মডেলে ফাইন-টিউন করা হয়েছিল।

জেনারেটিভ ভিডিও সিস্টেম পরীক্ষা করা: একটি তুলনামূলক বিশ্লেষণ

এই সরঞ্জামগুলি স্থাপন করার সাথে, লেখকরা স্থানীয় ইনস্টলেশনের মাধ্যমে এবং যেখানে প্রয়োজন, বাণিজ্যিক API-এর মাধ্যমে বেশ কয়েকটি জেনারেটিভ ভিডিও সিস্টেম পরীক্ষা করেছেন: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; এবং Luma Ray।

মডেলগুলিকে যেখানে সম্ভব আপস্যাম্পল করা ক্যাপশন দিয়ে প্রম্পট করা হয়েছিল, তবে Hunyuan Video এবং VideoCrafter2 ৭৭-টোকেন CLIP সীমাবদ্ধতার অধীনে কাজ করে এবং একটি নির্দিষ্ট দৈর্ঘ্যের উপরে প্রম্পট গ্রহণ করতে পারে না।

জেনারেটেড ভিডিওগুলি ৬ সেকেন্ডের কম রাখা হয়েছিল, কারণ ছোট আউটপুট মূল্যায়ন করা সহজ।

ড্রাইভিং ডেটা ছিল VideoPhy-2 ডেটাসেট থেকে, যা একটি বেঞ্চমার্ক এবং প্রশিক্ষণ সেটে বিভক্ত করা হয়েছিল। Sora এবং Ray2 ব্যতীত প্রতিটি মডেলের জন্য ৫৯০টি ভিডিও তৈরি করা হয়েছিল; খরচের কারণে, এইগুলির জন্য সমতুল্য কম সংখ্যক ভিডিও তৈরি করা হয়েছিল।

প্রাথমিক মূল্যায়ন ভৌত কার্যকলাপ/খেলাধুলা (PA) এবং অবজেক্ট ইন্টারঅ্যাকশন (OI) নিয়ে কাজ করে এবং সাধারণ ডেটাসেট এবং পূর্বোক্ত “কঠিন” সাবসেট উভয়ই পরীক্ষা করে:

এখানে লেখকরা মন্তব্য করেছেন:

*’এমনকি সেরা-পারফর্মিং মডেল, Wan2.1-14B, আমাদের ডেটাসেটের সম্পূর্ণ এবং কঠিন বিভাজনে যথাক্রমে মাত্র ৩২.৬% এবং ২১.৯% অর্জন করে। অন্যান্য মডেলের তুলনায় এর তুলনামূলকভাবে শক্তিশালী পারফরম্যান্সকে এর মাল্টিমোডাল প্রশিক্ষণ ডেটার বৈচিত্র্যের পাশাপাশি শক্তিশালী মোশন ফিল্টারিংয়ের জন্য দায়ী করা যেতে পারে যা বিস্তৃত অ্যাকশন জুড়ে উচ্চ-মানের ভিডিও সংরক্ষণ করে।

*’আরও, আমরা পর্যবেক্ষণ করি যে Ray2-এর মতো ক্লোজড মডেলগুলি Wan2.1-14B এবং CogVideoX-5B-এর মতো ওপেন মডেলগুলির চেয়ে খারাপ পারফর্ম করে। এটি পরামর্শ দেয় যে ক্লোজড মডেলগুলি ভৌত কমনসেন্স ক্যাপচার করার ক্ষেত্রে ওপেন মডেলগুলির চেয়ে অগত্যা শ্রেষ্ঠ নয়।

‘উল্লেখযোগ্যভাবে, Cosmos-Diffusion-7B কঠিন বিভাজনে দ্বিতীয়-সেরা স্কোর অর্জন করে, এমনকি অনেক বড় HunyuanVideo-13B মডেলকেও ছাড়িয়ে যায়। এটি তার প্রশিক্ষণ ডেটাতে মানব অ্যাকশনের উচ্চ প্রতিনিধিত্বের পাশাপাশি সিন্থেটিকভাবে রেন্ডার করা সিমুলেশনগুলির কারণে হতে পারে।’

ফলাফলগুলি দেখিয়েছে যে ভিডিও মডেলগুলি সাধারণ অবজেক্ট ইন্টারঅ্যাকশনের চেয়ে খেলাধুলার মতো শারীরিক কার্যকলাপগুলির সাথে বেশি সংগ্রাম করেছে। এটি পরামর্শ দেয় যে এই ক্ষেত্রে AI-জেনারেটেড ভিডিওগুলিকে উন্নত করার জন্য আরও ভাল ডেটাসেট প্রয়োজন হবে - বিশেষ করে টেনিস, ডিসকাস, বেসবল এবং ক্রিকেটের মতো খেলাধুলার উচ্চ-মানের ফুটেজ।

গবেষণাটি আরও পরীক্ষা করেছে যে কোনও মডেলের ভৌত যুক্তিসঙ্গততা অন্যান্য ভিডিও গুণমানের মেট্রিক্স, যেমন নান্দনিকতা এবং গতির মসৃণতার সাথে সম্পর্কযুক্ত কিনা। ফলাফলগুলি কোনও শক্তিশালী সম্পর্ক প্রকাশ করেনি, যার অর্থ একটি মডেল কেবল দৃশ্যত আকর্ষণীয় বা তরল গতি তৈরি করে VideoPhy-2-তে তার পারফরম্যান্স উন্নত করতে পারে না - এর ভৌত কমনসেন্সের গভীরতর বোঝার প্রয়োজন।

গুণগত উদাহরণ: চ্যালেঞ্জগুলি হাইলাইট করা

যদিও কাগজটি প্রচুর গুণগত উদাহরণ সরবরাহ করে, PDF-এ প্রদত্ত কয়েকটি স্থির উদাহরণ প্রকল্পের সাইটে লেখকদের দেওয়া বিস্তৃত ভিডিও-ভিত্তিক উদাহরণগুলির সাথে সম্পর্কিত বলে মনে হয়। অতএব, আমরা স্থির উদাহরণগুলির একটি ছোট নির্বাচন এবং তারপরে প্রকল্পের আরও কয়েকটি ভিডিও দেখব।

উপরের গুণগত পরীক্ষা সম্পর্কে, লেখকরা মন্তব্য করেছেন:

*’[আমরা] ভৌত কমনসেন্সের লঙ্ঘন পর্যবেক্ষণ করি, যেমন জেটস্কিগুলি অস্বাভাবিকভাবে বিপরীত দিকে চলছে এবং একটি কঠিন স্লেজহ্যামারের বিকৃতি, স্থিতিস্থাপকতার নীতিগুলিকে অস্বীকার করছে। যাইহোক, এমনকি Wan-ও ভৌত কমনসেন্সের অভাবে ভুগছে, যেমন [এই নিবন্ধের শুরুতে এমবেড করা ক্লিপ]-এ দেখানো হয়েছে।

‘এই ক্ষেত্রে, আমরা হাইলাইট করি যে একটি পাথর গড়িয়ে যেতে শুরু করে এবং উপরের দিকে ত্বরান্বিত হয়, মাধ্যাকর্ষণের ভৌত নিয়মকে অস্বীকার করে।’

শুরুতেই যেমন উল্লেখ করা হয়েছে, এই প্রকল্পের সাথে যুক্ত উপাদানের পরিমাণ এখানে যা কভার করা যেতে পারে তার চেয়ে অনেক বেশি। অতএব, লেখকদের পদ্ধতির একটি সত্যিকারের বিস্তৃত রূপরেখা এবং আরও অনেক পরীক্ষার উদাহরণ এবং পদ্ধতিগত বিবরণের জন্য অনুগ্রহ করে উৎস কাগজ, প্রকল্প সাইট এবং পূর্বে উল্লিখিত সম্পর্কিত সাইটগুলি দেখুন।

* টীকাগুলির উৎস সম্পর্কে, কাগজটি কেবল ‘এই কাজগুলির জন্য অর্জিত’ উল্লেখ করে - এটি ১২ জন AMT কর্মীর দ্বারা তৈরি করা অনেক বলে মনে হয়।