AI ویڈیو کبھی کبھی الٹا کیوں چلتی ہے؟

چینی جنریٹو ویڈیو ماڈلز کا عروج

Tencent کے Hunyuan Video نے پہلے ہی شوقیہ AI کمیونٹی میں نمایاں لہریں پیدا کی ہیں۔ اس کے ایک مکمل-ورلڈ ویڈیو ڈفیوژن ماڈل کی اوپن سورس ریلیز صارفین کو ٹیکنالوجی کو اپنی مخصوص ضروریات کے مطابق ڈھالنے کی اجازت دیتی ہے۔

اس کے پیچھے قریب سے Alibaba کا Wan 2.1 ہے، جو حال ہی میں جاری کیا گیا ہے۔ یہ ماڈل اس وقت دستیاب سب سے زیادہ طاقتور امیج-ٹو-ویڈیو فری اور اوپن سورس سافٹ ویئر (FOSS) حل کے طور پر نمایاں ہے، اور یہ اب Wan LoRAs کے ذریعے تخصیص کی حمایت کرتا ہے۔

ان پیش رفتوں کے علاوہ، ہم Alibaba کے جامع VACE ویڈیو تخلیق اور ایڈیٹنگ سوٹ کے اجراء کے ساتھ ساتھ حالیہ انسانی-مرکوز فاؤنڈیشن ماڈل، SkyReels کی دستیابی کی بھی توقع کر رہے ہیں۔

جنریٹو ویڈیو AI ریسرچ کا منظر بھی اتنا ہی دھماکہ خیز ہے۔ ابھی مارچ کا مہینہ شروع ہی ہوا ہے، لیکن منگل کو Arxiv کے کمپیوٹر وژن سیکشن (جنریٹو AI پیپرز کے لیے ایک اہم مرکز) میں جمع کرائی گئی تحاریر کی تعداد تقریباً 350 تھی – یہ تعداد عام طور پر کانفرنس کے سیزن کے عروج کے دوران دیکھی جاتی ہے۔

Stable Diffusion کے 2022 کے موسم گرما میں لانچ ہونے کے بعد کے دو سال (اور اس کے نتیجے میں Dreambooth اور LoRA کسٹمائزیشن طریقوں کی ترقی) میں بڑی کامیابیوں کی نسبتاً کمی تھی۔ تاہم، پچھلے کچھ ہفتوں میں نئی ریلیزز اور اختراعات میں اضافہ دیکھا گیا ہے، جو اتنی تیزی سے آ رہی ہیں کہ مکمل طور پر باخبر رہنا تو دور کی بات، ہر چیز کا جامع احاطہ کرنا تقریباً ناممکن ہے۔

عارضی مستقل مزاجی کو حل کرنا، لیکن نئے چیلنجز ابھرتے ہیں

Hunyuan اور Wan 2.1 جیسے ویڈیو ڈفیوژن ماڈلز نے بالآخر عارضی مستقل مزاجی کے مسئلے کو حل کر دیا ہے۔ سینکڑوں تحقیقی اقدامات کی برسوں کی ناکام کوششوں کے بعد، ان ماڈلز نے وقت کے ساتھ ساتھ مستقل انسانوں، ماحول اور اشیاء کو پیدا کرنے سے متعلق چیلنجوں کو بڑی حد تک حل کر دیا ہے۔

اس میں کوئی شک نہیں کہ VFX اسٹوڈیوز ان نئے چینی ویڈیو ماڈلز کو اپنانے کے لیے عملے اور وسائل کو فعال طور پر وقف کر رہے ہیں۔ ان کا فوری مقصد چہرے کی تبدیلی جیسے اہم چیلنجوں سے نمٹنا ہے، حالانکہ ان سسٹمز کے لیے ControlNet طرز کے ذیلی میکانزم کی موجودہ عدم موجودگی کے باوجود۔

یہ ایک بہت بڑا سکون ہونا چاہیے کہ اس طرح کی ایک اہم رکاوٹ کو ممکنہ طور پر دور کر لیا گیا ہے، چاہے وہ متوقع چینلز کے ذریعے نہ ہو۔

تاہم، باقی مسائل میں سے، ایک خاص طور پر اہم ہے:

تمام دستیاب ٹیکسٹ-ٹو-ویڈیو اور امیج-ٹو-ویڈیو سسٹمز، بشمول کمرشل کلوزڈ سورس ماڈلز، میں طبیعیات کے خلاف ورزی کرنے والی غلطیاں پیدا کرنے کا رجحان ہے۔ اوپر دی گئی مثال میں ایک چٹان کو اوپر کی طرف لڑھکتے ہوئے دکھایا گیا ہے، جو اس پرامپٹ سے تیار کیا گیا ہے: ‘ایک چھوٹی چٹان ایک کھڑی، پتھریلی پہاڑی سے نیچے لڑھکتی ہے، مٹی اور چھوٹے پتھروں کو ہٹاتی ہے’۔

AI ویڈیوز طبیعیات کو غلط کیوں سمجھتی ہیں؟

ایک نظریہ، جو حال ہی میں Alibaba اور متحدہ عرب امارات کے درمیان ایک تعلیمی تعاون میں تجویز کیا گیا ہے، تجویز کرتا ہے کہ ماڈل ایسے طریقے سے سیکھ رہے ہوں گے جو عارضی ترتیب کے بارے میں ان کی سمجھ میں رکاوٹ بنتا ہے۔ یہاں تک کہ ویڈیوز پر ٹریننگ کرتے وقت (جو ٹریننگ کے لیے سنگل فریم سیکوینس میں تقسیم کیے جاتے ہیں)، ماڈل شاید ‘پہلے’ اور ‘بعد’ کی تصاویر کی صحیح ترتیب کو فطری طور پر نہ سمجھ سکیں۔

تاہم، سب سے زیادہ معقول وضاحت یہ ہے کہ زیر بحث ماڈلز نے ڈیٹا آگمینٹیشن روٹینز کا استعمال کیا ہے۔ ان روٹینز میں ماڈل کو ایک سورس ٹریننگ کلپ کو آگے اور پیچھے دونوں طرح سے دکھانا شامل ہے، جس سے ٹریننگ ڈیٹا کو مؤثر طریقے سے دوگنا کر دیا جاتا ہے۔

یہ کچھ عرصے سے جانا جاتا ہے کہ ایسا اندھا دھند نہیں کیا جانا چاہیے۔ اگرچہ کچھ حرکتیں الٹ کام کرتی ہیں، لیکن بہت سی نہیں کرتیں۔ برطانیہ کی یونیورسٹی آف برسٹل کے 2019 کے ایک مطالعے کا مقصد ایک ہی ڈیٹاسیٹ کے اندر مساوی، غیر متغیر، اور ناقابل واپسی سورس ڈیٹا ویڈیو کلپس کے درمیان فرق کرنے کا ایک طریقہ تیار کرنا تھا۔ اس کا مقصد ڈیٹا آگمینٹیشن روٹینز سے غیر موزوں کلپس کو فلٹر کرنا تھا۔

اس کام کے مصنفین نے واضح طور پر اس مسئلے کو بیان کیا:

‘ہمیں الٹی ویڈیوز کی حقیقت پسندی کو ریورسل آرٹفیکٹس سے دھوکہ دہی کا پتہ چلتا ہے، منظر کے وہ پہلو جو قدرتی دنیا میں ممکن نہیں ہوں گے۔ کچھ آرٹفیکٹس لطیف ہوتے ہیں، جبکہ دیگر کو پہچاننا آسان ہوتا ہے، جیسے کہ الٹا ‘پھینکنے’ کا عمل جہاں پھینکی گئی چیز خود بخود فرش سے اٹھتی ہے۔

‘ہم دو قسم کے ریورسل آرٹفیکٹس کا مشاہدہ کرتے ہیں، جسمانی، جو فطرت کے قوانین کی خلاف ورزیوں کو ظاہر کرتے ہیں، اور غیر امکانی، جو ایک ممکنہ لیکن غیر امکانی منظر نامے کی عکاسی کرتے ہیں۔ یہ خصوصی نہیں ہیں، اور بہت سے الٹے اعمال دونوں قسم کے آرٹفیکٹس کا شکار ہوتے ہیں، جیسے کہ کاغذ کے ایک ٹکڑے کو کھولنا۔

‘جسمانی آرٹفیکٹس کی مثالوں میں شامل ہیں: الٹا کشش ثقل (مثال کے طور پر ‘کسی چیز کو گرانا’)، اشیاء پر بے ساختہ تحریک (مثال کے طور پر ‘قلم گھمانا’)، اور ناقابل واپسی حالت کی تبدیلیاں (مثال کے طور پر ‘موم بتی جلانا’)۔ ایک غیر امکانی آرٹفیکٹ کی ایک مثال: الماری سے ایک پلیٹ لینا، اسے خشک کرنا، اور اسے خشک کرنے والے ریک پر رکھنا۔

‘اس قسم کا ڈیٹا کا دوبارہ استعمال ٹریننگ کے وقت بہت عام ہے، اور یہ فائدہ مند ہو سکتا ہے – مثال کے طور پر، اس بات کو یقینی بنانے میں کہ ماڈل کسی تصویر یا شے کا صرف ایک نظریہ نہیں سیکھتا جسے اس کی مرکزی ہم آہنگی اور منطق کو کھوئے بغیر پلٹا یا گھمایا جا سکتا ہے۔

‘یہ صرف ان اشیاء کے لیے کام کرتا ہے جو واقعی ہم آہنگ ہیں، یقیناً؛ اور ‘الٹی’ ویڈیو سے طبیعیات سیکھنا صرف اس صورت میں کام کرتا ہے جب الٹا ورژن آگے کے ورژن کی طرح سمجھ میں آئے۔’

ہمارے پاس اس بات کا ٹھوس ثبوت نہیں ہے کہ Hunyuan Video اور Wan 2.1 جیسے سسٹمز نے ٹریننگ کے دوران من مانی ‘الٹی’ کلپس کی اجازت دی (کسی بھی تحقیقی گروپ نے اپنے ڈیٹا آگمینٹیشن روٹینز کے بارے میں مخصوص نہیں کیا ہے)۔

تاہم، متعدد رپورٹس (اور میرے اپنے عملی تجربے) کو مدنظر رکھتے ہوئے، صرف دوسری معقول وضاحت یہ ہے کہ ان ماڈلز کو طاقت دینے والے ہائپر اسکیل ڈیٹاسیٹس میں ایسے کلپس ہوسکتے ہیں جو حقیقی طور پر الٹ میں ہونے والی حرکات کو پیش کرتے ہیں۔

پہلے ایمبیڈ کی گئی مثال کی ویڈیو میں چٹان Wan 2.1 کا استعمال کرتے ہوئے تیار کی گئی تھی۔ یہ ایک نئی تحقیق میں شامل ہے جو اس بات کی چھان بین کرتی ہے کہ ویڈیو ڈفیوژن ماڈل طبیعیات کو کتنی اچھی طرح سے سنبھالتے ہیں۔

اس پروجیکٹ کے ٹیسٹوں میں، Wan 2.1 نے جسمانی قوانین پر مستقل طور پر عمل کرنے کی اپنی صلاحیت میں صرف 22% کا اسکور حاصل کیا۔

حیرت انگیز طور پر، یہ تمام ٹیسٹ شدہ سسٹمز میں بہترین اسکور ہے، جو یہ تجویز کرتا ہے کہ ہم نے ویڈیو AI کے لیے اگلی بڑی رکاوٹ کی نشاندہی کی ہو سکتی ہے:

VideoPhy-2 کا تعارف: جسمانی کامن سینس کے لیے ایک نیا بینچ مارک

نئے کام کے مصنفین نے ایک بینچ مارکنگ سسٹم تیار کیا ہے، جو اب اس کے دوسرے تکرار میں ہے، جسے VideoPhy کہا جاتا ہے۔ کوڈ GitHub پر دستیاب ہے۔

اگرچہ کام کا دائرہ کار یہاں جامع طور پر احاطہ کرنے کے لیے بہت وسیع ہے، آئیے اس کے طریقہ کار اور اس کی صلاحیت کا جائزہ لیتے ہیں تاکہ ایک میٹرک قائم کیا جا سکے جو مستقبل کے ماڈل-ٹریننگ سیشنز کو ریورسل کی ان عجیب مثالوں سے دور کر سکے۔

یہ مطالعہ، UCLA اور Google Research کے چھ محققین نے کیا ہے، جس کا عنوان ہے VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation۔ ایک جامع پروجیکٹ سائٹ بھی دستیاب ہے، ساتھ ہی GitHub پر کوڈ اور ڈیٹاسیٹس، اور Hugging Face پر ایک ڈیٹاسیٹ ویور بھی دستیاب ہے۔

مصنفین تازہ ترین ورژن، VideoPhy-2 کو “حقیقی دنیا کے اعمال کے لیے ایک چیلنجنگ کامن سینس ایویلیویشن ڈیٹاسیٹ” کے طور پر بیان کرتے ہیں۔ اس مجموعے میں متنوع جسمانی سرگرمیوں کی ایک رینج میں 197 ایکشنز شامل ہیں، جن میں ہولا ہوپنگ، جمناسٹکس، اور ٹینس، ساتھ ہی کسی چیز کو موڑنا جب تک کہ وہ ٹوٹ نہ جائے جیسی آبجیکٹ انٹرایکشنز شامل ہیں۔

ایک بڑا لینگویج ماڈل (LLM) ان سیڈ ایکشنز سے 3840 پرامپٹس بنانے کے لیے استعمال کیا جاتا ہے۔ اس کے بعد ان پرامپٹس کو مختلف فریم ورکس کا استعمال کرتے ہوئے ویڈیوز کی ترکیب کے لیے استعمال کیا جاتا ہے جن کی جانچ کی جا رہی ہے۔

پورے عمل کے دوران، مصنفین نے “امیدوار” جسمانی اصولوں اور قوانین کی ایک فہرست مرتب کی ہے جن پر AI سے تیار کردہ ویڈیوز کو عمل کرنا چاہیے، تشخیص کے لیے وژن-لینگویج ماڈلز کا استعمال کرتے ہوئے۔

مصنفین بیان کرتے ہیں:

‘مثال کے طور پر، ایک کھلاڑی کے ٹینس کھیلنے کی ویڈیو میں، ایک جسمانی اصول یہ ہوگا کہ ٹینس کی گیند کو کشش ثقل کے تحت ایک پیرابولک ٹریجیکٹری کی پیروی کرنی چاہیے۔ گولڈ-اسٹینڈرڈ فیصلوں کے لیے، ہم انسانی تشریح کاروں سے کہتے ہیں کہ وہ ہر ویڈیو کو مجموعی طور پر سیمنٹک ایڈہیرنس اور فزیکل کامن سینس کی بنیاد پر اسکور کریں، اور مختلف جسمانی اصولوں کے ساتھ اس کی تعمیل کو نشان زد کریں۔’

ایکشنز کو کیوریٹ کرنا اور پرامپٹس بنانا

ابتدائی طور پر، محققین نے AI سے تیار کردہ ویڈیوز میں جسمانی کامن سینس کا جائزہ لینے کے لیے ایکشنز کا ایک سیٹ تیار کیا۔ انہوں نے Kinetics، UCF-101، اور SSv2 ڈیٹاسیٹس سے حاصل کردہ 600 سے زیادہ ایکشنز سے شروعات کی، جس میں کھیلوں، آبجیکٹ انٹرایکشنز، اور حقیقی دنیا کی طبیعیات کو شامل کرنے والی سرگرمیوں پر توجہ مرکوز کی گئی۔

STEM-تربیت یافتہ طالب علم تشریح کاروں کے دو آزاد گروپوں (کم از کم انڈرگریجویٹ اہلیت کے ساتھ) نے فہرست کا جائزہ لیا اور اسے فلٹر کیا۔ انہوں نے ایسے ایکشنز کا انتخاب کیا جنہوں نے کشش ثقل، مومینٹم، اور لچک جیسے اصولوں کا تجربہ کیا، جبکہ کم حرکت والے کاموں جیسے ٹائپنگ، بلی کو پالنا، یا چبانا کو ہٹا دیا۔

Gemini-2.0-Flash-Exp کے ساتھ مزید ریفائنمنٹ کے بعد ڈپلیکیٹس کو ختم کرنے کے لیے، حتمی ڈیٹاسیٹ میں 197 ایکشنز شامل تھے۔ 54 میں آبجیکٹ انٹرایکشنز شامل تھے، اور 143 جسمانی اور کھیلوں کی سرگرمیوں پر مرکوز تھے:

دوسرے مرحلے میں، محققین نے ڈیٹاسیٹ میں ہر ایکشن کے لیے 20 پرامپٹس بنانے کے لیے Gemini-2.0-Flash-Exp کا استعمال کیا، جس کے نتیجے میں کل 3,940 پرامپٹس ہوئے۔ جنریشن کا عمل مرئی جسمانی تعاملات پر مرکوز تھا جن کی واضح طور پر تیار کردہ ویڈیو میں نمائندگی کی جا سکتی تھی۔ اس میں غیر بصری عناصر جیسے جذبات، حسی تفصیلات، اور تجریدی زبان کو خارج کر دیا گیا، لیکن متنوع کرداروں اور اشیاء کو شامل کیا گیا۔

مثال کے طور پر، ‘ایک تیر انداز تیر چھوڑتا ہے’ جیسے سادہ پرامپٹ کے بجائے، ماڈل کو ایک زیادہ تفصیلی ورژن تیار کرنے کی رہنمائی کی گئی جیسے ‘ایک تیر انداز کمان کی ڈوری کو مکمل تناؤ پر واپس کھینچتا ہے، پھر تیر چھوڑتا ہے، جو سیدھا اڑتا ہے اور کاغذ کے ہدف پر بلز آئی کو مارتا ہے’۔

چونکہ جدید ویڈیو ماڈل طویل وضاحتوں کی تشریح کر سکتے ہیں، اس لیے محققین نے Mistral-NeMo-12B-Instruct پرامپٹ اپسیمپلر کا استعمال کرتے ہوئے کیپشنز کو مزید بہتر کیا۔ اس نے اصل معنی کو تبدیل کیے بغیر بصری تفصیلات شامل کیں۔

جسمانی اصولوں کو اخذ کرنا اور چیلنجنگ ایکشنز کی شناخت کرنا

تیسرے مرحلے کے لیے، جسمانی اصول ٹیکسٹ پرامپٹس سے نہیں بلکہ تیار کردہ ویڈیوز سے اخذ کیے گئے تھے۔ اس کی وجہ یہ ہے کہ جنریٹو ماڈل کنڈیشنڈ ٹیکسٹ پرامپٹس پر عمل کرنے میں جدوجہد کر سکتے ہیں۔

ویڈیوز کو پہلے VideoPhy-2 پرامپٹس کا استعمال کرتے ہوئے بنایا گیا تھا، پھر اہم تفصیلات نکالنے کے لیے Gemini-2.0-Flash-Exp کے ساتھ “اپ-کیپشن” کیا گیا تھا۔ ماڈل نے فی ویڈیو تین متوقع جسمانی اصول تجویز کیے۔ انسانی تشریح کاروں نے ان کا جائزہ لیا اور اضافی ممکنہ خلاف ورزیوں کی نشاندہی کرکے ان کو بڑھایا۔

اگلا، سب سے زیادہ چیلنجنگ ایکشنز کی شناخت کرنے کے لیے، محققین نے VideoPhy-2 ڈیٹاسیٹ سے پرامپٹس کے ساتھ CogVideoX-5B کا استعمال کرتے ہوئے ویڈیوز بنائیں۔ اس کے بعد انہوں نے 197 ایکشنز میں سے 60 کا انتخاب کیا جہاں ماڈل پرامپٹس اور بنیادی جسمانی کامن سینس دونوں کی پیروی کرنے میں مسلسل ناکام رہا۔

ان ایکشنز میں فزکس سے بھرپور تعاملات جیسے ڈسکس تھروئنگ میں مومینٹم ٹرانسفر، کسی چیز کو موڑنا جب تک کہ وہ ٹوٹ نہ جائے جیسی حالت کی تبدیلیاں، ٹائٹروپ واکنگ جیسے بیلنسنگ ٹاسک، اور پیچیدہ حرکات شامل تھیں جن میں بیک فلپس، پول والٹنگ، اور پیزا ٹاسنگ شامل تھے۔ مجموعی طور پر، سب-ڈیٹاسیٹ کی مشکل کو بڑھانے کے لیے 1,200 پرامپٹس کا انتخاب کیا گیا۔

VideoPhy-2 ڈیٹاسیٹ: ایک جامع تشخیصی وسیلہ

نتیجے میں آنے والے ڈیٹاسیٹ میں 3,940 کیپشنز شامل تھے – جو VideoPhy کے پہلے ورژن سے 5.72 گنا زیادہ ہیں۔ اصل کیپشنز کی اوسط لمبائی 16 ٹوکنز ہے، جبکہ اپسیمپلڈ کیپشنز 138 ٹوکنز تک پہنچتے ہیں – بالترتیب 1.88 گنا اور 16.2 گنا زیادہ۔

ڈیٹاسیٹ میں متعدد ویڈیو جنریشن ماڈلز میں سیمنٹک ایڈہیرنس، فزیکل کامن سینس، اور اصول کی خلاف ورزیوں کا احاطہ کرنے والی 102,000 انسانی تشریحات بھی شامل ہیں۔

تشخیصی معیار اور انسانی تشریحات کی تعریف کرنا

اس کے بعد محققین نے ویڈیوز کا جائزہ لینے کے لیے واضح معیار کی تعریف کی۔ بنیادی مقصد یہ تھا کہ ہر ویڈیو اپنے ان پٹ پرامپٹ سے کتنی اچھی طرح مماثل ہے اور بنیادی جسمانی اصولوں کی پیروی کرتی ہے۔

ویڈیوز کو ترجیح کے لحاظ سے درجہ بندی کرنے کے بجائے، انہوں نے مخصوص کامیابیوں اور ناکامیوں کو پکڑنے کے لیے ریٹنگ پر مبنی فیڈ بیک کا استعمال کیا۔ انسانی تشریح کاروں نے ویڈیوز کو پانچ نکاتی پیمانے پر اسکور کیا، جس سے زیادہ تفصیلی فیصلوں کی اجازت ملی۔ تشخیص نے یہ بھی چیک کیا کہ آیا ویڈیوز مختلف جسمانی اصولوں اور قوانین کی پیروی کرتی ہیں۔

انسانی تشخیص کے لیے، 12 تشریح کاروں کے ایک گروپ کو Amazon Mechanical Turk (AMT) پر ٹرائلز سے منتخب کیا گیا اور تفصیلی ریموٹ ہدایات حاصل کرنے کے بعد ریٹنگ فراہم کی۔ انصاف کے لیے، سیمنٹک ایڈہیرنس اور فزیکل کامن سینس کا الگ الگ جائزہ لیا گیا (اصل VideoPhy مطالعہ میں، ان کا مشترکہ طور پر جائزہ لیا گیا تھا)۔

تشریح کاروں نے پہلے اس بات کی درجہ بندی کی کہ ویڈیوز اپنے ان پٹ پرامپٹس سے کتنی اچھی طرح مماثل ہیں، پھر الگ الگ جسمانی معقولیت کا جائزہ لیا، اصول کی خلاف ورزیوں اور مجموعی حقیقت پسندی کو پانچ نکاتی پیمانے پر اسکور کیا۔ ماڈلز کے درمیان منصفانہ موازنہ برقرار رکھنے کے لیے صرف اصل پرامپٹس دکھائے گئے تھے۔

خودکار تشخیص: اسکیل ایبل ماڈل اسیسمنٹ کی طرف

اگرچہ انسانی فیصلہ سونے کا معیار رہتا ہے، لیکن یہ مہنگا ہے اور اس کے ساتھ کئی انتباہات ہیں۔ لہذا، تیز اور زیادہ اسکیل ایبل ماڈل اسیسمنٹ کے لیے خودکار تشخیص ضروری ہے۔

مقالہ کے مصنفین نے کئی ویڈیو-لینگویج ماڈلز کا تجربہ کیا، جن میں Gemini-2.0-Flash-Exp اور VideoScore شامل ہیں، ان کی صلاحیت پر کہ وہ ویڈیوز کو سیمنٹک درستگی اور “فزیکل کامن سینس” کے لیے اسکور کریں۔

ماڈلز نے دوبارہ ہر ویڈیو کو پانچ نکاتی پیمانے پر درجہ بندی کیا۔ ایک علیحدہ درجہ بندی کے کام نے اس بات کا تعین کیا کہ آیا جسمانی اصولوں کی پیروی کی گئی، خلاف ورزی کی گئی، یا غیر واضح تھے۔

تجربات سے پتہ چلتا ہے کہ موجودہ ویڈیو-لینگویج ماڈلز انسانی فیصلوں سے مماثل ہونے کے لیے جدوجہد کرتے ہیں، جس کی بنیادی وجہ کمزور جسمانی استدلال اور پرامپٹس کی پیچیدگی ہے۔ خودکار تشخیص کو بہتر بنانے کے لیے، محققین نے VideoPhy-2-Autoeval تیار کیا، جو ایک 7B-پیرامیٹر ماڈل ہے جو تین زمروں میں زیادہ درست پیشین گوئیاں فراہم کرنے کے لیے ڈیزائن کیا گیا ہے: سیمنٹک ایڈہیرنس؛ فزیکل کامن سینس؛ اور اصول کی تعمیل۔ اسے VideoCon-Physics ماڈل پر 50,000 انسانی تشریحات* کا استعمال کرتے ہوئے فائن ٹیون کیا گیا تھا۔

جنریٹو ویڈیو سسٹمز کی جانچ: ایک تقابلی تجزیہ

ان ٹولز کے ساتھ، مصنفین نے متعدد جنریٹو ویڈیو سسٹمز کا تجربہ کیا، مقامی تنصیبات کے ذریعے اور، جہاں ضروری ہو، کمرشل APIs کے ذریعے: CogVideoX-5B؛ VideoCrafter2؛ HunyuanVideo-13B؛ Cosmos-Diffusion؛ Wan2.1-14B؛ OpenAI Sora؛ اور Luma Ray۔

ماڈلز کو جہاں ممکن ہو اپسیمپلڈ کیپشنز کے ساتھ پرامپٹ کیا گیا تھا، سوائے اس کے کہ Hunyuan Video اور VideoCrafter2 77-ٹوکن CLIP حدود کے تحت کام کرتے ہیں اور ایک خاص لمبائی سے زیادہ پرامپٹس کو قبول نہیں کر سکتے۔

تیار کردہ ویڈیوز کو 6 سیکنڈ سے کم رکھا گیا تھا، کیونکہ مختصر آؤٹ پٹ کا جائزہ لینا آسان ہے۔

ڈرائیونگ ڈیٹا VideoPhy-2 ڈیٹاسیٹ سے تھا، جسے ایک بینچ مارک اور ٹریننگ سیٹ میں تقسیم کیا گیا تھا۔ فی ماڈل 590 ویڈیوز تیار کیے گئے تھے، سوائے Sora اور Ray2 کے؛ لاگت کے عنصر کی وجہ سے، ان کے لیے مساوی کم تعداد میں ویڈیوز تیار کیے گئے تھے۔

ابتدائی تشخیص جسمانی سرگرمیوں/کھیلوں (PA) اور آبجیکٹ انٹرایکشنز (OI) سے متعلق ہے اور اس نے عام ڈیٹاسیٹ اور مذکورہ بالا “سخت” سب سیٹ دونوں کا تجربہ کیا:

یہاں مصنفین تبصرہ کرتے ہیں:

‘یہاں تک کہ بہترین کارکردگی کا مظاہرہ کرنے والا ماڈل، Wan2.1-14B، ہمارے ڈیٹاسیٹ کے مکمل اور سخت اسپلٹس پر بالترتیب صرف 32.6% اور 21.9% حاصل کرتا ہے۔ دوسرے ماڈلز کے مقابلے میں اس کی نسبتاً مضبوط کارکردگی کو اس کے ملٹی موڈل ٹریننگ ڈیٹا کے تنوع، اور مضبوط موشن فلٹرنگ سے منسوب کیا جا سکتا ہے جو ایکشنز کی ایک وسیع رینج میں اعلیٰ معیار کی ویڈیوز کو محفوظ رکھتا ہے۔

‘مزید برآں، ہم مشاہدہ کرتے ہیں کہ بند ماڈلز، جیسے Ray2، کھلے ماڈلز جیسے Wan2.1-14B اور CogVideoX-5B سے بدتر کارکردگی کا مظاہرہ کرتے ہیں۔ اس سے پتہ چلتا ہے کہ بند ماڈلز جسمانی کامن سینس کو پکڑنے میں کھلے ماڈلز سے ضروری نہیں کہ بہتر ہوں۔

‘خاص طور پر، Cosmos-Diffusion-7B سخت اسپلٹ پر دوسرا بہترین اسکور حاصل کرتا ہے، یہاں تک کہ بہت بڑے HunyuanVideo-13B ماڈل سے بھی بہتر کارکردگی کا مظاہرہ کرتا ہے۔ یہ اس کے ٹریننگ ڈیٹا میں انسانی اعمال کی اعلیٰ نمائندگی، اور مصنوعی طور پر پیش کردہ نقالی کی وجہ سے ہو سکتا ہے۔’

نتائج سے پتہ چلتا ہے کہ ویڈیو ماڈلز سادہ آبجیکٹ انٹرایکشنز کے مقابلے میں کھیلوں جیسی جسمانی سرگرمیوں کے ساتھ زیادہ جدوجہد کرتے ہیں۔ اس سے پتہ چلتا ہے کہ اس علاقے میں AI سے تیار کردہ ویڈیوز کو بہتر بنانے کے لیے بہتر ڈیٹاسیٹس کی ضرورت ہوگی – خاص طور پر کھیلوں جیسے ٹینس، ڈسکس، بیس بال، اور کرکٹ کی اعلیٰ معیار کی فوٹیج۔

مطالعہ نے یہ بھی جانچا کہ آیا ماڈل کی جسمانی معقولیت دیگر ویڈیو کوالٹی میٹرکس، جیسے جمالیات اور حرکت کی ہمواری سے منسلک ہے۔ نتائج نے کوئی مضبوط تعلق ظاہر نہیں کیا، یعنی ایک ماڈل صرف بصری طور پر دلکش یا سیال حرکت پیدا کرکے VideoPhy-2 پر اپنی کارکردگی کو بہتر نہیں بنا سکتا – اسے جسمانی کامن سینس کی گہری سمجھ کی ضرورت ہے۔

کوالیٹیٹو مثالیں: چیلنجز کو اجاگر کرنا

اگرچہ مقالہ وافر کوالیٹیٹو مثالیں فراہم کرتا ہے، لیکن PDF میں فراہم کردہ جامد مثالوں میں سے کچھ کا تعلق ان وسیع ویڈیو پر مبنی مثالوں سے ہے جو مصنفین پروجیکٹ سائٹ پر فراہم کرتے ہیں۔ لہذا، ہم جامد مثالوں کا ایک چھوٹا سا انتخاب دیکھیں گے اور پھر کچھ مزید اصل پروجیکٹ ویڈیوز دیکھیں گے۔

مندرجہ بالا کوالیٹیٹو ٹیسٹ کے بارے میں، مصنفین تبصرہ کرتے ہیں:

‘[ہم] جسمانی کامن سینس کی خلاف ورزیوں کا مشاہدہ کرتے ہیں، جیسے جیٹ اسکیز غیر فطری طور پر الٹ حرکت کرتے ہیں اور ایک ٹھوس سلیج ہیمر کی خرابی، لچک کے اصولوں کی خلاف ورزی کرتے ہیں۔ تاہم، یہاں تک کہ Wan بھی جسمانی کامن سینس کی کمی کا شکار ہے، جیسا کہ [اس مضمون کے آغاز میں ایمبیڈ کردہ کلپ] میں دکھایا گیا ہے۔

‘اس صورت میں، ہم اس بات پر روشنی ڈالتے ہیں کہ ایک چٹان لڑھکنا شروع کر دیتی ہے اور اوپر کی طرف تیز ہوتی ہے، کشش ثقل کے جسمانی قانون کی خلاف ورزی کرتی ہے۔’

جیسا کہ شروع میں ذکر کیا گیا ہے، اس پروجیکٹ سے وابستہ مواد کا حجم اس سے کہیں زیادہ ہے جس کا یہاں احاطہ کیا جا سکتا ہے۔ لہذا، براہ کرم ماخذ مقالہ، پروجیکٹ سائٹ، اور متعلقہ سائٹس کا حوالہ دیں جو پہلے مصنفین کے طریقہ کار، اور کافی زیادہ ٹیسٹنگ مثالوں اور طریقہ کار کی تفصیلات کے لیے ذکر کیے گئے ہیں۔

* تشریحات کی اصلیت کے بارے میں، مقالہ صرف ‘ان کاموں کے لیے حاصل کردہ’ کی وضاحت کرتا ہے – ایسا لگتا ہے کہ 12 AMT کارکنوں کے ذریعہ بہت کچھ تیار کیا گیا ہے۔

First published Thursday, March 13, 2025