چرا ویدیوهای هوش مصنوعی گاهی اوقات فیزیک را اشتباه می‌گیرند

ظهور مدل‌های تولید ویدیوی چینی

اگر سال 2022 سالی بود که هوش مصنوعی مولد واقعاً تخیل عموم را به خود جلب کرد، سال 2025 به نظر می‌رسد سالی باشد که موج جدیدی از چارچوب‌های ویدیویی مولد از چین در مرکز توجه قرار می‌گیرد.

Hunyuan Video تنسنت قبلاً امواج قابل توجهی در جامعه علاقه‌مندان به هوش مصنوعی ایجاد کرده است. انتشار متن‌باز آن از یک مدل انتشار ویدیوی تمام‌جهان به کاربران اجازه می‌دهد تا این فناوری را با نیازهای خاص خود تطبیق دهند.

پس از آن، Wan 2.1 علی‌بابا است که اخیراً منتشر شده است. این مدل به عنوان یکی از قدرتمندترین راه‌حل‌های نرم‌افزار آزاد و متن‌باز (FOSS) تبدیل تصویر به ویدیو در حال حاضر موجود است و اکنون از سفارشی‌سازی از طریق Wan LoRAs پشتیبانی می‌کند.

علاوه بر این پیشرفت‌ها، ما همچنین منتظر انتشار مجموعه جامع ایجاد و ویرایش ویدیوی VACE علی‌بابا، همراه با در دسترس بودن مدل پایه اخیر متمرکز بر انسان، SkyReels هستیم.

صحنه تحقیقات هوش مصنوعی ویدیوی مولد به همان اندازه انفجاری است. هنوز اوایل مارس است، با این حال ارسال‌های روز سه‌شنبه به بخش Computer Vision Arxiv (یک مرکز کلیدی برای مقالات هوش مصنوعی مولد) تقریباً به 350 ورودی رسید – تعدادی که معمولاً در اوج فصل کنفرانس دیده می‌شود.

دو سال از زمان راه‌اندازی Stable Diffusion در تابستان 2022 (و توسعه بعدی روش‌های سفارشی‌سازی Dreambooth و LoRA) با کمبود نسبی پیشرفت‌های بزرگ مشخص شد. با این حال، چند هفته گذشته شاهد افزایش انتشارات و نوآوری‌های جدید بوده‌ایم که با چنان سرعتی در حال وقوع هستند که تقریباً غیرممکن است که کاملاً مطلع باشیم، چه رسد به اینکه همه چیز را به طور جامع پوشش دهیم.

حل ثبات زمانی، اما چالش‌های جدیدی پدیدار می‌شوند

مدل‌های انتشار ویدیو مانند Hunyuan و Wan 2.1، سرانجام، مشکل ثبات زمانی را حل کرده‌اند. پس از سال‌ها تلاش ناموفق از صدها طرح تحقیقاتی، این مدل‌ها تا حد زیادی چالش‌های مربوط به تولید انسان‌ها، محیط‌ها و اشیاء ثابت در طول زمان را حل کرده‌اند.

شکی نیست که استودیوهای VFX فعالانه کارکنان و منابع خود را برای تطبیق این مدل‌های ویدیویی جدید چینی اختصاص می‌دهند. هدف فوری آنها مقابله با چالش‌های فوری مانند تعویض چهره است، علیرغم عدم وجود مکانیزم‌های جانبی به سبک ControlNet برای این سیستم‌ها.

باید آسودگی خاطر بزرگی باشد که چنین مانع مهمی به طور بالقوه برطرف شده است، حتی اگر از طریق کانال‌های پیش‌بینی‌شده نباشد.

با این حال، در میان مشکلات باقی‌مانده، یکی به عنوان یک مشکل مهم برجسته می‌شود:

همه سیستم‌های تبدیل متن به ویدیو و تبدیل تصویر به ویدیو در حال حاضر موجود، از جمله مدل‌های تجاری منبع بسته، تمایل به تولید اشتباهات فیزیکی دارند. مثال بالا سنگی را نشان می‌دهد که به سمت بالا می‌غلتد، که از عبارت زیر تولید شده است: «یک سنگ کوچک از یک تپه شیب‌دار و صخره‌ای پایین می‌آید و خاک و سنگ‌های کوچک را جابجا می‌کند».

چرا ویدیوهای هوش مصنوعی فیزیک را اشتباه می‌گیرند؟

یک نظریه که اخیراً در یک همکاری آکادمیک بین علی‌بابا و امارات متحده عربی پیشنهاد شده است، نشان می‌دهد که مدل‌ها ممکن است به گونه‌ای یاد بگیرند که درک آنها از ترتیب زمانی را مختل کند. حتی هنگام آموزش روی ویدیوها (که برای آموزش به دنباله‌های تک‌فریم تقسیم می‌شوند)، مدل‌ها ممکن است ذاتاً توالی صحیح تصاویر “قبل” و “بعد” را درک نکنند.

با این حال، محتمل‌ترین توضیح این است که مدل‌های مورد بحث از روال‌های تقویت داده استفاده کرده‌اند. این روال‌ها شامل قرار دادن مدل در معرض یک کلیپ آموزشی منبع هم به صورت رو به جلو و هم به صورت معکوس است که به طور موثر داده‌های آموزشی را دو برابر می‌کند.

مدتی است که مشخص شده است که این کار نباید به طور بی‌رویه انجام شود. در حالی که برخی از حرکات به صورت معکوس کار می‌کنند، بسیاری از آنها اینطور نیستند. یک مطالعه در سال 2019 از دانشگاه بریستول بریتانیا با هدف توسعه روشی برای تشخیص بین کلیپ‌های ویدیویی داده‌های منبع هم‌تغییر، ناوردا و برگشت‌ناپذیر در یک مجموعه داده واحد انجام شد. هدف این بود که کلیپ‌های نامناسب از روال‌های تقویت داده فیلتر شوند.

نویسندگان آن اثر به وضوح مشکل را بیان کردند:

‘ما متوجه می‌شویم که واقع‌گرایی ویدیوهای معکوس با مصنوعات معکوس، جنبه‌هایی از صحنه که در دنیای طبیعی امکان‌پذیر نیست، خیانت می‌شود. برخی از مصنوعات ظریف هستند، در حالی که تشخیص برخی دیگر آسان است، مانند یک عمل «پرتاب» معکوس که در آن شیء پرتاب شده به طور خود به خود از زمین بلند می‌شود.

‘ما دو نوع مصنوع معکوس را مشاهده می‌کنیم، فیزیکی، آنهایی که نقض قوانین طبیعت را نشان می‌دهند، و غیرمحتمل، آنهایی که یک سناریوی ممکن اما بعید را به تصویر می‌کشند. اینها انحصاری نیستند و بسیاری از اقدامات معکوس از هر دو نوع مصنوع رنج می‌برند، مانند زمانی که یک تکه کاغذ را باز می‌کنید.

‘نمونه‌هایی از مصنوعات فیزیکی عبارتند از: گرانش معکوس (مثلاً «انداختن چیزی»)، تکانه‌های خود به خودی روی اشیاء (مثلاً «چرخاندن خودکار») و تغییرات حالت برگشت‌ناپذیر (مثلاً «سوزاندن شمع»). نمونه‌ای از یک مصنوع غیرمحتمل: برداشتن یک بشقاب از کابینت، خشک کردن آن و قرار دادن آن روی قفسه خشک‌کن.

‘این نوع استفاده مجدد از داده‌ها در زمان آموزش بسیار رایج است و می‌تواند مفید باشد – برای مثال، در اطمینان از اینکه مدل فقط یک نمای از یک تصویر یا شی را یاد نمی‌گیرد که می‌تواند بدون از دست دادن انسجام و منطق مرکزی خود، چرخانده یا چرخانده شود.

‘البته این فقط برای اشیایی که واقعاً متقارن هستند کار می‌کند. و یادگیری فیزیک از یک ویدیوی «معکوس» فقط در صورتی کار می‌کند که نسخه معکوس به اندازه نسخه رو به جلو منطقی باشد.’

ما شواهد محکمی نداریم که سیستم‌هایی مانند Hunyuan Video و Wan 2.1 اجازه کلیپ‌های «معکوس» دلخواه را در طول آموزش داده باشند (هیچ یک از گروه‌های تحقیقاتی در مورد روال‌های تقویت داده خود خاص نبوده‌اند).

با این حال، با توجه به گزارش‌های متعدد (و تجربه عملی خودم)، تنها توضیح منطقی دیگر این است که مجموعه داده‌های فوق‌العاده‌ای که این مدل‌ها را تامین می‌کنند، ممکن است حاوی کلیپ‌هایی باشند که واقعاً حرکاتی را نشان می‌دهند که به صورت معکوس رخ می‌دهند.

سنگ در مثال ویدیویی که قبلاً جاسازی شده بود با استفاده از Wan 2.1 تولید شد. این سنگ در یک مطالعه جدید نشان داده شده است که بررسی می‌کند مدل‌های انتشار ویدیو چقدر خوب فیزیک را مدیریت می‌کنند.

در آزمایش‌های این پروژه، Wan 2.1 در توانایی خود برای پایبندی مداوم به قوانین فیزیک، امتیاز 22% را کسب کرد.

با کمال تعجب، این بهترین امتیاز در بین تمام سیستم‌های آزمایش‌شده است، که نشان می‌دهد ممکن است مانع بزرگ بعدی برای هوش مصنوعی ویدیویی را شناسایی کرده باشیم:

معرفی VideoPhy-2: معیاری جدید برای عقل سلیم فیزیکی

نویسندگان کار جدید یک سیستم محک‌زنی ایجاد کرده‌اند که اکنون در دومین تکرار خود قرار دارد و VideoPhy نام دارد. کد در GitHub موجود است.

در حالی که دامنه کار برای پوشش جامع در اینجا بسیار گسترده است، بیایید روش‌شناسی آن و پتانسیل آن را برای ایجاد معیاری که می‌تواند جلسات آموزش مدل آینده را از این موارد عجیب معکوس دور کند، بررسی کنیم.

این مطالعه که توسط شش محقق از UCLA و Google Research انجام شده است، VideoPhy-2: یک ارزیابی عقل سلیم فیزیکی چالش‌برانگیز متمرکز بر عمل در تولید ویدیو نام دارد. یک سایت پروژه همراه جامع نیز در دسترس است، همراه با کد و مجموعه داده در GitHub، و یک نمایشگر مجموعه داده در Hugging Face.

نویسندگان آخرین نسخه، VideoPhy-2 را به عنوان “مجموعه داده ارزیابی عقل سلیم چالش‌برانگیز برای اقدامات دنیای واقعی” توصیف می‌کنند. این مجموعه دارای 197 عمل در طیف وسیعی از فعالیت‌های فیزیکی متنوع، از جمله هولاهوپ، ژیمناستیک و تنیس، و همچنین تعاملات شی مانند خم کردن یک شی تا زمانی که بشکند است.

یک مدل زبان بزرگ (LLM) برای تولید 3840 عبارت از این اقدامات اولیه استفاده می‌شود. سپس از این عبارت‌ها برای سنتز ویدیوها با استفاده از چارچوب‌های مختلف مورد آزمایش استفاده می‌شود.

در طول این فرآیند، نویسندگان فهرستی از قوانین و قوانین فیزیکی “نامزد” را که ویدیوهای تولید شده توسط هوش مصنوعی باید به آنها پایبند باشند، با استفاده از مدل‌های زبان-بینایی برای ارزیابی، گردآوری کرده‌اند.

نویسندگان بیان می‌کنند:

‘به عنوان مثال، در ویدیویی از ورزشکاری که تنیس بازی می‌کند، یک قانون فیزیکی این است که یک توپ تنیس باید یک مسیر سهموی را تحت گرانش دنبال کند. برای قضاوت‌های استاندارد طلایی، ما از حاشیه‌نویسان انسانی می‌خواهیم که به هر ویدیو بر اساس پایبندی معنایی کلی و عقل سلیم فیزیکی امتیاز دهند و انطباق آن با قوانین فیزیکی مختلف را علامت‌گذاری کنند.’

مدیریت اقدامات و تولید عبارت‌ها

در ابتدا، محققان مجموعه‌ای از اقدامات را برای ارزیابی عقل سلیم فیزیکی در ویدیوهای تولید شده توسط هوش مصنوعی مدیریت کردند. آنها با بیش از 600 عمل منبع‌گیری شده از مجموعه داده‌های Kinetics، UCF-101 و SSv2 شروع کردند و بر فعالیت‌هایی که شامل ورزش، تعاملات شی و فیزیک دنیای واقعی می‌شد، تمرکز کردند.

دو گروه مستقل از حاشیه‌نویسان دانشجویی آموزش‌دیده STEM (با حداقل مدرک کارشناسی) لیست را بررسی و فیلتر کردند. آنها اقداماتی را انتخاب کردند که اصولی مانند گرانش، تکانه و الاستیسیته را آزمایش می‌کردند، در حالی که وظایف کم‌حرکت مانند تایپ کردن، نوازش کردن گربه یا جویدن را حذف می‌کردند.

پس از پالایش بیشتر با Gemini-2.0-Flash-Exp برای حذف موارد تکراری، مجموعه داده نهایی شامل 197 عمل بود. 54 مورد شامل تعاملات شی و 143 مورد بر فعالیت‌های فیزیکی و ورزشی متمرکز بودند:

در مرحله دوم، محققان از Gemini-2.0-Flash-Exp برای تولید 20 عبارت برای هر عمل در مجموعه داده استفاده کردند که در مجموع 3940 عبارت را به همراه داشت. فرآیند تولید بر تعاملات فیزیکی قابل مشاهده‌ای متمرکز بود که می‌توانست به وضوح در یک ویدیوی تولید شده نشان داده شود. این عناصر غیر بصری مانند احساسات، جزئیات حسی و زبان انتزاعی را حذف کرد، اما شخصیت‌ها و اشیاء متنوعی را در خود جای داد.

به عنوان مثال، به جای یک عبارت ساده مانند «یک کماندار تیر را رها می‌کند»، مدل هدایت شد تا نسخه دقیق‌تری مانند «یک کماندار زه کمان را تا حد کشش کامل به عقب می‌کشد، سپس تیر را رها می‌کند، که مستقیم پرواز می‌کند و به یک چشم گاو روی یک هدف کاغذی برخورد می‌کند» تولید کند.

از آنجایی که مدل‌های ویدیویی مدرن می‌توانند توضیحات طولانی‌تری را تفسیر کنند، محققان با استفاده از نمونه‌بردار عبارت Mistral-NeMo-12B-Instruct، زیرنویس‌ها را بیشتر پالایش کردند. این جزئیات بصری را بدون تغییر معنای اصلی اضافه کرد.

استخراج قوانین فیزیکی و شناسایی اقدامات چالش‌برانگیز

برای مرحله سوم، قوانین فیزیکی نه از عبارت‌های متنی، بلکه از ویدیوهای تولید شده استخراج شدند. این به این دلیل است که مدل‌های مولد می‌توانند برای پایبندی به عبارت‌های متنی شرطی‌شده تلاش کنند.

ویدیوها ابتدا با استفاده از عبارت‌های VideoPhy-2 ایجاد شدند، سپس با Gemini-2.0-Flash-Exp “بالا-زیرنویس” شدند تا جزئیات کلیدی استخراج شوند. این مدل سه قانون فیزیکی مورد انتظار را برای هر ویدیو پیشنهاد کرد. حاشیه‌نویسان انسانی این موارد را با شناسایی نقض‌های بالقوه اضافی بررسی و گسترش دادند.

در مرحله بعد، برای شناسایی چالش‌برانگیزترین اقدامات، محققان با استفاده از CogVideoX-5B با عبارت‌هایی از مجموعه داده VideoPhy-2 ویدیوهایی تولید کردند. سپس آنها 60 عمل از 197 عمل را انتخاب کردند که در آن مدل به طور مداوم در پیروی از عبارت‌ها و عقل سلیم فیزیکی اولیه شکست خورد.

این اقدامات شامل تعاملات غنی از فیزیک مانند انتقال تکانه در پرتاب دیسک، تغییرات حالت مانند خم کردن یک شی تا زمانی که بشکند، وظایف تعادلی مانند راه رفتن روی طناب و حرکات پیچیده‌ای بود که شامل پشتک، پرش با نیزه و پرتاب پیتزا، از جمله موارد دیگر بود. در مجموع، 1200 عبارت برای افزایش دشواری زیرمجموعه داده انتخاب شدند.

مجموعه داده VideoPhy-2: یک منبع ارزیابی جامع

مجموعه داده حاصل شامل 3940 زیرنویس بود – 5.72 برابر بیشتر از نسخه قبلی VideoPhy. میانگین طول زیرنویس‌های اصلی 16 توکن است، در حالی که زیرنویس‌های نمونه‌برداری شده به 138 توکن می‌رسند – به ترتیب 1.88 برابر و 16.2 برابر طولانی‌تر.

این مجموعه داده همچنین دارای 102000 حاشیه‌نویسی انسانی است که پایبندی معنایی، عقل سلیم فیزیکی و نقض قوانین را در چندین مدل تولید ویدیو پوشش می‌دهد.

تعریف معیارهای ارزیابی و حاشیه‌نویسی‌های انسانی

سپس محققان معیارهای روشنی را برای ارزیابی ویدیوها تعریف کردند. هدف اصلی این بود که ارزیابی شود هر ویدیو چقدر با عبارت ورودی خود مطابقت دارد و از اصول فیزیکی اولیه پیروی می‌کند.

به جای رتبه‌بندی ساده ویدیوها بر اساس اولویت، آنها از بازخورد مبتنی بر رتبه‌بندی برای ثبت موفقیت‌ها و شکست‌های خاص استفاده کردند. حاشیه‌نویسان انسانی به ویدیوها در مقیاس پنج‌نقطه‌ای امتیاز دادند که امکان قضاوت‌های دقیق‌تری را فراهم می‌کرد. این ارزیابی همچنین بررسی کرد که آیا ویدیوها از قوانین و قوانین فیزیکی مختلف پیروی می‌کنند یا خیر.

برای ارزیابی انسانی، گروهی متشکل از 12 حاشیه‌نویس از آزمایش‌های Amazon Mechanical Turk (AMT) انتخاب شدند و پس از دریافت دستورالعمل‌های دقیق از راه دور، رتبه‌بندی‌ها را ارائه کردند. برای انصاف، پایبندی معنایی و عقل سلیم فیزیکی به طور جداگانه ارزیابی شدند (در مطالعه اصلی VideoPhy، آنها به طور مشترک ارزیابی شدند).

حاشیه‌نویسان ابتدا میزان مطابقت ویدیوها با عبارت‌های ورودی خود را رتبه‌بندی کردند، سپس به طور جداگانه معقولیت فیزیکی را ارزیابی کردند، نقض قوانین و واقع‌گرایی کلی را در مقیاس پنج‌نقطه‌ای امتیاز دادند. فقط عبارت‌های اصلی نشان داده شدند تا مقایسه منصفانه‌ای بین مدل‌ها حفظ شود.

ارزیابی خودکار: به سوی ارزیابی مدل مقیاس‌پذیر

اگرچه قضاوت انسانی همچنان استاندارد طلایی است، اما گران است و با چندین هشدار همراه است. بنابراین، ارزیابی خودکار برای ارزیابی‌های مدل سریع‌تر و مقیاس‌پذیرتر ضروری است.

نویسندگان مقاله چندین مدل زبان-ویدیویی، از جمله Gemini-2.0-Flash-Exp و VideoScore را از نظر توانایی آنها در امتیازدهی به ویدیوها برای دقت معنایی و “عقل سلیم فیزیکی” آزمایش کردند.

مدل‌ها دوباره به هر ویدیو در مقیاس پنج‌نقطه‌ای امتیاز دادند. یک وظیفه طبقه‌بندی جداگانه تعیین کرد که آیا قوانین فیزیکی رعایت شده‌اند، نقض شده‌اند یا نامشخص هستند.

آزمایش‌ها نشان داد که مدل‌های زبان-ویدیویی موجود برای مطابقت با قضاوت‌های انسانی تلاش می‌کنند، عمدتاً به دلیل استدلال فیزیکی ضعیف و پیچیدگی عبارت‌ها. برای بهبود ارزیابی خودکار، محققان VideoPhy-2-Autoeval را توسعه دادند، یک مدل 7B-پارامتری که برای ارائه پیش‌بینی‌های دقیق‌تر در سه دسته طراحی شده است: پایبندی معنایی؛ عقل سلیم فیزیکی؛ و رعایت قوانین. این مدل با استفاده از 50000 حاشیه‌نویسی انسانی* روی مدل VideoCon-Physics تنظیم دقیق شد.

آزمایش سیستم‌های تولید ویدیو: یک تحلیل مقایسه‌ای

با وجود این ابزارها، نویسندگان تعدادی از سیستم‌های تولید ویدیو را هم از طریق نصب‌های محلی و هم در صورت لزوم، از طریق APIهای تجاری آزمایش کردند: CogVideoX-5B؛ VideoCrafter2؛ HunyuanVideo-13B؛ Cosmos-Diffusion؛ Wan2.1-14B؛ OpenAI Sora؛ و Luma Ray.

در صورت امکان، مدل‌ها با زیرنویس‌های نمونه‌برداری شده فراخوانی شدند، به جز اینکه Hunyuan Video و VideoCrafter2 تحت محدودیت‌های 77-توکنی CLIP عمل می‌کنند و نمی‌توانند عبارت‌های بالاتر از طول معینی را بپذیرند.

ویدیوهای تولید شده کمتر از 6 ثانیه نگه داشته شدند، زیرا ارزیابی خروجی کوتاه‌تر آسان‌تر است.

داده‌های محرک از مجموعه داده VideoPhy-2 بودند که به یک معیار و مجموعه آموزشی تقسیم شدند. 590 ویدیو برای هر مدل تولید شد، به جز Sora و Ray2. به دلیل عامل هزینه، تعداد کمتری از ویدیوها برای این موارد تولید شد.

ارزیابی اولیه با فعالیت‌های فیزیکی/ورزشی (PA) و تعاملات شی (OI) سروکار داشت و هم مجموعه داده کلی و هم زیرمجموعه “سخت‌تر” فوق‌الذکر را آزمایش کرد:

در اینجا نویسندگان اظهار نظر می‌کنند:

‘حتی بهترین مدل، Wan2.1-14B، به ترتیب فقط 32.6% و 21.9% را در تقسیم‌های کامل و سخت مجموعه داده ما به دست می‌آورد. عملکرد نسبتاً قوی آن در مقایسه با سایر مدل‌ها را می‌توان به تنوع داده‌های آموزشی چندوجهی آن، همراه با فیلتر حرکت قوی که ویدیوهای با کیفیت بالا را در طیف وسیعی از اقدامات حفظ می‌کند، نسبت داد.

‘علاوه بر این، ما مشاهده می‌کنیم که مدل‌های بسته، مانند Ray2، بدتر از مدل‌های باز مانند Wan2.1-14B و CogVideoX-5B عمل می‌کنند. این نشان می‌دهد که مدل‌های بسته لزوماً در ثبت عقل سلیم فیزیکی برتر از مدل‌های باز نیستند.

‘به طور قابل توجهی، Cosmos-Diffusion-7B دومین امتیاز برتر را در تقسیم سخت به دست می‌آورد، حتی از مدل بسیار بزرگتر HunyuanVideo-13B پیشی می‌گیرد. این ممکن است به دلیل نمایش بالای اقدامات انسانی در داده‌های آموزشی آن، همراه با شبیه‌سازی‌های رندر شده مصنوعی باشد.’

نتایج نشان داد که مدل‌های ویدیویی با فعالیت‌های فیزیکی مانند ورزش بیشتر از تعاملات شی ساده‌تر مشکل دارند. این نشان می‌دهد که بهبود ویدیوهای تولید شده توسط هوش مصنوعی در این زمینه به مجموعه داده‌های بهتری نیاز دارد – به ویژه فیلم‌های با کیفیت بالا از ورزش‌هایی مانند تنیس، دیسک، بیس‌بال و کریکت.

این مطالعه همچنین بررسی کرد که آیا معقولیت فیزیکی یک مدل با سایر معیارهای کیفیت ویدیو، مانند زیبایی‌شناسی و روان بودن حرکت، همبستگی دارد یا خیر. یافته‌ها هیچ همبستگی قوی‌ای را نشان ندادند، به این معنی که یک مدل نمی‌تواند عملکرد خود را در VideoPhy-2 فقط با تولید حرکت بصری جذاب یا سیال بهبود بخشد – بلکه به درک عمیق‌تری از عقل سلیم فیزیکی نیاز دارد.

نمونه‌های کیفی: برجسته کردن چالش‌ها

اگرچه این مقاله نمونه‌های کیفی فراوانی را ارائه می‌دهد، به نظر می‌رسد تعداد کمی از نمونه‌های استاتیک ارائه شده در PDF به نمونه‌های ویدیویی گسترده‌ای که نویسندگان در سایت پروژه ارائه می‌دهند، مربوط می‌شوند. بنابراین، ما به تعداد کمی از نمونه‌های استاتیک و سپس برخی دیگر از ویدیوهای واقعی پروژه نگاه خواهیم کرد.

با توجه به آزمون کیفی بالا، نویسندگان اظهار نظر می‌کنند:

‘[ما] نقض عقل سلیم فیزیکی را مشاهده می‌کنیم، مانند جت‌اسکی‌هایی که به طور غیرطبیعی به عقب حرکت می‌کنند و تغییر شکل یک پتک جامد، که اصول الاستیسیته را نقض می‌کند. با این حال، حتی Wan نیز از فقدان عقل سلیم فیزیکی رنج می‌برد، همانطور که در [کلیپ جاسازی شده در ابتدای این مقاله] نشان داده شده است.

‘در این مورد، ما برجسته می‌کنیم که یک سنگ شروع به غلتیدن و شتاب گرفتن به سمت بالا می‌کند، که قانون فیزیکی گرانش را نقض می‌کند.’

همانطور که در ابتدا ذکر شد، حجم مطالب مرتبط با این پروژه بسیار بیشتر از آن چیزی است که می‌توان در اینجا پوشش داد. بنابراین، لطفاً برای یک طرح کلی واقعاً جامع از رویه‌های نویسندگان، و نمونه‌های آزمایشی و جزئیات رویه‌ای بسیار بیشتر، به مقاله منبع، سایت پروژه و سایت‌های مرتبط که قبلاً ذکر شد، مراجعه کنید.

* در مورد منشأ حاشیه‌نویسی‌ها، مقاله فقط مشخص می‌کند «برای این وظایف به دست آمده است» – به نظر می‌رسد که تعداد زیادی توسط 12 کارگر AMT تولید شده باشد.