ظهور مدلهای تولید ویدیوی چینی
اگر سال 2022 سالی بود که هوش مصنوعی مولد واقعاً تخیل عموم را به خود جلب کرد، سال 2025 به نظر میرسد سالی باشد که موج جدیدی از چارچوبهای ویدیویی مولد از چین در مرکز توجه قرار میگیرد.
Hunyuan Video تنسنت قبلاً امواج قابل توجهی در جامعه علاقهمندان به هوش مصنوعی ایجاد کرده است. انتشار متنباز آن از یک مدل انتشار ویدیوی تمامجهان به کاربران اجازه میدهد تا این فناوری را با نیازهای خاص خود تطبیق دهند.
پس از آن، Wan 2.1 علیبابا است که اخیراً منتشر شده است. این مدل به عنوان یکی از قدرتمندترین راهحلهای نرمافزار آزاد و متنباز (FOSS) تبدیل تصویر به ویدیو در حال حاضر موجود است و اکنون از سفارشیسازی از طریق Wan LoRAs پشتیبانی میکند.
علاوه بر این پیشرفتها، ما همچنین منتظر انتشار مجموعه جامع ایجاد و ویرایش ویدیوی VACE علیبابا، همراه با در دسترس بودن مدل پایه اخیر متمرکز بر انسان، SkyReels هستیم.
صحنه تحقیقات هوش مصنوعی ویدیوی مولد به همان اندازه انفجاری است. هنوز اوایل مارس است، با این حال ارسالهای روز سهشنبه به بخش Computer Vision Arxiv (یک مرکز کلیدی برای مقالات هوش مصنوعی مولد) تقریباً به 350 ورودی رسید – تعدادی که معمولاً در اوج فصل کنفرانس دیده میشود.
دو سال از زمان راهاندازی Stable Diffusion در تابستان 2022 (و توسعه بعدی روشهای سفارشیسازی Dreambooth و LoRA) با کمبود نسبی پیشرفتهای بزرگ مشخص شد. با این حال، چند هفته گذشته شاهد افزایش انتشارات و نوآوریهای جدید بودهایم که با چنان سرعتی در حال وقوع هستند که تقریباً غیرممکن است که کاملاً مطلع باشیم، چه رسد به اینکه همه چیز را به طور جامع پوشش دهیم.
حل ثبات زمانی، اما چالشهای جدیدی پدیدار میشوند
مدلهای انتشار ویدیو مانند Hunyuan و Wan 2.1، سرانجام، مشکل ثبات زمانی را حل کردهاند. پس از سالها تلاش ناموفق از صدها طرح تحقیقاتی، این مدلها تا حد زیادی چالشهای مربوط به تولید انسانها، محیطها و اشیاء ثابت در طول زمان را حل کردهاند.
شکی نیست که استودیوهای VFX فعالانه کارکنان و منابع خود را برای تطبیق این مدلهای ویدیویی جدید چینی اختصاص میدهند. هدف فوری آنها مقابله با چالشهای فوری مانند تعویض چهره است، علیرغم عدم وجود مکانیزمهای جانبی به سبک ControlNet برای این سیستمها.
باید آسودگی خاطر بزرگی باشد که چنین مانع مهمی به طور بالقوه برطرف شده است، حتی اگر از طریق کانالهای پیشبینیشده نباشد.
با این حال، در میان مشکلات باقیمانده، یکی به عنوان یک مشکل مهم برجسته میشود:
همه سیستمهای تبدیل متن به ویدیو و تبدیل تصویر به ویدیو در حال حاضر موجود، از جمله مدلهای تجاری منبع بسته، تمایل به تولید اشتباهات فیزیکی دارند. مثال بالا سنگی را نشان میدهد که به سمت بالا میغلتد، که از عبارت زیر تولید شده است: «یک سنگ کوچک از یک تپه شیبدار و صخرهای پایین میآید و خاک و سنگهای کوچک را جابجا میکند».
چرا ویدیوهای هوش مصنوعی فیزیک را اشتباه میگیرند؟
یک نظریه که اخیراً در یک همکاری آکادمیک بین علیبابا و امارات متحده عربی پیشنهاد شده است، نشان میدهد که مدلها ممکن است به گونهای یاد بگیرند که درک آنها از ترتیب زمانی را مختل کند. حتی هنگام آموزش روی ویدیوها (که برای آموزش به دنبالههای تکفریم تقسیم میشوند)، مدلها ممکن است ذاتاً توالی صحیح تصاویر “قبل” و “بعد” را درک نکنند.
با این حال، محتملترین توضیح این است که مدلهای مورد بحث از روالهای تقویت داده استفاده کردهاند. این روالها شامل قرار دادن مدل در معرض یک کلیپ آموزشی منبع هم به صورت رو به جلو و هم به صورت معکوس است که به طور موثر دادههای آموزشی را دو برابر میکند.
مدتی است که مشخص شده است که این کار نباید به طور بیرویه انجام شود. در حالی که برخی از حرکات به صورت معکوس کار میکنند، بسیاری از آنها اینطور نیستند. یک مطالعه در سال 2019 از دانشگاه بریستول بریتانیا با هدف توسعه روشی برای تشخیص بین کلیپهای ویدیویی دادههای منبع همتغییر، ناوردا و برگشتناپذیر در یک مجموعه داده واحد انجام شد. هدف این بود که کلیپهای نامناسب از روالهای تقویت داده فیلتر شوند.
نویسندگان آن اثر به وضوح مشکل را بیان کردند:
‘ما متوجه میشویم که واقعگرایی ویدیوهای معکوس با مصنوعات معکوس، جنبههایی از صحنه که در دنیای طبیعی امکانپذیر نیست، خیانت میشود. برخی از مصنوعات ظریف هستند، در حالی که تشخیص برخی دیگر آسان است، مانند یک عمل «پرتاب» معکوس که در آن شیء پرتاب شده به طور خود به خود از زمین بلند میشود.
‘ما دو نوع مصنوع معکوس را مشاهده میکنیم، فیزیکی، آنهایی که نقض قوانین طبیعت را نشان میدهند، و غیرمحتمل، آنهایی که یک سناریوی ممکن اما بعید را به تصویر میکشند. اینها انحصاری نیستند و بسیاری از اقدامات معکوس از هر دو نوع مصنوع رنج میبرند، مانند زمانی که یک تکه کاغذ را باز میکنید.
‘نمونههایی از مصنوعات فیزیکی عبارتند از: گرانش معکوس (مثلاً «انداختن چیزی»)، تکانههای خود به خودی روی اشیاء (مثلاً «چرخاندن خودکار») و تغییرات حالت برگشتناپذیر (مثلاً «سوزاندن شمع»). نمونهای از یک مصنوع غیرمحتمل: برداشتن یک بشقاب از کابینت، خشک کردن آن و قرار دادن آن روی قفسه خشککن.
‘این نوع استفاده مجدد از دادهها در زمان آموزش بسیار رایج است و میتواند مفید باشد – برای مثال، در اطمینان از اینکه مدل فقط یک نمای از یک تصویر یا شی را یاد نمیگیرد که میتواند بدون از دست دادن انسجام و منطق مرکزی خود، چرخانده یا چرخانده شود.
‘البته این فقط برای اشیایی که واقعاً متقارن هستند کار میکند. و یادگیری فیزیک از یک ویدیوی «معکوس» فقط در صورتی کار میکند که نسخه معکوس به اندازه نسخه رو به جلو منطقی باشد.’
ما شواهد محکمی نداریم که سیستمهایی مانند Hunyuan Video و Wan 2.1 اجازه کلیپهای «معکوس» دلخواه را در طول آموزش داده باشند (هیچ یک از گروههای تحقیقاتی در مورد روالهای تقویت داده خود خاص نبودهاند).
با این حال، با توجه به گزارشهای متعدد (و تجربه عملی خودم)، تنها توضیح منطقی دیگر این است که مجموعه دادههای فوقالعادهای که این مدلها را تامین میکنند، ممکن است حاوی کلیپهایی باشند که واقعاً حرکاتی را نشان میدهند که به صورت معکوس رخ میدهند.
سنگ در مثال ویدیویی که قبلاً جاسازی شده بود با استفاده از Wan 2.1 تولید شد. این سنگ در یک مطالعه جدید نشان داده شده است که بررسی میکند مدلهای انتشار ویدیو چقدر خوب فیزیک را مدیریت میکنند.
در آزمایشهای این پروژه، Wan 2.1 در توانایی خود برای پایبندی مداوم به قوانین فیزیک، امتیاز 22% را کسب کرد.
با کمال تعجب، این بهترین امتیاز در بین تمام سیستمهای آزمایششده است، که نشان میدهد ممکن است مانع بزرگ بعدی برای هوش مصنوعی ویدیویی را شناسایی کرده باشیم:
معرفی VideoPhy-2: معیاری جدید برای عقل سلیم فیزیکی
نویسندگان کار جدید یک سیستم محکزنی ایجاد کردهاند که اکنون در دومین تکرار خود قرار دارد و VideoPhy نام دارد. کد در GitHub موجود است.
در حالی که دامنه کار برای پوشش جامع در اینجا بسیار گسترده است، بیایید روششناسی آن و پتانسیل آن را برای ایجاد معیاری که میتواند جلسات آموزش مدل آینده را از این موارد عجیب معکوس دور کند، بررسی کنیم.
این مطالعه که توسط شش محقق از UCLA و Google Research انجام شده است، VideoPhy-2: یک ارزیابی عقل سلیم فیزیکی چالشبرانگیز متمرکز بر عمل در تولید ویدیو نام دارد. یک سایت پروژه همراه جامع نیز در دسترس است، همراه با کد و مجموعه داده در GitHub، و یک نمایشگر مجموعه داده در Hugging Face.
نویسندگان آخرین نسخه، VideoPhy-2 را به عنوان “مجموعه داده ارزیابی عقل سلیم چالشبرانگیز برای اقدامات دنیای واقعی” توصیف میکنند. این مجموعه دارای 197 عمل در طیف وسیعی از فعالیتهای فیزیکی متنوع، از جمله هولاهوپ، ژیمناستیک و تنیس، و همچنین تعاملات شی مانند خم کردن یک شی تا زمانی که بشکند است.
یک مدل زبان بزرگ (LLM) برای تولید 3840 عبارت از این اقدامات اولیه استفاده میشود. سپس از این عبارتها برای سنتز ویدیوها با استفاده از چارچوبهای مختلف مورد آزمایش استفاده میشود.
در طول این فرآیند، نویسندگان فهرستی از قوانین و قوانین فیزیکی “نامزد” را که ویدیوهای تولید شده توسط هوش مصنوعی باید به آنها پایبند باشند، با استفاده از مدلهای زبان-بینایی برای ارزیابی، گردآوری کردهاند.
نویسندگان بیان میکنند:
‘به عنوان مثال، در ویدیویی از ورزشکاری که تنیس بازی میکند، یک قانون فیزیکی این است که یک توپ تنیس باید یک مسیر سهموی را تحت گرانش دنبال کند. برای قضاوتهای استاندارد طلایی، ما از حاشیهنویسان انسانی میخواهیم که به هر ویدیو بر اساس پایبندی معنایی کلی و عقل سلیم فیزیکی امتیاز دهند و انطباق آن با قوانین فیزیکی مختلف را علامتگذاری کنند.’
مدیریت اقدامات و تولید عبارتها
در ابتدا، محققان مجموعهای از اقدامات را برای ارزیابی عقل سلیم فیزیکی در ویدیوهای تولید شده توسط هوش مصنوعی مدیریت کردند. آنها با بیش از 600 عمل منبعگیری شده از مجموعه دادههای Kinetics، UCF-101 و SSv2 شروع کردند و بر فعالیتهایی که شامل ورزش، تعاملات شی و فیزیک دنیای واقعی میشد، تمرکز کردند.
دو گروه مستقل از حاشیهنویسان دانشجویی آموزشدیده STEM (با حداقل مدرک کارشناسی) لیست را بررسی و فیلتر کردند. آنها اقداماتی را انتخاب کردند که اصولی مانند گرانش، تکانه و الاستیسیته را آزمایش میکردند، در حالی که وظایف کمحرکت مانند تایپ کردن، نوازش کردن گربه یا جویدن را حذف میکردند.
پس از پالایش بیشتر با Gemini-2.0-Flash-Exp برای حذف موارد تکراری، مجموعه داده نهایی شامل 197 عمل بود. 54 مورد شامل تعاملات شی و 143 مورد بر فعالیتهای فیزیکی و ورزشی متمرکز بودند:
در مرحله دوم، محققان از Gemini-2.0-Flash-Exp برای تولید 20 عبارت برای هر عمل در مجموعه داده استفاده کردند که در مجموع 3940 عبارت را به همراه داشت. فرآیند تولید بر تعاملات فیزیکی قابل مشاهدهای متمرکز بود که میتوانست به وضوح در یک ویدیوی تولید شده نشان داده شود. این عناصر غیر بصری مانند احساسات، جزئیات حسی و زبان انتزاعی را حذف کرد، اما شخصیتها و اشیاء متنوعی را در خود جای داد.
به عنوان مثال، به جای یک عبارت ساده مانند «یک کماندار تیر را رها میکند»، مدل هدایت شد تا نسخه دقیقتری مانند «یک کماندار زه کمان را تا حد کشش کامل به عقب میکشد، سپس تیر را رها میکند، که مستقیم پرواز میکند و به یک چشم گاو روی یک هدف کاغذی برخورد میکند» تولید کند.
از آنجایی که مدلهای ویدیویی مدرن میتوانند توضیحات طولانیتری را تفسیر کنند، محققان با استفاده از نمونهبردار عبارت Mistral-NeMo-12B-Instruct، زیرنویسها را بیشتر پالایش کردند. این جزئیات بصری را بدون تغییر معنای اصلی اضافه کرد.
استخراج قوانین فیزیکی و شناسایی اقدامات چالشبرانگیز
برای مرحله سوم، قوانین فیزیکی نه از عبارتهای متنی، بلکه از ویدیوهای تولید شده استخراج شدند. این به این دلیل است که مدلهای مولد میتوانند برای پایبندی به عبارتهای متنی شرطیشده تلاش کنند.
ویدیوها ابتدا با استفاده از عبارتهای VideoPhy-2 ایجاد شدند، سپس با Gemini-2.0-Flash-Exp “بالا-زیرنویس” شدند تا جزئیات کلیدی استخراج شوند. این مدل سه قانون فیزیکی مورد انتظار را برای هر ویدیو پیشنهاد کرد. حاشیهنویسان انسانی این موارد را با شناسایی نقضهای بالقوه اضافی بررسی و گسترش دادند.
در مرحله بعد، برای شناسایی چالشبرانگیزترین اقدامات، محققان با استفاده از CogVideoX-5B با عبارتهایی از مجموعه داده VideoPhy-2 ویدیوهایی تولید کردند. سپس آنها 60 عمل از 197 عمل را انتخاب کردند که در آن مدل به طور مداوم در پیروی از عبارتها و عقل سلیم فیزیکی اولیه شکست خورد.
این اقدامات شامل تعاملات غنی از فیزیک مانند انتقال تکانه در پرتاب دیسک، تغییرات حالت مانند خم کردن یک شی تا زمانی که بشکند، وظایف تعادلی مانند راه رفتن روی طناب و حرکات پیچیدهای بود که شامل پشتک، پرش با نیزه و پرتاب پیتزا، از جمله موارد دیگر بود. در مجموع، 1200 عبارت برای افزایش دشواری زیرمجموعه داده انتخاب شدند.
مجموعه داده VideoPhy-2: یک منبع ارزیابی جامع
مجموعه داده حاصل شامل 3940 زیرنویس بود – 5.72 برابر بیشتر از نسخه قبلی VideoPhy. میانگین طول زیرنویسهای اصلی 16 توکن است، در حالی که زیرنویسهای نمونهبرداری شده به 138 توکن میرسند – به ترتیب 1.88 برابر و 16.2 برابر طولانیتر.
این مجموعه داده همچنین دارای 102000 حاشیهنویسی انسانی است که پایبندی معنایی، عقل سلیم فیزیکی و نقض قوانین را در چندین مدل تولید ویدیو پوشش میدهد.
تعریف معیارهای ارزیابی و حاشیهنویسیهای انسانی
سپس محققان معیارهای روشنی را برای ارزیابی ویدیوها تعریف کردند. هدف اصلی این بود که ارزیابی شود هر ویدیو چقدر با عبارت ورودی خود مطابقت دارد و از اصول فیزیکی اولیه پیروی میکند.
به جای رتبهبندی ساده ویدیوها بر اساس اولویت، آنها از بازخورد مبتنی بر رتبهبندی برای ثبت موفقیتها و شکستهای خاص استفاده کردند. حاشیهنویسان انسانی به ویدیوها در مقیاس پنجنقطهای امتیاز دادند که امکان قضاوتهای دقیقتری را فراهم میکرد. این ارزیابی همچنین بررسی کرد که آیا ویدیوها از قوانین و قوانین فیزیکی مختلف پیروی میکنند یا خیر.
برای ارزیابی انسانی، گروهی متشکل از 12 حاشیهنویس از آزمایشهای Amazon Mechanical Turk (AMT) انتخاب شدند و پس از دریافت دستورالعملهای دقیق از راه دور، رتبهبندیها را ارائه کردند. برای انصاف، پایبندی معنایی و عقل سلیم فیزیکی به طور جداگانه ارزیابی شدند (در مطالعه اصلی VideoPhy، آنها به طور مشترک ارزیابی شدند).
حاشیهنویسان ابتدا میزان مطابقت ویدیوها با عبارتهای ورودی خود را رتبهبندی کردند، سپس به طور جداگانه معقولیت فیزیکی را ارزیابی کردند، نقض قوانین و واقعگرایی کلی را در مقیاس پنجنقطهای امتیاز دادند. فقط عبارتهای اصلی نشان داده شدند تا مقایسه منصفانهای بین مدلها حفظ شود.
ارزیابی خودکار: به سوی ارزیابی مدل مقیاسپذیر
اگرچه قضاوت انسانی همچنان استاندارد طلایی است، اما گران است و با چندین هشدار همراه است. بنابراین، ارزیابی خودکار برای ارزیابیهای مدل سریعتر و مقیاسپذیرتر ضروری است.
نویسندگان مقاله چندین مدل زبان-ویدیویی، از جمله Gemini-2.0-Flash-Exp و VideoScore را از نظر توانایی آنها در امتیازدهی به ویدیوها برای دقت معنایی و “عقل سلیم فیزیکی” آزمایش کردند.
مدلها دوباره به هر ویدیو در مقیاس پنجنقطهای امتیاز دادند. یک وظیفه طبقهبندی جداگانه تعیین کرد که آیا قوانین فیزیکی رعایت شدهاند، نقض شدهاند یا نامشخص هستند.
آزمایشها نشان داد که مدلهای زبان-ویدیویی موجود برای مطابقت با قضاوتهای انسانی تلاش میکنند، عمدتاً به دلیل استدلال فیزیکی ضعیف و پیچیدگی عبارتها. برای بهبود ارزیابی خودکار، محققان VideoPhy-2-Autoeval را توسعه دادند، یک مدل 7B-پارامتری که برای ارائه پیشبینیهای دقیقتر در سه دسته طراحی شده است: پایبندی معنایی؛ عقل سلیم فیزیکی؛ و رعایت قوانین. این مدل با استفاده از 50000 حاشیهنویسی انسانی* روی مدل VideoCon-Physics تنظیم دقیق شد.
آزمایش سیستمهای تولید ویدیو: یک تحلیل مقایسهای
با وجود این ابزارها، نویسندگان تعدادی از سیستمهای تولید ویدیو را هم از طریق نصبهای محلی و هم در صورت لزوم، از طریق APIهای تجاری آزمایش کردند: CogVideoX-5B؛ VideoCrafter2؛ HunyuanVideo-13B؛ Cosmos-Diffusion؛ Wan2.1-14B؛ OpenAI Sora؛ و Luma Ray.
در صورت امکان، مدلها با زیرنویسهای نمونهبرداری شده فراخوانی شدند، به جز اینکه Hunyuan Video و VideoCrafter2 تحت محدودیتهای 77-توکنی CLIP عمل میکنند و نمیتوانند عبارتهای بالاتر از طول معینی را بپذیرند.
ویدیوهای تولید شده کمتر از 6 ثانیه نگه داشته شدند، زیرا ارزیابی خروجی کوتاهتر آسانتر است.
دادههای محرک از مجموعه داده VideoPhy-2 بودند که به یک معیار و مجموعه آموزشی تقسیم شدند. 590 ویدیو برای هر مدل تولید شد، به جز Sora و Ray2. به دلیل عامل هزینه، تعداد کمتری از ویدیوها برای این موارد تولید شد.
ارزیابی اولیه با فعالیتهای فیزیکی/ورزشی (PA) و تعاملات شی (OI) سروکار داشت و هم مجموعه داده کلی و هم زیرمجموعه “سختتر” فوقالذکر را آزمایش کرد:
در اینجا نویسندگان اظهار نظر میکنند:
‘حتی بهترین مدل، Wan2.1-14B، به ترتیب فقط 32.6% و 21.9% را در تقسیمهای کامل و سخت مجموعه داده ما به دست میآورد. عملکرد نسبتاً قوی آن در مقایسه با سایر مدلها را میتوان به تنوع دادههای آموزشی چندوجهی آن، همراه با فیلتر حرکت قوی که ویدیوهای با کیفیت بالا را در طیف وسیعی از اقدامات حفظ میکند، نسبت داد.
‘علاوه بر این، ما مشاهده میکنیم که مدلهای بسته، مانند Ray2، بدتر از مدلهای باز مانند Wan2.1-14B و CogVideoX-5B عمل میکنند. این نشان میدهد که مدلهای بسته لزوماً در ثبت عقل سلیم فیزیکی برتر از مدلهای باز نیستند.
‘به طور قابل توجهی، Cosmos-Diffusion-7B دومین امتیاز برتر را در تقسیم سخت به دست میآورد، حتی از مدل بسیار بزرگتر HunyuanVideo-13B پیشی میگیرد. این ممکن است به دلیل نمایش بالای اقدامات انسانی در دادههای آموزشی آن، همراه با شبیهسازیهای رندر شده مصنوعی باشد.’
نتایج نشان داد که مدلهای ویدیویی با فعالیتهای فیزیکی مانند ورزش بیشتر از تعاملات شی سادهتر مشکل دارند. این نشان میدهد که بهبود ویدیوهای تولید شده توسط هوش مصنوعی در این زمینه به مجموعه دادههای بهتری نیاز دارد – به ویژه فیلمهای با کیفیت بالا از ورزشهایی مانند تنیس، دیسک، بیسبال و کریکت.
این مطالعه همچنین بررسی کرد که آیا معقولیت فیزیکی یک مدل با سایر معیارهای کیفیت ویدیو، مانند زیباییشناسی و روان بودن حرکت، همبستگی دارد یا خیر. یافتهها هیچ همبستگی قویای را نشان ندادند، به این معنی که یک مدل نمیتواند عملکرد خود را در VideoPhy-2 فقط با تولید حرکت بصری جذاب یا سیال بهبود بخشد – بلکه به درک عمیقتری از عقل سلیم فیزیکی نیاز دارد.
نمونههای کیفی: برجسته کردن چالشها
اگرچه این مقاله نمونههای کیفی فراوانی را ارائه میدهد، به نظر میرسد تعداد کمی از نمونههای استاتیک ارائه شده در PDF به نمونههای ویدیویی گستردهای که نویسندگان در سایت پروژه ارائه میدهند، مربوط میشوند. بنابراین، ما به تعداد کمی از نمونههای استاتیک و سپس برخی دیگر از ویدیوهای واقعی پروژه نگاه خواهیم کرد.
با توجه به آزمون کیفی بالا، نویسندگان اظهار نظر میکنند:
‘[ما] نقض عقل سلیم فیزیکی را مشاهده میکنیم، مانند جتاسکیهایی که به طور غیرطبیعی به عقب حرکت میکنند و تغییر شکل یک پتک جامد، که اصول الاستیسیته را نقض میکند. با این حال، حتی Wan نیز از فقدان عقل سلیم فیزیکی رنج میبرد، همانطور که در [کلیپ جاسازی شده در ابتدای این مقاله] نشان داده شده است.
‘در این مورد، ما برجسته میکنیم که یک سنگ شروع به غلتیدن و شتاب گرفتن به سمت بالا میکند، که قانون فیزیکی گرانش را نقض میکند.’
همانطور که در ابتدا ذکر شد، حجم مطالب مرتبط با این پروژه بسیار بیشتر از آن چیزی است که میتوان در اینجا پوشش داد. بنابراین، لطفاً برای یک طرح کلی واقعاً جامع از رویههای نویسندگان، و نمونههای آزمایشی و جزئیات رویهای بسیار بیشتر، به مقاله منبع، سایت پروژه و سایتهای مرتبط که قبلاً ذکر شد، مراجعه کنید.
* در مورد منشأ حاشیهنویسیها، مقاله فقط مشخص میکند «برای این وظایف به دست آمده است» – به نظر میرسد که تعداد زیادی توسط 12 کارگر AMT تولید شده باشد.