การเพิ่มขึ้นของแบบจำลองวิดีโอ Generative ของจีน
Hunyuan Video ของ Tencent ได้สร้างกระแสฮือฮาในชุมชน AI ของผู้ที่สนใจ Its open-source release ของแบบจำลองการแพร่กระจายวิดีโอแบบ full-world ช่วยให้ผู้ใช้สามารถปรับแต่งเทคโนโลยีตามความต้องการเฉพาะของตนได้
ตามมาติดๆ คือ Wan 2.1 ของ Alibaba ซึ่งเปิดตัวเมื่อไม่นานมานี้ แบบจำลองนี้โดดเด่นในฐานะหนึ่งในโซลูชัน Free and Open Source Software (FOSS) แบบรูปภาพเป็นวิดีโอที่ทรงพลังที่สุดในปัจจุบัน และขณะนี้รองรับการปรับแต่งผ่าน Wan LoRAs
นอกเหนือจากการพัฒนาเหล่านี้ เรายังคาดการณ์ถึงการเปิดตัวชุดสร้างและตัดต่อวิดีโอ VACE ที่ครอบคลุมของ Alibaba ควบคู่ไปกับการเปิดตัว SkyReels ซึ่งเป็นแบบจำลองพื้นฐานที่เน้นมนุษย์เป็นศูนย์กลาง
วงการวิจัย AI วิดีโอ Generative ก็มีการระเบิดเช่นกัน ยังเป็นช่วงต้นเดือนมีนาคม แต่การส่งผลงานในวันอังคารไปยังส่วน Computer Vision ของ Arxiv (ศูนย์กลางที่สำคัญสำหรับเอกสาร AI เชิงสร้างสรรค์) มีจำนวนเกือบ 350 รายการ ซึ่งเป็นจำนวนที่มักจะเห็นในช่วงสูงสุดของฤดูกาลการประชุม
สองปีนับตั้งแต่การเปิดตัว Stable Diffusion ในช่วงฤดูร้อนปี 2022 (และการพัฒนาวิธีการปรับแต่ง Dreambooth และ LoRA ในเวลาต่อมา) มีลักษณะที่ขาดความก้าวหน้าครั้งใหญ่ อย่างไรก็ตาม ในช่วงไม่กี่สัปดาห์ที่ผ่านมา มีการเปิดตัวและนวัตกรรมใหม่ๆ เกิดขึ้นอย่างรวดเร็ว จนแทบจะเป็นไปไม่ได้เลยที่จะรับทราบข้อมูลทั้งหมดอย่างครบถ้วน ไม่ต้องพูดถึงการครอบคลุมทุกอย่างอย่างละเอียด
การแก้ไขความสอดคล้องชั่วคราว แต่ความท้าทายใหม่ๆ เกิดขึ้น
แบบจำลองการแพร่กระจายวิดีโอ เช่น Hunyuan และ Wan 2.1 ได้แก้ไขปัญหาความสอดคล้องชั่วคราวในที่สุด หลังจากความพยายามที่ไม่ประสบความสำเร็จหลายปีจากโครงการวิจัยหลายร้อยโครงการ แบบจำลองเหล่านี้ได้แก้ไขความท้าทายที่เกี่ยวข้องกับการสร้างมนุษย์ สภาพแวดล้อม และวัตถุที่สอดคล้องกันเมื่อเวลาผ่านไป
ไม่ต้องสงสัยเลยว่าสตูดิโอ VFX กำลังทุ่มเทพนักงานและทรัพยากรเพื่อปรับใช้แบบจำลองวิดีโอใหม่ของจีนเหล่านี้ เป้าหมายเร่งด่วนของพวกเขาคือการจัดการกับความท้าทายที่เร่งด่วน เช่น การสลับใบหน้า แม้ว่าในปัจจุบันจะไม่มีกลไกเสริมแบบ ControlNet สำหรับระบบเหล่านี้
มันต้องเป็นการผ่อนคลายอย่างมากที่อุปสรรคสำคัญดังกล่าวอาจได้รับการเอาชนะ แม้ว่าจะไม่ได้ผ่านช่องทางที่คาดการณ์ไว้ก็ตาม
อย่างไรก็ตาม ในบรรดาปัญหาที่เหลืออยู่ ปัญหาหนึ่งมีความสำคัญอย่างยิ่ง:
ระบบข้อความเป็นวิดีโอและรูปภาพเป็นวิดีโอที่มีอยู่ในปัจจุบันทั้งหมด รวมถึงแบบจำลองโอเพนซอร์สเชิงพาณิชย์ มีแนวโน้มที่จะสร้างความผิดพลาดที่ท้าทายฟิสิกส์ ตัวอย่างข้างต้นแสดงให้เห็นหินกลิ้ง ขึ้นเนิน ซึ่งสร้างจากข้อความแจ้ง: ‘A small rock tumbles down a steep, rocky hillside, displacing soil and small stones’.
ทำไม AI Videos ถึงเข้าใจฟิสิกส์ผิด?
ทฤษฎีหนึ่งซึ่งเพิ่งเสนอในการทำงานร่วมกันทางวิชาการระหว่าง Alibaba และ UAE ชี้ให้เห็นว่าแบบจำลองอาจเรียนรู้ในลักษณะที่ขัดขวางความเข้าใจเกี่ยวกับลำดับเวลา แม้ว่าจะฝึกฝนกับวิดีโอ (ซึ่งแบ่งออกเป็นลำดับเฟรมเดียวสำหรับการฝึกฝน) แบบจำลองอาจไม่เข้าใจลำดับที่ถูกต้องของภาพ “ก่อน” และ “หลัง” โดยเนื้อแท้
อย่างไรก็ตาม คำอธิบายที่เป็นไปได้มากที่สุดคือแบบจำลองที่เป็นปัญหานั้นใช้รูทีนการเพิ่มข้อมูล รูทีนเหล่านี้เกี่ยวข้องกับการเปิดเผยแบบจำลองต่อคลิปการฝึกอบรมต้นฉบับทั้งไปข้างหน้า และ ย้อนกลับ ซึ่งเพิ่มข้อมูลการฝึกอบรมเป็นสองเท่าอย่างมีประสิทธิภาพ
เป็นที่ทราบกันมาระยะหนึ่งแล้วว่าไม่ควรทำเช่นนี้โดยไม่เลือกปฏิบัติ ในขณะที่การเคลื่อนไหวบางอย่างทำงานในทางกลับกัน แต่หลายอย่างไม่ได้ทำ การศึกษาในปี 2019 จาก University of Bristol ในสหราชอาณาจักรมีวัตถุประสงค์เพื่อพัฒนาวิธีการแยกแยะระหว่างคลิปวิดีโอข้อมูลต้นฉบับ equivariant, invariant และ irreversible ภายในชุดข้อมูลเดียว เป้าหมายคือการกรองคลิปที่ไม่เหมาะสมออกจากรูทีนการเพิ่มข้อมูล
ผู้เขียนงานนั้นได้ระบุปัญหาไว้อย่างชัดเจน:
‘เราพบว่าความสมจริงของวิดีโอที่ย้อนกลับถูกทรยศโดยสิ่งประดิษฐ์ย้อนกลับ ซึ่งเป็นลักษณะของฉากที่จะไม่สามารถเกิดขึ้นได้ในโลกธรรมชาติ สิ่งประดิษฐ์บางอย่างมีความละเอียดอ่อน ในขณะที่บางอย่างสังเกตได้ง่าย เช่น การกระทำ ‘โยน’ ที่ย้อนกลับ ซึ่งวัตถุที่ถูกโยนจะลอยขึ้นจากพื้นโดยธรรมชาติ
‘เราสังเกตเห็นสิ่งประดิษฐ์ย้อนกลับสองประเภท คือ ทางกายภาพ ซึ่งแสดงการละเมิดกฎของธรรมชาติ และ ไม่น่าเป็นไปได้ ซึ่งแสดงถึงสถานการณ์ที่เป็นไปได้แต่ไม่น่าเป็นไปได้ สิ่งเหล่านี้ไม่ได้จำกัดเฉพาะ และการกระทำที่ย้อนกลับจำนวนมากประสบกับสิ่งประดิษฐ์ทั้งสองประเภท เช่น เมื่อคลี่กระดาษ
‘ตัวอย่างของสิ่งประดิษฐ์ทางกายภาพ ได้แก่ แรงโน้มถ่วงกลับด้าน (เช่น ‘การทำบางสิ่งหล่น’) แรงกระตุ้นที่เกิดขึ้นเองบนวัตถุ (เช่น ‘การหมุนปากกา’) และการเปลี่ยนแปลงสถานะที่ไม่สามารถย้อนกลับได้ (เช่น ‘การเผาเทียน’) ตัวอย่างของสิ่งประดิษฐ์ที่ไม่น่าเป็นไปได้: การนำจานออกจากตู้ เช็ดให้แห้ง และวางบนที่คว่ำจาน
‘การนำข้อมูลกลับมาใช้ใหม่ประเภทนี้เป็นเรื่องปกติมากในเวลาฝึกอบรม และอาจเป็นประโยชน์ ตัวอย่างเช่น ในการทำให้แน่ใจว่าแบบจำลองไม่ได้เรียนรู้เพียงมุมมองเดียวของรูปภาพหรือวัตถุที่สามารถพลิกหรือหมุนได้โดยไม่สูญเสียความเชื่อมโยงและตรรกะหลัก
‘สิ่งนี้ใช้ได้กับวัตถุที่มีความสมมาตรอย่างแท้จริงเท่านั้น และการเรียนรู้ฟิสิกส์จากวิดีโอ ‘ย้อนกลับ’ จะใช้ได้ก็ต่อเมื่อเวอร์ชันย้อนกลับมีความสมเหตุสมผลพอๆ กับเวอร์ชันไปข้างหน้า’
เราไม่มีหลักฐานที่เป็นรูปธรรมว่าระบบอย่าง Hunyuan Video และ Wan 2.1 อนุญาตให้มีคลิป “ย้อนกลับ” โดยพลการในระหว่างการฝึกอบรม (กลุ่มวิจัยทั้งสองไม่ได้ระบุเกี่ยวกับรูทีนการเพิ่มข้อมูลของพวกเขา)
อย่างไรก็ตาม เมื่อพิจารณาจากรายงานจำนวนมาก (และประสบการณ์จริงของฉันเอง) คำอธิบายที่สมเหตุสมผลเพียงอย่างเดียวคือชุดข้อมูลขนาดใหญ่ที่ขับเคลื่อนแบบจำลองเหล่านี้อาจมีคลิปที่มีการเคลื่อนไหวที่เกิดขึ้นย้อนกลับอย่างแท้จริง
หินในวิดีโอตัวอย่างที่ฝังไว้ก่อนหน้านี้สร้างขึ้นโดยใช้Wan 2.1 มันถูกนำเสนอในการศึกษาใหม่ที่ตรวจสอบว่าแบบจำลองการแพร่กระจายวิดีโอจัดการกับฟิสิกส์ได้ดีเพียงใด
ในการทดสอบสำหรับโครงการนี้ Wan 2.1 ได้คะแนนเพียง 22% ในความสามารถในการปฏิบัติตามกฎทางกายภาพอย่างสม่ำเสมอ
น่าแปลกใจที่นั่นคือคะแนน ดีที่สุด ในบรรดาระบบทั้งหมดที่ทดสอบ ซึ่งบ่งชี้ว่าเราอาจระบุอุปสรรคสำคัญต่อไปสำหรับ AI วิดีโอ:
ขอแนะนำ VideoPhy-2: เกณฑ์มาตรฐานใหม่สำหรับสามัญสำนึกทางกายภาพ
ผู้เขียนงานใหม่ได้พัฒนาระบบเกณฑ์มาตรฐาน ซึ่งขณะนี้อยู่ในรุ่นที่สอง เรียกว่า VideoPhy โค้ดมีอยู่ใน GitHub
แม้ว่าขอบเขตของงานจะกว้างเกินกว่าจะครอบคลุมอย่างครอบคลุมที่นี่ แต่ให้เราตรวจสอบวิธีการและศักยภาพในการสร้างเมตริกที่สามารถนำทางการฝึกอบรมแบบจำลองในอนาคตให้ห่างไกลจากกรณีการย้อนกลับที่แปลกประหลาดเหล่านี้
การศึกษานี้ดำเนินการโดยนักวิจัยหกคนจาก UCLA และ Google Research มีชื่อว่า VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation นอกจากนี้ยังมีไซต์โครงการประกอบที่ครอบคลุม พร้อมด้วยโค้ดและชุดข้อมูลบน GitHub และโปรแกรมดูชุดข้อมูลบน Hugging Face
ผู้เขียนอธิบายเวอร์ชันล่าสุด VideoPhy-2 ว่าเป็น “ชุดข้อมูลการประเมินสามัญสำนึกที่ท้าทายสำหรับการกระทำในโลกแห่งความเป็นจริง” คอลเลกชันนี้มีการกระทำ 197 รายการในกิจกรรมทางกายภาพที่หลากหลาย รวมถึง ฮูลาฮูป, ยิมนาสติก และ เทนนิส ตลอดจนการโต้ตอบกับวัตถุ เช่น การดัดวัตถุจนกว่าจะแตก
แบบจำลองภาษาขนาดใหญ่ (LLM) ใช้เพื่อสร้างข้อความแจ้ง 3840 รายการจากการกระทำเริ่มต้นเหล่านี้ จากนั้นข้อความแจ้งเหล่านี้จะถูกใช้เพื่อสังเคราะห์วิดีโอโดยใช้เฟรมเวิร์กต่างๆ ที่กำลังทดสอบ
ตลอดกระบวนการ ผู้เขียนได้รวบรวมรายการกฎและกฎหมายทางกายภาพ “ผู้สมัคร” ที่วิดีโอที่สร้างโดย AI ควรปฏิบัติตาม โดยใช้แบบจำลองภาษาการมองเห็นสำหรับการประเมิน
ผู้เขียนระบุว่า:
‘ตัวอย่างเช่น ในวิดีโอของนักกีฬาที่เล่นเทนนิส กฎทางกายภาพคือลูกเทนนิสควรเป็นไปตามวิถีโค้งพาราโบลาภายใต้แรงโน้มถ่วง สำหรับการตัดสินตามมาตรฐานทองคำ เราขอให้ผู้ใส่คำอธิบายประกอบที่เป็นมนุษย์ให้คะแนนวิดีโอแต่ละรายการตามการยึดมั่นทางความหมายโดยรวมและสามัญสำนึกทางกายภาพ และทำเครื่องหมายการปฏิบัติตามกฎทางกายภาพต่างๆ’
การดูแลจัดการการกระทำและการสร้างข้อความแจ้ง
ในขั้นต้น นักวิจัยได้ดูแลชุดของการกระทำเพื่อประเมินสามัญสำนึกทางกายภาพในวิดีโอที่สร้างโดย AI พวกเขาเริ่มต้นด้วยการกระทำมากกว่า 600 รายการที่มาจากชุดข้อมูล Kinetics, UCF-101 และ SSv2 โดยเน้นที่กิจกรรมที่เกี่ยวข้องกับกีฬา การโต้ตอบกับวัตถุ และฟิสิกส์ในโลกแห่งความเป็นจริง
กลุ่มผู้ใส่คำอธิบายประกอบที่เป็นนักศึกษาที่ได้รับการฝึกอบรม STEM สองกลุ่ม (มีคุณสมบัติระดับปริญญาตรีขั้นต่ำ) ได้ตรวจสอบและกรองรายการ พวกเขาเลือกการกระทำที่ทดสอบหลักการต่างๆ เช่น แรงโน้มถ่วง, โมเมนตัม และ ความยืดหยุ่น ในขณะที่ลบงานที่มีการเคลื่อนไหวต่ำ เช่น การพิมพ์, การลูบแมว หรือ การเคี้ยว
หลังจากการปรับแต่งเพิ่มเติมด้วย Gemini-2.0-Flash-Exp เพื่อกำจัดรายการที่ซ้ำกัน ชุดข้อมูลสุดท้ายประกอบด้วยการกระทำ 197 รายการ 54 รายการเกี่ยวข้องกับการโต้ตอบกับวัตถุ และ 143 รายการเน้นที่กิจกรรมทางกายภาพและกีฬา:
ในขั้นตอนที่สอง นักวิจัยใช้ Gemini-2.0-Flash-Exp เพื่อสร้างข้อความแจ้ง 20 รายการสำหรับการกระทำแต่ละรายการในชุดข้อมูล ส่งผลให้มีข้อความแจ้งทั้งหมด 3,940 รายการ กระบวนการสร้างเน้นที่การโต้ตอบทางกายภาพที่มองเห็นได้ซึ่งสามารถแสดงได้อย่างชัดเจนในวิดีโอที่สร้างขึ้น ซึ่งไม่รวมองค์ประกอบที่ไม่ใช่ภาพ เช่น อารมณ์, รายละเอียดทางประสาทสัมผัส และ ภาษานามธรรม แต่รวมเอาตัวละครและวัตถุที่หลากหลาย
ตัวอย่างเช่น แทนที่จะใช้ข้อความแจ้งง่ายๆ เช่น ‘An archer releases the arrow’ แบบจำลองได้รับการแนะนำให้สร้างเวอร์ชันที่มีรายละเอียดมากขึ้น เช่น ‘An archer draws the bowstring back to full tension, then releases the arrow, which flies straight and strikes a bullseye on a paper target’.
เนื่องจากแบบจำลองวิดีโอสมัยใหม่สามารถตีความคำอธิบายที่ยาวขึ้นได้ นักวิจัยจึงปรับแต่งคำบรรยายเพิ่มเติมโดยใช้ตัวอัปแซมเพลอร์ข้อความแจ้ง Mistral-NeMo-12B-Instruct ซึ่งเพิ่มรายละเอียดภาพโดยไม่เปลี่ยนแปลงความหมายดั้งเดิม
การได้รับกฎทางกายภาพและการระบุการกระทำที่ท้าทาย
สำหรับขั้นตอนที่สาม กฎทางกายภาพได้มาจากวิดีโอที่สร้างขึ้น ไม่ใช่จากข้อความแจ้งที่เป็นข้อความ ทั้งนี้เนื่องจากแบบจำลองเชิงสร้างสรรค์อาจประสบปัญหาในการปฏิบัติตามข้อความแจ้งที่เป็นข้อความที่มีเงื่อนไข
วิดีโอถูกสร้างขึ้นครั้งแรกโดยใช้ข้อความแจ้ง VideoPhy-2 จากนั้น “เพิ่มคำบรรยาย” ด้วย Gemini-2.0-Flash-Exp เพื่อแยกรายละเอียดที่สำคัญ แบบจำลองเสนอสามกฎทางกายภาพที่คาดหวังต่อวิดีโอ ผู้ใส่คำอธิบายประกอบที่เป็นมนุษย์ตรวจสอบและขยายสิ่งเหล่านี้โดยระบุการละเมิดที่อาจเกิดขึ้นเพิ่มเติม
ต่อไป เพื่อระบุการกระทำที่ท้าทายที่สุด นักวิจัยได้สร้างวิดีโอโดยใช้ CogVideoX-5B พร้อมข้อความแจ้งจากชุดข้อมูล VideoPhy-2 จากนั้นพวกเขาเลือก 60 จาก 197 การกระทำที่แบบจำลองล้มเหลวอย่างต่อเนื่องในการปฏิบัติตามทั้งข้อความแจ้งและสามัญสำนึกทางกายภาพขั้นพื้นฐาน
การกระทำเหล่านี้เกี่ยวข้องกับการโต้ตอบที่อุดมด้วยฟิสิกส์ เช่น การถ่ายโอนโมเมนตัมในการขว้างจักร การเปลี่ยนแปลงสถานะ เช่น การดัดวัตถุจนกว่าจะแตก งานสร้างสมดุล เช่น การเดินไต่เชือก และการเคลื่อนไหวที่ซับซ้อนซึ่งรวมถึงการตีลังกากลับหลัง การกระโดดค้ำถ่อ และการโยนพิซซ่า และอื่นๆ อีกมากมาย โดยรวมแล้ว มีการเลือกข้อความแจ้ง 1,200 รายการเพื่อเพิ่มความยากของชุดข้อมูลย่อย
ชุดข้อมูล VideoPhy-2: แหล่งข้อมูลการประเมินที่ครอบคลุม
ชุดข้อมูลที่ได้ประกอบด้วยคำบรรยาย 3,940 รายการ ซึ่งมากกว่าเวอร์ชันก่อนหน้าของ VideoPhy 5.72 เท่า ความยาวเฉลี่ยของคำบรรยายต้นฉบับคือ 16 โทเค็น ในขณะที่คำบรรยายที่อัปแซมเพิลมีความยาว 138 โทเค็น ซึ่งยาวกว่า 1.88 เท่า และ 16.2 เท่า ตามลำดับ
ชุดข้อมูลยังมีคำอธิบายประกอบของมนุษย์ 102,000 รายการที่ครอบคลุมการยึดมั่นทางความหมาย สามัญสำนึกทางกายภาพ และการละเมิดกฎในแบบจำลองการสร้างวิดีโอหลายแบบ
การกำหนดเกณฑ์การประเมินและคำอธิบายประกอบของมนุษย์
จากนั้นนักวิจัยได้กำหนดเกณฑ์ที่ชัดเจนสำหรับการประเมินวิดีโอ เป้าหมายหลักคือการประเมินว่าวิดีโอแต่ละรายการตรงกับข้อความแจ้งอินพุตและเป็นไปตามหลักการทางกายภาพขั้นพื้นฐานอย่างไร
แทนที่จะจัดอันดับวิดีโอตามความชอบ พวกเขาใช้ความคิดเห็นตามการให้คะแนนเพื่อจับความสำเร็จและความล้มเหลวที่เฉพาะเจาะจง ผู้ใส่คำอธิบายประกอบที่เป็นมนุษย์ให้คะแนนวิดีโอในระดับห้าจุด ทำให้สามารถตัดสินได้อย่างละเอียดมากขึ้น การประเมินยังตรวจสอบว่าวิดีโอเป็นไปตามกฎและกฎหมายทางกายภาพต่างๆ หรือไม่
สำหรับการประเมินโดยมนุษย์ กลุ่มผู้ใส่คำอธิบายประกอบ 12 คนได้รับเลือกจากการทดลองใช้บน Amazon Mechanical Turk (AMT) และให้คะแนนหลังจากได้รับคำแนะนำระยะไกลโดยละเอียด เพื่อความเป็นธรรม การยึดมั่นทางความหมาย และ สามัญสำนึกทางกายภาพ ได้รับการประเมินแยกกัน (ในการศึกษา VideoPhy ดั้งเดิม พวกเขาได้รับการประเมินร่วมกัน)
ผู้ใส่คำอธิบายประกอบให้คะแนนว่าวิดีโอตรงกับข้อความแจ้งอินพุตได้ดีเพียงใด จากนั้นจึงประเมินความสมเหตุสมผลทางกายภาพแยกกัน โดยให้คะแนนการละเมิดกฎและความสมจริงโดยรวมในระดับห้าจุด เฉพาะข้อความแจ้งต้นฉบับเท่านั้นที่แสดง เพื่อรักษาการเปรียบเทียบที่ยุติธรรมในแบบจำลองต่างๆ
การประเมินอัตโนมัติ: สู่การประเมินแบบจำลองที่ปรับขนาดได้
แม้ว่าการตัดสินของมนุษย์ยังคงเป็นมาตรฐานทองคำ แต่ก็มีราคาแพงและมาพร้อมกับข้อแม้หลายประการ ดังนั้น การประเมินอัตโนมัติจึงจำเป็นสำหรับการประเมินแบบจำลองที่รวดเร็วและปรับขนาดได้มากขึ้น
ผู้เขียนเอกสารได้ทดสอบแบบจำลองภาษา-วิดีโอหลายแบบ รวมถึง Gemini-2.0-Flash-Exp และ VideoScore เกี่ยวกับความสามารถในการให้คะแนนวิดีโอสำหรับความถูกต้องทางความหมายและสำหรับ “สามัญสำนึกทางกายภาพ”
แบบจำลองให้คะแนนวิดีโอแต่ละรายการอีกครั้งในระดับห้าจุด งานการจำแนกประเภทแยกต่างหากกำหนดว่ากฎทางกายภาพได้รับการปฏิบัติตาม ละเมิด หรือไม่ชัดเจน
การทดลองแสดงให้เห็นว่าแบบจำลองภาษา-วิดีโอที่มีอยู่ประสบปัญหาในการจับคู่การตัดสินของมนุษย์ สาเหตุหลักมาจากเหตุผลทางกายภาพที่อ่อนแอและความซับซ้อนของข้อความแจ้ง เพื่อปรับปรุงการประเมินอัตโนมัติ นักวิจัยได้พัฒนา VideoPhy-2-Autoeval ซึ่งเป็นแบบจำลองพารามิเตอร์ 7B ที่ออกแบบมาเพื่อให้การคาดการณ์ที่แม่นยำยิ่งขึ้นในสามหมวดหมู่: การยึดมั่นทางความหมาย; สามัญสำนึกทางกายภาพ; และ การปฏิบัติตามกฎ มันได้รับการปรับแต่งอย่างละเอียดบนแบบจำลอง VideoCon-Physics โดยใช้คำอธิบายประกอบของมนุษย์ 50,000 รายการ*
การทดสอบระบบวิดีโอ Generative: การวิเคราะห์เปรียบเทียบ
ด้วยเครื่องมือเหล่านี้ ผู้เขียนได้ทดสอบระบบวิดีโอ Generative จำนวนหนึ่ง ทั้งผ่านการติดตั้งในเครื่อง และหากจำเป็น ผ่าน API เชิงพาณิชย์: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; และ Luma Ray
แบบจำลองได้รับการแจ้งด้วยคำบรรยายที่อัปแซมเพิลหากเป็นไปได้ ยกเว้น Hunyuan Video และ VideoCrafter2 ที่ทำงานภายใต้ข้อจำกัด 77 โทเค็น CLIP และไม่สามารถยอมรับข้อความแจ้งที่เกินความยาวที่กำหนด
วิดีโอที่สร้างขึ้นถูกเก็บไว้ให้น้อยกว่า 6 วินาที เนื่องจากการส่งออกที่สั้นกว่านั้นง่ายต่อการประเมิน
ข้อมูลขับเคลื่อนมาจากชุดข้อมูล VideoPhy-2 ซึ่งแบ่งออกเป็นชุดเกณฑ์มาตรฐานและชุดฝึกอบรม มีการสร้างวิดีโอ 590 รายการต่อแบบจำลอง ยกเว้น Sora และ Ray2 เนื่องจากปัจจัยด้านต้นทุน จึงมีการสร้างวิดีโอจำนวนน้อยกว่าที่เทียบเท่ากันสำหรับวิดีโอเหล่านี้
การประเมินเบื้องต้นเกี่ยวข้องกับ กิจกรรมทางกายภาพ/กีฬา (PA) และ การโต้ตอบกับวัตถุ (OI) และทดสอบทั้งชุดข้อมูลทั่วไปและชุดข้อมูลย่อย “ยากกว่า” ที่กล่าวถึงข้างต้น:
ที่นี่ผู้เขียนแสดงความคิดเห็น:
‘แม้แต่แบบจำลองที่มีประสิทธิภาพดีที่สุด Wan2.1-14B ก็ทำได้เพียง 32.6% และ 21.9% ในการแบ่งส่วนแบบเต็มและแบบยากของชุดข้อมูลของเราตามลำดับ ประสิทธิภาพที่ค่อนข้างแข็งแกร่งเมื่อเทียบกับแบบจำลองอื่นๆ อาจเนื่องมาจากความหลากหลายของข้อมูลการฝึกอบรมแบบหลายรูปแบบ พร้อมกับการกรองการเคลื่อนไหวที่แข็งแกร่งซึ่งรักษาคุณภาพวิดีโอคุณภาพสูงในหลากหลายการกระทำ
‘นอกจากนี้ เราสังเกตเห็นว่าแบบจำลองแบบปิด เช่น Ray2 ทำงานได้แย่กว่าแบบจำลองแบบเปิด เช่น Wan2.1-14B และ CogVideoX-5B สิ่งนี้ชี้ให้เห็นว่าแบบจำลองแบบปิดไม่จำเป็นต้องเหนือกว่าแบบจำลองแบบเปิดในการจับสามัญสำนึกทางกายภาพ
‘โดยเฉพาะอย่างยิ่ง Cosmos-Diffusion-7B ได้คะแนนดีที่สุดเป็นอันดับสองในการแบ่งส่วนแบบยาก แม้จะเหนือกว่าแบบจำลอง HunyuanVideo-13B ที่มีขนาดใหญ่กว่ามากก็ตาม นี่อาจเป็นเพราะการแสดงการกระทำของมนุษย์ในข้อมูลการฝึกอบรมในระดับสูง พร้อมกับการจำลองที่แสดงผลแบบสังเคราะห์’
ผลลัพธ์แสดงให้เห็นว่าแบบจำลองวิดีโอประสบปัญหาเกี่ยวกับกิจกรรมทางกายภาพ เช่น กีฬา มากกว่าการโต้ตอบกับวัตถุที่เรียบง่าย สิ่งนี้ชี้ให้เห็นว่าการปรับปรุงวิดีโอที่สร้างโดย AI ในด้านนี้จะต้องใช้ชุดข้อมูลที่ดีกว่า โดยเฉพาะอย่างยิ่งภาพที่มีคุณภาพสูงของกีฬา เช่น เทนนิส ขว้างจักร เบสบอล และคริกเก็ต
การศึกษายังตรวจสอบว่าความสมเหตุสมผลทางกายภาพของแบบจำลองมีความสัมพันธ์กับเมตริกคุณภาพวิดีโออื่นๆ หรือไม่ เช่น สุนทรียภาพและความราบรื่นของการเคลื่อนไหว ผลการวิจัยพบว่าไม่มีความสัมพันธ์ที่แข็งแกร่ง ซึ่งหมายความว่าแบบจำลองไม่สามารถปรับปรุงประสิทธิภาพใน VideoPhy-2 ได้เพียงแค่สร้างภาพที่สวยงามหรือการเคลื่อนไหวที่ลื่นไหล แต่ต้องมีความเข้าใจที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับสามัญสำนึกทางกายภาพ
ตัวอย่างเชิงคุณภาพ: เน้นย้ำถึงความท้าทาย
แม้ว่าเอกสารจะให้ตัวอย่างเชิงคุณภาพมากมาย แต่ตัวอย่างคงที่เพียงไม่กี่ตัวอย่างที่ให้ไว้ใน PDF ดูเหมือนจะเกี่ยวข้องกับตัวอย่างวิดีโอจำนวนมากที่ผู้เขียนจัดเตรียมไว้ที่ไซต์โครงการ ดังนั้น เราจะดูตัวอย่างคงที่จำนวนเล็กน้อย จากนั้นจึงดูวิดีโอโครงการจริงเพิ่มเติม
เกี่ยวกับแบบทดสอบเชิงคุณภาพข้างต้น ผู้เขียนแสดงความคิดเห็น:
‘[เรา] สังเกตเห็นการละเมิดสามัญสำนึกทางกายภาพ เช่น เจ็ตสกีเคลื่อนที่ย้อนกลับอย่างผิดธรรมชาติ และการเสียรูปของค้อนขนาดใหญ่ที่เป็นของแข็ง ซึ่งท้าทายหลักการของความยืดหยุ่น อย่างไรก็ตาม แม้แต่ Wan ก็ประสบปัญหาการขาดสามัญสำนึกทางกายภาพ ดังที่แสดงใน [คลิปที่ฝังไว้ตอนต้นของบทความนี้]
‘ในกรณีนี้ เราเน้นว่าหินเริ่มกลิ้งและเร่งความเร็วขึ้นเนิน ซึ่งท้าทายกฎทางกายภาพของแรงโน้มถ่วง’
ดังที่กล่าวไว้ในตอนต้น ปริมาณของเนื้อหาที่เกี่ยวข้องกับโครงการนี้เกินกว่าที่จะครอบคลุมได้ที่นี่ ดังนั้น โปรดดูเอกสารต้นฉบับ ไซต์โครงการ และไซต์ที่เกี่ยวข้องที่กล่าวถึงก่อนหน้านี้สำหรับโครงร่างขั้นตอนของผู้เขียนที่ละเอียดถี่ถ้วน และตัวอย่างการทดสอบและรายละเอียดขั้นตอนเพิ่มเติม
* สำหรับที่มาของคำอธิบายประกอบ เอกสารระบุเพียง ‘ได้มาสำหรับงานเหล่านี้’ ดูเหมือนว่าจะมีจำนวนมากที่สร้างขึ้นโดยคนงาน AMT 12 คน
เผยแพร่ครั้งแรกวันพฤหัสบดีที่ 13 มีนาคม 2025