Mengapa Video AI Kadang Terbalik

Jika tahun 2022 menandakan tahun AI generatif benar-benar menarik imaginasi orang ramai, 2025 dijangka menjadi tahun apabila gelombang baharu rangka kerja video generatif dari China menjadi tumpuan utama.

Kebangkitan Model Video Generatif Cina

Hunyuan Video Tencent telah pun mencipta gelombang yang ketara dalam komuniti AI penggemar. Keluaran sumber terbukanya bagi model resapan video dunia penuh membolehkan pengguna menyesuaikan teknologi tersebut dengan keperluan khusus mereka.

Menyusul rapat di belakang ialah Wan 2.1 Alibaba, yang dikeluarkan baru-baru ini. Model ini menyerlah sebagai salah satu penyelesaian Perisian Bebas dan Sumber Terbuka (FOSS) imej-ke-video yang paling berkuasa yang tersedia pada masa ini, dan ia kini menyokong penyesuaian melalui Wan LoRAs.

Selain perkembangan ini, kami juga menjangkakan keluaran suite penciptaan dan penyuntingan video VACE Alibaba yang komprehensif, di samping ketersediaan model asas berpusatkan manusia baru-baru ini, SkyReels.

Senario penyelidikan AI video generatif juga sama meletup. Ia masih awal Mac, namun penyerahan hari Selasa ke bahagian Visi Komputer Arxiv (hab utama untuk kertas kerja AI generatif) berjumlah hampir 350 penyertaan – jumlah yang biasanya dilihat semasa kemuncak musim persidangan.

Dua tahun sejak pelancaran Stable Diffusion pada musim panas 2022 (dan pembangunan kaedah penyesuaian Dreambooth dan LoRA seterusnya) dicirikan oleh kekurangan kejayaan besar yang relatif. Walau bagaimanapun, beberapa minggu kebelakangan ini telah menyaksikan lonjakan keluaran dan inovasi baharu, tiba pada kadar yang begitu pantas sehingga hampir mustahil untuk kekal termaklum sepenuhnya, apatah lagi meliputi segala-galanya secara menyeluruh.

Menyelesaikan Ketekalan Temporal, Tetapi Cabaran Baharu Muncul

Model resapan video seperti Hunyuan dan Wan 2.1, akhirnya, telah menangani isu ketekalan temporal. Selepas bertahun-tahun percubaan yang tidak berjaya daripada ratusan inisiatif penyelidikan, model ini sebahagian besarnya telah menyelesaikan cabaran yang berkaitan dengan menjana manusia, persekitaran dan objek yang konsisten dari semasa ke semasa.

Tidak syak lagi bahawa studio VFX secara aktif mendedikasikan kakitangan dan sumber untuk menyesuaikan model video Cina baharu ini. Matlamat segera mereka adalah untuk menangani cabaran mendesak seperti pertukaran muka, walaupun ketiadaan mekanisme sampingan gaya ControlNet untuk sistem ini pada masa ini.

Ia pasti melegakan bahawa halangan yang begitu ketara berpotensi diatasi, walaupun ia bukan melalui saluran yang dijangkakan.

Walau bagaimanapun, antara masalah yang tinggal, satu masalah menonjol sebagai sangat penting:

Semua sistem teks-ke-video dan imej-ke-video yang tersedia pada masa ini, termasuk model sumber tertutup komersial, mempunyai kecenderungan untuk menghasilkan kesilapan yang mencabar fizik. Contoh di atas menunjukkan batu bergolek ke atas, yang dijana daripada gesaan: ‘Batu kecil jatuh ke bawah lereng bukit yang curam dan berbatu, menggantikan tanah dan batu-batu kecil’.

Mengapa Video AI Mendapat Fizik Salah?

Satu teori, yang baru-baru ini dicadangkan dalam kerjasama akademik antara Alibaba dan UAE, mencadangkan bahawa model mungkin belajar dengan cara yang menghalang pemahaman mereka tentang susunan temporal. Walaupun semasa latihan pada video (yang dipecahkan kepada urutan bingkai tunggal untuk latihan), model mungkin tidak secara semula jadi memahami urutan yang betul bagi imej “sebelum” dan “selepas”.

Walau bagaimanapun, penjelasan yang paling munasabah ialah model yang dipersoalkan telah menggunakan rutin penambahan data. Rutin ini melibatkan pendedahan model kepada klip latihan sumber ke hadapan dan ke belakang, dengan berkesan menggandakan data latihan.

Telah diketahui sejak sekian lama bahawa ini tidak boleh dilakukan secara sembarangan. Walaupun sesetengah pergerakan berfungsi secara terbalik, banyak yang tidak. Satu kajian 2019 dari University of Bristol UK bertujuan untuk membangunkan kaedah untuk membezakan antara klip video data sumber ekuivarian, tak varian, dan tak boleh balik dalam set data tunggal. Matlamatnya adalah untuk menapis klip yang tidak sesuai daripada rutin penambahan data.

Pengarang karya itu dengan jelas menyatakan masalahnya:

‘Kami mendapati realisme video terbalik dikhianati oleh artifak pembalikan, aspek pemandangan yang tidak mungkin berlaku dalam dunia semula jadi. Sesetengah artifak adalah halus, manakala yang lain mudah dikesan, seperti aksi ‘baling’ terbalik di mana objek yang dibaling secara spontan naik dari lantai.

‘Kami memerhatikan dua jenis artifak pembalikan, fizikal, yang mempamerkan pelanggaran undang-undang alam semula jadi, dan tidak mungkin, yang menggambarkan senario yang mungkin tetapi tidak mungkin. Ini tidak eksklusif, dan banyak tindakan terbalik mengalami kedua-dua jenis artifak, seperti apabila merenyuk sekeping kertas.

‘Contoh artifak fizikal termasuk: graviti terbalik (cth. ‘menjatuhkan sesuatu’), impuls spontan pada objek (cth. ‘memutar pen’), dan perubahan keadaan yang tidak boleh balik (cth. ‘membakar lilin’). Contoh artifak yang tidak mungkin: mengambil pinggan dari almari, mengeringkannya, dan meletakkannya di atas rak pengering.

‘Penggunaan semula data seperti ini sangat biasa pada masa latihan, dan boleh memberi manfaat – contohnya, dalam memastikan bahawa model tidak mempelajari hanya satu pandangan imej atau objek yang boleh dibalik atau diputar tanpa kehilangan koheren dan logik pusatnya.

‘Ini hanya berfungsi untuk objek yang benar-benar simetri, sudah tentu; dan mempelajari fizik daripada video ‘terbalik’ hanya berfungsi jika versi terbalik itu sama masuk akal dengan versi hadapan.’

Kami tidak mempunyai bukti konkrit bahawa sistem seperti Hunyuan Video dan Wan 2.1 membenarkan klip “terbalik” sewenang-wenangnya semasa latihan (kedua-dua kumpulan penyelidikan tidak menyatakan secara khusus tentang rutin penambahan data mereka).

Walau bagaimanapun, memandangkan banyak laporan (dan pengalaman praktikal saya sendiri), satu-satunya penjelasan munasabah yang lain ialah set data hiperskala yang memperkasakan model ini mungkin mengandungi klip yang benar-benar menampilkan pergerakan yang berlaku secara terbalik.

Batu dalam contoh video yang dibenamkan sebelum ini dijana menggunakan Wan 2.1. Ia dipaparkan dalam kajian baharu yang menyiasat sejauh mana model resapan video mengendalikan fizik.

Dalam ujian untuk projek ini, Wan 2.1 mencapai skor hanya 22% dalam keupayaannya untuk mematuhi undang-undang fizik secara konsisten.

Anehnya, itu adalah skor terbaik antara semua sistem yang diuji, menunjukkan bahawa kita mungkin telah mengenal pasti halangan utama seterusnya untuk AI video:

Memperkenalkan VideoPhy-2: Penanda Aras Baharu untuk Akal Budi Fizikal

Pengarang karya baharu itu telah membangunkan sistem penanda aras, kini dalam lelaran keduanya, yang dipanggil VideoPhy. Kod ini tersedia di GitHub.

Walaupun skop kerja terlalu luas untuk diliputi secara menyeluruh di sini, mari kita periksa metodologinya dan potensinya untuk mewujudkan metrik yang boleh membimbing sesi latihan model masa depan daripada kejadian pembalikan yang aneh ini.

Kajian itu, yang dijalankan oleh enam penyelidik dari UCLA dan Google Research, bertajuk VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Tapak projek yang disertakan secara menyeluruh juga tersedia, bersama-sama dengan kod dan set data di GitHub, dan pemapar set data di Hugging Face.

Pengarang menerangkan versi terkini, VideoPhy-2, sebagai “set data penilaian akal budi yang mencabar untuk tindakan dunia sebenar.” Koleksi ini menampilkan 197 tindakan merentasi pelbagai aktiviti fizikal yang pelbagai, termasuk gelung hula, gimnastik, dan tenis, serta interaksi objek seperti membengkokkan objek sehingga patah.

Model bahasa besar (LLM) digunakan untuk menjana 3840 gesaan daripada tindakan benih ini. Gesaan ini kemudiannya digunakan untuk mensintesis video menggunakan pelbagai rangka kerja yang sedang diuji.

Sepanjang proses itu, pengarang telah menyusun senarai peraturan dan undang-undang fizikal “calon” yang perlu dipatuhi oleh video yang dijana AI, menggunakan model bahasa-visi untuk penilaian.

Pengarang menyatakan:

‘Sebagai contoh, dalam video ahli sukan bermain tenis, peraturan fizikal ialah bola tenis harus mengikut trajektori parabola di bawah graviti. Untuk pertimbangan standard emas, kami meminta penganotasi manusia untuk menjaringkan setiap video berdasarkan pematuhan semantik keseluruhan dan akal budi fizikal, dan untuk menandakan pematuhannya dengan pelbagai peraturan fizikal.’

Menyusun Tindakan dan Menjana Gesaan

Pada mulanya, para penyelidik menyusun satu set tindakan untuk menilai akal budi fizikal dalam video yang dijana AI. Mereka bermula dengan lebih 600 tindakan yang diperoleh daripada set data Kinetics, UCF-101, dan SSv2, memfokuskan pada aktiviti yang melibatkan sukan, interaksi objek dan fizik dunia sebenar.

Dua kumpulan bebas penganotasi pelajar terlatih STEM (dengan kelayakan sarjana muda minimum) menyemak dan menapis senarai itu. Mereka memilih tindakan yang menguji prinsip seperti graviti, momentum, dan keanjalan, sambil mengalih keluar tugas gerakan rendah seperti menaip, membelai kucing, atau mengunyah.

Selepas penapisan lanjut dengan Gemini-2.0-Flash-Exp untuk menghapuskan pendua, set data akhir termasuk 197 tindakan. 54 melibatkan interaksi objek, dan 143 berpusat pada aktiviti fizikal dan sukan:

Pada peringkat kedua, para penyelidik menggunakan Gemini-2.0-Flash-Exp untuk menjana 20 gesaan untuk setiap tindakan dalam set data, menghasilkan sejumlah 3,940 gesaan. Proses penjanaan memfokuskan pada interaksi fizikal yang boleh dilihat yang boleh diwakili dengan jelas dalam video yang dijana. Ini mengecualikan elemen bukan visual seperti emosi, butiran deria, dan bahasa abstrak, tetapi menggabungkan pelbagai watak dan objek.

Sebagai contoh, dan bukannya gesaan mudah seperti ‘Pemanah melepaskan anak panah’, model itu dibimbing untuk menghasilkan versi yang lebih terperinci seperti ‘Pemanah menarik tali busur kembali ke ketegangan penuh, kemudian melepaskan anak panah, yang terbang lurus dan mengenai sasaran pada sasaran kertas’.

Memandangkan model video moden boleh mentafsir perihalan yang lebih panjang, para penyelidik memperhalusi lagi kapsyen menggunakan pensampel atas gesaan Mistral-NeMo-12B-Instruct. Ini menambahkan butiran visual tanpa mengubah makna asal.

Menerbitkan Peraturan Fizikal dan Mengenal Pasti Tindakan Mencabar

Untuk peringkat ketiga, peraturan fizikal diperoleh bukan daripada gesaan teks tetapi daripada video yang dijana. Ini kerana model generatif boleh bergelut untuk mematuhi gesaan teks yang dikondisikan.

Video mula-mula dicipta menggunakan gesaan VideoPhy-2, kemudian “dikapsyen atas” dengan Gemini-2.0-Flash-Exp untuk mengekstrak butiran utama. Model itu mencadangkan tiga peraturan fizikal yang dijangkakan bagi setiap video. Penganotasi manusia menyemak dan mengembangkannya dengan mengenal pasti potensi pelanggaran tambahan.

Seterusnya, untuk mengenal pasti tindakan yang paling mencabar, para penyelidik menjana video menggunakan CogVideoX-5B dengan gesaan daripada set data VideoPhy-2. Mereka kemudian memilih 60 daripada 197 tindakan di mana model secara konsisten gagal mengikut kedua-dua gesaan dan akal budi fizikal asas.

Tindakan ini melibatkan interaksi kaya fizik seperti pemindahan momentum dalam lontar cakera, perubahan keadaan seperti membengkokkan objek sehingga patah, tugas mengimbangi seperti berjalan di atas tali, dan gerakan kompleks yang termasuk back-flip, lompat bergalah, dan melambung piza, antara lain. Secara keseluruhan, 1,200 gesaan telah dipilih untuk meningkatkan kesukaran sub-set data.

Set Data VideoPhy-2: Sumber Penilaian Komprehensif

Set data yang terhasil terdiri daripada 3,940 kapsyen – 5.72 kali lebih banyak daripada versi VideoPhy yang lebih awal. Purata panjang kapsyen asal ialah 16 token, manakala kapsyen yang disampel atas mencapai 138 token – masing-masing 1.88 kali dan 16.2 kali lebih panjang.

Set data ini juga menampilkan 102,000 anotasi manusia yang meliputi pematuhan semantik, akal budi fizikal dan pelanggaran peraturan merentas berbilang model penjanaan video.

Mentakrifkan Kriteria Penilaian dan Anotasi Manusia

Para penyelidik kemudian mentakrifkan kriteria yang jelas untuk menilai video. Matlamat utama adalah untuk menilai sejauh mana setiap video sepadan dengan gesaan inputnya dan mengikut prinsip fizikal asas.

Daripada hanya meletakkan kedudukan video mengikut keutamaan, mereka menggunakan maklum balas berasaskan penilaian untuk menangkap kejayaan dan kegagalan tertentu. Penganotasi manusia menjaringkan video pada skala lima mata, membolehkan pertimbangan yang lebih terperinci. Penilaian itu juga menyemak sama ada video mengikut pelbagai peraturan dan undang-undang fizikal.

Untuk penilaian manusia, sekumpulan 12 penganotasi telah dipilih daripada percubaan di Amazon Mechanical Turk (AMT) dan memberikan penilaian selepas menerima arahan jauh yang terperinci. Untuk kesaksamaan, pematuhan semantik dan akal budi fizikal dinilai secara berasingan (dalam kajian VideoPhy asal, ia dinilai secara bersama).

Penganotasi mula-mula menilai sejauh mana video sepadan dengan gesaan input mereka, kemudian secara berasingan menilai kebolehpercayaan fizikal, menjaringkan pelanggaran peraturan dan realisme keseluruhan pada skala lima mata. Hanya gesaan asal yang ditunjukkan, untuk mengekalkan perbandingan yang adil merentas model.

Penilaian Automatik: Ke Arah Penilaian Model Boleh Skala

Walaupun pertimbangan manusia kekal sebagai standard emas, ia mahal dan datang dengan beberapa kaveat. Oleh itu, penilaian automatik adalah penting untuk penilaian model yang lebih pantas dan lebih berskala.

Pengarang kertas kerja itu menguji beberapa model bahasa-video, termasuk Gemini-2.0-Flash-Exp dan VideoScore, pada keupayaan mereka untuk menjaringkan video untuk ketepatan semantik dan untuk “akal budi fizikal.”

Model sekali lagi menilai setiap video pada skala lima mata. Tugas pengelasan yang berasingan menentukan sama ada peraturan fizikal diikuti, dilanggar atau tidak jelas.

Eksperimen menunjukkan bahawa model bahasa-video sedia ada bergelut untuk memadankan pertimbangan manusia, terutamanya disebabkan oleh penaakulan fizikal yang lemah dan kerumitan gesaan. Untuk menambah baik penilaian automatik, para penyelidik membangunkan VideoPhy-2-Autoeval, model 7B-parameter yang direka untuk memberikan ramalan yang lebih tepat merentas tiga kategori: pematuhan semantik; akal budi fizikal; dan pematuhan peraturan. Ia diperhalusi pada model VideoCon-Physics menggunakan 50,000 anotasi manusia*.

Menguji Sistem Video Generatif: Analisis Perbandingan

Dengan alat ini disediakan, pengarang menguji beberapa sistem video generatif, kedua-duanya melalui pemasangan tempatan dan, jika perlu, melalui API komersial: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; dan Luma Ray.

Model telah digesa dengan kapsyen yang disampel atas jika boleh, kecuali Hunyuan Video dan VideoCrafter2 beroperasi di bawah had CLIP 77-token dan tidak boleh menerima gesaan melebihi panjang tertentu.

Video yang dijana disimpan kurang daripada 6 saat, kerana output yang lebih pendek lebih mudah dinilai.

Data pemacu adalah daripada set data VideoPhy-2, yang dibahagikan kepada penanda aras dan set latihan. 590 video telah dijana bagi setiap model, kecuali Sora dan Ray2; disebabkan faktor kos, bilangan video yang setara yang lebih rendah telah dijana untuk ini.

Penilaian awal berurusan dengan aktiviti fizikal/sukan (PA) dan interaksi objek (OI) dan menguji kedua-dua set data umum dan subset “lebih sukar” yang disebutkan di atas:

Di sini pengarang mengulas:

‘Malah model berprestasi terbaik, Wan2.1-14B, hanya mencapai 32.6% dan 21.9% pada pecahan penuh dan keras set data kami, masing-masing. Prestasi yang agak kukuh berbanding model lain boleh dikaitkan dengan kepelbagaian data latihan multimodalnya, bersama-sama dengan penapisan gerakan teguh yang mengekalkan video berkualiti tinggi merentasi pelbagai tindakan.

‘Tambahan pula, kami memerhatikan bahawa model tertutup, seperti Ray2, berprestasi lebih teruk daripada model terbuka seperti Wan2.1-14B dan CogVideoX-5B. Ini menunjukkan bahawa model tertutup tidak semestinya lebih unggul daripada model terbuka dalam menangkap akal budi fizikal.

‘Terutamanya, Cosmos-Diffusion-7B mencapai skor kedua terbaik pada pecahan keras, malah mengatasi model HunyuanVideo-13B yang jauh lebih besar. Ini mungkin disebabkan oleh perwakilan tinggi tindakan manusia dalam data latihannya, bersama-sama dengan simulasi yang diberikan secara sintetik.’

Keputusan menunjukkan bahawa model video lebih bergelut dengan aktiviti fizikal seperti sukan berbanding dengan interaksi objek yang lebih mudah. Ini menunjukkan bahawa menambah baik video yang dijana AI dalam bidang ini akan memerlukan set data yang lebih baik – terutamanya rakaman berkualiti tinggi sukan seperti tenis, cakera, besbol dan kriket.

Kajian itu juga meneliti sama ada kebolehpercayaan fizikal model berkorelasi dengan metrik kualiti video lain, seperti estetika dan kelancaran gerakan. Penemuan mendedahkan tiada korelasi yang kuat, bermakna model tidak boleh meningkatkan prestasinya pada VideoPhy-2 hanya dengan menjana gerakan yang menarik secara visual atau lancar – ia memerlukan pemahaman yang lebih mendalam tentang akal budi fizikal.

Contoh Kualitatif: Menyerlahkan Cabaran

Walaupun kertas kerja itu menyediakan banyak contoh kualitatif, beberapa contoh statik yang disediakan dalam PDF nampaknya berkaitan dengan contoh berasaskan video yang luas yang disediakan oleh pengarang di tapak projek. Oleh itu, kita akan melihat pilihan kecil contoh statik dan kemudian beberapa lagi video projek sebenar.

Mengenai ujian kualitatif di atas, pengarang mengulas:

‘[Kami] memerhatikan pelanggaran akal budi fizikal, seperti jet ski bergerak secara tidak wajar secara terbalik dan ubah bentuk tukul besi pepejal, menentang prinsip keanjalan. Walau bagaimanapun, malah Wan mengalami kekurangan akal budi fizikal, seperti yang ditunjukkan dalam [klip yang dibenamkan pada permulaan artikel ini].

‘Dalam kes ini, kami menyerlahkan bahawa batu mula bergolek dan memecut ke atas, menentang undang-undang fizik graviti.’

Seperti yang dinyatakan pada mulanya, jumlah bahan yang berkaitan dengan projek ini jauh melebihi apa yang boleh diliputi di sini. Oleh itu, sila rujuk kertas sumber, tapak projek dan tapak berkaitan yang dinyatakan sebelum ini untuk garis besar yang benar-benar menyeluruh tentang prosedur pengarang, dan lebih banyak contoh ujian dan butiran prosedur.

* Bagi asal usul anotasi, kertas kerja itu hanya menyatakan ‘diperoleh untuk tugas ini’ – nampaknya banyak yang telah dijana oleh 12 pekerja AMT.

Pertama kali diterbitkan Khamis, 13 Mac 2025