Kebangkitan Model Video Generatif Tiongkok
Jika tahun 2022 menandai tahun AI generatif benar-benar menarik imajinasi publik, tahun 2025 tampaknya akan menjadi tahun di mana gelombang baru kerangka kerja video generatif dari Tiongkok mengambil alih panggung utama.
Hunyuan Video dari Tencent telah membuat gebrakan signifikan dalam komunitas penghobi AI. Rilis sumber terbukanya dari model difusi video dunia penuh memungkinkan pengguna untuk menyesuaikan teknologi dengan kebutuhan khusus mereka.
Mengikuti di belakangnya adalah Wan 2.1 dari Alibaba, yang dirilis baru-baru ini. Model ini menonjol sebagai salah satu solusi Free and Open Source Software (FOSS) gambar-ke-video yang paling kuat yang saat ini tersedia, dan sekarang mendukung kustomisasi melalui Wan LoRAs.
Selain perkembangan ini, kami juga mengantisipasi rilis rangkaian pembuatan dan pengeditan video VACE Alibaba yang komprehensif, bersama dengan ketersediaan model dasar yang berpusat pada manusia baru-baru ini, SkyReels.
Adegan penelitian AI video generatif sama meledaknya. Ini masih awal Maret, namun pengajuan hari Selasa ke bagian Computer Vision Arxiv (pusat utama untuk makalah AI generatif) berjumlah hampir 350 entri – angka yang biasanya terlihat selama puncak musim konferensi.
Dua tahun sejak peluncuran Stable Diffusion pada musim panas 2022 (dan pengembangan metode kustomisasi Dreambooth dan LoRA selanjutnya) ditandai dengan relatif kurangnya terobosan besar. Namun, beberapa minggu terakhir telah menyaksikan lonjakan rilis dan inovasi baru, yang datang dengan kecepatan sedemikian rupa sehingga hampir tidak mungkin untuk tetap mendapat informasi lengkap, apalagi meliput semuanya secara komprehensif.
Memecahkan Konsistensi Temporal, Tetapi Tantangan Baru Muncul
Model difusi video seperti Hunyuan dan Wan 2.1, akhirnya, mengatasi masalah konsistensi temporal. Setelah bertahun-tahun upaya yang gagal dari ratusan inisiatif penelitian, model-model ini sebagian besar telah menyelesaikan tantangan yang terkait dengan menghasilkan manusia, lingkungan, dan objek yang konsisten dari waktu ke waktu.
Tidak ada keraguan bahwa studio VFX secara aktif mendedikasikan staf dan sumber daya untuk mengadaptasi model video Tiongkok yang baru ini. Tujuan langsung mereka adalah untuk mengatasi tantangan yang mendesak seperti pertukaran wajah, meskipun saat ini tidak ada mekanisme tambahan bergaya ControlNet untuk sistem ini.
Pasti sangat melegakan bahwa rintangan yang signifikan seperti itu berpotensi telah diatasi, bahkan jika itu bukan melalui saluran yang diantisipasi.
Namun, di antara masalah yang tersisa, satu masalah menonjol sebagai yang sangat signifikan:
Semua sistem teks-ke-video dan gambar-ke-video yang saat ini tersedia, termasuk model sumber tertutup komersial, memiliki kecenderungan untuk menghasilkan kesalahan yang menentang fisika. Contoh di atas menunjukkan batu yang bergulir ke atas, yang dihasilkan dari prompt: ‘A small rock tumbles down a steep, rocky hillside, displacing soil and small stones’.
Mengapa Video AI Salah Memahami Fisika?
Satu teori, yang baru-baru ini diusulkan dalam kolaborasi akademik antara Alibaba dan UEA, menunjukkan bahwa model mungkin belajar dengan cara yang menghambat pemahaman mereka tentang urutan temporal. Bahkan ketika pelatihan pada video (yang dipecah menjadi urutan bingkai tunggal untuk pelatihan), model mungkin tidak secara inheren memahami urutan yang benar dari gambar “sebelum” dan “sesudah”.
Namun, penjelasan yang paling masuk akal adalah bahwa model yang bersangkutan telah menggunakan rutinitas augmentasi data. Rutinitas ini melibatkan pemaparan model ke klip pelatihan sumber baik maju dan mundur, yang secara efektif menggandakan data pelatihan.
Sudah diketahui selama beberapa waktu bahwa ini tidak boleh dilakukan tanpa pandang bulu. Sementara beberapa gerakan bekerja secara terbalik, banyak yang tidak. Sebuah studi tahun 2019 dari University of Bristol di Inggris bertujuan untuk mengembangkan metode untuk membedakan antara klip video data sumber ekuivarian, invarian, dan ireversibel dalam satu set data. Tujuannya adalah untuk menyaring klip yang tidak sesuai dari rutinitas augmentasi data.
Penulis karya itu dengan jelas mengartikulasikan masalahnya:
‘Kami menemukan realisme video terbalik dikhianati oleh artefak pembalikan, aspek pemandangan yang tidak mungkin terjadi di dunia alami. Beberapa artefak halus, sementara yang lain mudah dikenali, seperti aksi ‘lempar’ terbalik di mana objek yang dilempar secara spontan naik dari lantai.
‘Kami mengamati dua jenis artefak pembalikan, fisik, yang menunjukkan pelanggaran hukum alam, dan tidak mungkin, yang menggambarkan skenario yang mungkin tetapi tidak mungkin. Ini tidak eksklusif, dan banyak tindakan terbalik menderita kedua jenis artefak, seperti saat membuka kertas kusut.
‘Contoh artefak fisik meliputi: gravitasi terbalik (misalnya ‘menjatuhkan sesuatu’), impuls spontan pada objek (misalnya ‘memutar pena’), dan perubahan keadaan yang tidak dapat diubah (misalnya ‘membakar lilin’). Contoh artefak yang tidak mungkin: mengambil piring dari lemari, mengeringkannya, dan meletakkannya di rak pengeringan.
‘Jenis penggunaan ulang data semacam ini sangat umum pada waktu pelatihan, dan dapat bermanfaat – misalnya, dalam memastikan bahwa model tidak hanya mempelajari satu tampilan gambar atau objek yang dapat dibalik atau diputar tanpa kehilangan koherensi dan logika sentralnya.
‘Ini hanya berfungsi untuk objek yang benar-benar simetris, tentu saja; dan belajar fisika dari video ‘terbalik’ hanya berfungsi jika versi terbalik sama masuk akalnya dengan versi maju.’
Kami tidak memiliki bukti konkret bahwa sistem seperti Hunyuan Video dan Wan 2.1 mengizinkan klip “terbalik” yang sewenang-wenang selama pelatihan (tidak ada kelompok penelitian yang spesifik tentang rutinitas augmentasi data mereka).
Namun, mengingat banyak laporan (dan pengalaman praktis saya sendiri), satu-satunya penjelasan masuk akal lainnya adalah bahwa set data hiperskala yang mendukung model ini mungkin berisi klip yang benar-benar menampilkan gerakan yang terjadi secara terbalik.
Batu dalam contoh video yang disematkan sebelumnya dihasilkan menggunakan Wan 2.1. Itu ditampilkan dalam studi baru yang menyelidiki seberapa baik model difusi video menangani fisika.
Dalam pengujian untuk proyek ini, Wan 2.1 mencapai skor hanya 22% dalam kemampuannya untuk secara konsisten mematuhi hukum fisika.
Anehnya, itu adalah skor terbaik di antara semua sistem yang diuji, menunjukkan bahwa kita mungkin telah mengidentifikasi rintangan besar berikutnya untuk video AI:
Memperkenalkan VideoPhy-2: Tolok Ukur Baru untuk Akal Sehat Fisik
Penulis karya baru telah mengembangkan sistem pembandingan, sekarang dalam iterasi keduanya, yang disebut VideoPhy. Kodenya tersedia di GitHub.
Meskipun cakupan pekerjaan terlalu luas untuk dibahas secara komprehensif di sini, mari kita periksa metodologinya dan potensinya untuk menetapkan metrik yang dapat memandu sesi pelatihan model di masa depan menjauh dari contoh pembalikan yang aneh ini.
Studi yang dilakukan oleh enam peneliti dari UCLA dan Google Research ini berjudul VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Situs proyek pendamping yang komprehensif juga tersedia, bersama dengan kode dan set data di GitHub, dan penampil set data di Hugging Face.
Para penulis menggambarkan versi terbaru, VideoPhy-2, sebagai “set data evaluasi akal sehat yang menantang untuk tindakan dunia nyata.” Koleksi ini menampilkan 197 tindakan di berbagai aktivitas fisik yang beragam, termasuk hula-hooping, senam, dan tenis, serta interaksi objek seperti membengkokkan objek hingga patah.
Model bahasa besar (LLM) digunakan untuk menghasilkan 3840 prompt dari tindakan benih ini. Prompt ini kemudian digunakan untuk mensintesis video menggunakan berbagai kerangka kerja yang sedang diuji.
Sepanjang proses, para penulis telah menyusun daftar aturan dan hukum fisik “kandidat” yang harus dipatuhi oleh video yang dihasilkan AI, menggunakan model visi-bahasa untuk evaluasi.
Para penulis menyatakan:
‘Misalnya, dalam video olahragawan yang bermain tenis, aturan fisik adalah bahwa bola tenis harus mengikuti lintasan parabola di bawah gravitasi. Untuk penilaian standar emas, kami meminta anotator manusia untuk menilai setiap video berdasarkan kepatuhan semantik keseluruhan dan akal sehat fisik, dan untuk menandai kepatuhannya dengan berbagai aturan fisik.’
Mengkurasi Tindakan dan Menghasilkan Prompt
Awalnya, para peneliti mengkurasi serangkaian tindakan untuk mengevaluasi akal sehat fisik dalam video yang dihasilkan AI. Mereka mulai dengan lebih dari 600 tindakan yang bersumber dari set data Kinetics, UCF-101, dan SSv2, dengan fokus pada aktivitas yang melibatkan olahraga, interaksi objek, dan fisika dunia nyata.
Dua kelompok independen dari anotator mahasiswa yang terlatih STEM (dengan kualifikasi sarjana minimum) meninjau dan memfilter daftar tersebut. Mereka memilih tindakan yang menguji prinsip-prinsip seperti gravitasi, momentum, dan elastisitas, sambil menghapus tugas-tugas gerak rendah seperti mengetik, mengelus kucing, atau mengunyah.
Setelah penyempurnaan lebih lanjut dengan Gemini-2.0-Flash-Exp untuk menghilangkan duplikat, set data akhir mencakup 197 tindakan. 54 melibatkan interaksi objek, dan 143 berpusat pada aktivitas fisik dan olahraga:
Pada tahap kedua, para peneliti menggunakan Gemini-2.0-Flash-Exp untuk menghasilkan 20 prompt untuk setiap tindakan dalam set data, menghasilkan total 3.940 prompt. Proses pembuatan berfokus pada interaksi fisik yang terlihat yang dapat direpresentasikan dengan jelas dalam video yang dihasilkan. Ini mengecualikan elemen non-visual seperti emosi, detail sensorik, dan bahasa abstrak, tetapi menggabungkan karakter dan objek yang beragam.
Misalnya, alih-alih prompt sederhana seperti ‘An archer releases the arrow’, model dipandu untuk menghasilkan versi yang lebih rinci seperti ‘An archer draws the bowstring back to full tension, then releases the arrow, which flies straight and strikes a bullseye on a paper target’.
Karena model video modern dapat menafsirkan deskripsi yang lebih panjang, para peneliti lebih lanjut menyempurnakan keterangan menggunakan upsampler prompt Mistral-NeMo-12B-Instruct. Ini menambahkan detail visual tanpa mengubah makna aslinya.
Menurunkan Aturan Fisik dan Mengidentifikasi Tindakan yang Menantang
Untuk tahap ketiga, aturan fisik diturunkan bukan dari prompt teks tetapi dari video yang dihasilkan. Ini karena model generatif dapat berjuang untuk mematuhi prompt teks yang dikondisikan.
Video pertama kali dibuat menggunakan prompt VideoPhy-2, kemudian “diberi keterangan” dengan Gemini-2.0-Flash-Exp untuk mengekstrak detail utama. Model mengusulkan tiga aturan fisik yang diharapkan per video. Anotator manusia meninjau dan memperluas ini dengan mengidentifikasi potensi pelanggaran tambahan.
Selanjutnya, untuk mengidentifikasi tindakan yang paling menantang, para peneliti menghasilkan video menggunakan CogVideoX-5B dengan prompt dari set data VideoPhy-2. Mereka kemudian memilih 60 dari 197 tindakan di mana model secara konsisten gagal mengikuti prompt dan akal sehat fisik dasar.
Tindakan ini melibatkan interaksi yang kaya fisika seperti transfer momentum dalam lempar cakram, perubahan keadaan seperti membengkokkan objek hingga patah, tugas menyeimbangkan seperti berjalan di atas tali, dan gerakan kompleks yang mencakup back-flip, lompat galah, dan melempar pizza, antara lain. Secara total, 1.200 prompt dipilih untuk meningkatkan kesulitan sub-set data.
Set Data VideoPhy-2: Sumber Daya Evaluasi yang Komprehensif
Set data yang dihasilkan terdiri dari 3.940 keterangan – 5,72 kali lebih banyak dari versi VideoPhy sebelumnya. Panjang rata-rata keterangan asli adalah 16 token, sedangkan keterangan yang di-upsample mencapai 138 token – masing-masing 1,88 kali dan 16,2 kali lebih panjang.
Set data ini juga menampilkan 102.000 anotasi manusia yang mencakup kepatuhan semantik, akal sehat fisik, dan pelanggaran aturan di berbagai model pembuatan video.
Mendefinisikan Kriteria Evaluasi dan Anotasi Manusia
Para peneliti kemudian mendefinisikan kriteria yang jelas untuk mengevaluasi video. Tujuan utamanya adalah untuk menilai seberapa baik setiap video cocok dengan prompt inputnya dan mengikuti prinsip-prinsip fisik dasar.
Alih-alih hanya memberi peringkat video berdasarkan preferensi, mereka menggunakan umpan balik berbasis peringkat untuk menangkap keberhasilan dan kegagalan tertentu. Anotator manusia menilai video pada skala lima poin, memungkinkan penilaian yang lebih rinci. Evaluasi juga memeriksa apakah video mengikuti berbagai aturan dan hukum fisik.
Untuk evaluasi manusia, sekelompok 12 anotator dipilih dari uji coba di Amazon Mechanical Turk (AMT) dan memberikan peringkat setelah menerima instruksi jarak jauh yang terperinci. Untuk keadilan, kepatuhan semantik dan akal sehat fisik dievaluasi secara terpisah (dalam studi VideoPhy asli, mereka dinilai bersama-sama).
Anotator pertama-tama menilai seberapa baik video cocok dengan prompt input mereka, kemudian secara terpisah mengevaluasi masuk akal fisik, menilai pelanggaran aturan dan realisme keseluruhan pada skala lima poin. Hanya prompt asli yang ditampilkan, untuk mempertahankan perbandingan yang adil di seluruh model.
Evaluasi Otomatis: Menuju Penilaian Model yang Terukur
Meskipun penilaian manusia tetap menjadi standar emas, itu mahal dan datang dengan beberapa peringatan. Oleh karena itu, evaluasi otomatis sangat penting untuk penilaian model yang lebih cepat dan lebih terukur.
Penulis makalah menguji beberapa model video-bahasa, termasuk Gemini-2.0-Flash-Exp dan VideoScore, pada kemampuan mereka untuk menilai video untuk akurasi semantik dan untuk “akal sehat fisik.”
Model-model itu lagi-lagi menilai setiap video pada skala lima poin. Tugas klasifikasi terpisah menentukan apakah aturan fisik diikuti, dilanggar, atau tidak jelas.
Eksperimen menunjukkan bahwa model video-bahasa yang ada berjuang untuk mencocokkan penilaian manusia, terutama karena penalaran fisik yang lemah dan kompleksitas prompt. Untuk meningkatkan evaluasi otomatis, para peneliti mengembangkan VideoPhy-2-Autoeval, model 7B-parameter yang dirancang untuk memberikan prediksi yang lebih akurat di tiga kategori: kepatuhan semantik; akal sehat fisik; dan kepatuhan aturan. Itu disetel dengan baik pada model VideoCon-Physics menggunakan 50.000 anotasi manusia*.
Menguji Sistem Video Generatif: Analisis Komparatif
Dengan alat-alat ini, para penulis menguji sejumlah sistem video generatif, baik melalui instalasi lokal dan, jika perlu, melalui API komersial: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; dan Luma Ray.
Model-model itu diminta dengan keterangan yang di-upsample jika memungkinkan, kecuali bahwa Hunyuan Video dan VideoCrafter2 beroperasi di bawah batasan CLIP 77-token dan tidak dapat menerima prompt di atas panjang tertentu.
Video yang dihasilkan disimpan kurang dari 6 detik, karena output yang lebih pendek lebih mudah dievaluasi.
Data pendorong berasal dari set data VideoPhy-2, yang dibagi menjadi tolok ukur dan set pelatihan. 590 video dihasilkan per model, kecuali untuk Sora dan Ray2; karena faktor biaya, jumlah video yang setara lebih rendah dihasilkan untuk ini.
Evaluasi awal berurusan dengan aktivitas fisik/olahraga (PA) dan interaksi objek (OI) dan menguji set data umum dan subset “lebih sulit” yang disebutkan di atas:
Di sini penulis berkomentar:
‘Bahkan model berkinerja terbaik, Wan2.1-14B, hanya mencapai 32,6% dan 21,9% pada pemisahan penuh dan sulit dari set data kami, masing-masing. Kinerjanya yang relatif kuat dibandingkan dengan model lain dapat dikaitkan dengan keragaman data pelatihan multimodalnya, bersama dengan pemfilteran gerakan yang kuat yang mempertahankan video berkualitas tinggi di berbagai tindakan.
‘Selain itu, kami mengamati bahwa model tertutup, seperti Ray2, berkinerja lebih buruk daripada model terbuka seperti Wan2.1-14B dan CogVideoX-5B. Ini menunjukkan bahwa model tertutup belum tentu lebih unggul daripada model terbuka dalam menangkap akal sehat fisik.
‘Khususnya, Cosmos-Diffusion-7B mencapai skor terbaik kedua pada pemisahan yang sulit, bahkan mengungguli model HunyuanVideo-13B yang jauh lebih besar. Ini mungkin karena representasi tindakan manusia yang tinggi dalam data pelatihannya, bersama dengan simulasi yang dirender secara sintetis.’
Hasilnya menunjukkan bahwa model video lebih berjuang dengan aktivitas fisik seperti olahraga daripada dengan interaksi objek yang lebih sederhana. Ini menunjukkan bahwa meningkatkan video yang dihasilkan AI di area ini akan membutuhkan set data yang lebih baik – terutama rekaman olahraga berkualitas tinggi seperti tenis, cakram, bisbol, dan kriket.
Studi ini juga meneliti apakah masuk akal fisik model berkorelasi dengan metrik kualitas video lainnya, seperti estetika dan kelancaran gerakan. Temuan mengungkapkan tidak ada korelasi yang kuat, yang berarti model tidak dapat meningkatkan kinerjanya pada VideoPhy-2 hanya dengan menghasilkan gerakan yang menarik secara visual atau lancar – ia membutuhkan pemahaman yang lebih dalam tentang akal sehat fisik.
Contoh Kualitatif: Menyoroti Tantangan
Meskipun makalah ini memberikan banyak contoh kualitatif, beberapa contoh statis yang disediakan dalam PDF tampaknya berhubungan dengan contoh berbasis video ekstensif yang disediakan penulis di situs proyek. Oleh karena itu, kita akan melihat pilihan kecil dari contoh statis dan kemudian beberapa lagi dari video proyek yang sebenarnya.
Mengenai uji kualitatif di atas, penulis berkomentar:
‘[Kami] mengamati pelanggaran akal sehat fisik, seperti jetski yang bergerak secara tidak wajar secara terbalik dan deformasi palu godam padat, yang menentang prinsip elastisitas. Namun, bahkan Wan menderita kurangnya akal sehat fisik, seperti yang ditunjukkan pada [klip yang disematkan di awal artikel ini].
‘Dalam kasus ini, kami menyoroti bahwa batu mulai bergulir dan berakselerasi ke atas, menentang hukum fisika gravitasi.’
Seperti yang disebutkan di awal, volume materi yang terkait dengan proyek ini jauh melebihi apa yang dapat dibahas di sini. Oleh karena itu, silakan merujuk ke makalah sumber, situs proyek, dan situs terkait yang disebutkan sebelumnya untuk garis besar yang benar-benar lengkap dari prosedur penulis, dan jauh lebih banyak contoh pengujian dan detail prosedural.
* Adapun asal-usul anotasi, makalah ini hanya menentukan ‘diperoleh untuk tugas-tugas ini’ – tampaknya banyak yang dihasilkan oleh 12 pekerja AMT.
Pertama kali diterbitkan Kamis, 13 Maret 2025