YZ Videoları Neden Bazen Yanılıyor?

Çin Üretken Video Modellerinin Yükselişi

Tencent’in Hunyuan Video’su, hobi amaçlı yapay zeka topluluğunda şimdiden önemli dalgalar yarattı. Tam dünya video difüzyon modelinin açık kaynaklı sürümü, kullanıcıların teknolojiyi kendi özel ihtiyaçlarına göre uyarlamalarına olanak tanıyor.

Bunu yakından takip eden, daha yakın zamanda piyasaya sürülen Alibaba’nın Wan 2.1’i. Bu model, şu anda mevcut olan en güçlü görüntüden videoya Ücretsiz ve Açık Kaynaklı Yazılım (FOSS) çözümlerinden biri olarak öne çıkıyor ve artık Wan LoRA’lar aracılığıyla özelleştirmeyi destekliyor.

Bu gelişmelere ek olarak, Alibaba’nın kapsamlı VACE video oluşturma ve düzenleme paketinin piyasaya sürülmesini ve ayrıca yakın zamanda çıkan insan merkezli temel model SkyReels’in kullanılabilirliğini de bekliyoruz.

Üretken video yapay zeka araştırma ortamı da aynı derecede patlayıcı. Henüz Mart ayının başlarındayız, ancak Salı günü Arxiv’in Bilgisayarla Görme bölümüne (üretken yapay zeka makaleleri için önemli bir merkez) yapılan başvurular toplamda yaklaşık 350 girişe ulaştı - bu sayı normalde konferans sezonunun zirvesinde görülür.

Stable Diffusion’ın 2022 yazında piyasaya sürülmesinden (ve ardından Dreambooth ve LoRA özelleştirme yöntemlerinin geliştirilmesinden) bu yana geçen iki yıl, büyük atılımların görece azlığı ile karakterize edildi. Ancak, son birkaç hafta, tam olarak bilgi sahibi olmanın, hatta her şeyi kapsamlı bir şekilde ele almanın neredeyse imkansız olduğu kadar hızlı bir şekilde gelen yeni sürümler ve yeniliklerde bir artışa tanık oldu.

Zamansal Tutarlılık Çözülüyor, Ancak Yeni Zorluklar Ortaya Çıkıyor

Hunyuan ve Wan 2.1 gibi video difüzyon modelleri, nihayet zamansal tutarlılık sorununu ele aldı. Yüzlerce araştırma girişiminin yıllarca süren başarısız girişimlerinden sonra, bu modeller, zaman içinde tutarlı insanlar, ortamlar ve nesneler oluşturmayla ilgili zorlukları büyük ölçüde çözdü.

VFX stüdyolarının, bu yeni Çin video modellerini uyarlamak için aktif olarak personel ve kaynak ayırdığına dair çok az şüphe var. Acil hedefleri, bu sistemler için ControlNet tarzı yardımcı mekanizmaların şu anda olmamasına rağmen, yüz değiştirme gibi acil zorlukların üstesinden gelmek.

Böylesine önemli bir engelin, beklenen kanallar aracılığıyla olmasa bile, potansiyel olarak aşılmış olması büyük bir rahatlama olmalı.

Ancak, kalan sorunlar arasında biri özellikle önemli olarak öne çıkıyor:

Ticari kapalı kaynaklı modeller de dahil olmak üzere, şu anda mevcut olan tüm metinden videoya ve görüntüden videoya sistemler, fiziğe meydan okuyan gaflar üretme eğilimindedir. Yukarıdaki örnek, ‘Küçük bir kaya, dik, kayalık bir yamaçtan aşağı yuvarlanıyor, toprağı ve küçük taşları yerinden ediyor’ komutundan oluşturulan yukarı doğru yuvarlanan bir kayayı gösteriyor.

Yapay Zeka Videoları Neden Fiziği Yanlış Anlıyor?

Alibaba ve BAE arasındaki akademik bir işbirliğinde yakın zamanda öne sürülen bir teori, modellerin zamansal düzeni anlamalarını engelleyen bir şekilde öğrenebileceğini öne sürüyor. Videolar üzerinde eğitim alırken bile (eğitim için tek kareli dizilere ayrılır), modeller ‘önce’ ve ‘sonra’ görüntülerinin doğru sırasını doğal olarak kavramayabilir.

Ancak, en makul açıklama, söz konusu modellerin veri artırma rutinleri kullanmış olmasıdır. Bu rutinler, modeli bir kaynak eğitim klibine hem ileri hem de geri yönde maruz bırakmayı ve eğitim verilerini etkili bir şekilde ikiye katlamayı içerir.

Bunun ayrım gözetmeksizin yapılmaması gerektiği bir süredir biliniyor. Bazı hareketler ters yönde çalışırken, birçoğu çalışmaz. İngiltere’deki Bristol Üniversitesi’nden 2019 tarihli bir çalışma, tek bir veri kümesi içindeki eşdeğişken, değişmez ve geri döndürülemez kaynak veri video kliplerini ayırt etmek için bir yöntem geliştirmeyi amaçladı. Amaç, veri artırma rutinlerinden uygun olmayan klipleri filtrelemekti.

Bu çalışmanın yazarları sorunu açıkça ifade ettiler:

‘Tersine çevrilmiş videoların gerçekçiliğinin, doğal bir dünyada mümkün olmayacak sahnenin yönleri olan tersine çevirme yapaylıkları tarafından ihanete uğradığını görüyoruz. Bazı yapaylıklar inceyken, diğerleri, atılan nesnenin kendiliğinden yerden yükseldiği tersine çevrilmiş bir ‘atma’ eylemi gibi fark edilmesi kolaydır.

‘İki tür tersine çevirme yapaylığı gözlemliyoruz, fiziksel, doğa yasalarının ihlallerini sergileyenler ve olası ancak olası olmayan bir senaryoyu tasvir edenler. Bunlar özel değildir ve birçok tersine çevrilmiş eylem, bir kağıt parçasını buruşturmak gibi her iki tür yapaylıktan da muzdariptir.

‘Fiziksel yapaylıklara örnekler şunlardır: ters çevrilmiş yerçekimi (örneğin, ‘bir şeyi düşürmek’), nesneler üzerindeki kendiliğinden dürtüler (örneğin, ‘bir kalemi döndürmek’) ve geri döndürülemez durum değişiklikleri (örneğin, ‘bir mumu yakmak’). Olası olmayan bir yapaylığa örnek: dolaptan bir tabak almak, kurulamak ve kurutma rafına yerleştirmek.

‘Bu tür veri yeniden kullanımı, eğitim zamanında çok yaygındır ve faydalı olabilir - örneğin, modelin, merkezi tutarlılığını ve mantığını kaybetmeden çevrilebilen veya döndürülebilen bir görüntünün veya nesnenin yalnızca bir görünümünü öğrenmemesini sağlamak.

‘Bu, elbette, yalnızca gerçekten simetrik olan nesneler için işe yarar; ve ‘tersine çevrilmiş’ bir videodan fizik öğrenmek, yalnızca tersine çevrilmiş sürüm ileri sürüm kadar mantıklıysa işe yarar.’

Hunyuan Video ve Wan 2.1 gibi sistemlerin eğitim sırasında rastgele “tersine çevrilmiş” kliplere izin verdiğine dair somut bir kanıtımız yok (her iki araştırma grubu da veri artırma rutinleri hakkında spesifik olmadı).

Ancak, çok sayıda raporu (ve kendi pratik deneyimimi) göz önünde bulundurursak, diğer tek makul açıklama, bu modelleri güçlendiren hiper ölçekli veri kümelerinin, hareketlerin gerçekten ters yönde gerçekleştiği klipler içerebileceğidir.

Daha önce yerleştirilmiş örnek videodaki kaya, Wan 2.1 kullanılarak oluşturuldu. Video difüzyon modellerinin fiziği ne kadar iyi ele aldığını araştıran yeni bir çalışmada yer alıyor.

Bu proje için yapılan testlerde, Wan 2.1, fizik yasalarına tutarlı bir şekilde uyma yeteneğinde yalnızca %22’lik bir puan elde etti.

Şaşırtıcı bir şekilde, bu, test edilen tüm sistemler arasında en iyi puan, bu da video yapay zekası için bir sonraki büyük engeli belirlemiş olabileceğimizi gösteriyor:

VideoPhy-2’ye Giriş: Fiziksel Sağduyu için Yeni Bir Kıyaslama

Yeni çalışmanın yazarları, VideoPhy adlı, şimdi ikinci yinelemesinde olan bir kıyaslama sistemi geliştirdiler. Kod GitHub’da mevcuttur.

Çalışmanın kapsamı burada kapsamlı bir şekilde ele alınamayacak kadar geniş olsa da, metodolojisini ve gelecekteki model eğitim oturumlarını bu tuhaf tersine çevirme örneklerinden uzaklaştırabilecek bir metrik oluşturma potansiyelini inceleyelim.

UCLA ve Google Research’ten altı araştırmacı tarafından yürütülen çalışmanın başlığı VideoPhy-2: Video Üretiminde Zorlu Bir Eylem Merkezli Fiziksel Sağduyu Değerlendirmesi. Kapsamlı bir eşlik eden proje sitesi de GitHub’da kod ve veri kümeleri ve Hugging Face’de bir veri kümesi görüntüleyici ile birlikte mevcuttur.

Yazarlar, en son sürüm olan VideoPhy-2‘yi “gerçek dünya eylemleri için zorlu bir sağduyu değerlendirme veri kümesi” olarak tanımlıyor. Koleksiyon, hula-hooping, jimnastik ve tenis gibi çeşitli fiziksel aktivitelerin yanı sıra bir nesneyi kırılana kadar bükmek gibi nesne etkileşimleri dahil olmak üzere 197 eylem içeriyor.

Bu tohum eylemlerinden 3840 komut oluşturmak için büyük bir dil modeli (LLM) kullanılır. Bu komutlar daha sonra test edilen çeşitli çerçeveleri kullanarak videoları sentezlemek için kullanılır.

Süreç boyunca, yazarlar, değerlendirme için görme-dil modellerini kullanarak, yapay zeka tarafından oluşturulan videoların uyması gereken “aday” fiziksel kurallar ve yasaların bir listesini derlediler.

Yazarlar şunları belirtiyor:

‘Örneğin, bir sporcunun tenis oynadığı bir videoda, fiziksel bir kural, bir tenis topunun yerçekimi altında parabolik bir yörünge izlemesi gerektiğidir. Altın standart yargılar için, insan açıklayıcılardan her videoyu genel anlamsal bağlılık ve fiziksel sağduyuya göre puanlamalarını ve çeşitli fiziksel kurallara uygunluğunu işaretlemelerini istiyoruz.’

Eylemleri Düzenlemek ve Komutları Oluşturmak

Başlangıçta, araştırmacılar, yapay zeka tarafından oluşturulan videolarda fiziksel sağduyuyu değerlendirmek için bir dizi eylem düzenlediler. Kinetics, UCF-101 ve SSv2 veri kümelerinden alınan 600’den fazla eylemle başladılar ve spor, nesne etkileşimleri ve gerçek dünya fiziği içeren aktivitelere odaklandılar.

STEM eğitimi almış iki bağımsız öğrenci açıklayıcı grubu (en az lisans derecesi ile) listeyi inceledi ve filtreledi. Yerçekimi, momentum ve esneklik gibi ilkeleri test eden eylemleri seçtiler ve yazma, bir kediyi okşama veya çiğneme gibi düşük hareketli görevleri kaldırdılar.

Yinelenenleri ortadan kaldırmak için Gemini-2.0-Flash-Exp ile daha fazla iyileştirmeden sonra, son veri kümesi 197 eylem içeriyordu. 54’ü nesne etkileşimlerini içeriyordu ve 143’ü fiziksel ve spor aktivitelerine odaklanıyordu:

İkinci aşamada, araştırmacılar, veri kümesindeki her eylem için 20 komut oluşturmak üzere Gemini-2.0-Flash-Exp’i kullandılar ve toplam 3.940 komut elde ettiler. Oluşturma süreci, oluşturulan bir videoda açıkça temsil edilebilen görünür fiziksel etkileşimlere odaklandı. Bu, duygular, duyusal ayrıntılar ve soyut dil gibi görsel olmayan öğeleri hariç tuttu, ancak çeşitli karakterleri ve nesneleri dahil etti.

Örneğin, ‘Bir okçu oku bırakır’ gibi basit bir komut yerine, model ‘Bir okçu kirişi tam gerginliğe kadar geri çeker, sonra oku bırakır, ok düz uçar ve bir kağıt hedefte tam isabeti vurur’ gibi daha ayrıntılı bir sürüm üretmeye yönlendirildi.

Modern video modelleri daha uzun açıklamaları yorumlayabildiğinden, araştırmacılar Mistral-NeMo-12B-Instruct komut yükselticisini kullanarak başlıkları daha da geliştirdiler. Bu, orijinal anlamı değiştirmeden görsel ayrıntılar ekledi.

Fiziksel Kuralları Türetmek ve Zorlu Eylemleri Belirlemek

Üçüncü aşama için, fiziksel kurallar metin komutlarından değil, oluşturulan videolardan türetildi. Bunun nedeni, üretken modellerin koşullu metin komutlarına uymakta zorlanabilmesidir.

Videolar ilk olarak VideoPhy-2 komutları kullanılarak oluşturuldu, ardından anahtar ayrıntıları çıkarmak için Gemini-2.0-Flash-Exp ile “yukarı başlıklandırıldı”. Model, video başına beklenen üç fiziksel kural önerdi. İnsan açıklayıcılar bunları inceledi ve ek potansiyel ihlalleri belirleyerek genişletti.

Ardından, en zorlu eylemleri belirlemek için araştırmacılar, VideoPhy-2 veri kümesinden komutlarla CogVideoX-5B’yi kullanarak videolar oluşturdular. Daha sonra, modelin hem komutları hem de temel fiziksel sağduyuyu takip etmede sürekliolarak başarısız olduğu 197 eylemden 60’ını seçtiler.

Bu eylemler, disk atmada momentum transferi, bir nesneyi kırılana kadar bükmek gibi durum değişiklikleri, ip cambazlığı gibi dengeleme görevleri ve diğerlerinin yanı sıra geri taklalar, sırıkla atlama ve pizza atma gibi karmaşık hareketleri içeren fizik açısından zengin etkileşimleri içeriyordu. Alt veri kümesinin zorluğunu artırmak için toplam 1.200 komut seçildi.

VideoPhy-2 Veri Kümesi: Kapsamlı Bir Değerlendirme Kaynağı

Ortaya çıkan veri kümesi 3.940 başlık içeriyordu - VideoPhy’nin önceki sürümünden 5.72 kat daha fazla. Orijinal başlıkların ortalama uzunluğu 16 belirteçken, yükseltilmiş başlıklar sırasıyla 138 belirtece ulaşıyor - 1.88 kat ve 16.2 kat daha uzun.

Veri kümesi ayrıca, birden fazla video oluşturma modeli genelinde anlamsal bağlılık, fiziksel sağduyu ve kural ihlallerini kapsayan 102.000 insan açıklaması içeriyor.

Değerlendirme Kriterlerini ve İnsan Açıklamalarını Tanımlama

Araştırmacılar daha sonra videoları değerlendirmek için net kriterler tanımladılar. Ana amaç, her videonun giriş komutuyla ne kadar iyi eşleştiğini ve temel fiziksel ilkeleri takip ettiğini değerlendirmekti.

Videoları tercihe göre sıralamak yerine, belirli başarıları ve başarısızlıkları yakalamak için derecelendirmeye dayalı geri bildirim kullandılar. İnsan açıklayıcılar, daha ayrıntılı yargılara izin vererek videoları beş puanlık bir ölçekte puanladılar. Değerlendirme ayrıca videoların çeşitli fiziksel kurallara ve yasalara uyup uymadığını da kontrol etti.

İnsan değerlendirmesi için, Amazon Mechanical Turk (AMT) üzerindeki denemelerden 12 açıklayıcıdan oluşan bir grup seçildi ve ayrıntılı uzaktan talimatlar aldıktan sonra derecelendirmeler sağladı. Adalet için, anlamsal bağlılık ve fiziksel sağduyu ayrı ayrı değerlendirildi (orijinal VideoPhy çalışmasında, ortaklaşa değerlendirildiler).

Açıklayıcılar önce videoların giriş komutlarıyla ne kadar iyi eşleştiğini derecelendirdiler, ardından kural ihlallerini ve genel gerçekçiliği beş puanlık bir ölçekte puanlayarak fiziksel olasılığı ayrı ayrı değerlendirdiler. Modeller arasında adil bir karşılaştırma sağlamak için yalnızca orijinal komutlar gösterildi.

Otomatik Değerlendirme: Ölçeklenebilir Model Değerlendirmesine Doğru

İnsan yargısı altın standart olmaya devam etse de, pahalıdır ve birkaç uyarı ile birlikte gelir. Bu nedenle, daha hızlı ve daha ölçeklenebilir model değerlendirmeleri için otomatik değerlendirme esastır.

Makalenin yazarları, Gemini-2.0-Flash-Exp ve VideoScore dahil olmak üzere çeşitli video-dil modellerini, videoları anlamsal doğruluk ve “fiziksel sağduyu” için puanlama yetenekleri üzerinde test ettiler.

Modeller yine her videoyu beş puanlık bir ölçekte derecelendirdi. Ayrı bir sınıflandırma görevi, fiziksel kurallara uyulup uyulmadığını, ihlal edilip edilmediğini veya belirsiz olup olmadığını belirledi.

Deneyler, mevcut video-dil modellerinin insan yargılarıyla eşleşmekte zorlandığını, bunun temel olarak zayıf fiziksel akıl yürütme ve komutların karmaşıklığından kaynaklandığını gösterdi. Otomatik değerlendirmeyi iyileştirmek için araştırmacılar, üç kategori genelinde daha doğru tahminler sağlamak üzere tasarlanmış 7B parametreli bir model olan VideoPhy-2-Autoeval‘i geliştirdiler: anlamsal bağlılık; fiziksel sağduyu; ve kural uyumu. 50.000 insan açıklaması kullanılarak VideoCon-Physics modeli üzerinde ince ayar yapıldı*.

Üretken Video Sistemlerini Test Etme: Karşılaştırmalı Bir Analiz

Bu araçlar yerinde olduğunda, yazarlar hem yerel kurulumlar aracılığıyla hem de gerektiğinde ticari API’ler aracılığıyla bir dizi üretken video sistemini test ettiler: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; ve Luma Ray.

Modeller, Hunyuan Video ve VideoCrafter2’nin 77 belirteçli CLIP sınırlamaları altında çalışması ve belirli bir uzunluğun üzerindeki komutları kabul edememesi dışında, mümkün olduğunda yükseltilmiş başlıklarla istendi.

Oluşturulan videolar, daha kısa çıktının değerlendirilmesi daha kolay olduğundan 6 saniyeden kısa tutuldu.

Sürüş verileri, bir kıyaslama ve eğitim setine ayrılan VideoPhy-2 veri kümesindendi. Sora ve Ray2 hariç, model başına 590 video oluşturuldu; maliyet faktörü nedeniyle, bu modeller için eşdeğer daha düşük sayıda video oluşturuldu.

İlk değerlendirme fiziksel aktiviteler/sporlar (PA) ve nesne etkileşimleri (OI) ile ilgilendi ve hem genel veri kümesini hem de yukarıda bahsedilen “daha zor” alt kümeyi test etti:

Burada yazarlar şu yorumu yapıyor:

‘En iyi performans gösteren model olan Wan2.1-14B bile, veri kümemizin tam ve zor bölümlerinde sırasıyla yalnızca %32.6 ve %21.9 elde ediyor. Diğer modellere kıyasla nispeten güçlü performansı, çok modlu eğitim verilerinin çeşitliliğine ve çok çeşitli eylemlerde yüksek kaliteli videoları koruyan sağlam hareket filtrelemesine bağlanabilir.

‘Ayrıca, Ray2 gibi kapalı modellerin, Wan2.1-14B ve CogVideoX-5B gibi açık modellerden daha kötü performans gösterdiğini gözlemliyoruz. Bu, kapalı modellerin fiziksel sağduyuyu yakalamada açık modellerden mutlaka üstün olmadığını gösteriyor.

‘Özellikle, Cosmos-Diffusion-7B, çok daha büyük HunyuanVideo-13B modelinden bile daha iyi performans göstererek zor bölümde ikinci en iyi puanı elde ediyor. Bu, eğitim verilerindeki insan eylemlerinin yüksek temsiline ve sentetik olarak oluşturulmuş simülasyonlara bağlı olabilir.’

Sonuçlar, video modellerinin spor gibi fiziksel aktivitelerle basit nesne etkileşimlerinden daha fazla mücadele ettiğini gösterdi. Bu, bu alandaki yapay zeka tarafından oluşturulan videoları iyileştirmenin daha iyi veri kümeleri gerektireceğini gösteriyor - özellikle tenis, disk, beyzbol ve kriket gibi sporların yüksek kaliteli görüntüleri.

Çalışma ayrıca bir modelin fiziksel olasılığının estetik ve hareket düzgünlüğü gibi diğer video kalitesi metrikleriyle ilişkili olup olmadığını da inceledi. Bulgular güçlü bir korelasyon olmadığını ortaya çıkardı, yani bir model yalnızca görsel olarak çekici veya akıcı hareketler üreterek VideoPhy-2 üzerindeki performansını iyileştiremez - daha derin bir fiziksel sağduyu anlayışına ihtiyacı var.

Nitel Örnekler: Zorlukları Vurgulama

Makale bol miktarda nitel örnek sunsa da, PDF’de sağlanan statik örneklerin çok azı, yazarların proje sitesinde sunduğu kapsamlı video tabanlı örneklerle ilgili görünüyor. Bu nedenle, statik örneklerin küçük bir seçimine ve ardından proje videolarından bazılarına daha bakacağız.

Yukarıdaki nitel testle ilgili olarak, yazarlar şu yorumu yapıyor:

‘[Biz] jet skilerin doğal olmayan bir şekilde ters yönde hareket etmesi ve esneklik ilkelerine meydan okuyan katı bir balyozun deformasyonu gibi fiziksel sağduyu ihlallerini gözlemliyoruz. Ancak, Wan bile [bu makalenin başında yerleştirilen klipte] gösterildiği gibi fiziksel sağduyu eksikliğinden muzdariptir.

‘Bu durumda, bir kayanın yuvarlanmaya başladığını ve yerçekimi fizik yasasına meydan okuyarak yokuş yukarı hızlandığını vurguluyoruz.’

Başlangıçta belirtildiği gibi, bu projeyle ilişkili materyalin hacmi burada ele alınabileceklerin çok ötesindedir. Bu nedenle, yazarların prosedürlerinin gerçekten kapsamlı bir taslağı ve önemli ölçüde daha fazla test örneği ve prosedürel ayrıntı için lütfen kaynak makaleye, proje sitesine ve daha önce bahsedilen ilgili sitelere bakın.

* Açıklamaların kaynağına gelince, makale yalnızca ‘bu görevler için edinildiğini’ belirtiyor - 12 AMT çalışanı tarafından oluşturulmuş gibi görünüyor.

İlk olarak 13 Mart 2025 Perşembe günü yayınlandı