AI 비디오가 가끔씩 거꾸로 가는 이유

중국 생성형 비디오 모델의 부상

2022년이 생성형 AI가 대중의 상상력을 사로잡은 해였다면, 2025년은 중국발 새로운 생성형 비디오 프레임워크가 중심 무대에 오르는 해가 될 것으로 보입니다.

Tencent의 Hunyuan Video는 이미 AI 커뮤니티에서 큰 반향을 일으켰습니다. 완전한 월드 비디오 확산 모델의 오픈 소스 릴리스를 통해 사용자는 자신의 특정 요구에 맞게 기술을 조정할 수 있습니다.

Alibaba의 Wan 2.1은 최근에 출시되었습니다. 이 모델은 현재 사용 가능한 가장 강력한 이미지-투-비디오 Free and Open Source Software (FOSS) 솔루션 중 하나로 돋보이며, 이제 Wan LoRA를 통한 커스터마이징을 지원합니다.

이러한 개발 외에도, Alibaba의 포괄적인 VACE 비디오 생성 및 편집 제품군과 최근의 인간 중심 파운데이션 모델인 SkyReels의 출시도 기대하고 있습니다.

생성형 비디오 AI 연구 현장도 폭발적입니다. 아직 3월 초이지만, 화요일 Arxiv의 Computer Vision 섹션(생성형 AI 논문의 핵심 허브)에 제출된 논문은 거의 350개에 달했습니다. 이는 일반적으로 컨퍼런스 시즌의 절정기에 볼 수 있는 숫자입니다.

2022년 여름 Stable Diffusion 출시(그리고 Dreambooth 및 LoRA 커스터마이징 방법의 후속 개발) 이후 2년 동안은 주요 돌파구가 상대적으로 부족했습니다. 그러나 지난 몇 주 동안 새로운 릴리스와 혁신이 급증하여 모든 것을 포괄적으로 다루는 것은 고사하고 완전히 정보를 파악하는 것조차 거의 불가능할 정도입니다.

시간적 일관성 해결, 그러나 새로운 과제 등장

Hunyuan 및 Wan 2.1과 같은 비디오 확산 모델은 마침내 시간적 일관성 문제를 해결했습니다. 수년간 수백 개의 연구 이니셔티브에서 실패한 시도 끝에, 이 모델들은 시간이 지남에 따라 일관된 인간, 환경 및 객체를 생성하는 것과 관련된 문제를 크게 해결했습니다.

VFX 스튜디오가 이러한 새로운 중국 비디오 모델을 적용하기 위해 직원과 리소스를 적극적으로 투입하고 있다는 데는 의심의 여지가 없습니다. 현재 이러한 시스템에 대한 ControlNet 스타일의 보조 메커니즘이 없음에도 불구하고, 그들의 즉각적인 목표는 얼굴 교체와 같은 시급한 문제를 해결하는 것입니다.

예상했던 채널을 통해서는 아니더라도, 그렇게 중요한 장애물이 잠재적으로 극복되었다는 것은 엄청난 안도감을 줄 것입니다.

그러나 남아 있는 문제 중 하나가 특히 중요합니다.

상용 폐쇄 소스 모델을 포함하여 현재 사용 가능한 모든 텍스트-투-비디오 및 이미지-투-비디오 시스템은 물리학을 거스르는 실수를 생성하는 경향이 있습니다. 위의 예는 *’작은 바위가 가파르고 바위가 많은 언덕 아래로 굴러 떨어지며 흙과 작은 돌을 밀어냅니다’*라는 프롬프트에서 생성된 오르막길을 구르는 바위를 보여줍니다.

AI 비디오가 물리학을 잘못 이해하는 이유는 무엇입니까?

최근 Alibaba와 UAE의 학술 협력에서 제안된 한 이론에 따르면, 모델이 시간 순서에 대한 이해를 방해하는 방식으로 학습하고 있을 수 있습니다. 비디오(학습을 위해 단일 프레임 시퀀스로 분해됨)로 학습할 때도 모델은 ‘이전’ 이미지와 ‘이후’ 이미지의 올바른 순서를 본질적으로 파악하지 못할 수 있습니다.

그러나 가장 그럴듯한 설명은 해당 모델이 데이터 증강 루틴을 사용했다는 것입니다. 이러한 루틴은 모델을 소스 학습 클립에 정방향 역방향으로 노출시켜 학습 데이터를 효과적으로 두 배로 늘립니다.

이것이 무차별적으로 수행되어서는 안 된다는 것은 이미 알려져 있습니다. 일부 움직임은 반대로 작동하지만 많은 움직임은 그렇지 않습니다. 영국 브리스톨 대학교의 2019년 연구는 단일 데이터 세트 내에서 등변, 불변비가역 소스 데이터 비디오 클립을 구별하는 방법을 개발하는 것을 목표로 했습니다. 목표는 데이터 증강 루틴에서 부적합한 클립을 필터링하는 것이었습니다.

해당 연구의 저자는 문제를 명확하게 설명했습니다.

‘우리는 반전된 비디오의 현실성이 반전 인공물, 즉 자연 세계에서는 불가능한 장면의 측면에 의해 배신된다는 것을 발견했습니다. 일부 인공물은 미묘하지만 다른 인공물은 쉽게 발견할 수 있습니다. 예를 들어 던져진 물체가 바닥에서 자발적으로 솟아오르는 반전된 ‘던지기’ 동작과 같습니다.

‘우리는 두 가지 유형의 반전 인공물을 관찰합니다. 물리적 인공물은 자연 법칙을 위반하는 것을 나타내고, 불가능한 인공물은 가능하지만 가능성이 낮은 시나리오를 묘사합니다. 이것들은 배타적이지 않으며, 많은 반전된 동작은 종이를 구기는 것과 같이 두 가지 유형의 인공물을 모두 겪습니다.

‘물리적 인공물의 예로는 반전된 중력(예: ‘무언가를 떨어뜨리기’), 물체에 대한 자발적인 충동(예: ‘펜 돌리기’), 비가역적 상태 변화(예: ‘양초 태우기’) 등이 있습니다. 불가능한 인공물의 예: 찬장에서 접시를 꺼내 말리고 건조대에 놓는 것.

‘이러한 종류의 데이터 재사용은 학습 시간에 매우 일반적이며 유익할 수 있습니다. 예를 들어 모델이 중심 일관성과 논리를 잃지 않고 뒤집거나 회전할 수 있는 이미지나 객체의 한 가지 뷰만 학습하지 않도록 하는 데 도움이 될 수 있습니다.

‘이것은 물론 진정으로 대칭적인 객체에만 작동합니다. 그리고 ‘반전된’ 비디오에서 물리학을 배우는 것은 반전된 버전이 정방향 버전만큼 의미가 있는 경우에만 작동합니다.’

Hunyuan Video 및 Wan 2.1과 같은 시스템이 학습 중에 임의의 ‘반전된’ 클립을 허용했다는 구체적인 증거는 없습니다(두 연구 그룹 모두 데이터 증강 루틴에 대해 구체적으로 밝히지 않았습니다).

그러나 수많은 보고서(그리고 제 자신의 실제 경험)를 고려할 때, 다른 유일한 합리적인 설명은 이러한 모델을 구동하는 하이퍼스케일 데이터 세트에 실제로 반대로 발생하는 움직임을 특징으로 하는 클립이 포함되어 있을 수 있다는 것입니다.

앞서 포함된 예제 비디오의 바위는 Wan 2.1을 사용하여 생성되었습니다. 비디오 확산 모델이 물리학을 얼마나 잘 처리하는지 조사하는 새로운 연구에 등장합니다.

이 프로젝트의 테스트에서 Wan 2.1은 물리 법칙을 일관되게 준수하는 능력에서 22%의 점수를 얻었습니다.

놀랍게도, 그것은 테스트된 모든 시스템 중 가장 높은 점수이며, 이는 우리가 비디오 AI의 다음 주요 장애물을 식별했을 수 있음을 시사합니다.

VideoPhy-2 소개: 물리적 상식을 위한 새로운 벤치마크

새로운 연구의 저자는 VideoPhy라는 벤치마킹 시스템(현재 두 번째 반복)을 개발했습니다. 코드는 GitHub에서 사용할 수 있습니다.

작업 범위가 너무 광범위하여 여기서 포괄적으로 다룰 수는 없지만, 방법론과 이러한 기괴한 반전 사례에서 벗어나 미래의 모델 학습 세션을 안내할 수 있는 메트릭을 설정할 수 있는 잠재력을 살펴보겠습니다.

UCLA와 Google Research의 6명의 연구원이 수행한 이 연구의 제목은 VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation입니다. 포괄적인 관련 프로젝트 사이트도 GitHub의 코드 및 데이터 세트, HuggingFace의 데이터 세트 뷰어와 함께 사용할 수 있습니다.

저자는 최신 버전인 VideoPhy-2를 ‘실제 동작에 대한 도전적인 상식 평가 데이터 세트’라고 설명합니다. 이 컬렉션은 훌라후프, 체조, 테니스와 같은 다양한 신체 활동과 물체가 부러질 때까지 구부리기와 같은 객체 상호 작용을 포함하여 197개의 동작을 특징으로 합니다.

대규모 언어 모델(LLM)은 이러한 시드 동작에서 3840개의 프롬프트를 생성하는 데 사용됩니다. 그런 다음 이러한 프롬프트는 테스트 중인 다양한 프레임워크를 사용하여 비디오를 합성하는 데 사용됩니다.

전체 과정에서 저자는 AI 생성 비디오가 준수해야 하는 ‘후보’ 물리적 규칙 및 법칙 목록을 작성했으며 평가를 위해 비전-언어 모델을 사용했습니다.

저자는 다음과 같이 말합니다.

‘예를 들어, 운동 선수가 테니스를 치는 비디오에서 물리적 규칙은 테니스 공이 중력 하에서 포물선 궤적을 따라야 한다는 것입니다. 골드 스탠다드 판단을 위해, 우리는 인간 주석자에게 전반적인 의미론적 준수 및 물리적 상식을 기반으로 각 비디오에 점수를 매기고 다양한 물리적 규칙 준수를 표시하도록 요청합니다.’

동작 큐레이션 및 프롬프트 생성

처음에 연구자들은 AI 생성 비디오에서 물리적 상식을 평가하기 위한 일련의 동작을 큐레이션했습니다. 그들은 스포츠, 객체 상호 작용 및 실제 물리학과 관련된 활동에 초점을 맞춰 Kinetics, UCF-101 및 SSv2 데이터 세트에서 가져온 600개 이상의 동작으로 시작했습니다.

STEM 교육을 받은 학생 주석자(최소 학부 자격)로 구성된 두 개의 독립적인 그룹이 목록을 검토하고 필터링했습니다. 그들은 중력, 운동량탄성과 같은 원리를 테스트하는 동작을 선택하고 타이핑, 고양이 쓰다듬기 또는 씹기와 같은 저동작 작업을 제거했습니다.

중복을 제거하기 위해 Gemini-2.0-Flash-Exp로 추가 개선한 후 최종 데이터 세트에는 197개의 동작이 포함되었습니다. 54개는 객체 상호 작용과 관련이 있었고 143개는 신체 및 스포츠 활동을 중심으로 했습니다.

두 번째 단계에서 연구자들은 Gemini-2.0-Flash-Exp를 사용하여 데이터 세트의 각 동작에 대해 20개의 프롬프트를 생성하여 총 3,940개의 프롬프트를 생성했습니다. 생성 프로세스는 생성된 비디오에서 명확하게 표현될 수 있는 가시적인 물리적 상호 작용에 초점을 맞췄습니다. 여기에는 감정, 감각적 세부 사항추상적 언어와 같은 비시각적 요소는 제외되었지만 다양한 캐릭터와 객체가 통합되었습니다.

예를 들어, *’궁수가 화살을 놓습니다’*와 같은 간단한 프롬프트 대신 모델은 *’궁수가 활시위를 최대한 당긴 다음 화살을 놓으면 화살이 똑바로 날아가 종이 표적의 과녁을 맞춥니다’*와 같이 더 자세한 버전을 생성하도록 안내되었습니다.

최신 비디오 모델은 더 긴 설명을 해석할 수 있으므로 연구자들은 Mistral-NeMo-12B-Instruct 프롬프트 업샘플러를 사용하여 캡션을 더욱 개선했습니다. 이것은 원래 의미를 변경하지 않고 시각적 세부 정보를 추가했습니다.

물리적 규칙 도출 및 도전적인 동작 식별

세 번째 단계에서는 물리적 규칙이 텍스트 프롬프트가 아니라 생성된 비디오에서 파생되었습니다. 이는 생성 모델이 조건부 텍스트 프롬프트를 준수하는 데 어려움을 겪을 수 있기 때문입니다.

비디오는 먼저 VideoPhy-2 프롬프트를 사용하여 생성된 다음 Gemini-2.0-Flash-Exp로 ‘업캡션’되어 주요 세부 정보를 추출했습니다. 모델은 비디오당 세 가지 예상 물리적 규칙을 제안했습니다. 인간 주석자는 추가적인 잠재적 위반 사항을 식별하여 이를 검토하고 확장했습니다.

다음으로, 가장 어려운 동작을 식별하기 위해 연구자들은 VideoPhy-2 데이터 세트의 프롬프트를 사용하여 CogVideoX-5B로 비디오를 생성했습니다. 그런 다음 모델이 프롬프트와 기본 물리적 상식을 모두 따르지 못한 197개 동작 중 60개를 선택했습니다.

이러한 동작에는 원반 던지기의 운동량 전달, 물체가 부러질 때까지 구부리는 것과 같은 상태 변화, 외줄타기와 같은 균형 작업, 백플립, 장대높이뛰기, 피자 던지기 등을 포함하는 복잡한 동작과 같은 물리학이 풍부한 상호 작용이 포함되었습니다. 총 1,200개의 프롬프트가 하위 데이터 세트의 난이도를 높이기 위해 선택되었습니다.

VideoPhy-2 데이터 세트: 포괄적인 평가 리소스

결과 데이터 세트는 3,940개의 캡션으로 구성되었으며, 이는 이전 버전의 VideoPhy보다 5.72배 더 많습니다. 원본 캡션의 평균 길이는 16토큰이고 업샘플된 캡션은 138토큰에 도달하여 각각 1.88배 및 16.2배 더 깁니다.

이 데이터 세트는 또한 여러 비디오 생성 모델에서 의미론적 준수, 물리적 상식 및 규칙 위반을 다루는 102,000개의 인간 주석을 특징으로 합니다.

평가 기준 및 인간 주석 정의

그런 다음 연구자들은 비디오 평가를 위한 명확한 기준을 정의했습니다. 주요 목표는 각 비디오가 입력 프롬프트와 얼마나 잘 일치하고 기본 물리적 원리를 따르는지 평가하는 것이었습니다.

단순히 선호도에 따라 비디오 순위를 매기는 대신 등급 기반 피드백을 사용하여 특정 성공 및 실패를 포착했습니다. 인간 주석자는 5점 척도로 비디오에 점수를 매겨 더 자세한 판단을 허용했습니다. 평가는 또한 비디오가 다양한 물리적 규칙 및 법칙을 따랐는지 여부를 확인했습니다.

인간 평가를 위해 Amazon Mechanical Turk(AMT)의 시험에서 12명의 주석자 그룹을 선발하고 자세한 원격 지침을 받은 후 등급을 제공했습니다. 공정성을 위해 의미론적 준수물리적 상식은 별도로 평가되었습니다(원래 VideoPhy 연구에서는 공동으로 평가됨).

주석자는 먼저 비디오가 입력 프롬프트와 얼마나 잘 일치하는지 평가한 다음 물리적 타당성을 별도로 평가하여 규칙 위반 및 전반적인 현실성을 5점 척도로 채점했습니다. 모델 간의 공정한 비교를 유지하기 위해 원본 프롬프트만 표시되었습니다.

자동화된 평가: 확장 가능한 모델 평가를 향하여

인간의 판단이 여전히 골드 스탠다드로 남아 있지만 비용이 많이 들고 몇 가지 주의 사항이 있습니다. 따라서 자동화된 평가는 더 빠르고 확장 가능한 모델 평가에 필수적입니다.

이 논문의 저자는 Gemini-2.0-Flash-Exp 및 VideoScore를 포함한 여러 비디오-언어 모델을 테스트하여 의미론적 정확성과 ‘물리적 상식’에 대한 비디오 점수를 매기는 능력을 평가했습니다.

모델은 다시 각 비디오를 5점 척도로 평가했습니다. 별도의 분류 작업은 물리적 규칙이 준수되었는지, 위반되었는지 또는 불분명한지 여부를 결정했습니다.

실험 결과 기존 비디오-언어 모델은 주로 약한 물리적 추론과 프롬프트의 복잡성으로 인해 인간의 판단과 일치하는 데 어려움을 겪었습니다. 자동화된 평가를 개선하기 위해 연구자들은 의미론적 준수, 물리적 상식규칙 준수의 세 가지 범주에서 보다 정확한 예측을 제공하도록 설계된 7B-파라미터 모델인 VideoPhy-2-Autoeval을 개발했습니다. 50,000개의 인간 주석*을 사용하여 VideoCon-Physics 모델에서 미세 조정되었습니다.

생성형 비디오 시스템 테스트: 비교 분석

이러한 도구를 사용하여 저자는 로컬 설치를 통해, 그리고 필요한 경우 상용 API를 통해 여러 생성형 비디오 시스템을 테스트했습니다: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; 및 Luma Ray.

가능한 경우 업샘플된 캡션으로 모델을 프롬프트했지만 Hunyuan Video 및 VideoCrafter2는 77토큰 CLIP 제한 하에서 작동하며 특정 길이 이상의 프롬프트를 수락할 수 없습니다.

생성된 비디오는 6초 미만으로 유지되었습니다. 더 짧은 출력이 평가하기 더 쉽기 때문입니다.

구동 데이터는 벤치마크 및 학습 세트로 분할된 VideoPhy-2 데이터 세트에서 가져왔습니다. Sora 및 Ray2를 제외하고 모델당 590개의 비디오가 생성되었습니다. 비용 요인으로 인해 이러한 모델에 대해 동등하게 적은 수의 비디오가 생성되었습니다.

초기 평가는 신체 활동/스포츠(PA) 및 객체 상호 작용(OI)을 다루었으며 일반 데이터 세트와 앞서 언급한 ‘더 어려운’ 하위 집합을 모두 테스트했습니다.

여기서 저자는 다음과 같이 언급합니다.

‘최고 성능 모델인 Wan2.1-14B조차도 데이터 세트의 전체 및 어려운 분할에서 각각 32.6% 및 21.9%만 달성합니다. 다른 모델에 비해 상대적으로 강력한 성능은 다중 모드 학습 데이터의 다양성과 광범위한 동작에서 고품질 비디오를 보존하는 강력한 모션 필터링 덕분입니다.

‘또한 Ray2와 같은 폐쇄형 모델은 Wan2.1-14B 및 CogVideoX-5B와 같은 개방형 모델보다 성능이 더 나쁩니다. 이는 폐쇄형 모델이 물리적 상식을 포착하는 데 반드시 개방형 모델보다 우수하지 않음을 시사합니다.

‘특히 Cosmos-Diffusion-7B는 훨씬 더 큰 HunyuanVideo-13B 모델보다 성능이 뛰어나 어려운 분할에서 두 번째로 높은 점수를 달성했습니다. 이는 학습 데이터에서 인간 동작의 높은 표현과 함께 합성적으로 렌더링된 시뮬레이션 때문일 수 있습니다.’

결과는 비디오 모델이 단순한 객체 상호 작용보다 스포츠와 같은 신체 활동에 더 어려움을 겪는다는 것을 보여주었습니다. 이는 이 영역에서 AI 생성 비디오를 개선하려면 더 나은 데이터 세트, 특히 테니스, 원반, 야구 및 크리켓과 같은 스포츠의 고품질 영상이 필요함을 시사합니다.

이 연구는 또한 모델의 물리적 타당성이 미학 및 모션 부드러움과 같은 다른 비디오 품질 메트릭과 상관 관계가 있는지 여부를 조사했습니다. 그 결과 강한 상관 관계가 없는 것으로 나타났습니다. 즉, 모델은 시각적으로 매력적이거나 유동적인 모션을 생성하는 것만으로는 VideoPhy-2에서 성능을 향상시킬 수 없으며 물리적 상식에 대한 더 깊은 이해가 필요합니다.

질적 예: 과제 강조

이 논문은 풍부한 질적 예를 제공하지만 PDF에 제공된 정적 예 중 프로젝트 사이트에서 저자가 제공하는 광범위한 비디오 기반 예와 관련된 것은 거의 없는 것 같습니다. 따라서 정적 예의 작은 선택과 실제 프로젝트 비디오의 일부를 더 살펴보겠습니다.

위의 질적 테스트와 관련하여 저자는 다음과 같이 언급합니다.

‘[우리는] 제트스키가 부자연스럽게 뒤로 움직이고 탄성 원리를 무시하는 단단한 슬레지해머의 변형과 같은 물리적 상식 위반을 관찰합니다. 그러나 Wan조차도 [이 기사의 시작 부분에 포함된 클립]에서 볼 수 있듯이 물리적 상식이 부족합니다.

‘이 경우, 우리는 바위가 중력의 물리 법칙을 무시하고 오르막길을 구르기 시작하고 가속한다는 점을 강조합니다.’

처음에 언급했듯이 이 프로젝트와 관련된 자료의 양은 여기서 다룰 수 있는 범위를 훨씬 초과합니다. 따라서 저자의 절차에 대한 진정으로 철저한 개요와 상당히 더 많은 테스트 예 및 절차적 세부 사항은 앞서 언급한 소스 논문, 프로젝트 사이트 및 관련 사이트를 참조하십시오.

* 주석의 출처에 관해서는 논문은 ‘이러한 작업을 위해 획득’이라고만 명시합니다. 12명의 AMT 작업자가 생성한 것으로 보입니다.

2025년 3월 13일 목요일에 처음 게시됨