Sự Trỗi Dậy của Các Mô Hình Video Tạo Sinh từ Trung Quốc
Nếu năm 2022 đánh dấu năm AI tạo sinh thực sự thu hút trí tưởng tượng của công chúng, thì năm 2025 đang định hình là năm mà một làn sóng mới của các framework video tạo sinh từ Trung Quốc chiếm vị trí trung tâm.
Tencent’s Hunyuan Video đã tạo ra những làn sóng đáng kể trong cộng đồng người yêu thích AI. Việc phát hành mã nguồn mở của mô hình khuếch tán video toàn thế giới cho phép người dùng điều chỉnh công nghệ theo nhu cầu cụ thể của họ.
Theo sát phía sau là Wan 2.1 của Alibaba, được phát hành gần đây hơn. Mô hình này nổi bật là một trong những giải pháp Phần mềm Miễn phí và Mã nguồn Mở (FOSS) từ ảnh sang video mạnh mẽ nhất hiện có, và nó hiện hỗ trợ tùy chỉnh thông qua Wan LoRAs.
Ngoài những phát triển này, chúng tôi cũng đang dự đoán việc phát hành bộ công cụ tạo và chỉnh sửa video VACE toàn diện của Alibaba, cùng với sự sẵn có của mô hình nền tảng tập trung vào con người gần đây, SkyReels.
Bối cảnh nghiên cứu AI video tạo sinh cũng bùng nổ không kém. Vẫn còn là đầu tháng Ba, nhưng các bài nộp hôm thứ Ba cho phần Computer Vision của Arxiv (một trung tâm quan trọng cho các bài báo về AI tạo sinh) đã lên tới gần 350 bài – một con số thường thấy trong thời kỳ cao điểm của mùa hội nghị.
Hai năm kể từ khi Stable Diffusion ra mắt vào mùa hè năm 2022 (và sự phát triển tiếp theo của các phương pháp tùy chỉnh Dreambooth và LoRA) được đặc trưng bởi sự thiếu hụt tương đối các đột phá lớn. Tuy nhiên, vài tuần qua đã chứng kiến một sự gia tăng của các bản phát hành và đổi mới mới, đến với tốc độ nhanh đến mức gần như không thể cập nhật đầy đủ thông tin, chứ đừng nói đến việc bao quát mọi thứ một cách toàn diện.
Giải Quyết Tính Nhất Quán Thời Gian, Nhưng Những Thách Thức Mới Xuất Hiện
Các mô hình khuếch tán video như Hunyuan và Wan 2.1, cuối cùng đã giải quyết được vấn đề về tính nhất quán thời gian. Sau nhiều năm nỗ lực không thành công từ hàng trăm sáng kiến nghiên cứu, các mô hình này phần lớn đã giải quyết được những thách thức liên quan đến việc tạo ra con người, môi trường và đối tượng nhất quán theo thời gian.
Có rất ít nghi ngờ rằng các studio VFX đang tích cực dành nhân viên và nguồn lực để điều chỉnh các mô hình video mới này của Trung Quốc. Mục tiêu trước mắt của họ là giải quyết các thách thức cấp bách như hoán đổi khuôn mặt, mặc dù hiện tại không có các cơ chế phụ trợ kiểu ControlNet cho các hệ thống này.
Chắc hẳn đó là một sự nhẹ nhõm lớn khi một trở ngại đáng kể như vậy có khả năng đã được khắc phục, ngay cả khi nó không thông qua các kênh dự kiến.
Tuy nhiên, trong số các vấn đề còn lại, một vấn đề nổi lên là đặc biệt quan trọng:
Tất cả các hệ thống chuyển văn bản thành video và ảnh thành video hiện có, bao gồm cả các mô hình nguồn đóng thương mại, có xu hướng tạo ra những sai lầm bất chấp vật lý. Ví dụ trên cho thấy một tảng đá lăn lên dốc, được tạo ra từ câu lệnh: ‘Một tảng đá nhỏ lăn xuống một sườn đồi dốc, đá, làm dịch chuyển đất và những viên đá nhỏ’.
Tại Sao Video AI Lại Sai Về Vật Lý?
Một giả thuyết, gần đây được đề xuất trong một sự hợp tác học thuật giữa Alibaba và UAE, cho rằng các mô hình có thể đang học theo cách cản trở sự hiểu biết của chúng về thứ tự thời gian. Ngay cả khi đào tạo trên video (được chia thành các chuỗi khung hình đơn để đào tạo), các mô hình có thể không hiểu rõ trình tự chính xác của các hình ảnh “trước” và “sau”.
Tuy nhiên, lời giải thích hợp lý nhất là các mô hình được đề cập đã sử dụng các quy trình tăng cường dữ liệu. Các quy trình này liên quan đến việc cho mô hình tiếp xúc với một clip đào tạo nguồn cả về phía trước và phía sau, tăng gấp đôi dữ liệu đào tạo một cách hiệu quả.
Từ lâu, người ta đã biết rằng điều này không nên được thực hiện một cách bừa bãi. Trong khi một số chuyển động hoạt động ngược lại, nhiều chuyển động thì không. Một nghiên cứu năm 2019 từ Đại học Bristol của Vương quốc Anh nhằm mục đích phát triển một phương pháp để phân biệt giữa các clip video nguồn dữ liệu equivariant, invariant, và irreversible trong một tập dữ liệu duy nhất. Mục tiêu là lọc ra các clip không phù hợp khỏi các quy trình tăng cường dữ liệu.
Các tác giả của công trình đó đã trình bày rõ ràng vấn đề:
‘Chúng tôi nhận thấy tính hiện thực của các video đảo ngược bị phản bội bởi các hiện vật đảo ngược, các khía cạnh của cảnh mà sẽ không thể có trong một thế giới tự nhiên. Một số hiện vật rất tinh tế, trong khi những hiện vật khác rất dễ phát hiện, như một hành động ‘ném’ bị đảo ngược, nơi vật thể bị ném tự động bay lên từ sàn nhà.
‘Chúng tôi quan sát thấy hai loại hiện vật đảo ngược, vật lý, những hiện vật thể hiện sự vi phạm các định luật tự nhiên, và không thể xảy ra, những hiện vật mô tả một kịch bản có thể xảy ra nhưng không chắc chắn. Chúng không loại trừ lẫn nhau, và nhiều hành động đảo ngược bị cả hai loại hiện vật, như khi làm phẳng một mảnh giấy.
‘Ví dụ về các hiện vật vật lý bao gồm: trọng lực đảo ngược (ví dụ: ‘làm rơi thứ gì đó’), xung lực tự phát trên các vật thể (ví dụ: ‘quay bút’) và thay đổi trạng thái không thể đảo ngược (ví dụ: ‘đốt nến’). Một ví dụ về hiện vật không thể xảy ra: lấy một cái đĩa từ tủ, lau khô và đặt nó lên giá phơi.
‘Loại tái sử dụng dữ liệu này rất phổ biến tại thời điểm đào tạo và có thể có lợi – ví dụ, trong việc đảm bảo rằng mô hình không chỉ học một chế độ xem của hình ảnh hoặc đối tượng có thể bị lật hoặc xoay mà không làm mất đi tính mạch lạc và logic trung tâm của nó.
‘Điều này chỉ hoạt động đối với các đối tượng thực sự đối xứng, tất nhiên; và việc học vật lý từ một video ‘đảo ngược’ chỉ hoạt động nếu phiên bản đảo ngược có ý nghĩa như phiên bản chuyển tiếp.’
Chúng tôi không có bằng chứng cụ thể rằng các hệ thống như Hunyuan Video và Wan 2.1 cho phép các clip “đảo ngược” tùy ý trong quá trình đào tạo (cả hai nhóm nghiên cứu đều không cụ thể về các quy trình tăng cường dữ liệu của họ).
Tuy nhiên, xem xét nhiều báo cáo (và kinh nghiệm thực tế của riêng tôi), lời giải thích hợp lý duy nhất khác là các tập dữ liệu siêu lớn cung cấp năng lượng cho các mô hình này có thể chứa các clip thực sự có các chuyển động xảy ra ngược lại.
Tảng đá trong video ví dụ được nhúng trước đó được tạo bằng Wan 2.1. Nó xuất hiện trong một nghiên cứu mới điều tra mức độ các mô hình khuếch tán video xử lý vật lý.
Trong các thử nghiệm cho dự án này, Wan 2.1 chỉ đạt được điểm số 22% về khả năng tuân thủ nhất quán các định luật vật lý.
Đáng ngạc nhiên, đó là điểm số tốt nhất trong số tất cả các hệ thống được thử nghiệm, cho thấy rằng chúng ta có thể đã xác định được trở ngại lớn tiếp theo cho AI video:
Giới Thiệu VideoPhy-2: Một Chuẩn Mực Mới cho Lý Trí Thông Thường Vật Lý
Các tác giả của công trình mới đã phát triển một hệ thống đo điểm chuẩn, hiện đang ở lần lặp thứ hai, được gọi là VideoPhy. Mã có sẵn trên GitHub.
Mặc dù phạm vi của công việc quá rộng để bao quát toàn diện ở đây, chúng ta hãy xem xét phương pháp luận của nó và tiềm năng của nó để thiết lập một số liệu có thể hướng dẫn các phiên đào tạo mô hình trong tương lai tránh xa những trường hợp đảo ngược kỳ lạ này.
Nghiên cứu, được thực hiện bởi sáu nhà nghiên cứu từ UCLA và Google Research, có tiêu đề VideoPhy-2: A Challenging Action-Centric Physical Commonsense Evaluation in Video Generation. Một trang web dự án đi kèm toàn diện cũng có sẵn, cùng với mã và tập dữ liệu trên GitHub, và một trình xem tập dữ liệu trên Hugging Face.
Các tác giả mô tả phiên bản mới nhất, VideoPhy-2, là “một tập dữ liệu đánh giá lý trí thông thường đầy thách thức cho các hành động trong thế giới thực.” Bộ sưu tập có 197 hành động trên một loạt các hoạt động thể chất đa dạng, bao gồm hula-hooping, thể dục dụng cụ, và tennis, cũng như các tương tác đối tượng như uốn cong một vật thể cho đến khi nó gãy.
Một mô hình ngôn ngữ lớn (LLM) được sử dụng để tạo 3840 câu lệnh từ các hành động hạt giống này. Các câu lệnh này sau đó được sử dụng để tổng hợp video bằng các framework khác nhau đang được thử nghiệm.
Trong suốt quá trình, các tác giả đã biên soạn một danh sách các quy tắc và định luật vật lý “ứng cử viên” mà các video do AI tạo ra nên tuân theo, sử dụng các mô hình ngôn ngữ-thị giác để đánh giá.
Các tác giả tuyên bố:
‘Ví dụ, trong một video về vận động viên thể thao chơi tennis, một quy tắc vật lý sẽ là quả bóng tennis phải đi theo quỹ đạo parabol dưới tác dụng của trọng lực. Đối với các đánh giá tiêu chuẩn vàng, chúng tôi yêu cầu những người chú thích là con người chấm điểm từng video dựa trên sự tuân thủ ngữ nghĩa tổng thể và lý trí thông thường vật lý, và đánh dấu sự tuân thủ của nó với các quy tắc vật lý khác nhau.’
Quản Lý Hành Động và Tạo Câu Lệnh
Ban đầu, các nhà nghiên cứu đã quản lý một tập hợp các hành động để đánh giá lý trí thông thường vật lý trong các video do AI tạo ra. Họ bắt đầu với hơn 600 hành động có nguồn gốc từ các tập dữ liệu Kinetics, UCF-101 và SSv2, tập trung vào các hoạt động liên quan đến thể thao, tương tác đối tượng và vật lý trong thế giới thực.
Hai nhóm độc lập gồm các sinh viên chú thích được đào tạo về STEM (với trình độ đại học tối thiểu) đã xem xét và lọc danh sách. Họ đã chọn các hành động kiểm tra các nguyên tắc như trọng lực, động lượng, và độ đàn hồi, đồng thời loại bỏ các tác vụ chuyển động thấp như đánh máy, vuốt ve mèo, hoặc nhai.
Sau khi tinh chỉnh thêm với Gemini-2.0-Flash-Exp để loại bỏ các bản sao, tập dữ liệu cuối cùng bao gồm 197 hành động. 54 liên quan đến tương tác đối tượng, và 143 tập trung vào các hoạt động thể chất và thể thao:
Ở giai đoạn thứ hai, các nhà nghiên cứu đã sử dụng Gemini-2.0-Flash-Exp để tạo 20 câu lệnh cho mỗi hành động trong tập dữ liệu, dẫn đến tổng cộng 3.940 câu lệnh. Quá trình tạo tập trung vào các tương tác vật lý có thể nhìn thấy có thể được thể hiện rõ ràng trong một video được tạo. Điều này loại trừ các yếu tố không trực quan như cảm xúc, chi tiết cảm giác, và ngôn ngữ trừu tượng, nhưng kết hợp các nhân vật và đối tượng đa dạng.
Ví dụ, thay vì một câu lệnh đơn giản như ‘Một cung thủ thả mũi tên’, mô hình được hướng dẫn để tạo ra một phiên bản chi tiết hơn như ‘Một cung thủ kéo dây cung về phía sau đến độ căng tối đa, sau đó thả mũi tên, bay thẳng và bắn trúng hồng tâm trên một mục tiêu giấy’.
Vì các mô hình video hiện đại có thể diễn giải các mô tả dài hơn, các nhà nghiên cứu đã tinh chỉnh thêm các chú thích bằng cách sử dụng trình lấy mẫu câu lệnh Mistral-NeMo-12B-Instruct. Điều này đã thêm các chi tiết trực quan mà không làm thay đổi ý nghĩa ban đầu.
Suy Luận Các Quy Tắc Vật Lý và Xác Định Các Hành Động Thách Thức
Đối với giai đoạn thứ ba, các quy tắc vật lý được suy ra không phải từ các câu lệnh văn bản mà từ các video được tạo. Điều này là do các mô hình tạo sinh có thể gặp khó khăn trong việc tuân thủ các câu lệnh văn bản có điều kiện.
Các video đầu tiên được tạo bằng các câu lệnh VideoPhy-2, sau đó được “chú thích” bằng Gemini-2.0-Flash-Exp để trích xuất các chi tiết chính. Mô hình đã đề xuất ba quy tắc vật lý dự kiến cho mỗi video. Những người chú thích là con người đã xem xét và mở rộng chúng bằng cách xác định các vi phạm tiềm ẩn bổ sung.
Tiếp theo, để xác định các hành động thách thức nhất, các nhà nghiên cứu đã tạo video bằng CogVideoX-5B với các câu lệnh từ tập dữ liệu VideoPhy-2. Sau đó, họ đã chọn 60 trong số 197 hành động mà mô hình liên tục không tuân theo cả câu lệnh và lý trí thông thường vật lý cơ bản.
Những hành động này liên quan đến các tương tác giàu vật lý như truyền động lượng trong ném đĩa, thay đổi trạng thái như uốn cong một vật thể cho đến khi nó gãy, các nhiệm vụ cân bằng như đi trên dây, và các chuyển động phức tạp bao gồm lộn ngược, nhảy sào, và ném pizza, trong số những hành động khác. Tổng cộng, 1.200 câu lệnh đã được chọn để tăng độ khó của tập dữ liệu con.
Tập Dữ Liệu VideoPhy-2: Một Nguồn Tài Nguyên Đánh Giá Toàn Diện
Tập dữ liệu kết quả bao gồm 3.940 chú thích – gấp 5.72 lần so với phiên bản trước của VideoPhy. Độ dài trung bình của các chú thích ban đầu là 16 token, trong khi các chú thích được lấy mẫu lên tới 138 token – dài hơn lần lượt 1.88 lần và 16.2 lần.
Tập dữ liệu cũng có 102.000 chú thích của con người bao gồm sự tuân thủ ngữ nghĩa, lý trí thông thường vật lý, và vi phạm quy tắc trên nhiều mô hình tạo video.
Xác Định Tiêu Chí Đánh Giá và Chú Thích Của Con Người
Các nhà nghiên cứu sau đó đã xác định các tiêu chí rõ ràng để đánh giá các video. Mục tiêu chính là đánh giá mức độ mỗi video khớp với câu lệnh đầu vào của nó và tuân theo các nguyên tắc vật lý cơ bản.
Thay vì chỉ xếp hạng video theo sở thích, họ đã sử dụng phản hồi dựa trên xếp hạng để nắm bắt những thành công và thất bại cụ thể. Những người chú thích là con người đã chấm điểm video trên thang điểm năm, cho phép đánh giá chi tiết hơn. Việc đánh giá cũng kiểm tra xem các video có tuân theo các quy tắc và định luật vật lý khác nhau hay không.
Để đánh giá của con người, một nhóm gồm 12 người chú thích đã được chọn từ các thử nghiệm trên Amazon Mechanical Turk (AMT) và cung cấp xếp hạng sau khi nhận được hướng dẫn từ xa chi tiết. Để công bằng, sự tuân thủ ngữ nghĩa và lý trí thông thường vật lý được đánh giá riêng biệt (trong nghiên cứu VideoPhy ban đầu, chúng được đánh giá chung).
Những người chú thích đầu tiên đánh giá mức độ các video khớp với các câu lệnh đầu vào của chúng, sau đó đánh giá riêng tính hợp lý vật lý, chấm điểm các vi phạm quy tắc và tính hiện thực tổng thể trên thang điểm năm. Chỉ các câu lệnh ban đầu được hiển thị, để duy trì sự so sánh công bằng giữa các mô hình.
Đánh Giá Tự Động: Hướng Tới Đánh Giá Mô Hình Có Thể Mở Rộng
Mặc dù đánh giá của con người vẫn là tiêu chuẩn vàng, nhưng nó tốn kém và đi kèm với một số lưu ý. Do đó, đánh giá tự động là cần thiết để đánh giá mô hình nhanh hơn và có thể mở rộng hơn.
Các tác giả của bài báo đã thử nghiệm một số mô hình ngôn ngữ-video, bao gồm Gemini-2.0-Flash-Exp và VideoScore, về khả năng chấm điểm video về độ chính xác ngữ nghĩa và “lý trí thông thường vật lý.”
Các mô hình một lần nữa đánh giá từng video trên thang điểm năm. Một nhiệm vụ phân loại riêng biệt xác định xem các quy tắc vật lý có được tuân theo, vi phạm hay không rõ ràng.
Các thí nghiệm cho thấy rằng các mô hình ngôn ngữ-video hiện tại gặp khó khăn trong việc khớp với các đánh giá của con người, chủ yếu là do lý luận vật lý yếu và sự phức tạp của các câu lệnh. Để cải thiện đánh giá tự động, các nhà nghiên cứu đã phát triển VideoPhy-2-Autoeval, một mô hình 7B tham số được thiết kế để cung cấp các dự đoán chính xác hơn trên ba loại: sự tuân thủ ngữ nghĩa; lý trí thông thường vật lý; và tuân thủ quy tắc. Nó đã được tinh chỉnh trên mô hình VideoCon-Physics bằng cách sử dụng 50.000 chú thích của con người*.
Thử Nghiệm Các Hệ Thống Video Tạo Sinh: Một Phân Tích So Sánh
Với các công cụ này, các tác giả đã thử nghiệm một số hệ thống video tạo sinh, cả thông qua cài đặt cục bộ và, khi cần thiết, thông qua các API thương mại: CogVideoX-5B; VideoCrafter2; HunyuanVideo-13B; Cosmos-Diffusion; Wan2.1-14B; OpenAI Sora; và Luma Ray.
Các mô hình được nhắc bằng các chú thích được lấy mẫu khi có thể, ngoại trừ Hunyuan Video và VideoCrafter2 hoạt động dưới giới hạn 77 token CLIP và không thể chấp nhận các câu lệnh vượt quá một độ dài nhất định.
Các video được tạo được giữ dưới 6 giây, vì đầu ra ngắn hơn dễ đánh giá hơn.
Dữ liệu điều khiển là từ tập dữ liệu VideoPhy-2, được chia thành một bộ chuẩn và bộ đào tạo. 590 video đã được tạo cho mỗi mô hình, ngoại trừ Sora và Ray2; do yếu tố chi phí, số lượng video tương đương thấp hơn đã được tạo cho các mô hình này.
Đánh giá ban đầu liên quan đến hoạt động thể chất/thể thao (PA) và tương tác đối tượng (OI) và đã thử nghiệm cả tập dữ liệu chung và tập con “khó hơn” đã nói ở trên:
Ở đây các tác giả nhận xét:
‘Ngay cả mô hình hoạt động tốt nhất, Wan2.1-14B, cũng chỉ đạt được 32.6% và 21.9% trên các phần đầy đủ và khó của tập dữ liệu của chúng tôi, tương ứng. Hiệu suất tương đối mạnh mẽ của nó so với các mô hình khác có thể là do sự đa dạng của dữ liệu đào tạo đa phương thức của nó, cùng với bộ lọc chuyển động mạnh mẽ giúp bảo tồn các video chất lượng cao trên một loạt các hành động.
‘Hơn nữa, chúng tôi quan sát thấy rằng các mô hình đóng, chẳng hạn như Ray2, hoạt động kém hơn các mô hình mở như Wan2.1-14B và CogVideoX-5B. Điều này cho thấy rằng các mô hình đóng không nhất thiết phải vượt trội hơn các mô hình mở trong việc nắm bắt lý trí thông thường vật lý.
‘Đáng chú ý, Cosmos-Diffusion-7B đạt điểm số tốt thứ hai trên phần khó, thậm chí vượt trội hơn mô hình HunyuanVideo-13B lớn hơn nhiều. Điều này có thể là do sự đại diện cao của các hành động của con người trong dữ liệu đào tạo của nó, cùng với các mô phỏng được kết xuất tổng hợp.’
Kết quả cho thấy rằng các mô hình video gặp khó khăn hơn với các hoạt động thể chất như thể thao so với các tương tác đối tượng đơn giản hơn. Điều này cho thấy rằng việc cải thiện các video do AI tạo ra trong lĩnh vực này sẽ đòi hỏi các tập dữ liệu tốt hơn – đặc biệt là các cảnh quay chất lượng cao về các môn thể thao như tennis, ném đĩa, bóng chày và cricket.
Nghiên cứu cũng đã kiểm tra xem tính hợp lý vật lý của một mô hình có tương quan với các số liệu chất lượng video khác hay không, chẳng hạn như tính thẩm mỹ và độ mượt mà của chuyển động. Các phát hiện cho thấy không có mối tương quan mạnh mẽ, có nghĩa là một mô hình không thể cải thiện hiệu suất của nó trên VideoPhy-2 chỉ bằng cách tạo ra chuyển động hấp dẫn về mặt hình ảnh hoặc trôi chảy – nó cần có sự hiểu biết sâu sắc hơn về lý trí thông thường vật lý.
Ví Dụ Định Tính: Làm Nổi Bật Những Thách Thức
Mặc dù bài báo cung cấp rất nhiều ví dụ định tính, nhưng ít ví dụ tĩnh nào được cung cấp trong PDF dường như liên quan đến các ví dụ dựa trên video mở rộng mà các tác giả cung cấp tại trang web dự án. Do đó, chúng ta sẽ xem xét một số ít các ví dụ tĩnh và sau đó là một số video dự án thực tế hơn.
Về bài kiểm tra định tính ở trên, các tác giả nhận xét:
‘[Chúng tôi] quan sát thấy các vi phạm lý trí thông thường vật lý, chẳng hạn như jetski di chuyển ngược lại một cách bất thường và sự biến dạng của một chiếc búa tạ rắn, bất chấp các nguyên tắc về độ đàn hồi. Tuy nhiên, ngay cả Wan cũng bị thiếu lý trí thông thường vật lý, như được hiển thị trong [clip được nhúng ở đầu bài viết này].
‘Trong trường hợp này, chúng tôi nhấn mạnh rằng một tảng đá bắt đầu lăn và tăng tốc lên dốc, bất chấp định luật trọng lực.’
Như đã đề cập ở phần đầu, khối lượng tài liệu liên quan đến dự án này vượt xa những gì có thể được đề cập ở đây. Do đó, vui lòng tham khảo bài báo nguồn, trang web dự án và các trang web liên quan đã đề cập trước đó để có một bản phác thảo thực sự đầy đủ về các quy trình của tác giả, và nhiều ví dụ thử nghiệm và chi tiết quy trình hơn đáng kể.
* Về nguồn gốc của các chú thích, bài báo chỉ ghi rõ ‘thu được cho các nhiệm vụ này’ – có vẻ như rất nhiều đã được tạo ra bởi 12 nhân viên AMT.