Ra mắt Tencent Mix Yuan: Tạo video từ ảnh

Mở rộng chân trời sáng tạo Video: Tạo Video từ Ảnh và hơn thế nữa

Mô hình cốt lõi, tạo video từ ảnh, đại diện cho một bước tiến trong việc đơn giản hóa sản xuất video. Nó cho phép người dùng biến đổi hình ảnh tĩnh thành các clip 5 giây động. Người dùng cung cấp hình ảnh và mô tả văn bản về chuyển động mong muốn và điều chỉnh camera. Hunyuan sau đó tạo hoạt ảnh thông minh cho hình ảnh, tuân thủ các hướng dẫn và thậm chí kết hợp các hiệu ứng âm thanh nền phù hợp. Quá trình trực quan này dân chủ hóa việc tạo video, làm cho nó dễ tiếp cận hơn bao giờ hết.

Nhưng sự đổi mới không dừng lại ở đó. Tencent Hunyuan giới thiệu các chức năng vượt qua ranh giới của những gì có thể:

  • Lip-Syncing (Ghép giọng): Thổi hồn vào những bức chân dung tĩnh. Bằng cách tải lên một bức ảnh và cung cấp văn bản hoặc âm thanh, người dùng có thể làm cho chủ thể dường như ‘nói’ hoặc ‘hát’. Điều này mở ra những khả năng thú vị cho nội dung được cá nhân hóa và cách kể chuyện hấp dẫn.

  • Motion Driving (Điều khiển chuyển động): Việc biên đạo chuyển động chưa bao giờ dễ dàng hơn thế. Chỉ với một cú nhấp chuột, người dùng có thể tạo video khiêu vũ, thể hiện tính linh hoạt của mô hình và khả năng diễn giải và thực hiện các lệnh chuyển động phức tạp.

Các tính năng này, kết hợp với khả năng tạo video độ phân giải 2K chất lượng cao và hiệu ứng âm thanh nền, củng cố vị trí của Hunyuan như một công cụ toàn diện và mạnh mẽ để tạo video.

Mã nguồn mở: Thúc đẩy hợp tác và đổi mới

Quyết định mở mã nguồn mô hình tạo video từ ảnh dựa trên cam kết trước đó của Tencent đối với sự đổi mới mở, được minh chứng bằng việc mở mã nguồn trước đó của mô hình tạo video từ văn bản Hunyuan. Tinh thần hợp tác này được thiết kế để trao quyền cho cộng đồng nhà phát triển và kết quả đã tự nói lên điều đó.

Gói mã nguồn mở bao gồm:

  • Model Weights (Trọng số mô hình): Cung cấp trí thông minh cốt lõi của mô hình.
  • Inference Code (Mã suy luận): Cho phép các nhà phát triển chạy và sử dụng mô hình.
  • LoRA Training Code (Mã huấn luyện LoRA): Tạo điều kiện thuận lợi cho việc tạo các mô hình tùy chỉnh, chuyên biệt dựa trên nền tảng Hunyuan. LoRA (Low-Rank Adaptation) là một kỹ thuật cho phép tinh chỉnh hiệu quả các mô hình ngôn ngữ lớn, cho phép các nhà phát triển điều chỉnh mô hình theo các kiểu hoặc tập dữ liệu cụ thể mà không cần đào tạo lại trên diện rộng.

Gói toàn diện này khuyến khích các nhà phát triển không chỉ sử dụng mô hình mà còn điều chỉnh và xây dựng dựa trên nó. Tính khả dụng trên các nền tảng như GitHub và Hugging Face đảm bảo khả năng truy cập rộng rãi và thúc đẩy một môi trường hợp tác.

Một mô hình linh hoạt cho các ứng dụng đa dạng

Mô hình tạo video từ ảnh Hunyuan tự hào có 13 tỷ tham số ấn tượng, thể hiện kiến trúc tinh vi và quá trình đào tạo sâu rộng. Quy mô này cho phép nó xử lý một loạt các đối tượng và kịch bản, làm cho nó phù hợp với:

  • Realistic Video Production (Sản xuất video thực tế): Tạo video sống động như thật với chuyển động và hình thức tự nhiên.
  • Anime Character Generation (Tạo nhân vật Anime): Đưa các nhân vật cách điệu vào cuộc sống với hoạt ảnh mượt mà.
  • CGI Character Creation (Tạo nhân vật CGI): Tạo hình ảnh do máy tính tạo ra với độ chân thực cao.

Tính linh hoạt này bắt nguồn từ một phương pháp tiền huấn luyện thống nhất. Cả hai khả năng tạo video từ ảnh và tạo video từ văn bản đều được đào tạo trên cùng một tập dữ liệu mở rộng. Nền tảng chung này cho phép mô hình nắm bắt được vô số thông tin hình ảnh và ngữ nghĩa, dẫn đến kết quả đầu ra mạch lạc và phù hợp với ngữ cảnh hơn.

Điều khiển đa chiều: Định hình câu chuyện

Mô hình Hunyuan cung cấp mức độ kiểm soát vượt xa hoạt ảnh đơn giản. Bằng cách kết hợp các phương thức đầu vào khác nhau, người dùng có thể tinh chỉnh video được tạo:

  • Images (Hình ảnh): Đầu vào hình ảnh nền tảng, xác định điểm bắt đầu của video.
  • Text (Văn bản): Cung cấp mô tả về các hành động mong muốn, chuyển động camera và động lực tổng thể của cảnh.
  • Audio (Âm thanh): Được sử dụng để ghép giọng, thêm một lớp biểu cảm khác cho nhân vật.
  • Poses (Tư thế): Cho phép kiểm soát chính xác các chuyển động và hành động của nhân vật.

Khả năng kiểm soát đa chiều này trao quyền cho người sáng tạo định hình câu chuyện về video của họ với độ chính xác cao. Nó cho phép tạo ra các video không chỉ hấp dẫn về mặt hình ảnh mà còn truyền tải các thông điệp và cảm xúc cụ thể.

Sự đón nhận nồng nhiệt trong cộng đồng nhà phát triển

Tác động của việc phát hành mã nguồn mở Hunyuan là ngay lập tức và đáng kể. Mô hình nhanh chóng thu hút được sự chú ý, đứng đầu danh sách xu hướng của Hugging Face vào tháng 12 năm trước. Thành công ban đầu này là một minh chứng cho chất lượng của mô hình và nhu cầu về các công cụ tạo video mạnh mẽ, dễ tiếp cận.

Mức độ phổ biến của mô hình tiếp tục tăng lên, hiện tự hào có hơn 8.9 nghìn sao trên GitHub. Số liệu này phản ánh sự tham gia tích cực của cộng đồng nhà phát triển và sự quan tâm rộng rãi trong việc khám phá và sử dụng các khả năng của Hunyuan.

Ngoài mô hình cốt lõi, một hệ sinh thái sôi động của các tác phẩm phái sinh đang nổi lên. Các nhà phát triển đã nhiệt tình nắm bắt cơ hội xây dựng dựa trên nền tảng Hunyuan, tạo ra:

  • Plugins (Trình cắm): Mở rộng chức năng của mô hình và tích hợp nó với các công cụ khác.
  • Derivative Models (Mô hình phái sinh): Điều chỉnh mô hình theo các kiểu, tập dữ liệu hoặc trường hợp sử dụng cụ thể.

Mô hình tạo ảnh từ văn bản Hunyuan DiT được mở mã nguồn trước đó đã thúc đẩy hoạt động phái sinh lớn hơn, với hơn 1.600 mô hình phái sinh được tạo ra cả trong nước và quốc tế. Điều này chứng tỏ tác động lâu dài của chiến lược mã nguồn mở của Tencent và khả năng nuôi dưỡng một cộng đồng đổi mới phát triển mạnh. Số lượng phiên bản phái sinh của chính mô hình tạo video Hunyuan đã vượt quá 900.

Một cách tiếp cận toàn diện đối với AI tạo sinh

Cam kết của Tencent đối với mã nguồn mở vượt ra ngoài việc tạo video. Chuỗi mô hình mã nguồn mở Hunyuan hiện bao gồm một loạt các phương thức, bao gồm:

  • Text Generation (Tạo văn bản): Tạo văn bản mạch lạc và phù hợp với ngữ cảnh.
  • Image Generation (Tạo hình ảnh): Tạo hình ảnh chất lượng cao từ mô tả văn bản.
  • Video Generation (Tạo video): Trọng tâm của cuộc thảo luận này, cho phép tạo video động từ hình ảnh và văn bản.
  • 3D Generation (Tạo 3D): Mở rộng sang lĩnh vực tạo nội dung ba chiều.

Cách tiếp cận toàn diện này phản ánh tầm nhìn của Tencent về một hệ sinh thái toàn diện và kết nối với nhau của các công cụ AI tạo sinh. Tổng số lượt theo dõi và sao trên GitHub cho chuỗi mã nguồn mở Hunyuan vượt quá 23.000, làm nổi bật sự công nhận và chấp nhận rộng rãi của các công nghệ này trong cộng đồng nhà phát triển.

Thông tin chi tiết kỹ thuật: Kiến trúc và đào tạo

Tính linh hoạt và khả năng mở rộng của mô hình tạo video Hunyuan bắt nguồn từ kiến trúc và quy trình đào tạo được thiết kế cẩn thận. Mô hình tận dụng phương pháp dựa trên khuếch tán (diffusion), một kỹ thuật đã được chứng minh là có hiệu quả cao trong việc tạo ra hình ảnh và video chất lượng cao.

Diffusion Models (Mô hình khuếch tán): Các mô hình này hoạt động bằng cách dần dần thêm nhiễu vào hình ảnh hoặc video cho đến khi nó trở thành nhiễu thuần túy. Sau đó, mô hình học cách đảo ngược quá trình này, bắt đầu từ nhiễu và dần dần loại bỏ nó để tạo ra một hình ảnh hoặc video mạch lạc. Quá trình tinh chỉnh lặp đi lặp lại này cho phép tạo ra các đầu ra có độ chi tiết cao và chân thực.

Unified Pre-training (Tiền huấn luyện thống nhất): Như đã đề cập trước đó, khả năng tạo video từ ảnh và tạo video từ văn bản chia sẻ một tập dữ liệu tiền huấn luyện chung. Cách tiếp cận nàyđảm bảo rằng mô hình học được một biểu diễn thống nhất về thông tin hình ảnh và ngữ nghĩa, dẫn đến sự cải thiện tính mạch lạc và nhất quán trên các phương thức khác nhau.

Temporal Modeling (Mô hình hóa thời gian): Để nắm bắt động lực của video, mô hình kết hợp các kỹ thuật mô hình hóa thời gian. Các kỹ thuật này cho phép mô hình hiểu mối quan hệ giữa các khung hình trong video và tạo ra các chuyển đổi mượt mà và tự nhiên.

Camera Control (Điều khiển camera): Khả năng phản hồi các hướng dẫn chuyển động của camera của mô hình là một điểm khác biệt chính. Điều này đạt được thông qua việc kết hợp các thông số camera vào đầu vào và dữ liệu đào tạo của mô hình. Mô hình học cách liên kết các chuyển động camera cụ thể với các thay đổi hình ảnh tương ứng, cho phép người dùng kiểm soát phối cảnh và khung hình của video được tạo.

Loss Functions (Hàm mất mát): Quá trình đào tạo được hướng dẫn bởi các hàm mất mát được thiết kế cẩn thận. Các hàm này đo lường sự khác biệt giữa video được tạo và video thực tế, cung cấp phản hồi cho mô hình và hướng dẫn việc học của nó. Các hàm mất mát thường bao gồm các thuật ngữ khuyến khích:

  • Image Quality (Chất lượng hình ảnh): Đảm bảo rằng các khung hình riêng lẻ sắc nét và hấp dẫn về mặt hình ảnh.
  • Temporal Consistency (Tính nhất quán thời gian): Thúc đẩy chuyển đổi mượt mà và tự nhiên giữa các khung hình.
  • Semantic Accuracy (Độ chính xác ngữ nghĩa): Đảm bảo rằng video được tạo phản ánh chính xác văn bản đầu vào và các hướng dẫn khác.

Hyperparameter Tuning (Điều chỉnh siêu tham số): Hiệu suất của mô hình cũng bị ảnh hưởng bởi một loạt các siêu tham số, chẳng hạn như tốc độ học (learning rate), kích thước lô (batch size) và số lần lặp đào tạo. Các thông số này được điều chỉnh cẩn thận để tối ưu hóa hiệu suất của mô hình và đảm bảo rằng nó hội tụ đến một giải pháp ổn định và hiệu quả.

Lợi thế của LoRA: Việc đưa mã đào tạo LoRA vào gói mã nguồn mở là một lợi ích đáng kể cho các nhà phát triển. LoRA cho phép tinh chỉnh hiệu quả mô hình mà không cần đào tạo lại trên diện rộng. Điều này đặc biệt hữu ích để điều chỉnh mô hình theo các kiểu hoặc tập dữ liệu cụ thể. Ví dụ: một nhà phát triển có thể sử dụng LoRA để đào tạo mô hình tạo video theo phong cách của một nghệ sĩ cụ thể hoặc chuyên biệt hóa nó cho một loại nội dung cụ thể, chẳng hạn như hình ảnh y tế hoặc mô phỏng khoa học.

Sự kết hợp của các chi tiết kiến trúc và đào tạo này góp phần vào hiệu suất và tính linh hoạt ấn tượng của mô hình Hunyuan. Bản chất mã nguồn mở của mô hình cho phép các nhà nghiên cứu và nhà phát triển đi sâu hơn vào các chi tiết này, thúc đẩy hơn nữa lĩnh vực tạo video.

Việc phát hành mô hình tạo video từ ảnh Hunyuan mã nguồn mở đánh dấu một cột mốc quan trọng. Nó không chỉ cung cấp một công cụ mạnh mẽ cho người sáng tạo mà còn trao quyền cho một cộng đồng, thúc đẩy sự hợp tác và tăng tốc sự tiến bộ của công nghệ tạo video.