擴展影片創作視野:影像轉影片及更多功能
騰訊在生成式 AI 領域邁出了重要一步,發布了其 Hunyuan 影像轉影片模型。這項強大的技術現在可供更廣泛的受眾使用,使企業和個人開發者都能探索其創作潛力。使用者可透過騰訊雲 API 申請存取,同時透過 Hunyuan AI Video 官方網站提供使用者友善的體驗。此外,該模型的開源性質允許在 GitHub 和 Hugging Face 等領先的開發者中心直接下載和實驗。
核心產品,即影像轉影片模型,代表了簡化影片製作的飛躍。它允許使用者將靜態影像轉換為動態的 5 秒片段。使用者提供影像和所需動作和攝影機調整的文字描述。Hunyuan 接著智慧地將影像動畫化,遵循指令,甚至加入合適的背景音效。這種直覺的過程使影片創作民主化,使其比以往任何時候都更容易獲得。
但創新不止於此。騰訊 Hunyuan 引入了突破可能性的功能:
對嘴 (Lip-Syncing): 為靜態人像注入生命。透過上傳圖片並提供文字或音訊,使用者可以讓主體看似「說話」或「唱歌」。這為個人化內容和引人入勝的故事講述開闢了令人興奮的可能性。
動作驅動 (Motion Driving): 編排動作從未如此簡單。只需點擊一下,使用者就可以生成舞蹈影片,展示模型的多功能性及其解釋和執行複雜動作指令的能力。
這些功能,結合生成高品質 2K 解析度影片和背景音效的能力,鞏固了 Hunyuan 作為全面且強大的影片生成工具的地位。
開源:促進協作與創新
開源影像轉影片模型的決定建立在騰訊先前對開放創新的承諾之上,這體現在早先開源的 Hunyuan 文字轉影片模型中。這種協作精神旨在賦能開發者社群,其結果不言而喻。
開源套件包含:
- 模型權重 (Model Weights): 提供模型的核心智慧。
- 推理程式碼 (Inference Code): 使開發者能夠執行和利用模型。
- LoRA 訓練程式碼 (LoRA Training Code): 促進基於 Hunyuan 基礎創建客製化、專業化的模型。LoRA (Low-Rank Adaptation) 是一種允許有效微調大型語言模型的技術,使開發者能夠將模型調整為特定風格或資料集,而無需大量重新訓練。
這個全面的套件鼓勵開發者不僅使用模型,而且還在其基礎上進行調整和構建。在 GitHub 和 Hugging Face 等平台上的可用性確保了廣泛的可及性,並促進了協作環境。
適用於多種應用的多功能模型
Hunyuan 影像轉影片模型擁有令人印象深刻的 130 億個參數,展示了其複雜的架構和廣泛的訓練。這種規模使其能夠處理各種主題和場景,使其適用於:
- 逼真的影片製作: 創建具有自然動作和外觀的逼真影片。
- 動漫角色生成: 透過流暢的動畫將風格化的角色帶入生活。
- CGI 角色創建: 生成具有高度真實感的電腦生成圖像。
這種多功能性源於統一的預訓練方法。影像轉影片和文字轉影片功能都在相同的廣泛資料集上進行訓練。這種共享基礎使模型能夠捕捉大量的視覺和語義資訊,從而產生更連貫和上下文相關的輸出。
多維度控制:塑造敘事
Hunyuan 模型提供的控制水準超越了簡單的動畫。透過組合各種輸入模式,使用者可以微調生成的影片:
- 影像 (Images): 基礎視覺輸入,定義影片的起點。
- 文字 (Text): 提供所需動作、攝影機移動和整體場景動態的描述。
- 音訊 (Audio): 用於對嘴,為角色添加另一層表現力。
- 姿勢 (Poses): 能夠精確控制角色的動作和行為。
這種多維度控制使創作者能夠以高度的精確度塑造其影片的敘事。它允許創建不僅在視覺上吸引人,而且還傳達特定訊息和情感的影片。
在開發者社群中獲得熱烈反響
Hunyuan 開源發布的影響是立竿見影且顯著的。該模型迅速獲得關注,在去年 12 月登上 Hugging Face 趨勢榜首。這一早期的成功證明了模型的品質以及對可訪問、強大的影片生成工具的需求。
該模型的受歡迎程度持續增長,目前在 GitHub 上擁有超過 8.9K 顆星。這一指標反映了開發者社群的積極參與以及對探索和利用 Hunyuan 功能的廣泛興趣。
除了核心模型之外,一個充滿活力的衍生作品生態系統正在出現。開發者們熱情地抓住機會在 Hunyuan 基礎上進行構建,創建:
- 外掛程式 (Plugins): 擴展模型的功能並將其與其他工具整合。
- 衍生模型 (Derivative Models): 將模型調整為特定風格、資料集或使用案例。
早先開源的 Hunyuan DiT 文字轉影像模型促進了更大的衍生性活動,國內外創建了超過 1,600 個衍生模型。這展示了騰訊開源策略的長期影響及其培養蓬勃發展的創新社群的能力。Hunyuan 影片生成模型本身的衍生版本數量已超過 900 個。
生成式 AI 的整體方法
騰訊對開源的承諾不僅限於影片生成。Hunyuan 開源系列模型現在涵蓋廣泛的模式,包括:
- 文字生成 (Text Generation): 創建連貫且上下文相關的文字。
- 影像生成 (Image Generation): 從文字描述中產生高品質影像。
- 影片生成 (Video Generation): 本文討論的重點,能夠從影像和文字創建動態影片。
- 3D 生成 (3D Generation): 擴展到三維內容創建領域。
這種整體方法反映了騰訊對生成式 AI 工具的全面且相互關聯的生態系統的願景。Hunyuan 開源系列在 GitHub 上的總關注和星數超過 23,000,突顯了這些技術在開發者社群中的廣泛認可和採用。
詳細的技術見解:架構和訓練
Hunyuan 影片生成模型的靈活性和可擴展性植根於其精心設計的架構和訓練過程。該模型利用了基於擴散的方法,這是一種已被證明在生成高品質影像和影片方面非常有效的技術。
擴散模型 (Diffusion Models): 這些模型的工作原理是逐漸向影像或影片添加雜訊,直到它變成純雜訊。然後,模型學習反轉這個過程,從雜訊開始並逐漸去除它以生成連貫的影像或影片。這種迭代細化過程允許創建高度詳細和逼真的輸出。
統一預訓練 (Unified Pre-training): 如前所述,影像轉影片和文字轉影片功能共享一個共同的預訓練資料集。這種方法確保模型學習視覺和語義資訊的統一表示,從而提高不同模式之間的一致性和連貫性。
時間建模 (Temporal Modeling): 為了捕捉影片的動態,該模型結合了時間建模技術。這些技術使模型能夠理解影片中幀之間的關係,並生成平滑自然的過渡。
攝影機控制 (Camera Control): 該模型響應攝影機移動指令的能力是一個關鍵的區別。這是透過將攝影機參數納入模型的輸入和訓練資料來實現的。該模型學習將特定的攝影機移動與相應的視覺變化相關聯,使用戶能夠控制生成影片的透視和取景。
損失函數 (Loss Functions): 訓練過程由精心設計的損失函數指導。這些函數測量生成影片和真實影片之間的差異,向模型提供反饋並指導其學習。損失函數通常包括鼓勵以下方面的條款:
- 影像品質 (Image Quality): 確保單個幀清晰且視覺上吸引人。
- 時間一致性 (Temporal Consistency): 促進幀之間的平滑自然過渡。
- 語義準確性 (Semantic Accuracy): 確保生成的影片準確反映輸入文字和其他指令。
超參數調整 (Hyperparameter Tuning): 模型的性能還受到一系列超參數的影響,例如學習率、批次大小和訓練迭代次數。這些參數經過仔細調整以優化模型的性能,並確保它收斂到穩定且有效的解決方案。
LoRA 優勢: 在開源套件中包含 LoRA 訓練程式碼對開發者來說是一個顯著的好處。LoRA 允許對模型進行有效的微調,而無需大量重新訓練。這對於將模型調整為特定風格或資料集特別有用。例如,開發者可以使用 LoRA 訓練模型以特定藝術家的風格生成影片,或將其專門用於特定類型的內容,例如醫學影像或科學模擬。
這些架構和訓練細節的結合有助於 Hunyuan 模型令人印象深刻的性能和多功能性。該模型的開源性質允許研究人員和開發者更深入地研究這些細節,進一步推進影片生成領域。
開源 Hunyuan 影像轉影片模型的發布標誌著一個重要的里程碑。它不僅為創作者提供了一個強大的工具,還賦能了一個社群,促進協作並加速影片生成技術的進步。