การเปิดตัว Tencent Mix Yuan: โมเดลโอเพนซอร์สสร้างวิดีโอจากภาพและความสามารถในการสร้างสรรค์ที่ได้รับการปรับปรุง
Tencent ได้ก้าวไปอย่างมีนัยสำคัญในขอบเขตของ AI เชิงสร้างสรรค์ (Generative AI) ด้วยการเปิดตัวโมเดล Hunyuan สำหรับการสร้างวิดีโอจากภาพ (image-to-video) เทคโนโลยีอันทรงพลังนี้สามารถเข้าถึงได้โดยผู้ชมในวงกว้างขึ้น เพิ่มขีดความสามารถให้กับทั้งธุรกิจและนักพัฒนารายบุคคลในการสำรวจศักยภาพในการสร้างสรรค์ เข้าถึงได้ผ่าน Tencent Cloud โดยการสมัคร API ในขณะที่ประสบการณ์ที่เป็นมิตรกับผู้ใช้มีให้ผ่านเว็บไซต์ Hunyuan AI Video อย่างเป็นทางการ นอกจากนี้ ลักษณะโอเพนซอร์สของโมเดลยังช่วยให้สามารถดาวน์โหลดและทดลองได้โดยตรงภายในศูนย์กลางนักพัฒนาชั้นนำ เช่น GitHub และ Hugging Face
ขยายขอบเขตของการสร้างวิดีโอ: Image-to-Video และอื่นๆ
ข้อเสนอหลักคือ โมเดล image-to-video ซึ่งแสดงถึงความก้าวหน้าในการทำให้การผลิตวิดีโอเป็นเรื่องง่าย ช่วยให้ผู้ใช้สามารถแปลงภาพนิ่งเป็นคลิปวิดีโอแบบไดนามิกความยาว 5 วินาที ผู้ใช้ระบุภาพและคำอธิบายที่เป็นข้อความเกี่ยวกับการเคลื่อนไหวและการปรับกล้องที่ต้องการ จากนั้น Hunyuan จะสร้างภาพเคลื่อนไหวอย่างชาญฉลาด โดยปฏิบัติตามคำแนะนำ และยังรวมเอฟเฟกต์เสียงพื้นหลังที่เหมาะสมอีกด้วย กระบวนการที่ใช้งานง่ายนี้ทำให้การสร้างวิดีโอเป็นประชาธิปไตย ทำให้เข้าถึงได้ง่ายกว่าที่เคย
แต่นวัตกรรมไม่ได้หยุดอยู่แค่นั้น Tencent Hunyuan นำเสนอฟังก์ชันที่ก้าวข้ามขีดจำกัดของสิ่งที่เป็นไปได้:
Lip-Syncing: เติมชีวิตชีวาให้กับภาพบุคคลนิ่ง ด้วยการอัปโหลดรูปภาพและระบุข้อความหรือเสียง ผู้ใช้สามารถทำให้ตัวแบบดูเหมือน ‘พูด’ หรือ ‘ร้องเพลง’ ได้ สิ่งนี้เปิดโอกาสที่น่าตื่นเต้นสำหรับเนื้อหาส่วนบุคคลและการเล่าเรื่องที่น่าสนใจ
Motion Driving: การออกแบบท่าเต้นไม่เคยง่ายอย่างนี้มาก่อน ด้วยการคลิกเพียงครั้งเดียว ผู้ใช้สามารถสร้างวิดีโอเต้นรำ ซึ่งแสดงให้เห็นถึงความสามารถรอบด้านของโมเดลและความสามารถในการตีความและดำเนินการคำสั่งการเคลื่อนไหวที่ซับซ้อน
คุณสมบัติเหล่านี้ เมื่อรวมกับความสามารถในการสร้างวิดีโอความละเอียด 2K คุณภาพสูงและเอฟเฟกต์เสียงพื้นหลัง ทำให้ Hunyuan เป็นเครื่องมือที่ครอบคลุมและทรงพลังสำหรับการสร้างวิดีโอ
โอเพนซอร์ส: ส่งเสริมการทำงานร่วมกันและนวัตกรรม
การตัดสินใจเปิดโอเพนซอร์สโมเดล image-to-video สร้างขึ้นจากความมุ่งมั่นก่อนหน้านี้ของ Tencent ในด้านนวัตกรรมแบบเปิด ซึ่งแสดงให้เห็นโดยการเปิดโอเพนซอร์สโมเดล Hunyuan text-to-video ก่อนหน้านี้ จิตวิญญาณแห่งการทำงานร่วมกันนี้ได้รับการออกแบบมาเพื่อเพิ่มขีดความสามารถให้กับชุมชนนักพัฒนา และผลลัพธ์ก็บ่งบอกได้ด้วยตัวเอง
แพ็คเกจโอเพนซอร์สประกอบด้วย:
- Model Weights: ให้ความฉลาดหลักของโมเดล
- Inference Code: ช่วยให้นักพัฒนาสามารถเรียกใช้และใช้ประโยชน์จากโมเดลได้
- LoRA Training Code: อำนวยความสะดวกในการสร้างโมเดลที่ปรับแต่งเองและมีความเชี่ยวชาญเฉพาะด้านโดยอิงตามรากฐานของ Hunyuan LoRA (Low-Rank Adaptation) เป็นเทคนิคที่ช่วยให้สามารถปรับแต่งโมเดลภาษาขนาดใหญ่ได้อย่างมีประสิทธิภาพ ทำให้นักพัฒนาสามารถปรับโมเดลให้เข้ากับสไตล์หรือชุดข้อมูลเฉพาะได้โดยไม่ต้องฝึกใหม่มากนัก
แพ็คเกจที่ครอบคลุมนี้สนับสนุนให้นักพัฒนาไม่เพียงแต่ใช้โมเดลเท่านั้น แต่ยังปรับและสร้างต่อยอดจากโมเดลอีกด้วย ความพร้อมใช้งานบนแพลตฟอร์ม เช่น GitHub และ Hugging Face ช่วยให้มั่นใจได้ถึงการเข้าถึงที่แพร่หลายและส่งเสริมสภาพแวดล้อมการทำงานร่วมกัน
โมเดลอเนกประสงค์สำหรับการใช้งานที่หลากหลาย
โมเดล Hunyuan image-to-video มีพารามิเตอร์ 13 พันล้านพารามิเตอร์ ซึ่งแสดงให้เห็นถึงสถาปัตยกรรมที่ซับซ้อนและการฝึกอบรมที่ครอบคลุม ขนาดนี้ช่วยให้สามารถจัดการกับวัตถุและสถานการณ์ที่หลากหลาย ทำให้เหมาะสำหรับ:
- Realistic Video Production: การสร้างวิดีโอที่เหมือนจริงด้วยการเคลื่อนไหวและรูปลักษณ์ที่เป็นธรรมชาติ
- Anime Character Generation: ทำให้ตัวละครที่มีสไตล์มีชีวิตชีวาด้วยแอนิเมชั่นที่ลื่นไหล
- CGI Character Creation: การสร้างภาพที่สร้างจากคอมพิวเตอร์ (computer-generated imagery) ด้วยความสมจริงระดับสูง
ความสามารถรอบด้านนี้เกิดจากแนวทางการฝึกอบรมล่วงหน้าที่เป็นหนึ่งเดียว ทั้งความสามารถ image-to-video และ text-to-video ได้รับการฝึกอบรมบนชุดข้อมูลเดียวกันที่ครอบคลุม รากฐานที่ใช้ร่วมกันนี้ช่วยให้โมเดลสามารถจับภาพข้อมูลภาพและข้อมูลความหมายจำนวนมาก นำไปสู่ผลลัพธ์ที่สอดคล้องกันและเกี่ยวข้องกับบริบทมากขึ้น
การควบคุมหลายมิติ: การสร้างเรื่องเล่า
โมเดล Hunyuan นำเสนอระดับการควบคุมที่เหนือกว่าแอนิเมชั่นธรรมดา ด้วยการรวมรูปแบบการป้อนข้อมูลต่างๆ ผู้ใช้สามารถปรับแต่งวิดีโอที่สร้างขึ้นได้อย่างละเอียด:
- Images: ข้อมูลภาพพื้นฐาน กำหนดจุดเริ่มต้นของวิดีโอ
- Text: ให้คำอธิบายของการกระทำที่ต้องการ การเคลื่อนไหวของกล้อง และไดนามิกของฉากโดยรวม
- Audio: ใช้สำหรับการซิงค์ริมฝีปาก เพิ่มชั้นของการแสดงออกให้กับตัวละคร
- Poses: ช่วยให้สามารถควบคุมการเคลื่อนไหวและการกระทำของตัวละครได้อย่างแม่นยำ
การควบคุมหลายมิตินี้ช่วยให้ผู้สร้างสามารถกำหนดรูปแบบการเล่าเรื่องของวิดีโอได้อย่างแม่นยำ ช่วยให้สามารถสร้างวิดีโอที่ไม่เพียงแต่น่าดึงดูดสายตาเท่านั้น แต่ยังสื่อข้อความและอารมณ์เฉพาะได้อีกด้วย
การตอบรับอย่างล้นหลามในชุมชนนักพัฒนา
ผลกระทบของการเปิดตัวโอเพนซอร์ส Hunyuan นั้นเกิดขึ้นทันทีและมีนัยสำคัญ โมเดลได้รับความนิยมอย่างรวดเร็ว โดยติดอันดับสูงสุดในรายการ Hugging Face ที่ได้รับความนิยมในเดือนธันวาคมของปีก่อน ความสำเร็จในช่วงต้นนี้เป็นเครื่องพิสูจน์ถึงคุณภาพของโมเดลและความต้องการเครื่องมือสร้างวิดีโอที่เข้าถึงได้และทรงพลัง
ความนิยมของโมเดลยังคงเติบโตอย่างต่อเนื่อง โดยปัจจุบันมีดาวมากกว่า 8.9K ดวงบน GitHub ตัวชี้วัดนี้สะท้อนให้เห็นถึงการมีส่วนร่วมอย่างแข็งขันของชุมชนนักพัฒนาและความสนใจอย่างกว้างขวางในการสำรวจและใช้ประโยชน์จากความสามารถของ Hunyuan
นอกเหนือจากโมเดลหลักแล้ว ระบบนิเวศของงานดัดแปลงที่สดใสกำลังเกิดขึ้น นักพัฒนาได้เปิดรับโอกาสในการสร้างต่อยอดจากรากฐานของ Hunyuan อย่างกระตือรือร้น โดยสร้าง:
- Plugins: ขยายฟังก์ชันการทำงานของโมเดลและรวมเข้ากับเครื่องมืออื่นๆ
- Derivative Models: ปรับโมเดลให้เข้ากับสไตล์ ชุดข้อมูล หรือกรณีการใช้งานเฉพาะ
โมเดล Hunyuan DiT text-to-image ที่เปิดโอเพนซอร์สก่อนหน้านี้ได้ส่งเสริมกิจกรรมดัดแปลงที่ยิ่งใหญ่กว่า โดยมีโมเดลดัดแปลงมากกว่า 1,600 โมเดลที่สร้างขึ้นทั้งในประเทศและต่างประเทศ สิ่งนี้แสดงให้เห็นถึงผลกระทบระยะยาวของกลยุทธ์โอเพนซอร์สของ Tencent และความสามารถในการปลูกฝังชุมชนแห่งนวัตกรรมที่เจริญรุ่งเรือง จำนวนเวอร์ชันดัดแปลงของโมเดลการสร้างวิดีโอ Hunyuan เองมีมากกว่า 900 แล้ว
แนวทางแบบองค์รวมสำหรับ Generative AI
ความมุ่งมั่นของ Tencent ในด้านโอเพนซอร์สขยายไปไกลกว่าการสร้างวิดีโอ ชุดโมเดลโอเพนซอร์ส Hunyuan ครอบคลุมรูปแบบที่หลากหลาย รวมถึง:
- Text Generation: การสร้างข้อความที่สอดคล้องกันและเกี่ยวข้องกับบริบท
- Image Generation: การสร้างภาพคุณภาพสูงจากคำอธิบายที่เป็นข้อความ
- Video Generation: จุดเน้นของการสนทนานี้ ช่วยให้สามารถสร้างวิดีโอแบบไดนามิกจากภาพและข้อความ
- 3D Generation: ขยายไปสู่ขอบเขตของการสร้างเนื้อหาสามมิติ
แนวทางแบบองค์รวมนี้สะท้อนให้เห็นถึงวิสัยทัศน์ของ Tencent เกี่ยวกับระบบนิเวศที่ครอบคลุมและเชื่อมโยงถึงกันของเครื่องมือ Generative AI จำนวนผู้ติดตามและดาวรวมกันบน GitHub สำหรับชุดโอเพนซอร์ส Hunyuan มีมากกว่า 23,000 ซึ่งเน้นย้ำถึงการยอมรับและการนำเทคโนโลยีเหล่านี้ไปใช้อย่างกว้างขวางในชุมชนนักพัฒนา
ข้อมูลเชิงลึกทางเทคนิคโดยละเอียด: สถาปัตยกรรมและการฝึกอบรม
ความยืดหยุ่นและความสามารถในการปรับขนาดของโมเดลการสร้างวิดีโอ Hunyuan มีรากฐานมาจากสถาปัตยกรรมและกระบวนการฝึกอบรมที่ออกแบบมาอย่างพิถีพิถัน โมเดลใช้ประโยชน์จากแนวทางแบบ diffusion ซึ่งเป็นเทคนิคที่ได้รับการพิสูจน์แล้วว่ามีประสิทธิภาพสูงในการสร้างภาพและวิดีโอคุณภาพสูง
Diffusion Models: โมเดลเหล่านี้ทำงานโดยค่อยๆ เพิ่มสัญญาณรบกวน (noise) ให้กับภาพหรือวิดีโอจนกว่าจะกลายเป็นสัญญาณรบกวนบริสุทธิ์ จากนั้นโมเดลจะเรียนรู้ที่จะย้อนกลับกระบวนการนี้ โดยเริ่มจากสัญญาณรบกวนและค่อยๆ ลบออกเพื่อสร้างภาพหรือวิดีโอที่สอดคล้องกัน กระบวนการปรับแต่งซ้ำๆ นี้ช่วยให้สามารถสร้างผลลัพธ์ที่มีรายละเอียดสูงและสมจริง
Unified Pre-training: ดังที่กล่าวไว้ก่อนหน้านี้ ความสามารถ image-to-video และ text-to-video ใช้ชุดข้อมูลการฝึกอบรมล่วงหน้าร่วมกัน แนวทางนี้ช่วยให้มั่นใจได้ว่าโมเดลจะเรียนรู้การแสดงข้อมูลภาพและข้อมูลความหมายที่เป็นหนึ่งเดียว นำไปสู่ความสอดคล้องและความสม่ำเสมอที่ดีขึ้นในรูปแบบต่างๆ
Temporal Modeling: เพื่อจับภาพไดนามิกของวิดีโอ โมเดลได้รวมเทคนิคการสร้างแบบจำลองชั่วคราว เทคนิคเหล่านี้ช่วยให้โมเดลเข้าใจความสัมพันธ์ระหว่างเฟรมในวิดีโอและสร้างการเปลี่ยนภาพที่ราบรื่นและเป็นธรรมชาติ
Camera Control: ความสามารถของโมเดลในการตอบสนองต่อคำแนะนำการเคลื่อนไหวของกล้องเป็นตัวสร้างความแตกต่างที่สำคัญ สิ่งนี้ทำได้โดยการรวมพารามิเตอร์กล้องเข้ากับข้อมูลอินพุตและการฝึกอบรมของโมเดล โมเดลเรียนรู้ที่จะเชื่อมโยงการเคลื่อนไหวของกล้องเฉพาะกับการเปลี่ยนแปลงภาพที่สอดคล้องกัน ทำให้ผู้ใช้สามารถควบคุมมุมมองและการจัดเฟรมของวิดีโอที่สร้างขึ้น
Loss Functions: กระบวนการฝึกอบรมได้รับคำแนะนำจากฟังก์ชันการสูญเสีย (loss functions) ที่ออกแบบมาอย่างพิถีพิถัน ฟังก์ชันเหล่านี้วัดความแตกต่างระหว่างวิดีโอที่สร้างขึ้นและวิดีโอที่เป็นความจริง (ground truth) ให้ข้อเสนอแนะแก่โมเดลและชี้นำการเรียนรู้ ฟังก์ชันการสูญเสียโดยทั่วไปประกอบด้วยเงื่อนไขที่ส่งเสริม:
- Image Quality: ตรวจสอบให้แน่ใจว่าแต่ละเฟรมมีความคมชัดและน่าดึงดูดสายตา
- Temporal Consistency: ส่งเสริมการเปลี่ยนภาพที่ราบรื่นและเป็นธรรมชาติระหว่างเฟรม
- Semantic Accuracy: ตรวจสอบให้แน่ใจว่าวิดีโอที่สร้างขึ้นสะท้อนถึงข้อความอินพุตและคำแนะนำอื่นๆ ได้อย่างถูกต้อง
Hyperparameter Tuning: ประสิทธิภาพของโมเดลยังได้รับอิทธิพลจากช่วงของไฮเปอร์พารามิเตอร์ (hyperparameters) เช่น อัตราการเรียนรู้ (learning rate) ขนาดแบตช์ (batch size) และจำนวนรอบการฝึกอบรม พารามิเตอร์เหล่านี้ได้รับการปรับแต่งอย่างละเอียดเพื่อเพิ่มประสิทธิภาพของโมเดลและตรวจสอบให้แน่ใจว่าโมเดลจะบรรจบกันเป็นโซลูชันที่มีเสถียรภาพและมีประสิทธิภาพ
The LoRA Advantage: การรวมรหัสการฝึกอบรม LoRA ในแพ็คเกจโอเพนซอร์สเป็นประโยชน์อย่างมากสำหรับนักพัฒนา LoRA ช่วยให้สามารถปรับแต่งโมเดลได้อย่างมีประสิทธิภาพโดยไม่ต้องฝึกใหม่มากนัก สิ่งนี้มีประโยชน์อย่างยิ่งสำหรับการปรับโมเดลให้เข้ากับสไตล์หรือชุดข้อมูลเฉพาะ ตัวอย่างเช่น นักพัฒนาสามารถใช้ LoRA เพื่อฝึกโมเดลให้สร้างวิดีโอในรูปแบบของศิลปินเฉพาะ หรือเพื่อปรับให้เหมาะกับเนื้อหาบางประเภท เช่น ภาพทางการแพทย์หรือการจำลองทางวิทยาศาสตร์
การรวมกันของรายละเอียดทางสถาปัตยกรรมและการฝึกอบรมเหล่านี้มีส่วนทำให้เกิดประสิทธิภาพและความสามารถรอบด้านที่น่าประทับใจของโมเดล Hunyuan ลักษณะโอเพนซอร์สของโมเดลช่วยให้นักวิจัยและนักพัฒนาสามารถเจาะลึกรายละเอียดเหล่านี้ได้มากขึ้น ซึ่งจะช่วยพัฒนาสาขาการสร้างวิดีโอต่อไป
การเปิดตัวโมเดล Hunyuan image-to-video แบบโอเพนซอร์สถือเป็นก้าวสำคัญ ไม่เพียงแต่เป็นเครื่องมืออันทรงพลังสำหรับผู้สร้างเท่านั้น แต่ยังเพิ่มขีดความสามารถให้กับชุมชน ส่งเสริมการทำงานร่วมกัน และเร่งความก้าวหน้าของเทคโนโลยีการสร้างวิดีโอ