Google Gemini: วิดีโอ AI ยังไม่ว้าวเท่าที่ควร

Google ได้เข้าสู่สังเวียนวิดีโอปัญญาประดิษฐ์อย่างเป็นทางการ โดยเปิดให้ผู้สมัครสมาชิก Gemini Advanced สามารถเข้าถึงโมเดลวิดีโอ AI Veo 2 ได้

นี่เป็นการเปิดตัวสู่สาธารณชนครั้งแรกของเทคโนโลยีวิดีโอ AI ของ Google แม้ว่าจะอยู่ภายใต้ paywall ในช่วงเริ่มต้นก็ตาม

ผู้ที่กระตือรือร้นที่จะทดลองใช้ Veo 2 สามารถใช้ประโยชน์จากการทดลองใช้งาน Google One AI พรีเมียมฟรีหนึ่งเดือน ซึ่งรวมถึงการเข้าถึง Gemini Advanced หลังจากการทดลองใช้ การสมัครสมาชิกจะมีราคาอยู่ที่ 20 ดอลลาร์ต่อเดือน Veo 2 ยังรวมอยู่ในโครงการแอนิเมชั่น AI ใหม่ของ Google Labs Google ตั้งใจที่จะขยายความพร้อมใช้งานของ Veo 2 ให้กับผู้ใช้ฟรีในอนาคต

การถือกำเนิดของวิดีโอ AI แสดงถึงวิวัฒนาการล่าสุดใน AI เชิงกำเนิด การเปิดตัว Veo 2 ในวงกว้างของ Google เป็นไปตามความคิดริเริ่มที่คล้ายคลึงกันโดย OpenAI (Sora) และ Adobe (Firefly) ภาคบริการสร้างสรรค์ AI กำลังมีการแข่งขันกันมากขึ้น โดยบริษัทเทคโนโลยีรายใหญ่เปิดตัวโมเดลวิดีโอ AI ของตน การเข้ามาของ Google บ่งบอกถึงแรงผลักดันที่เพิ่มขึ้นในข้อเสนอการบริการวิดีโอ AI

นโยบายความเป็นส่วนตัวของ Gemini ของ Google กำหนดว่าอาจรวบรวมข้อมูลจากการโต้ตอบของผู้ใช้ รวมถึงการแชทและไฟล์ โดยแนะนำให้ผู้ใช้หลีกเลี่ยงการแบ่งปันข้อมูลที่เป็นความลับ การยินยอมต่อนโยบาย AI เชิงกำเนิดของ Google แสดงว่าผู้ใช้ตกลงที่จะปฏิบัติตามแนวทางการใช้งานที่ยอมรับได้ของบริษัท โดยมีจุดมุ่งหมายเพื่อป้องกันการสร้างเนื้อหาที่เป็นอันตรายหรือไม่ชอบด้วยกฎหมาย

ผู้ใช้สามารถสร้างคลิป AI สั้น ๆ ผ่านเว็บ Gemini หรือแอปมือถือได้โดยเลือก Veo 2 จากตัวเลือกโมเดลภายในอินเทอร์เฟซ Gemini Advanced โดยทั่วไปวิดีโอจะถูกสร้างขึ้นภายในหนึ่งหรือสองนาที

คลิปที่สร้างโดย AI เหล่านี้มีความยาวจำกัดเพียงแปดวินาทีและความละเอียด 720p โดยไม่มีเสียง Gemini แสดงวิดีโอในรูปแบบแนวนอน 16:9 โดยอัตโนมัติ โดยไม่มีตัวเลือกที่ชัดเจนสำหรับขนาดอื่น แม้ว่าจะระบุไว้ในข้อความแจ้งก็ตาม นอกจากนี้ ผู้ใช้ไม่สามารถอัปโหลดรูปภาพหรือการอ้างอิงสไตล์ได้ ซึ่งจำเป็นต้องมีความเชี่ยวชาญในการสร้างข้อความแจ้ง AI เพื่อให้ได้ผลลัพธ์วิดีโอที่ต้องการ

มีข้อจำกัดเกี่ยวกับจำนวนวิดีโอที่ผู้ใช้สามารถสร้างได้ในแต่ละเดือน แม้ว่าการวัดเครดิตเหล่านี้อย่างแม่นยำจะยังไม่ได้รับการกำหนด Google ระบุว่าผู้ใช้จะได้รับการเตือนภายใน Gemini เมื่อใกล้ถึงขีดจำกัด

ลายน้ำ SynthID ของ Google ถูกฝังอยู่ในวิดีโอ Veo 2 โดยอัตโนมัติ ลายน้ำที่ไม่สามารถรับรู้ได้เหล่านี้ใช้เพื่อระบุเนื้อหาที่สร้างขึ้นโดย AI ทั้งหมด Google ยังใช้เทคโนโลยีนี้สำหรับภาพที่สร้างขึ้นโดยใช้โมเดลแปลงข้อความเป็นภาพ Imagen 3

การประเมิน Veo 2 เบื้องต้นชี้ให้เห็นว่าวิดีโอเป็นที่น่าพอใจแต่ไม่มีอะไรโดดเด่น Gemini แสดงให้เห็นถึงการปฏิบัติตามข้อความแจ้งที่น่ายกย่อง โดยสร้างเนื้อหาอย่างแม่นยำโดยมีข้อผิดพลาดหรือความไม่สอดคล้องกันน้อยที่สุด อย่างไรก็ตาม แพลตฟอร์มอย่าง Sora และ Firefly อนุญาตให้สร้างวิดีโอ AI ที่มีความละเอียดสูงกว่า เช่น 1080p และมีตัวเลือกการปรับแต่งที่ครอบคลุมกว่า ซึ่งมีความสำคัญอย่างยิ่งในการลดการแก้ไขหลังการถ่ายทำ แม้ว่า Google จะมีแผนสำหรับการอัปเกรด Veo อย่างไม่ต้องสงสัย แต่ปัจจุบัน Veo 2 เป็นเครื่องมือที่น่าสนใจสำหรับการทดลอง แต่ไม่น่าจะกลายเป็นสิ่งจำเป็นสำหรับเวิร์กโฟลว์ในชีวิตประจำวันของผู้สร้าง

เจาะลึก Veo 2 ของ Gemini: ภาพรวมที่ครอบคลุม

แม้ว่าการเปิดตัว Veo 2 ของ Google ในครั้งแรกอาจดูไม่น่าประทับใจเมื่อเทียบกับคู่แข่งอย่าง Sora ของ OpenAI และ Firefly ของ Adobe แต่สิ่งสำคัญคือต้องเจาะลึกรายละเอียดเฉพาะของความสามารถ ข้อจำกัด และศักยภาพ การทำความเข้าใจความแตกต่างเหล่านี้เป็นสิ่งสำคัญสำหรับทุกคนที่กำลังพิจารณาที่จะรวม Veo 2 เข้ากับเวิร์กโฟลว์สร้างสรรค์ของตน

ความละเอียดและคุณภาพเอาต์พุต

ข้อจำกัดที่เห็นได้ชัดเจนที่สุดอย่างหนึ่งของ Veo 2 คือความละเอียดเอาต์พุตสูงสุดที่ 720p ในยุคที่วิดีโอ 4K กลายเป็นมาตรฐานมากขึ้นเรื่อย ๆ และแม้แต่อุปกรณ์มือถือก็สามารถบันทึกในรูปแบบความละเอียดสูงได้ ข้อจำกัดนี้ส่งผลกระทบอย่างมากต่อคุณภาพของเนื้อหาที่สร้างขึ้น แม้ว่า 720p อาจเพียงพอสำหรับโพสต์โซเชียลมีเดียอย่างรวดเร็วหรือการสื่อสารภายใน แต่ก็ไม่เพียงพอสำหรับแอปพลิเคชันระดับมืออาชีพหรือโครงการที่ต้องการความคมชัดของภาพสูง คู่แข่งอย่าง Sora ซึ่งมีเอาต์พุต 1080p มีความได้เปรียบในด้านนี้ทันที

การไม่มีเสียง

การไม่มีเสียงในวิดีโอที่สร้างโดย Veo 2 เป็นข้อเสียที่สำคัญอีกประการหนึ่ง เสียงเป็นองค์ประกอบสำคัญของการเล่าเรื่องวิดีโอ และการไม่มีเสียงทำให้ต้องใช้การผลิตหลังการถ่ายทำเพิ่มเติมเพื่อเพิ่มเพลง เอฟเฟกต์เสียง หรือบทสนทนา สิ่งนี้ไม่เพียงแต่เพิ่มเวลาและความพยายามที่ต้องใช้ในการสร้างผลิตภัณฑ์สำเร็จรูป แต่ยังจำกัดความเป็นไปได้ในการสร้างสรรค์ภายในกระบวนการสร้าง AI เอง ผู้ใช้ที่หวังว่าจะสร้างวิดีโอที่น่าสนใจพร้อมเสียงในตัวอย่างรวดเร็วจะพบว่า Veo 2 ขาดในส่วนนี้

ตัวเลือกการปรับแต่งที่จำกัด

ตัวเลือกการปรับแต่งที่จำกัดของ Veo 2 จำกัดการใช้งานมากยิ่งขึ้น การไม่สามารถระบุอัตราส่วนภาพนอกเหนือจากรูปแบบ 16:9 มาตรฐาน ควบคู่ไปกับการไม่รองรับรูปภาพหรือการอ้างอิงสไตล์ ทำให้การปรับแต่งเอาต์พุตให้เข้ากับวิสัยทัศน์เชิงสร้างสรรค์ที่เฉพาะเจาะจงเป็นเรื่องท้าทาย สิ่งนี้บังคับให้ผู้ใช้ต้องพึ่งพาข้อความแจ้งเพียงอย่างเดียว ซึ่งอาจเป็นเรื่องยากที่จะปรับแต่งเพื่อให้ได้ผลลัพธ์ที่แม่นยำ ในทางตรงกันข้าม แพลตฟอร์มที่อนุญาตให้ป้อนข้อมูลด้วยภาพและการควบคุมสไตล์และองค์ประกอบที่ละเอียดกว่านั้นมีความได้เปรียบอย่างมาก

ความท้าทายในการสร้างข้อความแจ้ง

เมื่อพิจารณาถึงข้อจำกัดในการปรับแต่ง การสร้างข้อความแจ้งที่มีประสิทธิภาพจึงมีความสำคัญอย่างยิ่งเมื่อใช้ Veo 2 ผู้ใช้ต้องเรียนรู้วิธีสร้างข้อความแจ้งที่มีรายละเอียดและแม่นยำเพื่อนำทาง AI ไปสู่ผลลัพธ์ที่ต้องการ สิ่งนี้ต้องอาศัยความเข้าใจอย่างลึกซึ้งเกี่ยวกับวิธีที่ AI ตีความภาษาและแปลงเป็นเนื้อหาภาพ แม้ว่าการทดลองจะช่วยให้ผู้ใช้พัฒนาทักษะนี้ได้ แต่เส้นทางการเรียนรู้อาจสูงชัน และแม้แต่วิศวกรข้อความแจ้งที่มีประสบการณ์ก็อาจต้องดิ้นรนเพื่อให้ได้ผลลัพธ์ที่สอดคล้องกัน การไม่มีข้อเสนอแนะด้วยภาพในระหว่างกระบวนการสร้างข้อความแจ้งทำให้เรื่องยุ่งยากยิ่งขึ้น

ขีดจำกัดการสร้างรายเดือน

ขีดจำกัดการสร้างรายเดือนที่ไม่เปิดเผยเพิ่มความไม่แน่นอนอีกชั้นหนึ่งให้กับความสามารถในการใช้งานของ Veo 2 หากไม่มีข้อมูลที่ชัดเจนเกี่ยวกับวิธีการคำนวณขีดจำกัดเหล่านี้ ผู้ใช้อาจลังเลที่จะรวม Veo 2 เข้ากับเวิร์กโฟลว์ของตนอย่างเต็มที่ โดยกลัวว่าจะหมดเครดิตในช่วงเวลาสำคัญ การขาดความโปร่งใสนี้เป็นเรื่องที่น่ากังวลเป็นพิเศษสำหรับผู้ใช้มืออาชีพที่ต้องพึ่งพาการเข้าถึงเครื่องมือ AI ที่คาดการณ์ได้

สัญญาณแห่งความหวังของลายน้ำ SynthID

แม้จะมีข้อจำกัด แต่ Veo 2 ก็มีข้อได้เปรียบที่น่าสังเกตอย่างหนึ่ง: การรวมลายน้ำ SynthID ลายน้ำที่มองไม่เห็นเหล่านี้ช่วยแยกแยะเนื้อหาที่สร้างโดย AI ออกจากเนื้อหาที่สร้างโดยมนุษย์ ซึ่งมีความสำคัญมากขึ้นในการต่อสู้กับการบิดเบือนข้อมูลและ deepfake แม้ว่าประสิทธิภาพของ SynthID ในการตรวจจับวิดีโอที่สร้างโดย AI ในแพลตฟอร์มและกระบวนการแก้ไขที่แตกต่างกันยังคงต้องรอดูกันต่อไป แต่การรวมเข้าด้วยกันนั้นส่งสัญญาณถึงความมุ่งมั่นของ Google ในการพัฒนา AI ที่มีความรับผิดชอบ

ศักยภาพในการเติบโตในอนาคต

สิ่งสำคัญคือต้องจำไว้ว่า Veo 2 ยังอยู่ในช่วงเริ่มต้นของการพัฒนา Google มีประวัติในการปรับปรุงผลิตภัณฑ์ AI ของตนอย่างต่อเนื่อง และเป็นไปได้ว่า Veo 2 จะได้รับการอัปเดตและการปรับปรุงที่สำคัญในอนาคต การปรับปรุงที่อาจเกิดขึ้น ได้แก่:

  • ความละเอียดเอาต์พุตที่เพิ่มขึ้น (1080p, 4K)
  • การรวมเสียง
  • ตัวเลือกการปรับแต่งที่ครอบคลุมมากขึ้น (อัตราส่วนภาพ การอ้างอิงสไตล์)
  • เครื่องมือสร้างข้อความแจ้งที่ได้รับการปรับปรุง
  • ข้อมูลที่ชัดเจนยิ่งขึ้นเกี่ยวกับขีดจำกัดการสร้าง
  • เทคโนโลยีลายน้ำ SynthID ที่ได้รับการปรับปรุง

Veo 2 ในบริบทที่กว้างขึ้นของการสร้างวิดีโอ AI

เพื่อให้เข้าใจถึงตำแหน่งของ Veo 2 ในตลาดอย่างแท้จริง สิ่งสำคัญคือต้องเปรียบเทียบกับแพลตฟอร์มการสร้างวิดีโอ AI ชั้นนำอื่น ๆ แม้ว่าแต่ละแพลตฟอร์มจะมีจุดแข็งและจุดอ่อนของตัวเอง แต่การทำความเข้าใจความแตกต่างเหล่านี้สามารถช่วยให้ผู้ใช้ตัดสินใจได้อย่างชาญฉลาดเกี่ยวกับเครื่องมือที่เหมาะสมกับความต้องการของพวกเขามากที่สุด

Sora ของ OpenAI

Sora ของ OpenAI เป็นแพลตฟอร์มการสร้างวิดีโอ AI ที่ได้รับความนิยมมากที่สุดในปัจจุบัน จุดแข็งที่สำคัญ ได้แก่:

  • เอาต์พุตคุณภาพสูง: Sora สามารถสร้างวิดีโอที่มีความละเอียด 1080p ด้วยความคมชัดของภาพที่น่าประทับใจ
  • การเคลื่อนไหวที่สมจริง: Sora เก่งในการสร้างการเคลื่อนไหวที่สมจริงและดูเป็นธรรมชาติ ซึ่งมีความสำคัญอย่างยิ่งในการสร้างฉากที่น่าเชื่อ
  • การสร้างฉากที่ซับซ้อน: Sora สามารถสร้างวิดีโอที่มีรายละเอียดที่ซับซ้อนและการโต้ตอบที่ซับซ้อนระหว่างวัตถุและตัวละคร
  • แปลงข้อความเป็นวิดีโอและแปลงภาพเป็นวิดีโอ: Sora รองรับทั้งข้อความแจ้งและรูปภาพ ทำให้ผู้ใช้มีความยืดหยุ่นสูง

อย่างไรก็ตาม Sora ก็มีข้อจำกัดเช่นกัน:

  • ความพร้อมใช้งานที่จำกัด: ขณะนี้ Sora มีให้สำหรับนักวิจัยและศิลปินที่ได้รับการคัดเลือกเท่านั้น
  • ต้นทุนการคำนวณสูง: การสร้างวิดีโอด้วย Sora ต้องใช้ทรัพยากรการคำนวณจำนวนมาก ซึ่งอาจนำไปสู่ต้นทุนการใช้งานที่สูงในอนาคต
  • ศักยภาพในการใช้งานในทางที่ผิด: ความสามารถในการสร้างวิดีโอที่สร้างโดย AI ที่สมจริงอย่างมากทำให้เกิดความกังวลเกี่ยวกับศักยภาพในการใช้งานในทางที่ผิด เช่น การสร้าง deepfake

Firefly ของ Adobe

Firefly ของ Adobe เป็นอีกหนึ่งผู้เล่นหลักในพื้นที่การสร้างวิดีโอ AI จุดแข็งที่สำคัญ ได้แก่:

  • การผสานรวมกับ Adobe Creative Suite: Firefly ผสานรวมเข้ากับเครื่องมือสร้างสรรค์ยอดนิยมของ Adobe อย่างราบรื่น เช่น Photoshop และ Premiere Pro ทำให้ผู้ใช้สามารถรวมเนื้อหาที่สร้างโดย AI เข้ากับเวิร์กโฟลว์ที่มีอยู่ได้อย่างง่ายดาย
  • เน้นการใช้งานเชิงพาณิชย์: Adobe กำหนดเป้าหมาย Firefly ไปที่ผู้ใช้เชิงพาณิชย์โดยเฉพาะ โดยนำเสนอคุณสมบัติต่างๆ เช่น การอนุญาตเนื้อหาและการคุ้มครองลิขสิทธิ์
  • ชุดข้อมูลการฝึกอบรมขนาดใหญ่: Firefly ได้รับการฝึกฝนจากชุดข้อมูลขนาดใหญ่ของภาพ Adobe Stock ซึ่งรับประกันเอาต์พุตคุณภาพสูงและลดความเสี่ยงในการสร้างเนื้อหาที่มีลิขสิทธิ์

อย่างไรก็ตาม Firefly ก็มีข้อจำกัดเช่นกัน:

  • ความสามารถในการสร้างวิดีโอที่จำกัด: แม้ว่า Firefly จะยอดเยี่ยมในการสร้างภาพและพื้นผิว แต่ความสามารถในการสร้างวิดีโอในปัจจุบันยังไม่ก้าวหน้าเท่า Sora
  • ราคาตามการสมัครสมาชิก: การเข้าถึง Firefly ต้องสมัครสมาชิก Adobe Creative Cloud ซึ่งอาจมีราคาแพงสำหรับผู้ใช้บางราย
  • การพึ่งพาระบบนิเวศของ Adobe: ผู้ใช้ที่ยังไม่คุ้นเคยกับเครื่องมือสร้างสรรค์ของ Adobe อาจพบว่าเป็นการยากที่จะรวม Firefly เข้ากับเวิร์กโฟลว์ของตน

แพลตฟอร์มเกิดใหม่อื่นๆ

นอกเหนือจาก Sora และ Firefly แล้ว แพลตฟอร์มการสร้างวิดีโอ AI อื่น ๆ จำนวนมากกำลังเกิดขึ้น โดยแต่ละแพลตฟอร์มมีคุณสมบัติและความสามารถที่เป็นเอกลักษณ์ของตัวเอง แพลตฟอร์มเหล่านี้ ได้แก่:

  • RunwayML: RunwayML นำเสนอชุดเครื่องมือ AI สำหรับผู้เชี่ยวชาญด้านความคิดสร้างสรรค์ รวมถึงการสร้างวิดีโอ การแก้ไขภาพ และการถ่ายโอนสไตล์
  • Synthesia: Synthesia มุ่งเน้นไปที่การสร้างอวตารที่สร้างโดย AI และผู้นำเสนอเสมือนจริงสำหรับการฝึกอบรมขององค์กรและวิดีโอการตลาด
  • Pictory: Pictory เชี่ยวชาญในการเปลี่ยนโพสต์และบทความในบล็อกให้เป็นวิดีโอที่น่าสนใจสำหรับโซเชียลมีเดีย

อนาคตของการสร้างวิดีโอ AI

สาขาการสร้างวิดีโอ AI กำลังพัฒนาอย่างรวดเร็ว และเป็นไปได้ว่าเราจะเห็นความก้าวหน้าที่สำคัญในอีกไม่กี่ปีข้างหน้า แนวโน้มในอนาคตที่อาจเกิดขึ้น ได้แก่:

  • ความละเอียดและคุณภาพที่สูงขึ้น: แพลตฟอร์มการสร้างวิดีโอ AI จะยังคงปรับปรุงความละเอียดและความคมชัดของภาพของเอาต์พุตต่อไป จนถึงจุดที่ยากต่อการแยกแยะวิดีโอที่สร้างโดย AI ออกจากวิดีโอที่สร้างโดยมนุษย์
  • การเคลื่อนไหวและฟิสิกส์ที่สมจริงยิ่งขึ้น: AI จะเก่งขึ้นในการจำลองการเคลื่อนไหวและฟิสิกส์ที่สมจริง ทำให้วิดีโอที่สร้างโดย AI น่าเชื่อและดื่มด่ำยิ่งขึ้น
  • การควบคุมและการปรับแต่งที่ได้รับการปรับปรุง: ผู้ใช้จะมีการควบคุมกระบวนการสร้างสรรค์มากขึ้น โดยมีความสามารถในการระบุรายละเอียดต่างๆ เช่น มุมกล้อง แสง และอารมณ์ของตัวละคร
  • การผสานรวมกับเทคโนโลยี AI อื่นๆ: การสร้างวิดีโอ AI จะถูกรวมเข้ากับเทคโนโลยี AI อื่นๆ เช่น การประมวลผลภาษาธรรมชาติและทัศนศาสตร์คอมพิวเตอร์ ทำให้เกิดแอปพลิเคชันใหม่และเป็นนวัตกรรม
  • การทำให้การสร้างวิดีโอเป็นประชาธิปไตย: การสร้างวิดีโอ AI จะทำให้ทุกคนสามารถสร้างวิดีโอคุณภาพสูงได้ง่ายขึ้นและราคาไม่แพง ไม่ว่าจะมีทักษะทางเทคนิคหรืองบประมาณเท่าใดก็ตาม

แม้ว่า Veo 2 ของ Google อาจไม่ใช่แพลตฟอร์มการสร้างวิดีโอ AI ที่น่าประทับใจที่สุดในตลาดปัจจุบัน แต่ก็แสดงถึงก้าวสำคัญไปข้างหน้าในการทำให้เทคโนโลยี AI เป็นประชาธิปไตย ในขณะที่สาขายังคงพัฒนาต่อไป เป็นไปได้ว่าเราจะได้เห็นเครื่องมือที่ทรงพลังและเข้าถึงได้มากขึ้นเกิดขึ้น ซึ่งช่วยให้ผู้สร้างทุกประเภทสามารถนำวิสัยทัศน์ของตนมาสู่ชีวิตได้