ویدیوهای هوش مصنوعی Gemini: سرد و بی رمق

گوگل رسماً وارد عرصه ویدیویی هوش مصنوعی شده است و مدل ویدیویی هوش مصنوعی Veo 2 خود را در اختیار مشترکین Gemini Advanced قرار داده است.

این نشان دهنده اولین نمایش عمومی فناوری ویدیویی هوش مصنوعی گوگل است، البته در بدو ورود، پشت یک دیوار پرداختی قرار دارد.

کسانی که مشتاق به آزمایش Veo 2 هستند، می‌توانند از یک دوره آزمایشی یک ماهه رایگان اشتراک ممتاز Google One AI، که شامل دسترسی به Gemini Advanced است، بهره‌مند شوند. پس از دوره آزمایشی، قیمت اشتراک ماهانه 20 دلار است. Veo 2 همچنین در پروژه انیمیشن هوش مصنوعی جدید Google Labs ادغام شده است. گوگل قصد دارد در آینده دسترسی Veo 2 را برای کاربران رایگان گسترش دهد.

ظهور ویدیوهای هوش مصنوعی نشان دهنده آخرین تکامل در هوش مصنوعی مولد است. انتشار گسترده Veo 2 توسط گوگل، به دنبال ابتکارات مشابه توسط OpenAI (Sora) و Adobe (Firefly) انجام می‌شود. بخش خدمات خلاقانه هوش مصنوعی به طور فزاینده‌ای رقابتی می‌شود و شرکت‌های بزرگ فناوری از مدل‌های ویدیویی هوش مصنوعی خود رونمایی می‌کنند. ورود گوگل نشان دهنده افزایش شتاب در ارائه خدمات ویدیویی هوش مصنوعی است.

خط مشی حریم خصوصی Gemini گوگل تصریح می‌کند که ممکن است داده‌ها را از تعاملات کاربر، از جمله چت‌ها و فایل‌ها جمع‌آوری کند و به کاربران توصیه می‌کند از به اشتراک گذاشتن اطلاعات محرمانه خودداری کنند. با رضایت به خط مشی هوش مصنوعی مولد گوگل، کاربران موافقت می‌کنند که از دستورالعمل‌های استفاده قابل قبول شرکت پیروی کنند که هدف آن جلوگیری از ایجاد محتوای مضر یا غیرقانونی است.

کاربران می‌توانند از طریق وب‌سایت یا برنامه تلفن همراه Gemini، با انتخاب Veo 2 از گزینه‌های مدل در رابط Gemini Advanced، کلیپ‌های کوتاه هوش مصنوعی تولید کنند. ویدیوها معمولاً در عرض یک یا دو دقیقه تولید می‌شوند.

این کلیپ‌های تولید شده توسط هوش مصنوعی به مدت هشت ثانیه و وضوح 720p محدود می‌شوند و فاقد صدا هستند. Gemini به طور خودکار ویدیوها را در قالب افقی 16:9 رندر می‌کند و هیچ گزینه ظاهری برای اندازه‌های جایگزین، حتی زمانی که در دستورالعمل مشخص شده باشد، وجود ندارد. علاوه بر این، کاربران نمی‌توانند تصاویر یا مراجع سبک را آپلود کنند، که مستلزم مهارت در مهندسی دستورالعمل هوش مصنوعی برای دستیابی به نتایج ویدیویی مورد نظر است.

محدودیت‌هایی در تعداد ویدیوهایی که کاربران می‌توانند به صورت ماهانه تولید کنند وجود دارد، اگرچه اندازه گیری دقیق این اعتبارات تعریف نشده باقی مانده است. گوگل نشان می‌دهد که کاربران هنگام نزدیک شدن به محدودیت خود، هشداری را در Gemini دریافت خواهند کرد.

واترمارک‌های SynthID گوگل به طور خودکار در ویدیوهای Veo 2 تعبیه می‌شوند. این واترمارک‌های نامحسوس برای شناسایی محتوایی که به طور کامل توسط هوش مصنوعی تولید شده است، عمل می‌کنند. گوگل همچنین از این فناوری برای تصاویری که با استفاده از مدل تبدیل متن به تصویر Imagen 3 خود تولید می‌کند، استفاده می‌کند.

ارزیابی‌های اولیه Veo 2 نشان می‌دهد که ویدیوها رضایت‌بخش هستند اما چشمگیر نیستند. Gemini انطباق شایسته‌ای با دستورالعمل‌ها نشان داد و با کمترین خطا یا ناهماهنگی، محتوا را به طور دقیق تولید کرد. با این حال، پلتفرم‌هایی مانند Sora و Firefly اجازه می‌دهند ویدیوهای هوش مصنوعی با وضوح بالاتر، مانند 1080p، ایجاد شوند و گزینه‌های سفارشی‌سازی گسترده‌تری را ارائه می‌دهند، که برای به حداقل رساندن ویرایش پس از تولید بسیار مهم است. در حالی که گوگل بدون شک برنامه‌هایی برای ارتقاء Veo دارد، Veo 2 در حال حاضر به عنوان ابزاری جذاب برای آزمایش عمل می‌کند، اما بعید است که برای گردش کار روزمره سازندگان ضروری شود.

بررسی عمیق‌تر Veo 2 جمینی: یک بررسی جامع

در حالی که انتشار اولیه Veo 2 گوگل در مقایسه با رقبایی مانند Sora OpenAI و Firefly Adobe ممکن است ناامید کننده به نظر برسد، ضروری است که عمیق‌تر به جزئیات قابلیت‌ها، محدودیت‌ها و پتانسیل آن بپردازیم. درک این تفاوت‌های ظریف برای هر کسی که در نظر دارد Veo 2 را در گردش کار خلاقانه خود ادغام کند، بسیار مهم است.

وضوح و کیفیت خروجی

یکی از محدودیت‌های فوری Veo 2، حداکثر وضوح خروجی آن 720p است. در عصری که ویدیوهای 4K به طور فزاینده‌ای استاندارد شده‌اند و حتی دستگاه‌های تلفن همراه نیز قادر به ضبط با کیفیت بالا هستند، این محدودیت به طور قابل توجهی بر کیفیت درک شده محتوای تولید شده تأثیر می‌گذارد. در حالی که 720p ممکن است برای پست‌های سریع در رسانه‌های اجتماعی یا ارتباطات داخلی کافی باشد، اما برای برنامه‌های حرفه‌ای یا پروژه‌هایی که به وفاداری بصری بالایی نیاز دارند، کافی نیست. رقبایی مانند Sora، که خروجی 1080p را ارائه می‌دهند، بلافاصله در این زمینه برتری دارند.

فقدان صدا

نبود صدا در ویدیوهای تولید شده توسط Veo 2 یکی دیگر از معایب قابل توجه است. صدا یک عنصر حیاتی در داستان سرایی ویدیویی است و عدم وجود آن مستلزم کار اضافی پس از تولید برای افزودن موسیقی، جلوه‌های صوتی یا دیالوگ است. این نه تنها زمان و تلاش لازم برای ایجاد یک محصول نهایی را افزایش می‌دهد، بلکه امکانات خلاقانه را در خود فرآیند تولید هوش مصنوعی محدود می‌کند. کاربرانی که امیدوارند به سرعت ویدیوهای جذاب با صدای یکپارچه ایجاد کنند، Veo 2 را در این زمینه کمبود خواهند یافت.

گزینه‌های سفارشی‌سازی محدود

گزینه‌های سفارشی‌سازی محدود Veo 2، قابلیت استفاده آن را بیشتر محدود می‌کند. عدم توانایی در تعیین نسبت‌های تصویر فراتر از قالب استاندارد 16:9، همراه با عدم پشتیبانی از تصاویر یا مراجع سبک، تطبیق خروجی با دیدگاه‌های خلاقانه خاص را دشوار می‌کند. این امر کاربران را مجبور می‌کند تا به شدت به دستورالعمل‌های متنی به تنهایی تکیه کنند، که تنظیم دقیق آن‌ها برای دستیابی به نتایج دقیق دشوار است. در مقابل، پلتفرم‌هایی که ورودی بصری و کنترل دقیق‌تری بر سبک و ترکیب ارائه می‌دهند، مزیت قابل توجهی را ارائه می‌دهند.

چالش‌های مهندسی سریع

با توجه به محدودیت‌های موجود در سفارشی‌سازی، مهندسی سریع موثر هنگام استفاده از Veo 2 از اهمیت بالایی برخوردار می‌شود. کاربران باید یاد بگیرند که دستورالعمل‌های دقیق و مفصلی را برای هدایت هوش مصنوعی به سمت نتیجه مطلوب ایجاد کنند. این امر مستلزم درک عمیقی از نحوه تفسیر زبان توسط هوش مصنوعی و تبدیل آن به محتوای بصری است. در حالی که آزمایش می‌تواند به کاربران در توسعه این مهارت کمک کند، منحنی یادگیری می‌تواند تند باشد و حتی مهندسان سریع با تجربه نیز ممکن است برای دستیابی به نتایج ثابت تلاش کنند. عدم وجود بازخورد بصری در طول فرآیند ایجاد سریع، مسائل را بیشتر پیچیده می‌کند.

محدودیت‌های تولید ماهانه

محدودیت‌های تولید ماهانه اعلام نشده، لایه دیگری از عدم اطمینان را به قابلیت استفاده Veo 2 اضافه می‌کند. بدون اطلاعات روشن در مورد نحوه محاسبه این محدودیت‌ها، کاربران ممکن است در ادغام کامل Veo 2 در گردش کار خود مردد باشند، زیرا می‌ترسند در یک لحظه حیاتی اعتبار خود را تمام کنند. این فقدان شفافیت به ویژه برای کاربران حرفه‌ای که به دسترسی قابل پیش‌بینی به ابزارهای هوش مصنوعی متکی هستند، نگران کننده است.

وعده واترمارک‌های SynthID

Veo 2 علیرغم محدودیت‌هایش، یک مزیت قابل توجه را ارائه می‌دهد: گنجاندن واترمارک‌های SynthID. این واترمارک‌های نامرئی به تشخیص محتوای تولید شده توسط هوش مصنوعی از محتوای ایجاد شده توسط انسان کمک می‌کنند، که در مبارزه با اطلاعات نادرست و دیپ‌فیک‌ها به طور فزاینده‌ای مهم می‌شود. در حالی که اثربخشی SynthID در تشخیص ویدیوهای تولید شده توسط هوش مصنوعی در پلتفرم‌ها و فرآیندهای ویرایشی مختلف هنوز مشخص نیست، گنجاندن آن نشان دهنده تعهد گوگل به توسعه مسئولانه هوش مصنوعی است.

پتانسیل برای رشد آینده

مهم است به یاد داشته باشیم که Veo 2 هنوز در مراحل اولیه توسعه خود است. گوگل سابقه بهبود مکرر محصولات هوش مصنوعی خود را دارد و به احتمال زیاد Veo 2 به روز رسانی‌ها و پیشرفت‌های قابل توجهی را در آینده دریافت خواهد کرد. بهبودهای بالقوه می‌تواند شامل موارد زیر باشد:

  • افزایش وضوح خروجی (1080p، 4K)
  • ادغام صدا
  • گزینه‌های سفارشی‌سازی گسترده‌تر (نسبت‌های تصویر، مراجع سبک)
  • ابزارهای بهبود یافته مهندسی سریع
  • اطلاعات واضح‌تر در مورد محدودیت‌های تولید
  • فناوری بهبود یافته واترمارک SynthID

Veo 2 در چارچوب گسترده‌تر تولید ویدیوی هوش مصنوعی

برای درک واقعی جایگاه Veo 2 در بازار، مقایسه آن با سایر پلتفرم‌های پیشرو تولید ویدیوی هوش مصنوعی ضروری است. در حالی که هر پلتفرم نقاط قوت و ضعف خاص خود را دارد، درک این تفاوت‌ها می‌تواند به کاربران کمک کند تا تصمیمات آگاهانه‌ای در مورد اینکه کدام ابزار بهترین گزینه برای نیازهای آن‌ها است، بگیرند.

Sora OpenAI

Sora OpenAI به جرات پرطرفدارترین پلتفرم تولید ویدیوی هوش مصنوعی موجود در حال حاضر است. نقاط قوت کلیدی آن عبارتند از:

  • خروجی با کیفیت بالا: Sora قادر به تولید ویدیوهایی با وضوح 1080p با وفاداری بصری چشمگیر است.
  • حرکت واقع گرایانه: Sora در ایجاد حرکات واقع گرایانه و طبیعی که برای ایجاد صحنه‌های باورپذیر بسیار مهم است، عالی است.
  • تولید صحنه‌های پیچیده: Sora می‌تواند ویدیوهایی با جزئیات پیچیده و تعاملات پیچیده بین اشیاء و شخصیت‌ها تولید کند.
  • تبدیل متن به ویدیو و تصویر به ویدیو: Sora از دستورالعمل‌های متنی و تصویری پشتیبانی می‌کند و انعطاف پذیری بالایی را در اختیار کاربران قرار می‌دهد.

با این حال، Sora نیز محدودیت‌هایی دارد:

  • در دسترس بودن محدود: Sora در حال حاضر فقط برای گروه منتخبی از محققان و هنرمندان در دسترس است.
  • هزینه محاسباتی بالا: تولید ویدیو با Sora به منابع محاسباتی قابل توجهی نیاز دارد، که می‌تواند منجر به هزینه‌های بالای استفاده در آینده شود.
  • پتانسیل سوء استفاده: توانایی ایجاد ویدیوهای تولید شده توسط هوش مصنوعی بسیار واقع گرایانه، نگرانی‌هایی را در مورد پتانسیل سوء استفاده، مانند ایجاد دیپ‌فیک‌ها، ایجاد می‌کند.

Firefly Adobe

Firefly Adobe یکی دیگر از بازیگران اصلی در فضای تولید ویدیوی هوش مصنوعی است. نقاط قوت کلیدی آن عبارتند از:

  • ادغام با Adobe Creative Suite: Firefly به طور یکپارچه با ابزارهای خلاقانه محبوب Adobe، مانند Photoshop و Premiere Pro، ادغام شده است و ادغام محتوای تولید شده توسط هوش مصنوعی را در گردش کار موجود خود برای کاربران آسان می‌کند.
  • تمرکز بر استفاده تجاری: Adobe به طور خاص Firefly را برای کاربران تجاری هدف قرار داده است و ویژگی‌هایی مانند مجوز محتوا و حفاظت از حق چاپ را ارائه می‌دهد.
  • مجموعه داده آموزشی بزرگ: Firefly بر روی مجموعه داده عظیمی از تصاویر Adobe Stock آموزش داده شده است، که خروجی با کیفیت بالا را تضمین می‌کند و خطر تولید مطالب دارای حق چاپ را کاهش می‌دهد.

با این حال، Firefly نیز محدودیت‌هایی دارد:

  • قابلیت‌های محدود تولید ویدیو: در حالی که Firefly برای تولید تصاویر و بافت‌ها عالی است، قابلیت‌های تولید ویدیوی آن در حال حاضر نسبت به Sora کمتر پیشرفته است.
  • قیمت‌گذاری مبتنی بر اشتراک: دسترسی به Firefly به اشتراک در Adobe Creative Cloud نیاز دارد، که می‌تواند برای برخی از کاربران گران باشد.
  • وابستگی به اکوسیستم Adobe: کاربرانی که از قبل با ابزارهای خلاقانه Adobe آشنا نیستند، ممکن است ادغام Firefly در گردش کار خود را دشوار بدانند.

سایر پلتفرم‌های نوظهور

علاوه بر Sora و Firefly، تعدادی از پلتفرم‌های دیگر تولید ویدیوی هوش مصنوعی در حال ظهور هستند که هر کدام ویژگی‌ها و قابلیت‌های منحصر به فرد خود را دارند. این پلتفرم‌ها عبارتند از:

  • RunwayML: RunwayML مجموعه‌ای از ابزارهای هوش مصنوعی را برای متخصصان خلاق ارائه می‌دهد، از جمله تولید ویدیو، ویرایش تصویر و انتقال سبک.
  • Synthesia: Synthesia بر روی ایجاد آواتارهای تولید شده توسط هوش مصنوعی و مجریان مجازی برای آموزش شرکتی و ویدیوهای بازاریابی تمرکز دارد.
  • Pictory: Pictory متخصص در تبدیل پست‌های وبلاگ و مقالات به ویدیوهای جذاب برای رسانه‌های اجتماعی است.

آینده تولید ویدیوی هوش مصنوعی

حوزه تولید ویدیوی هوش مصنوعی به سرعت در حال تحول است و به احتمال زیاد شاهد پیشرفت‌های قابل توجهی در سال‌های آینده خواهیم بود. برخی از روندهای بالقوه آینده عبارتند از:

  • وضوح و کیفیت بالاتر: پلتفرم‌های تولید ویدیوی هوش مصنوعی به بهبود وضوح و وفاداری بصری خروجی خود ادامه خواهند داد و در نهایت به نقطه‌ای می‌رسند که تشخیص ویدیوهای تولید شده توسط هوش مصنوعی از ویدیوهای ایجاد شده توسط انسان دشوار باشد.
  • حرکت و فیزیک واقع گرایانه‌تر: هوش مصنوعی در شبیه‌سازی حرکت و فیزیک واقع گرایانه بهتر خواهد شد و ویدیوهای تولید شده توسط هوش مصنوعی را باورپذیرتر و فراگیرتر می‌کند.
  • کنترل و سفارشی‌سازی بهبود یافته: کاربران کنترل بیشتری بر فرآیند خلاقانه خواهند داشت و می‌توانند جزئیاتی مانند زوایای دوربین، نورپردازی و احساسات شخصیت را مشخص کنند.
  • ادغام با سایر فناوری‌های هوش مصنوعی: تولید ویدیوی هوش مصنوعی با سایر فناوری‌های هوش مصنوعی، مانند پردازش زبان طبیعی و بینایی کامپیوتر ادغام خواهد شد و برنامه‌های جدید و نوآورانه‌ای را فعال می‌کند.
  • دموکراتیزه کردن ایجاد ویدیو: تولید ویدیوی هوش مصنوعی، ایجاد ویدیوهای با کیفیت بالا را برای همه، صرف نظر از مهارت‌های فنی یا بودجه، آسان‌تر و مقرون به صرفه‌تر می‌کند.

در حالی که Veo 2 گوگل ممکن است چشمگیرترین پلتفرم تولید ویدیوی هوش مصنوعی در بازار امروز نباشد، اما نشان دهنده یک گام مهم رو به جلو در دموکراتیزه کردن فناوری هوش مصنوعی است. با ادامه تکامل این زمینه، به احتمال زیاد شاهد ظهور ابزارهای قدرتمندتر و در دسترس‌تری خواهیم بود که به سازندگان از هر نوع قدرت می‌دهد تا دیدگاه‌های خود را زنده کنند.