Video AI Gemini: Kesan Awal Kurang Memuaskan

Google secara resmi memasuki arena video kecerdasan buatan (AI) dengan membuat model video AI Veo 2 miliknya dapat diakses oleh pelanggan Gemini Advanced.

Ini menandai debut publik teknologi video AI Google, meskipun pada awalnya di balik paywall.

Mereka yang ingin bereksperimen dengan Veo 2 dapat memanfaatkan uji coba gratis satu bulan untuk langganan premium Google One AI, yang mencakup akses ke Gemini Advanced. Setelah masa uji coba, langganan ini dihargai $20 per bulan. Veo 2 juga terintegrasi ke dalam proyek animasi AI baru Google Labs. Google bermaksud untuk memperluas ketersediaan Veo 2 ke pengguna gratis di masa mendatang.

Munculnya video AI mewakili evolusi terbaru dalam AI generatif. Rilis luas Veo 2 oleh Google mengikuti inisiatif serupa oleh OpenAI (Sora) dan Adobe (Firefly). Sektor layanan kreatif AI menjadi semakin kompetitif, dengan perusahaan teknologi besar yang meluncurkan model video AI mereka. Masuknya Google menandakan momentum yang berkembang dalam penawaran layanan video AI.

Kebijakan privasi Gemini Google menetapkan bahwa mereka dapat mengumpulkan data dari interaksi pengguna, termasuk obrolan dan file, menyarankan pengguna untuk tidak membagikan informasi rahasia. Dengan menyetujui kebijakan AI generatif Google, pengguna setuju untuk mematuhi pedoman penggunaan yang dapat diterima perusahaan, yang bertujuan untuk mencegah pembuatan konten berbahaya atau ilegal.

Pengguna dapat menghasilkan klip AI pendek melalui web Gemini atau aplikasi seluler dengan memilih Veo 2 dari opsi model dalam antarmuka Gemini Advanced. Video biasanya dihasilkan dalam satu atau dua menit.

Klip yang dihasilkan AI ini dibatasi hingga durasi delapan detik dan resolusi 720p, tanpa audio. Gemini secara otomatis merender video dalam format horizontal 16:9, tanpa opsi yang jelas untuk ukuran alternatif, bahkan ketika ditentukan dalam perintah. Selain itu, pengguna tidak dapat mengunggah referensi gambar atau gaya, sehingga membutuhkan kemahiran dalam rekayasa prompt AI untuk mencapai hasil video yang diinginkan.

Ada batasan jumlah video yang dapat dihasilkan pengguna setiap bulan, meskipun pengukuran pasti dari kredit ini masih belum ditentukan. Google menunjukkan bahwa pengguna akan menerima peringatan di dalam Gemini saat mereka mendekati batas mereka.

Tanda air SynthID Google secara otomatis disematkan dalam video Veo 2. Tanda air yang tidak terlihat ini berfungsi untuk mengidentifikasi konten yang dibuat sepenuhnya oleh AI. Google juga menggunakan teknologi ini untuk gambar yang dihasilkan menggunakan model text-to-image Imagen 3 miliknya.

Evaluasi awal Veo 2 menunjukkan bahwa video tersebut memuaskan tetapi biasa-biasa saja. Gemini menunjukkan kepatuhan yang terpuji terhadap perintah, secara akurat menghasilkan konten dengan kesalahan atau inkonsistensi minimal. Namun, platform seperti Sora dan Firefly memungkinkan pembuatan video AI pada resolusi yang lebih tinggi, seperti 1080p, dan menawarkan opsi penyesuaian yang lebih luas, yang sangat penting untuk meminimalkan pengeditan pasca-produksi. Meskipun Google tidak diragukan lagi memiliki rencana untuk peningkatan Veo, Veo 2 saat ini berfungsi sebagai alat yang menarik untuk eksperimen tetapi tidak mungkin menjadi penting untuk alur kerja sehari-hari para kreator.

Menyelami Lebih Dalam Veo 2 Gemini: Tinjauan Komprehensif

Meskipun rilis awal Veo 2 Google mungkin tampak kurang memuaskan dibandingkan dengan pesaing seperti Sora dari OpenAI dan Firefly dari Adobe, penting untuk menggali lebih dalam spesifikasi kemampuan, batasan, dan potensinya. Memahami nuansa ini sangat penting bagi siapa pun yang mempertimbangkan untuk mengintegrasikan Veo 2 ke dalam alur kerja kreatif mereka.

Resolusi dan Kualitas Output

Salah satu batasan paling langsung dari Veo 2 adalah resolusi output maksimumnya 720p. Di era di mana video 4K semakin menjadi standar, dan bahkan perangkat seluler mampu merekam dalam definisi tinggi, kendala ini secara signifikan memengaruhi kualitas konten yang dihasilkan. Meskipun 720p mungkin cukup untuk posting media sosial cepat atau komunikasi internal, itu tidak memenuhi syarat untuk aplikasi profesional atau proyek yang membutuhkan ketelitian visual tinggi. Pesaing seperti Sora, yang menawarkan output 1080p, segera memiliki keunggulan di area ini.

Tidak Adanya Audio

Kurangnya audio dalam video yang dihasilkan Veo 2 adalah kekurangan penting lainnya. Suara adalah elemen penting dari bercerita video, dan ketidakhadirannya membutuhkan pekerjaan pasca-produksi tambahan untuk menambahkan musik, efek suara, atau dialog. Ini tidak hanya meningkatkan waktu dan upaya yang diperlukan untuk membuat produk jadi, tetapi juga membatasi kemungkinan kreatif dalam proses pembuatan AI itu sendiri. Pengguna yang berharap untuk dengan cepat membuat video menarik dengan audio terintegrasi akan menemukan Veo 2 kurang dalam hal ini.

Opsi Kustomisasi Terbatas

Opsi kustomisasi Veo 2 yang terbatas lebih lanjut membatasi kegunaannya. Ketidakmampuan untuk menentukan rasio aspek di luar format standar 16:9, ditambah dengan kurangnya dukungan untuk referensi gambar atau gaya, membuat sulit untuk menyesuaikan output dengan visi kreatif tertentu. Hal ini memaksa pengguna untuk sangat bergantung pada perintah teks saja, yang sulit untuk disempurnakan untuk mencapai hasil yang tepat. Sebaliknya, platform yang memungkinkan input visual dan kontrol yang lebih terperinci atas gaya dan komposisi menawarkan keuntungan yang signifikan.

Tantangan Rekayasa Prompt

Mengingat keterbatasan dalam kustomisasi, rekayasa prompt yang efektif menjadi yang terpenting saat menggunakan Veo 2. Pengguna harus belajar membuat prompt yang terperinci dan tepat untuk memandu AI menuju hasil yang diinginkan. Ini membutuhkan pemahaman yang mendalam tentang bagaimana AI menafsirkan bahasa dan menerjemahkannya ke dalam konten visual. Meskipun eksperimen dapat membantu pengguna mengembangkan keterampilan ini, kurva pembelajaran bisa curam, dan bahkan insinyur prompt yang berpengalaman mungkin berjuang untuk mencapai hasil yang konsisten. Tidak adanya umpan balik visual selama proses pembuatan prompt lebih lanjut memperumit masalah.

Batas Pembuatan Bulanan

Batas pembuatan bulanan yang tidak diungkapkan menambahkan lapisan ketidakpastian lain pada kegunaan Veo 2. Tanpa informasi yang jelas tentang bagaimana batas ini dihitung, pengguna mungkin ragu untuk sepenuhnya mengintegrasikan Veo 2 ke dalam alur kerja mereka, khawatir mereka akan kehabisan kredit pada saat kritis. Kurangnya transparansi ini sangat mengkhawatirkan bagi pengguna profesional yang mengandalkan akses yang dapat diprediksi ke alat AI.

Janji Tanda Air SynthID

Terlepas dari keterbatasannya, Veo 2 memang menawarkan satu keuntungan penting: penyertaan tanda air SynthID. Tanda air tak terlihat ini membantu membedakan konten yang dihasilkan AI dari konten yang dibuat manusia, yang menjadi semakin penting dalam perang melawan misinformasi dan deepfake. Sementara efektivitas SynthID dalam mendeteksi video yang dihasilkan AI di berbagai platform dan proses pengeditan masih harus dilihat, penyertaannya menandakan komitmen Google terhadap pengembangan AI yang bertanggung jawab.

Potensi Pertumbuhan di Masa Depan

Penting untuk diingat bahwa Veo 2 masih dalam tahap awal pengembangan. Google memiliki sejarah terus-menerus meningkatkan produk AI-nya, dan kemungkinan Veo 2 akan menerima pembaruan dan peningkatan signifikan di masa mendatang. Potensi peningkatan dapat mencakup:

  • Peningkatan resolusi output (1080p, 4K)
  • Integrasi audio
  • Opsi kustomisasi yang lebih luas (rasio aspek, referensi gaya)
  • Peningkatan alat rekayasa prompt
  • Informasi yang lebih jelas tentang batas pembuatan
  • Teknologi tanda air SynthID yang ditingkatkan

Veo 2 dalam Konteks Lebih Luas dari Pembuatan Video AI

Untuk benar-benar memahami posisi Veo 2 di pasar, sangat penting untuk membandingkannya dengan platform pembuatan video AI terkemuka lainnya. Sementara setiap platform memiliki kekuatan dan kelemahannya sendiri, memahami perbedaan ini dapat membantu pengguna membuat keputusan yang tepat tentang alat mana yang paling sesuai dengan kebutuhan mereka.

Sora dari OpenAI

Sora dari OpenAI bisa dibilang merupakan platform pembuatan video AI yang paling banyak digembar-gemborkan saat ini. Kekuatan utamanya meliputi:

  • Output berkualitas tinggi: Sora mampu menghasilkan video pada resolusi 1080p dengan ketelitian visual yang mengesankan.
  • Gerakan realistis: Sora unggul dalam menciptakan gerakan yang realistis dan tampak alami, yang sangat penting untuk menciptakan adegan yang dapat dipercaya.
  • Pembuatan adegan kompleks: Sora dapat menghasilkan video dengan detail rumit dan interaksi kompleks antara objek dan karakter.
  • Text-to-video dan image-to-video: Sora mendukung prompt teks dan gambar, memberi pengguna tingkat fleksibilitas yang tinggi.

Namun, Sora juga memiliki keterbatasan:

  • Ketersediaan terbatas: Sora saat ini hanya tersedia untuk sekelompok peneliti dan seniman terpilih.
  • Biaya komputasi tinggi: Menghasilkan video dengan Sora membutuhkan sumber daya komputasi yang signifikan, yang dapat menyebabkan biaya penggunaan yang tinggi di masa mendatang.
  • Potensi penyalahgunaan: Kemampuan untuk membuat video yang dihasilkan AI yang sangat realistis menimbulkan kekhawatiran tentang potensi penyalahgunaan, seperti pembuatan deepfake.

Firefly dari Adobe

Firefly dari Adobe adalah pemain utama lainnya di ruang pembuatan video AI. Kekuatan utamanya meliputi:

  • Integrasi dengan Adobe Creative Suite: Firefly terintegrasi dengan mulus dengan alat kreatif populer Adobe, seperti Photoshop dan Premiere Pro, sehingga memudahkan pengguna untuk menggabungkan konten yang dihasilkan AI ke dalam alur kerja mereka yang ada.
  • Fokus pada penggunaan komersial: Adobe secara khusus menargetkan Firefly pada pengguna komersial, menawarkan fitur seperti lisensi konten dan perlindungan hak cipta.
  • Dataset pelatihan besar: Firefly dilatih pada dataset besar gambar Adobe Stock, yang memastikan output berkualitas tinggi dan mengurangi risiko menghasilkan materi berhak cipta.

Namun, Firefly juga memiliki keterbatasan:

  • Kemampuan pembuatan video terbatas: Sementara Firefly sangat baik untuk menghasilkan gambar dan tekstur, kemampuan pembuatan videonya saat ini kurang canggih daripada Sora.
  • Harga berbasis langganan: Akses ke Firefly membutuhkan langganan Adobe Creative Cloud, yang bisa mahal bagi sebagian pengguna.
  • Ketergantungan pada ekosistem Adobe: Pengguna yang belum terbiasa dengan alat kreatif Adobe mungkin merasa sulit untuk mengintegrasikan Firefly ke dalam alur kerja mereka.

Platform Berkembang Lainnya

Selain Sora dan Firefly, sejumlah platform pembuatan video AI lainnya muncul, masing-masing dengan fitur dan kemampuan uniknya sendiri. Platform ini meliputi:

  • RunwayML: RunwayML menawarkan serangkaian alat AI untuk profesional kreatif, termasuk pembuatan video, pengeditan gambar, dan transfer gaya.
  • Synthesia: Synthesia berfokus pada pembuatan avatar yang dihasilkan AI dan presenter virtual untuk pelatihan perusahaan dan video pemasaran.
  • Pictory: Pictory mengkhususkan diri dalam mengubah posting blog dan artikel menjadi video menarik untuk media sosial.

Masa Depan Pembuatan Video AI

Bidang pembuatan video AI berkembang pesat, dan kemungkinan kita akan melihat kemajuan signifikan dalam beberapa tahun mendatang. Beberapa tren masa depan potensial meliputi:

  • Resolusi dan kualitas yang lebih tinggi: Platform pembuatan video AI akan terus meningkatkan resolusi dan ketelitian visual output mereka, yang pada akhirnya mencapai titik di mana sulit untuk membedakan video yang dihasilkan AI dari video yang dibuat manusia.
  • Gerakan dan fisika yang lebih realistis: AI akan menjadi lebih baik dalam mensimulasikan gerakan dan fisika yang realistis, membuat video yang dihasilkan AI lebih dapat dipercaya dan imersif.
  • Kontrol dan kustomisasi yang ditingkatkan: Pengguna akan memiliki lebih banyak kontrol atas proses kreatif, dengan kemampuan untuk menentukan detail seperti sudut kamera, pencahayaan, dan emosi karakter.
  • Integrasi dengan teknologi AI lainnya: Pembuatan video AI akan diintegrasikan dengan teknologi AI lainnya, seperti pemrosesan bahasa alami dan visi komputer, yang memungkinkan aplikasi baru dan inovatif.
  • Demokratisasi pembuatan video: Pembuatan video AI akan membuatnya lebih mudah dan lebih terjangkau bagi siapa pun untuk membuat video berkualitas tinggi, terlepas dari keterampilan teknis atau anggaran mereka.

Meskipun Veo 2 Google mungkin bukan platform pembuatan video AI yang paling mengesankan di pasar saat ini, itu merupakan langkah maju yang penting dalam demokratisasi teknologi AI. Seiring bidang ini terus berkembang, kemungkinan kita akan melihat alat yang lebih kuat dan mudah diakses muncul, memberdayakan para kreator dari semua jenis untuk mewujudkan visi mereka.