AI Google: Edit Gambar via Teks

Era Baru Manipulasi Gambar

Tidak seperti banyak alat gambar AI yang ada yang fokus terutama pada pembuatan gambar yang sama sekali baru dari awal, Gemini 2.0 Flash membedakan dirinya melalui kapasitasnya untuk memahami dan memodifikasi foto yang ada. Sistem ini memahami konten foto dengan sangat baik sehingga dapat membuat perubahan spesifik berdasarkan instruksi percakapan, sambil tetap mempertahankan esensi gambar aslinya.

Prestasi luar biasa ini dicapai melalui sifat multimodal asli Gemini 2.0. Ini memproses teks dan gambar secara bersamaan dengan mulus. Model ini dengan cerdik mengubah gambar menjadi ‘token’ – unit fundamental yang sama yang digunakannya untuk pemrosesan teks. Ini memungkinkannya untuk memanipulasi konten visual menggunakan jalur saraf yang sama yang digunakannya untuk memahami bahasa. Pendekatan terpadu ini menghilangkan kebutuhan akan model terpisah dan khusus untuk menangani berbagai jenis media, menyederhanakan seluruh proses.

‘Gemini 2.0 Flash memanfaatkan input multimodal, penalaran yang ditingkatkan, dan pemahaman bahasa alami untuk membuat gambar,’ kata Google dalam pengumuman resminya. ‘Bayangkan menggunakan Gemini 2.0 Flash untuk menceritakan sebuah kisah, dan itu mengilustrasikannya dengan gambar, menjaga konsistensi dalam karakter dan pengaturan. Berikan umpan balik, dan model akan menyesuaikan cerita atau memodifikasi gaya gambarnya.’

Pendekatan ini membedakan Google dari pesaing seperti OpenAI. Sementara ChatGPT dapat menghasilkan gambar menggunakan Dall-E 3 dan mengulangi kreasinya dengan memahami bahasa alami, ia bergantung pada model AI terpisah untuk mencapai ini. Intinya, ChatGPT mengatur interaksi yang kompleks antara GPT-V untuk visi, GPT-4o untuk bahasa, dan Dall-E 3 untuk pembuatan gambar. OpenAI, bagaimanapun, mengantisipasi pencapaian model tunggal yang mencakup semuanya dengan GPT-5 di masa depan.

Konsep paralel ada di ranah open-source dengan OmniGen, yang dikembangkan oleh para peneliti di Beijing Academy of Artificial Intelligence. Penciptanya membayangkan ‘menghasilkan berbagai gambar secara langsung melalui instruksi multimodal yang berubah-ubah, tanpa memerlukan plugin atau operasi tambahan, mirip dengan cara GPT berfungsi dalam pembuatan bahasa.’

OmniGen membanggakan kemampuan seperti perubahan objek, penggabungan adegan, dan penyesuaian estetika. Namun, ini jauh lebih tidak ramah pengguna daripada Gemini baru, beroperasi dengan resolusi yang lebih rendah, menuntut perintah yang lebih rumit, dan pada akhirnya tidak memiliki kekuatan yang sama dengan penawaran Google. Namun demikian, ini menghadirkan alternatif open-source yang menarik bagi pengguna tertentu.

Menguji Gemini 2.0 Flash

Untuk benar-benar memahami kemampuan dan keterbatasan Gemini 2.0 Flash, serangkaian tes praktis dilakukan, menjelajahi berbagai skenario pengeditan. Hasilnya menunjukkan kekuatan yang mengesankan dan beberapa area untuk potensi peningkatan.

Memodifikasi Subjek Realistis dengan Presisi

Model ini menunjukkan koherensi yang luar biasa ketika ditugaskan untuk memodifikasi subjek yang realistis. Misalnya, dalam tes potret diri, permintaan untuk menambahkan definisi otot menghasilkan hasil yang diinginkan. Sementara perubahan wajah kecil terjadi, pengenalan keseluruhan tetap dipertahankan.

Yang terpenting, elemen lain dalam foto sebagian besar tetap tidak tersentuh, menunjukkan kemampuan AI untuk fokus hanya pada modifikasi yang ditentukan. Kemampuan pengeditan yang ditargetkan ini sangat kontras dengan pendekatan generatif tipikal yang sering merekonstruksi seluruh gambar, yang berpotensi memperkenalkan perubahan yang tidak diinginkan.

Penting juga untuk dicatat perlindungan bawaan model. Secara konsisten menolak untuk mengedit foto anak-anak dan menghindari penanganan konten apa pun yang terkait dengan ketelanjangan, yang mencerminkan komitmen Google terhadap pengembangan AI yang bertanggung jawab. Bagi pengguna yang ingin menjelajahi manipulasi gambar yang lebih berisiko, OmniGen mungkin menjadi pilihan yang lebih cocok.

Menguasai Transformasi Gaya

Gemini 2.0 Flash menunjukkan bakat luar biasa untuk konversi gaya. Permintaan untuk mengubah foto Donald Trump ke dalam gaya manga Jepang menghasilkan penggambaran ulang yang sukses setelah beberapa kali percobaan.

Model ini dengan mahir menangani spektrum transfer gaya yang luas, mengubah foto menjadi gambar, lukisan cat minyak, atau hampir semua gaya artistik yang dapat dibayangkan. Pengguna dapat menyempurnakan hasil dengan menyesuaikan pengaturan suhu dan mengaktifkan berbagai filter. Namun, perlu dicatat bahwa pengaturan suhu yang lebih tinggi cenderung menghasilkan transformasi yang kurang setia pada gambar aslinya.

Keterbatasan penting muncul saat meminta gaya yang terkait dengan artis tertentu. Tes yang melibatkan gaya Leonardo Da Vinci, Michelangelo, Botticelli, atau Van Gogh menghasilkan AI yang mereproduksi lukisan sebenarnya oleh para master ini, daripada menerapkan teknik khas mereka ke gambar sumber.

Dengan beberapa penyempurnaan prompt dan beberapa iterasi, hasil yang dapat digunakan, meskipun biasa-biasa saja, dapat dicapai. Secara umum, lebih efektif untuk meminta gaya seni yang diinginkan daripada artis tertentu.

Seni Manipulasi Elemen

Untuk tugas pengeditan praktis, Gemini 2.0 Flash benar-benar unggul. Ini dengan ahli menangani inpainting dan manipulasi objek, dengan mulus menghapus objek tertentu atas permintaan atau menambahkan elemen baru ke komposisi. Dalam satu tes, AI diminta untuk mengganti bola basket dengan ayam karet raksasa, memberikan hasil yang lucu namun sesuai konteks.

Meskipun perubahan kecil sesekali pada subjek mungkin terjadi, ini biasanya mudah diperbaiki dengan alat pengeditan digital standar dalam hitungan detik.

Mungkin yang paling kontroversial, model ini menunjukkan kemahiran dalam menghapus perlindungan hak cipta – fitur yang telah memicu diskusi besar di platform seperti X. Ketika disajikan dengan gambar yang berisi watermark dan diinstruksikan untuk menghilangkan semua huruf, logo, dan watermark, Gemini menghasilkan gambar bersih yang hampir tidak dapat dibedakan dari aslinya yang tidak diberi watermark.

Menavigasi Perubahan Perspektif

Salah satu aspek Gemini yang paling mengesankan secara teknis adalah kemampuannya untuk mengubah perspektif – suatu prestasi yang biasanya sulit dilakukan oleh model difusi arus utama. AI dapat membayangkan kembali sebuah adegan dari sudut yang berbeda, meskipun hasilnya pada dasarnya adalah kreasi baru daripada transformasi yang tepat dari aslinya.

Sementara pergeseran perspektif tidak menghasilkan hasil yang sempurna – modelnya, bagaimanapun juga, mengkonseptualisasikan seluruh gambar dari sudut pandang baru – mereka mewakili kemajuan signifikan dalam pemahaman AI tentang ruang tiga dimensi berdasarkan input dua dimensi.

Ungkapan yang tepat sangat penting ketika menginstruksikan model untuk memanipulasi latar belakang. Seringkali cenderung memodifikasi seluruh gambar, menghasilkan komposisi yang sangat berbeda.

Misalnya, dalam satu tes, Gemini diminta untuk mengubah latar belakang foto, menempatkan robot yang duduk di Mesir, bukan di lokasi aslinya. Instruksi tersebut secara eksplisit menyatakan untuk tidak mengubah subjek. Namun, model tersebut kesulitan untuk menangani tugas khusus ini secara akurat, alih-alih menyediakan komposisi yang sama sekali baru yang menampilkan piramida, dengan robot berdiri, tetapi bukan sebagai fokus utama.

Keterbatasan lain yang diamati adalah bahwa sementara model dapat melakukan iterasi beberapa kali pada satu gambar, kualitas detail cenderung menurun dengan setiap iterasi berturut-turut. Oleh karena itu, penting untuk memperhatikan potensi penurunan kualitas saat melakukan pengeditan ekstensif.

Model eksperimental ini saat ini dapat diakses oleh pengembang melalui Google AI Studio dan Gemini API di semua wilayah yang didukung. Ini juga tersedia di Hugging Face untuk pengguna yang memilih untuk tidak membagikan informasi mereka dengan Google.

Kesimpulannya, penawaran baru dari Google ini tampaknya menjadi permata tersembunyi, seperti NotebookLM. Ia mencapai sesuatu yang tidak dapat dilakukan oleh model lain, dan melakukannya dengan tingkat kemahiran yang baik, namun tetap relatif tidak terdeteksi. Tidak diragukan lagi layak untuk dijelajahi bagi pengguna yang ingin bereksperimen dengan potensi AI generatif dalam pengeditan gambar dan bersenang-senang kreatif di sepanjang jalan. Kemampuan untuk hanya menggambarkan perubahan yang diinginkan dalam bahasa sederhana membuka dunia kemungkinan bagi pengguna biasa dan profesional, menandai langkah maju yang signifikan dalam demokratisasi manipulasi gambar. Teknologi ini memiliki potensi untuk membentuk kembali cara kita berinteraksi dengan konten visual, membuat teknik pengeditan tingkat lanjut dapat diakses oleh semua orang, terlepas dari keterampilan teknis mereka. Implikasinya sangat luas, mulai dari peningkatan foto pribadi hingga alur kerja desain profesional, dan bahkan hingga penciptaan bentuk seni visual yang sama sekali baru. Seiring teknologi terus berkembang, akan sangat menarik untuk menyaksikan dampaknya pada lanskap kreatif.