Era Baharu Manipulasi Imej
Tidak seperti kebanyakan alat imej AI sedia ada yang memfokuskan terutamanya pada menjana imej baharu sepenuhnya dari awal, Gemini 2.0 Flash membezakan dirinya melalui keupayaannya untuk memahami dan mengubah suai gambar sedia ada. Sistem ini memahami kandungan foto dengan begitu baik sehingga ia boleh membuat perubahan khusus berdasarkan arahan perbualan, sambil mengekalkan intipati imej asal.
Pencapaian luar biasa ini dicapai melalui sifat multimodal asli Gemini 2.0. Ia memproses teks dan imej secara serentak dengan lancar. Model ini dengan bijak menukar imej kepada ‘token’ – unit asas yang sama yang digunakannya untuk pemprosesan teks. Ini membolehkannya memanipulasi kandungan visual menggunakan laluan neural yang sama yang digunakannya untuk memahami bahasa. Pendekatan bersepadu ini menghapuskan keperluan untuk model khusus yang berasingan untuk mengendalikan jenis media yang berbeza, menyelaraskan keseluruhan proses.
‘Gemini 2.0 Flash memanfaatkan input multimodal, penaakulan yang dipertingkatkan, dan pemahaman bahasa semula jadi untuk mencipta imej,’ kata Google dalam pengumuman rasminya. ‘Bayangkan menggunakan Gemini 2.0 Flash untuk menceritakan kisah, dan ia menggambarkannya dengan gambar, mengekalkan konsistensi dalam watak dan tetapan. Berikan maklum balas, dan model akan menyesuaikan cerita atau mengubah suai gaya lukisannya.’
Pendekatan ini membezakan Google daripada pesaing seperti OpenAI. Walaupun ChatGPT boleh menjana imej menggunakan Dall-E 3 dan mengulang ciptaannya memahami bahasa semula jadi, ia bergantung pada model AI yang berasingan untuk mencapai ini. Pada dasarnya, ChatGPT mengatur interaksi kompleks antara GPT-V untuk penglihatan, GPT-4o untuk bahasa, dan Dall-E 3 untuk penjanaan imej. OpenAI, bagaimanapun, menjangkakan untuk mencapai model tunggal yang merangkumi semua dengan GPT-5 masa depan.
Konsep selari wujud dalam alam sumber terbuka dengan OmniGen, yang dibangunkan oleh penyelidik di Beijing Academy of Artificial Intelligence. Penciptanya membayangkan ‘menjana pelbagai imej secara langsung melalui arahan multimodal sewenang-wenangnya, tanpa memerlukan pemalam atau operasi tambahan, sama seperti cara GPT berfungsi dalam penjanaan bahasa.’
OmniGen mempunyai keupayaan seperti pengubahan objek, penggabungan pemandangan dan pelarasan estetik. Walau bagaimanapun, ia jauh kurang mesra pengguna daripada Gemini baharu, beroperasi dengan resolusi yang lebih rendah, menuntut arahan yang lebih rumit, dan akhirnya kekurangan kuasa tawaran Google. Walau bagaimanapun, ia membentangkan alternatif sumber terbuka yang menarik untuk pengguna tertentu.
Menguji Gemini 2.0 Flash
Untuk benar-benar memahami keupayaan dan had Gemini 2.0 Flash, satu siri ujian praktikal telah dijalankan, meneroka pelbagai senario penyuntingan. Hasilnya mempamerkan kedua-dua kekuatan yang mengagumkan dan beberapa bidang untuk potensi penambahbaikan.
Mengubah Suai Subjek Realistik dengan Ketepatan
Model ini mempamerkan koheren yang luar biasa apabila ditugaskan untuk mengubah suai subjek yang realistik. Sebagai contoh, dalam ujian potret diri, permintaan untuk menambah definisi otot menghasilkan hasil yang diinginkan. Walaupun perubahan muka kecil berlaku, kebolehkenalan keseluruhan dikekalkan.
Pentingnya, elemen lain dalam foto itu sebahagian besarnya tidak disentuh, menunjukkan keupayaan AI untuk memberi tumpuan semata-mata pada pengubahsuaian yang ditentukan. Keupayaan penyuntingan yang disasarkan ini berbeza dengan pendekatan generatif biasa yang sering membina semula keseluruhan imej, yang berpotensi memperkenalkan perubahan yang tidak diingini.
Ia juga penting untuk ambil perhatian perlindungan terbina dalam model. Ia secara konsisten enggan mengedit foto kanak-kanak dan mengelak daripada mengendalikan sebarang kandungan yang berkaitan dengan kebogelan, mencerminkan komitmen Google terhadap pembangunan AI yang bertanggungjawab. Bagi pengguna yang ingin meneroka manipulasi imej yang lebih berisiko, OmniGen mungkin pilihan yang lebih sesuai.
Menguasai Transformasi Gaya
Gemini 2.0 Flash menunjukkan kebolehan yang luar biasa untuk penukaran gaya. Permintaan untuk mengubah gambar Donald Trump ke dalam gaya manga Jepun menghasilkan imaginasi semula yang berjaya selepas beberapa percubaan.
Model ini dengan mahir mengendalikan spektrum pemindahan gaya yang luas, menukar foto kepada lukisan, lukisan minyak, atau hampir mana-mana gaya artistik yang boleh dibayangkan. Pengguna boleh memperhalusi hasil dengan melaraskan tetapan suhu dan menogol pelbagai penapis. Walau bagaimanapun, perlu diingat bahawa tetapan suhu yang lebih tinggi cenderung menghasilkan transformasi yang kurang setia kepada imej asal.
Had yang ketara muncul apabila meminta gaya yang dikaitkan dengan artis tertentu. Ujian yang melibatkan gaya Leonardo Da Vinci, Michelangelo, Botticelli, atau Van Gogh mengakibatkan AI menghasilkan semula lukisan sebenar oleh pakar ini, dan bukannya menggunakan teknik tersendiri mereka pada imej sumber.
Dengan beberapa penghalusan segera dan beberapa lelaran, hasil yang boleh digunakan, walaupun biasa-biasa sahaja, boleh dicapai. Secara amnya, adalah lebih berkesan untuk meminta gaya seni yang diingini daripada artis tertentu.
Seni Manipulasi Elemen
Untuk tugas penyuntingan praktikal, Gemini 2.0 Flash benar-benar cemerlang. Ia dengan mahir mengendalikan inpainting dan manipulasi objek, mengalih keluar objek tertentu dengan lancar atas permintaan atau menambah elemen baharu pada gubahan. Dalam satu ujian, AI telah digesa untuk menggantikan bola keranjang dengan ayam getah gergasi, memberikan hasil yang lucu namun sesuai dengan konteks.
Walaupun perubahan kecil sekali-sekala kepada subjek mungkin berlaku, ini biasanya mudah diperbaiki dengan alat penyuntingan digital standard dalam masa beberapa saat.
Mungkin yang paling kontroversi, model ini menunjukkan kecekapan dalam mengalih keluar perlindungan hak cipta – ciri yang telah mencetuskan perbincangan yang meluas di platform seperti X. Apabila dibentangkan dengan imej yang mengandungi tera air dan diarahkan untuk menghapuskan semua huruf, logo dan tera air, Gemini menjana imej bersih yang hampir tidak dapat dibezakan daripada asal yang tidak bertanda air.
Menavigasi Perubahan Perspektif
Salah satu aspek Gemini yang paling mengagumkan dari segi teknikal ialah keupayaannya untuk mengubah perspektif – satu kejayaan yang biasanya sukar dilakukan oleh model resapan arus perdana. AI boleh membayangkan semula adegan dari sudut yang berbeza, walaupun hasilnya pada asasnya adalah ciptaan baharu dan bukannya transformasi tepat yang asal.
Walaupun anjakan perspektif tidak menghasilkan hasil yang sempurna – model itu, bagaimanapun, mengkonseptualisasikan keseluruhan imej dari sudut pandangan baharu – ia mewakili kemajuan ketara dalam pemahaman AI tentang ruang tiga dimensi berdasarkan input dua dimensi.
Ungkapan yang betul adalah penting apabila mengarahkan model untuk memanipulasi latar belakang. Ia sering cenderung untuk mengubah suai keseluruhan gambar, menghasilkan komposisi yang berbeza secara drastik.
Sebagai contoh, dalam satu ujian, Gemini diminta untuk menukar latar belakang foto, meletakkan robot yang duduk di Mesir dan bukannya lokasi asalnya. Arahan itu secara jelas menyatakan untuk tidak mengubah subjek. Walau bagaimanapun, model itu bergelut untuk mengendalikan tugas khusus ini dengan tepat, sebaliknya menyediakan komposisi baharu sepenuhnya yang menampilkan piramid, dengan robot berdiri, tetapi bukan sebagai fokus utama.
Satu lagi had yang diperhatikan ialah walaupun model boleh lelaran berbilang kali pada satu imej, kualiti butiran cenderung merosot dengan setiap lelaran berturut-turut. Oleh itu, adalah penting untuk mengambil kira potensi kemerosotan kualiti apabila melakukan pengeditan yang meluas.
Model percubaan ini kini boleh diakses oleh pembangun melalui Google AI Studio dan Gemini API di semua rantau yang disokong. Ia juga tersedia di Hugging Face untuk pengguna yang lebih suka untuk tidak berkongsi maklumat mereka dengan Google.
Kesimpulannya, tawaran baharu daripada Google ini nampaknya merupakan permata tersembunyi, sama seperti NotebookLM. Ia mencapai sesuatu yang model lain tidak boleh, dan ia melakukannya dengan tahap kecekapan yang baik, namun ia kekal agak di bawah radar. Ia sudah pasti patut diterokai untuk pengguna yang ingin bereksperimen dengan potensi AI generatif dalam penyuntingan imej dan berseronok kreatif sepanjang perjalanan. Keupayaan untuk hanya menerangkan perubahan yang diingini dalam bahasa biasa membuka dunia kemungkinan untuk kedua-dua pengguna kasual dan profesional, menandakan satu langkah penting ke hadapan dalam pendemokrasian manipulasi imej. Teknologi ini berpotensi untuk membentuk semula cara kita berinteraksi dengan kandungan visual, menjadikan teknik penyuntingan lanjutan boleh diakses oleh semua orang, tanpa mengira kemahiran teknikal mereka. Implikasinya adalah luas, daripada peningkatan foto peribadi kepada aliran kerja reka bentuk profesional, dan juga kepada penciptaan bentuk seni visual yang baharu sepenuhnya. Memandangkan teknologi terus berkembang, ia akan menjadi menarik untuk menyaksikan kesannya terhadap landskap kreatif.