Görüntü Manipülasyonunda Yeni Bir Dönem
Mevcut birçok yapay zeka görüntü aracı, sıfırdan tamamen yeni görüntüler oluşturmaya odaklanırken, Gemini 2.0 Flash, mevcut fotoğrafları anlama ve değiştirme yeteneği ile kendini ayırıyor. Bu sistem, bir fotoğrafın içeriğini o kadar iyi anlıyor ki, konuşma talimatlarına dayalı olarak belirli değişiklikler yapabiliyor ve tüm bunları orijinal görüntünün özünü koruyarak yapıyor.
Bu dikkate değer başarı, Gemini 2.0’ın doğal olarak çok modlu yapısı sayesinde elde ediliyor. Hem metin hem de görüntüleri aynı anda sorunsuz bir şekilde işliyor. Model, görüntüleri, metin işleme için kullandığı temel birimler olan ‘belirteçlere’ dönüştürüyor. Bu, dil anlamak için kullandığı sinir yollarını kullanarak görsel içeriği manipüle etmesini sağlıyor. Bu birleşik yaklaşım, farklı medya türlerini işlemek için ayrı, özel modellere olan ihtiyacı ortadan kaldırarak tüm süreci kolaylaştırıyor.
Google, resmi duyurusunda, ‘Gemini 2.0 Flash, görüntüler oluşturmak için çok modlu girdi, gelişmiş akıl yürütme ve doğal dil anlamayı kullanıyor’ dedi. ‘Gemini 2.0 Flash’ı bir hikaye anlatmak için kullandığınızı ve karakterler ile ayarları tutarlı bir şekilde koruyarak resimlerle gösterdiğini hayal edin. Geri bildirim sağlayın ve model hikayeyi uyarlayacak veya çizimlerinin stilini değiştirecektir.’
Bu yaklaşım, Google’ı OpenAI gibi rakiplerinden ayırıyor. ChatGPT, Dall-E 3’ü kullanarak görüntüler oluşturabilir ve doğal dili anlayarak yaratımlarını yineleyebilirken, bunu başarmak için ayrı bir yapay zeka modeline güveniyor. Özünde, ChatGPT, görme için GPT-V, dil için GPT-4o ve görüntü oluşturma için Dall-E 3 arasında karmaşık bir etkileşimi yönetiyor. Ancak OpenAI, gelecekteki GPT-5 ile tek, her şeyi kapsayan bir modele ulaşmayı öngörüyor.
Pekin Yapay Zeka Akademisi’ndeki araştırmacılar tarafından geliştirilen OmniGen ile açık kaynak dünyasında benzer bir kavram mevcut. Yaratıcıları, ‘GPT’nin dil üretiminde işlev gördüğü gibi, ek eklentilere veya işlemlere ihtiyaç duymadan, keyfi olarak çok modlu talimatlar aracılığıyla doğrudan çeşitli görüntüler oluşturmayı’ öngörüyorlar.
OmniGen, nesne değiştirme, sahne birleştirme ve estetik ayarlamalar gibi yeteneklere sahip. Ancak, yeni Gemini’den önemli ölçüde daha az kullanıcı dostu, daha düşük çözünürlüklerde çalışıyor, daha karmaşık komutlar gerektiriyor ve nihayetinde Google’ın sunduğu güce sahip değil. Yine de, belirli kullanıcılar için ilgi çekici bir açık kaynak alternatifi sunuyor.
Gemini 2.0 Flash’ı Test Etmek
Gemini 2.0 Flash’ın yeteneklerini ve sınırlamalarını gerçekten anlamak için, çeşitli düzenleme senaryolarını araştıran bir dizi pratik test yapıldı. Sonuçlar hem etkileyici güçlü yönleri hem de potansiyel iyileştirme alanlarını gösteriyor.
Gerçekçi Nesneleri Hassasiyetle Değiştirme
Model, gerçekçi nesneleri değiştirmekle görevlendirildiğinde dikkate değer bir tutarlılık sergiliyor. Örneğin, bir otoportre testinde, kas tanımı ekleme isteği istenen sonucu verdi. Küçük yüz değişiklikleri meydana gelirken, genel tanınabilirlik korundu.
En önemlisi, fotoğraftaki diğer öğeler büyük ölçüde dokunulmadan kaldı, bu da yapay zekanın yalnızca belirtilen değişikliğe odaklanma yeteneğini gösteriyor. Bu hedeflenen düzenleme yeteneği, genellikle tüm görüntüleri yeniden yapılandıran ve potansiyel olarak istenmeyen değişikliklere yol açan tipik üretken yaklaşımlarla keskin bir tezat oluşturuyor.
Modelin yerleşik güvenlik önlemlerini de not etmek önemlidir. Çocukların fotoğraflarını düzenlemeyi sürekli olarak reddediyor ve çıplaklıkla ilgili herhangi bir içeriği işlemeyi reddediyor, bu da Google’ın sorumlu yapay zeka geliştirmeye olan bağlılığını yansıtıyor. Daha riskli görüntü manipülasyonlarını keşfetmek isteyen kullanıcılar için OmniGen daha uygun bir seçenek olabilir.
Stil Dönüşümlerinde Ustalaşmak
Gemini 2.0 Flash, stil dönüşümleri için dikkate değer bir yetenek sergiliyor. Donald Trump’ın bir fotoğrafını Japon mangası tarzına dönüştürme isteği, birkaç denemeden sonra başarılı bir yeniden tasavvurla sonuçlandı.
Model, fotoğrafları çizimlere, yağlı boya tablolara veya akla gelebilecek hemen hemen her sanatsal tarza dönüştürerek geniş bir stil aktarımı yelpazesini ustalıkla ele alıyor. Kullanıcılar, sıcaklık ayarlarını değiştirerek ve çeşitli filtreleri açıp kapatarak sonuçları ince ayar yapabilirler. Ancak, daha yüksek sıcaklık ayarlarının orijinal görüntüye daha az sadık dönüşümler üretme eğiliminde olduğunu belirtmekte fayda var.
Belirli sanatçılarla ilişkili stiller istendiğinde dikkate değer bir sınırlama ortaya çıkıyor. Leonardo Da Vinci, Michelangelo, Botticelli veya Van Gogh’ın stillerini içeren testler, yapay zekanın kaynak görüntüye kendi tekniklerini uygulamak yerine, bu ustaların gerçek resimlerini yeniden üretmesiyle sonuçlandı.
Bazı komut iyileştirmeleri ve birkaç yineleme ile, kullanılabilir, ancak vasat bir sonuç elde edilebilir. Genellikle, belirli sanatçı yerine istenen sanat stilini istemek daha etkilidir.
Öğe Manipülasyonu Sanatı
Pratik düzenleme görevleri için Gemini 2.0 Flash gerçekten mükemmel. İstenen belirli nesneleri sorunsuz bir şekilde kaldırarak veya bir kompozisyona yeni öğeler ekleyerek, boyama ve nesne manipülasyonunu ustalıkla ele alıyor. Bir testte, yapay zeka bir basketbol topunu dev bir lastik tavukla değiştirmesi istendi ve esprili ama bağlamsal olarak uygun bir sonuç verdi.
Konularda ara sıra küçük değişiklikler meydana gelebilse de, bunlar genellikle saniyeler içinde standart dijital düzenleme araçlarıyla kolayca düzeltilebilir.
Belki de en tartışmalı olanı, modelin telif hakkı korumalarını kaldırma konusunda bir yeterlilik göstermesi - X gibi platformlarda önemli tartışmalara yol açan bir özellik. Filigran içeren bir görüntü sunulduğunda ve tüm harfleri, logoları ve filigranları ortadan kaldırması istendiğinde, Gemini filigransız orijinalinden neredeyse ayırt edilemeyen temiz bir görüntü oluşturdu.
Perspektif Değişikliklerinde Gezinme
Gemini’nin teknik olarak en etkileyici yönlerinden biri, ana akım difüzyon modellerinin tipik olarak mücadele ettiği bir başarı olan perspektifi değiştirme yeteneğidir. Yapay zeka, bir sahneyi farklı açılardan yeniden tasavvur edebilir, ancak sonuçlar orijinalin kesin dönüşümlerinden ziyade esasen yeni yaratımlardır.
Perspektif kaymaları kusursuz sonuçlar vermese de - model sonuçta tüm görüntüyü yeni bir bakış açısından kavramsallaştırıyor - yapay zekanın iki boyutlu girdilere dayalı olarak üç boyutlu uzayı anlamasında önemli bir ilerlemeyi temsil ediyorlar.
Modeli arka planları manipüle etmesi için yönlendirirken doğru ifade çok önemlidir. Genellikle tüm resmi değiştirme eğilimindedir, bu da önemli ölçüde farklı bir kompozisyonla sonuçlanır.
Örneğin, bir testte Gemini’den bir fotoğrafın arka planını değiştirmesi, oturan bir robotu orijinal konumu yerine Mısır’a yerleştirmesi istendi. Talimat, konuyu değiştirmemeyi açıkça belirtti. Ancak, model bu özel görevi doğru bir şekilde ele almakta zorlandı, bunun yerine piramitleri içeren tamamen yeni bir kompozisyon sağladı, robot ayakta duruyordu, ancak birincil odak noktası olarak değil.
Gözlemlenen bir diğer sınırlama, modelin tek bir görüntü üzerinde birden çok kez yineleme yapabilmesine rağmen, her ardışık yinelemede ayrıntıların kalitesinin düşme eğiliminde olmasıdır. Bu nedenle, kapsamlı düzenlemeler yaparken potansiyel kalite düşüşüne dikkat etmek önemlidir.
Bu deneysel model şu anda Google AI Studio ve Gemini API aracılığıyla desteklenen tüm bölgelerdeki geliştiriciler tarafından erişilebilir. Ayrıca, bilgilerini Google ile paylaşmak istemeyen kullanıcılar için Hugging Face’de de mevcuttur.
Sonuç olarak, Google’ın bu yeni teklifi, NotebookLM gibi gizli bir mücevher gibi görünüyor. Diğer modellerin yapamadığı bir şeyi başarıyor ve bunu iyi bir yeterlilik seviyesiyle yapıyor, ancak yine de nispeten radarın altında kalıyor. Görüntü düzenlemede üretken yapay zekanın potansiyelini denemek ve bu süreçte biraz yaratıcı eğlenmek isteyen kullanıcılar için kesinlikle keşfedilmeye değer. İstenen değişiklikleri sade bir dille tarif etme yeteneği, hem sıradan kullanıcılar hem de profesyoneller için bir olasılıklar dünyası açarak, görüntü manipülasyonunun demokratikleşmesinde önemli bir adım atıyor. Bu teknoloji, görsel içerikle etkileşim şeklimizi yeniden şekillendirme, gelişmiş düzenleme tekniklerini teknik becerilerinden bağımsız olarak herkes için erişilebilir hale getirme potansiyeline sahip. Etkileri, kişisel fotoğraf geliştirmelerinden profesyonel tasarım iş akışlarına ve hatta tamamen yeni görsel sanat biçimlerinin yaratılmasına kadar uzanıyor. Teknoloji gelişmeye devam ettikçe, yaratıcı manzara üzerindeki etkisine tanık olmak büyüleyici olacak.