AI Google: Edycja Obrazów Tekstem

Nowa Era Manipulacji Obrazem

W przeciwieństwie do wielu istniejących narzędzi AI do generowania obrazów, które koncentrują się głównie na tworzeniu całkowicie nowych obrazów od podstaw, Gemini 2.0 Flash wyróżnia się zdolnością do rozumienia i modyfikowania istniejących fotografii. System ten rozumie zawartość zdjęcia tak dobrze, że może dokonywać konkretnych zmian na podstawie instrukcji konwersacyjnych, zachowując przy tym esencję oryginalnego obrazu.

Ten niezwykły wyczyn jest możliwy dzięki natywnie multimodalnej naturze Gemini 2.0. Bezproblemowo przetwarza on jednocześnie tekst i obrazy. Model genialnie konwertuje obrazy na ‘tokeny’ – te same podstawowe jednostki, których używa do przetwarzania tekstu. Pozwala to na manipulowanie treścią wizualną przy użyciu tych samych ścieżek neuronowych, które wykorzystuje do rozumienia języka. To zunifikowane podejście eliminuje potrzebę stosowania oddzielnych, wyspecjalizowanych modeli do obsługi różnych typów mediów, usprawniając cały proces.

‘Gemini 2.0 Flash wykorzystuje multimodalne dane wejściowe, ulepszone rozumowanie i rozumienie języka naturalnego do tworzenia obrazów’, stwierdziło Google w swoim oficjalnym ogłoszeniu. ‘Wyobraź sobie, że używasz Gemini 2.0 Flash do opowiedzenia historii, a on ilustruje ją obrazami, zachowując spójność postaci i ustawień. Przekaż informację zwrotną, a model dostosuje historię lub zmodyfikuje styl swoich rysunków’.

Takie podejście odróżnia Google od konkurentów, takich jak OpenAI. Chociaż ChatGPT może generować obrazy za pomocą Dall-E 3 i iterować na swoich kreacjach, rozumiejąc język naturalny, polega na oddzielnym modelu AI, aby to osiągnąć. W istocie ChatGPT organizuje złożoną interakcję między GPT-V dla wizji, GPT-4o dla języka i Dall-E 3 dla generowania obrazów. OpenAI przewiduje jednak osiągnięcie jednego, wszechogarniającego modelu z przyszłym GPT-5.

Podobna koncepcja istnieje w świecie open-source dzięki OmniGen, opracowanemu przez naukowców z Beijing Academy of Artificial Intelligence. Jego twórcy przewidują ‘generowanie różnorodnych obrazów bezpośrednio za pomocą dowolnie multimodalnych instrukcji, bez potrzeby stosowania dodatkowych wtyczek lub operacji, podobnie jak GPT funkcjonuje w generowaniu języka’.

OmniGen oferuje możliwości, takie jak zmiana obiektów, łączenie scen i dostosowywanie estetyki. Jest jednak znacznie mniej przyjazny dla użytkownika niż nowy Gemini, działa z niższymi rozdzielczościami, wymaga bardziej skomplikowanych poleceń i ostatecznie brakuje mu czystej mocy oferty Google. Niemniej jednak stanowi atrakcyjną alternatywę open-source dla niektórych użytkowników.

Testowanie Gemini 2.0 Flash

Aby naprawdę zrozumieć możliwości i ograniczenia Gemini 2.0 Flash, przeprowadzono serię praktycznych testów, badając różne scenariusze edycji. Wyniki pokazują zarówno imponujące mocne strony, jak i pewne obszary wymagające potencjalnej poprawy.

Precyzyjna Modyfikacja Realistycznych Obiektów

Model wykazuje niezwykłą spójność, gdy ma za zadanie modyfikować realistyczne obiekty. Na przykład, w teście autoportretu, prośba o dodanie definicji mięśni dała pożądany rezultat. Chociaż wystąpiły drobne zmiany w twarzy, ogólna rozpoznawalność została zachowana.

Co najważniejsze, inne elementy na zdjęciu pozostały w dużej mierze nietknięte, co pokazuje zdolność AI do skupienia się wyłącznie na określonej modyfikacji. Ta ukierunkowana zdolność edycji kontrastuje z typowymi podejściami generatywnymi, które często rekonstruują całe obrazy, potencjalnie wprowadzając niepożądane zmiany.

Ważne jest również, aby zwrócić uwagę na wbudowane zabezpieczenia modelu. Konsekwentnie odmawia edycji zdjęć dzieci i unika obsługi wszelkich treści związanych z nagością, co odzwierciedla zaangażowanie Google w odpowiedzialny rozwój AI. Dla użytkowników, którzy chcą eksplorować bardziej ryzykowne manipulacje obrazami, OmniGen może być bardziej odpowiednią opcją.

Mistrzostwo Transformacji Stylu

Gemini 2.0 Flash wykazuje niezwykłą zdolność do konwersji stylów. Prośba o przekształcenie zdjęcia Donalda Trumpa w styl japońskiej mangi zaowocowała udanym przeobrażeniem po kilku próbach.

Model sprawnie radzi sobie z szerokim spektrum transferów stylów, konwertując zdjęcia na rysunki, obrazy olejne lub praktycznie każdy możliwy styl artystyczny. Użytkownicy mogą dostroić wyniki, regulując ustawienia temperatury i przełączając różne filtry. Warto jednak zauważyć, że wyższe ustawienia temperatury mają tendencję do tworzenia transformacji, które są mniej wierne oryginalnemu obrazowi.

Istotne ograniczenie pojawia się, gdy żąda się stylów związanych z konkretnymi artystami. Testy obejmujące style Leonarda Da Vinci, Michała Anioła, Botticellego lub Van Gogha spowodowały, że AI reprodukowała rzeczywiste obrazy tych mistrzów, zamiast stosować ich odrębne techniki do obrazu źródłowego.

Przy pewnym dopracowaniu promptu i kilku iteracjach można uzyskać użyteczny, choć przeciętny, wynik. Ogólnie rzecz biorąc, bardziej efektywne jest podpowiadanie pożądanego stylu artystycznego niż konkretnego artysty.

Sztuka Manipulacji Elementami

W przypadku praktycznych zadań edycyjnych Gemini 2.0 Flash naprawdę się wyróżnia. Doskonale radzi sobie z inpaintingiem i manipulacją obiektami, bezproblemowo usuwając określone obiekty na żądanie lub dodając nowe elementy do kompozycji. W jednym z testów AI zostało poproszone o zastąpienie piłki do koszykówki gigantycznym gumowym kurczakiem, co dało humorystyczny, ale kontekstowo odpowiedni wynik.

Chociaż sporadycznie mogą wystąpić drobne zmiany w obiektach, są one zazwyczaj łatwe do naprawienia za pomocą standardowych narzędzi do edycji cyfrowej w ciągu kilku sekund.

Być może najbardziej kontrowersyjnie, model wykazuje biegłość w usuwaniu zabezpieczeń praw autorskich – funkcja, która wywołała znaczną dyskusję na platformach takich jak X. Po przedstawieniu obrazu zawierającego znaki wodne i poinstruowaniu, aby usunąć wszystkie litery, logo i znaki wodne, Gemini wygenerowało czysty obraz praktycznie nie do odróżnienia od oryginału bez znaków wodnych.

Nawigacja po Zmianach Perspektywy

Jednym z najbardziej imponujących technicznie aspektów Gemini jest jego zdolność do zmiany perspektywy – wyczyn, z którym główne modele dyfuzyjne zazwyczaj mają trudności. AI może wyobrazić sobie scenę z różnych kątów, chociaż wyniki są zasadniczo nowymi kreacjami, a nie precyzyjnymi transformacjami oryginału.

Chociaż zmiany perspektywy nie dają bezbłędnych wyników – model, w końcu, konceptualizuje cały obraz z nowego punktu widzenia – stanowią one znaczący postęp w rozumieniu przez AI trójwymiarowej przestrzeni na podstawie dwuwymiarowych danych wejściowych.

Właściwe sformułowanie jest kluczowe podczas instruowania modelu do manipulowania tłem. Często ma tendencję do modyfikowania całego obrazu, co skutkuje drastycznie inną kompozycją.

Na przykład, w jednym z testów Gemini zostało poproszone o zmianę tła zdjęcia, umieszczając siedzącego robota w Egipcie zamiast jego pierwotnej lokalizacji. Instrukcja wyraźnie stwierdzała, aby nie zmieniać obiektu. Jednak model miał trudności z dokładnym wykonaniem tego zadania, zamiast tego dostarczając zupełnie nową kompozycję z piramidami, z robotem stojącym, ale nie jako głównym punktem.

Innym zaobserwowanym ograniczeniem jest to, że chociaż model może iterować wielokrotnie na jednym obrazie, jakość szczegółów ma tendencję do pogarszania się z każdą kolejną iteracją. Dlatego ważne jest, aby pamiętać o potencjalnym pogorszeniu jakości podczas wykonywania obszernych edycji.

Ten eksperymentalny model jest obecnie dostępny dla programistów za pośrednictwem Google AI Studio i Gemini API we wszystkich obsługiwanych regionach. Jest również dostępny na Hugging Face dla użytkowników, którzy wolą nie udostępniać swoich informacji Google.

Podsumowując, ta nowa oferta od Google wydaje się być ukrytym klejnotem, podobnie jak NotebookLM. Osiąga coś, czego inne modele nie potrafią, i robi to z dobrym poziomem biegłości, a jednak pozostaje stosunkowo niezauważona. Jest niewątpliwie warta zbadania dla użytkowników, którzy chcą eksperymentować z potencjałem generatywnej AI w edycji obrazów i mieć przy tym trochę kreatywnej zabawy. Możliwość prostego opisania pożądanych zmian w prostym języku otwiera świat możliwości zarówno dla zwykłych użytkowników, jak i profesjonalistów, stanowiąc znaczący krok naprzód w demokratyzacji manipulacji obrazami. Technologia ta ma potencjał, aby zmienić sposób, w jaki wchodzimy w interakcję z treściami wizualnymi, udostępniając zaawansowane techniki edycji każdemu, niezależnie od jego umiejętności technicznych. Implikacje są ogromne, od osobistych ulepszeń zdjęć po profesjonalne przepływy pracy projektowej, a nawet do tworzenia zupełnie nowych form sztuki wizualnej. W miarę jak technologia będzie się rozwijać, fascynujące będzie obserwowanie jej wpływu na krajobraz kreatywny.