ИИ на Google: Редакция с текст

Нова ера в манипулацията на изображения

За разлика от много съществуващи инструменти за изображения с изкуствен интелект, които се фокусират предимно върху генерирането на изцяло нови изображения от нулата, Gemini 2.0 Flash се отличава със способността си да разбира и модифицира съществуващи снимки. Тази система разбира съдържанието на снимката толкова добре, че може да прави специфични промени въз основа на разговорни инструкции, като същевременно запазва същността на оригиналното изображение.

Този забележителен подвиг се постига чрез вродената мултимодална природа на Gemini 2.0. Той безпроблемно обработва едновременно текст и изображения. Моделът гениално преобразува изображенията в “токени” – същите основни единици, които използва за обработка на текст. Това му позволява да манипулира визуално съдържание, използвайки същите невронни пътища, които използва за разбиране на езика. Този унифициран подход елиминира необходимостта от отделни, специализирани модели за обработка на различни типове медии, рационализирайки целия процес.

“Gemini 2.0 Flash използва мултимодален вход, подобрено разсъждение и разбиране на естествен език, за да създава изображения”, заяви Google в официалното си съобщение. “Представете си, че използвате Gemini 2.0 Flash, за да разкажете история, и той я илюстрира със снимки, поддържайки последователност в героите и обстановката. Предоставете обратна връзка и моделът ще адаптира историята или ще промени стила на рисунките си.”

Този подход отличава Google от конкуренти като OpenAI. Докато ChatGPT може да генерира изображения с помощта на Dall-E 3 и да итерира върху своите творения, разбирайки естествен език, той разчита на отделен AI модел, за да постигне това. По същество ChatGPT оркестрира сложно взаимодействие между GPT-V за визия, GPT-4o за език и Dall-E 3 за генериране на изображения. OpenAI обаче очаква да постигне единен, всеобхватен модел с бъдещия GPT-5.

Паралелна концепция съществува в сферата на отворения код с OmniGen, разработен от изследователи в Пекинската академия за изкуствен интелект. Създателите му предвиждат “генериране на различни изображения директно чрез произволно мултимодални инструкции, без необходимост от допълнителни плъгини или операции, подобно на начина, по който GPT функционира в генерирането на език.”

OmniGen може да се похвали с възможности като промяна на обекти, сливане на сцени и естетически корекции. Въпреки това, той е значително по-малко удобен за потребителя от новия Gemini, работи с по-ниски резолюции, изисква по-сложни команди и в крайна сметка му липсва чистата мощ на предложението на Google. Независимо от това, той представлява убедителна алтернатива с отворен код за определени потребители.

Тестване на Gemini 2.0 Flash

За да се разберат истински възможностите и ограниченията на Gemini 2.0 Flash, бяха проведени серия от практически тестове, изследващи различни сценарии за редактиране. Резултатите показват както впечатляващи силни страни, така и някои области за потенциално подобрение.

Прецизно модифициране на реалистични обекти

Моделът показва забележителна съгласуваност, когато е натоварен със задачата да модифицира реалистични обекти. Например, в тест за автопортрет, заявка за добавяне на мускулна дефиниция даде желания резултат. Въпреки че са настъпили незначителни промени в лицето, общата разпознаваемост е запазена.

Важно е, че други елементи в снимката останаха до голяма степен недокоснати, демонстрирайки способността на AI да се фокусира единствено върху посочената модификация. Тази възможност за целенасочено редактиране контрастира рязко с типичните генеративни подходи, които често реконструират цели изображения, потенциално въвеждайки нежелани промени.

Също така е важно да се отбележат вградените предпазни мерки на модела. Той последователно отказва да редактира снимки на деца и избягва да обработва каквото и да е съдържание, свързано с голота, отразявайки ангажимента на Google към отговорното развитие на AI. За потребители, които искат да изследват по-рискови манипулации на изображения, OmniGen може да бъде по-подходящ вариант.

Овладяване на стилови трансформации

Gemini 2.0 Flash демонстрира забележителна способност за преобразуване на стилове. Заявка за трансформиране на снимка на Доналд Тръмп в стила на японска манга доведе до успешно преосмисляне след няколко опита.

Моделът умело се справя с широк спектър от стилови трансфери, превръщайки снимки в рисунки, маслени картини или практически всеки възможен артистичен стил. Потребителите могат да прецизират резултатите, като коригират настройките на температурата и превключват различни филтри. Въпреки това, заслужава да се отбележи, че по-високите настройки на температурата са склонни да произвеждат трансформации, които са по-малко верни на оригиналното изображение.

Забележимо ограничение се появява, когато се изискват стилове, свързани с конкретни художници. Тестовете, включващи стиловете на Леонардо да Винчи, Микеланджело, Ботичели или Ван Гог, доведоха до това, че AI възпроизвежда действителни картини на тези майстори, вместо да прилага техните отличителни техники към изходното изображение.

С известно прецизиране на подканата и няколко итерации може да се постигне използваем, макар и посредствен, резултат. Като цяло е по-ефективно да се подкани желания стил на изкуството, а не конкретния художник.

Изкуството на манипулирането на елементи

За практически задачи за редактиране Gemini 2.0 Flash наистина се отличава. Той експертно се справя с inpainting и манипулиране на обекти, безпроблемно премахвайки конкретни обекти при поискване или добавяйки нови елементи към композиция. В един тест AI беше подканен да замени баскетболна топка с гигантско гумено пиле, предоставяйки хумористичен, но контекстуално подходящ резултат.

Въпреки че могат да се случат случайни незначителни промени на обектите, те обикновено са лесно поправими със стандартни инструменти за цифрово редактиране за секунди.

Може би най-противоречиво, моделът демонстрира умения в премахването на защити на авторските права – функция, която предизвика значителна дискусия в платформи като X. Когато му беше представено изображение, съдържащо водни знаци, и беше инструктиран да елиминира всички букви, лога и водни знаци, Gemini генерира чисто изображение, практически неразличимо от оригинала без водни знаци.

Навигиране в промените на перспективата

Един от най-впечатляващите технически аспекти на Gemini е способността му да променя перспективата – подвиг, с който основните дифузионни модели обикновено се борят. AI може да преосмисли сцена от различни ъгли, въпреки че резултатите са по същество нови творения, а не прецизни трансформации на оригинала.

Въпреки че промените в перспективата не дават безупречни резултати – моделът, в края на краищата, концептуализира цялото изображение от нова гледна точка – те представляват значителен напредък в разбирането на AI за триизмерното пространство въз основа на двуизмерни входове.

Правилното формулиране е от решаващо значение, когато инструктирате модела да манипулира фонове. Той често е склонен да модифицира цялата картина, което води до драстично различна композиция.

Например, в един тест Gemini беше помолен да промени фона на снимка, поставяйки седящ робот в Египет вместо първоначалното му местоположение. Инструкцията изрично посочваше да не се променя обекта. Моделът обаче се затрудни да се справи точно с тази конкретна задача, вместо това предостави изцяло нова композиция, включваща пирамидите, с робот, който стои, но не като основен фокус.

Друго наблюдавано ограничение е, че докато моделът може да итерира многократно върху едно изображение, качеството на детайлите има тенденция да се влошава с всяка следваща итерация. Ето защо е важно да сте наясно с потенциалното влошаване на качеството, когато извършвате обширни редакции.

Този експериментален модел в момента е достъпен за разработчици чрез Google AI Studio и Gemini API във всички поддържани региони. Той е достъпен и в Hugging Face за потребители, които предпочитат да не споделят информацията си с Google.

В заключение, това ново предложение от Google изглежда е скрит скъпоценен камък, подобно на NotebookLM. Той постига нещо, което другите модели не могат, и го прави с добро ниво на владеене, но остава сравнително под радара. Несъмнено си струва да се проучи за потребители, които искат да експериментират с потенциала на генеративния AI в редактирането на изображения и да се забавляват творчески по пътя. Способността просто да се опишат желаните промени на обикновен език отваря свят от възможности както за случайни потребители, така и за професионалисти, отбелязвайки значителна стъпка напред в демократизацията на манипулацията на изображения. Тази технология има потенциала да прекрои начина, по който взаимодействаме с визуално съдържание, правейки усъвършенстваните техники за редактиране достъпни за всички, независимо от техните технически умения. Последиците са огромни, вариращи от лични подобрения на снимки до професионални работни процеси за дизайн и дори до създаването на изцяло нови форми на визуално изкуство. Тъй като технологията продължава да се развива, ще бъде очарователно да станем свидетели на нейното въздействие върху творческия пейзаж.