ИИ Google: редактор фото текстом

Новая эра манипулирования изображениями

В отличие от многих существующих инструментов искусственного интеллекта для работы с изображениями, которые в первую очередь сосредоточены на создании совершенно новых изображений с нуля, Gemini 2.0 Flash отличается своей способностью понимать и изменять существующие фотографии. Эта система настолько хорошо понимает содержимое фотографии, что может вносить конкретные изменения на основе инструкций, сформулированных в разговорной форме, сохраняя при этом суть исходного изображения.

Это замечательное достижение стало возможным благодаря изначально мультимодальной природе Gemini 2.0. Он легко обрабатывает текст и изображения одновременно. Модель гениально преобразует изображения в ‘токены’ – те же фундаментальные единицы, которые она использует для обработки текста. Это позволяет ей манипулировать визуальным контентом, используя те же нейронные пути, которые она использует для понимания языка. Такой унифицированный подход устраняет необходимость в отдельных специализированных моделях для обработки различных типов мультимедиа, оптимизируя весь процесс.

‘Gemini 2.0 Flash использует мультимодальный ввод, улучшенное мышление и понимание естественного языка для создания изображений’, – говорится в официальном заявлении Google. ‘Представьте, что вы используете Gemini 2.0 Flash, чтобы рассказать историю, а он иллюстрирует ее картинками, сохраняя постоянство персонажей и обстановки. Дайте обратную связь, и модель адаптирует историю или изменит стиль своих рисунков’.

Этот подход отличает Google от таких конкурентов, как OpenAI. Хотя ChatGPT может генерировать изображения с помощью Dall-E 3 и выполнять итерации своих творений, понимая естественный язык, для этого он использует отдельную модель искусственного интеллекта. По сути, ChatGPT организует сложное взаимодействие между GPT-V для зрения, GPT-4o для языка и Dall-E 3 для генерации изображений. OpenAI, однако, ожидает создания единой, всеобъемлющей модели с будущим GPT-5.

Параллельная концепция существует в области open-source с OmniGen, разработанной исследователями Пекинской академии искусственного интеллекта. Его создатели предполагают ‘генерировать различные изображения непосредственно с помощью произвольных мультимодальных инструкций, без необходимости в дополнительных плагинах или операциях, подобно тому, как GPT функционирует в генерации языка’.

OmniGen может похвастаться такими возможностями, как изменение объектов, слияние сцен и эстетические корректировки. Однако он значительно менее удобен для пользователя, чем новый Gemini, работает с более низким разрешением, требует более сложных команд и, в конечном счете, не обладает такой мощностью, как предложение Google. Тем не менее, он представляет собой привлекательную альтернативу с открытым исходным кодом для определенных пользователей.

Тестирование Gemini 2.0 Flash

Чтобы по-настоящему понять возможности и ограничения Gemini 2.0 Flash, был проведен ряд практических тестов, в которых изучались различные сценарии редактирования. Результаты демонстрируют как впечатляющие сильные стороны, так и некоторые области для потенциального улучшения.

Точное изменение реалистичных объектов

Модель демонстрирует замечательную согласованность при изменении реалистичных объектов. Например, в тесте с автопортретом запрос на добавление рельефа мышц дал желаемый результат. Хотя произошли незначительные изменения лица, общая узнаваемость сохранилась.

Важно отметить, что другие элементы фотографии остались практически нетронутыми, что демонстрирует способность ИИ фокусироваться исключительно на указанном изменении. Эта возможность целевого редактирования резко контрастирует с типичными генеративными подходами, которые часто реконструируют целые изображения, потенциально внося нежелательные изменения.

Также важно отметить встроенные в модель меры безопасности. Он последовательно отказывается редактировать фотографии детей и избегает обработки любого контента, связанного с наготой, что отражает приверженность Google ответственному развитию ИИ. Для пользователей, желающих поэкспериментировать с более рискованными манипуляциями с изображениями, OmniGen может быть более подходящим вариантом.

Мастерство преобразования стилей

Gemini 2.0 Flash демонстрирует замечательную способность к преобразованию стилей. Запрос на преобразование фотографии Дональда Трампа в стиль японской манги привел к успешному переосмыслению после нескольких попыток.

Модель умело справляется с широким спектром переноса стилей, превращая фотографии в рисунки, картины маслом или практически в любой художественный стиль, который только можно вообразить. Пользователи могут точно настроить результаты, регулируя параметры температуры и переключая различные фильтры. Однако стоит отметить, что более высокие значения температуры, как правило, приводят к преобразованиям, которые менее соответствуют исходному изображению.

Заметное ограничение проявляется при запросе стилей, связанных с конкретными художниками. Тесты, связанные со стилями Леонардо да Винчи, Микеланджело, Боттичелли или Ван Гога, привели к тому, что ИИ воспроизводил реальные картины этих мастеров, а не применял их отличительные техники к исходному изображению.

С некоторой доработкой подсказки и несколькими итерациями можно получить пригодный, хотя и посредственный, результат. Как правило, эффективнее запрашивать желаемый художественный стиль, а не конкретного художника.

Искусство манипулирования элементами

Для практических задач редактирования Gemini 2.0 Flash действительно превосходен. Он мастерски справляется с закрашиванием и манипулированием объектами, плавно удаляя определенные объекты по запросу или добавляя новые элементы в композицию. В одном из тестов ИИ попросили заменить баскетбольный мяч гигантской резиновой курицей, что привело к юмористическому, но контекстуально уместному результату.

Хотя иногда могут происходить незначительные изменения объектов, их, как правило, легко исправить с помощью стандартных инструментов цифрового редактирования за считанные секунды.

Возможно, наиболее спорным является то, что модель демонстрирует умение удалять защиту авторских прав – функция, которая вызвала значительные дискуссии на таких платформах, как X. Когда Gemini было представлено изображение с водяными знаками и дано указание удалить все буквы, логотипы и водяные знаки, он сгенерировал чистое изображение, практически неотличимое от оригинала без водяных знаков.

Навигация по изменениям перспективы

Одним из наиболее технически впечатляющих аспектов Gemini является его способность изменять перспективу – подвиг, с которым обычно борются основные модели диффузии. ИИ может переосмыслить сцену с разных углов, хотя результаты, по сути, являются новыми творениями, а не точными преобразованиями оригинала.

Хотя сдвиги перспективы не дают безупречных результатов – модель, в конце концов, концептуализирует все изображение с новой точки зрения – они представляют собой значительный прогресс в понимании ИИ трехмерного пространства на основе двумерных входных данных.

Правильная формулировка имеет решающее значение при инструктировании модели для манипулирования фоном. Он часто имеет тенденцию изменять всю картину, что приводит к совершенно другой композиции.

Например, в одном из тестов Gemini попросили изменить фон фотографии, поместив сидящего робота в Египет вместо его первоначального местоположения. В инструкции прямо указывалось не изменять объект. Однако модель с трудом справилась с этой конкретной задачей, вместо этого предоставив совершенно новую композицию с пирамидами, с роботом, стоящим, но не в качестве основного фокуса.

Еще одно наблюдаемое ограничение заключается в том, что, хотя модель может выполнять итерации несколько раз над одним изображением, качество деталей имеет тенденцию ухудшаться с каждой последующей итерацией. Поэтому важно помнить о потенциальном ухудшении качества при выполнении обширных правок.

Эта экспериментальная модель в настоящее время доступна разработчикам через Google AI Studio и Gemini API во всех поддерживаемых регионах. Она также доступна на Hugging Face для пользователей, которые предпочитают не делиться своей информацией с Google.

В заключение, это новое предложение от Google кажется скрытой жемчужиной, как и NotebookLM. Оно достигает того, чего не могут другие модели, и делает это с хорошим уровнем мастерства, но при этом остается относительно незамеченным. Его, несомненно, стоит изучить пользователям, которые хотят поэкспериментировать с потенциалом генеративного ИИ в редактировании изображений и получить от этого удовольствие. Возможность просто описать желаемые изменения на простом языке открывает мир возможностей как для обычных пользователей, так и для профессионалов, знаменуя собой значительный шаг вперед в демократизации манипулирования изображениями. Эта технология способна изменить то, как мы взаимодействуем с визуальным контентом, делая передовые методы редактирования доступными для всех, независимо от их технических навыков. Последствия огромны: от улучшения личных фотографий до профессиональных дизайнерских рабочих процессов и даже до создания совершенно новых форм визуального искусства. По мере того, как технология продолжает развиваться, будет интересно наблюдать за ее влиянием на творческий ландшафт.