간단한 텍스트 명령으로 이미지 편집: Google의 혁신적인 AI

이미지 조작의 새로운 시대

기존의 많은 AI 이미지 도구들이 완전히 새로운 이미지를 생성하는 데 초점을 맞추는 반면, Gemini 2.0 Flash는 기존 사진을 이해하고 수정하는 능력을 통해 차별화됩니다. 이 시스템은 사진의 내용을 매우 잘 이해하여 대화형 지침에 따라 특정 변경을 수행할 수 있으며, 원본 이미지의 본질을 유지합니다.

이 놀라운 성과는 Gemini 2.0의 기본적으로 멀티모달(multimodal) 특성을 통해 달성됩니다. 텍스트와 이미지를 동시에 원활하게 처리합니다. 이 모델은 이미지를 텍스트 처리에 사용하는 것과 동일한 기본 단위인 ‘토큰’으로 변환합니다. 이를 통해 언어를 이해하는 데 사용하는 것과 동일한 신경 경로를 사용하여 시각적 콘텐츠를 조작할 수 있습니다. 이 통합된 접근 방식은 서로 다른 미디어 유형을 처리하기 위한 별도의 특수 모델이 필요하지 않으므로 전체 프로세스가 간소화됩니다.

Google은 공식 발표에서 “Gemini 2.0 Flash는 멀티모달 입력, 향상된 추론 및 자연어 이해를 활용하여 이미지를 생성합니다.”라고 밝혔습니다. “Gemini 2.0 Flash를 사용하여 이야기를 전달하면 캐릭터와 설정을 일관성 있게 유지하면서 그림으로 설명합니다. 피드백을 제공하면 모델이 스토리를 조정하거나 그림 스타일을 수정합니다.”

이러한 접근 방식은 Google을 OpenAI와 같은 경쟁업체와 차별화합니다. ChatGPT는 Dall-E 3를 사용하여 이미지를 생성하고 자연어를 이해하여 반복 작업을 수행할 수 있지만, 이를 위해 별도의 AI 모델에 의존합니다. 본질적으로 ChatGPT는 시각을 위한 GPT-V, 언어를 위한 GPT-4o, 이미지 생성을 위한 Dall-E 3 간의 복잡한 상호 작용을 조율합니다. 그러나 OpenAI는 미래의 GPT-5를 통해 하나의 포괄적인 모델을 달성할 것으로 예상합니다.

Beijing Academy of Artificial Intelligence의 연구원들이 개발한 OmniGen은 오픈 소스 영역에서 유사한 개념을 가지고 있습니다. 제작자는 ‘언어 생성에서 GPT가 작동하는 방식과 유사하게 추가 플러그인이나 작업 없이 임의의 멀티모달 지침을 통해 다양한 이미지를 직접 생성하는 것’을 구상합니다.

OmniGen은 객체 변경, 장면 병합 및 미적 조정과 같은 기능을 자랑합니다. 그러나 새로운 Gemini보다 사용자 친화적이지 않고, 더 낮은 해상도로 작동하며, 더 복잡한 명령이 필요하고, 궁극적으로 Google 제품의 강력함이 부족합니다. 그럼에도 불구하고 특정 사용자에게는 매력적인 오픈 소스 대안을 제시합니다.

Gemini 2.0 Flash 테스트

Gemini 2.0 Flash의 기능과 한계를 진정으로 파악하기 위해 다양한 편집 시나리오를 탐색하는 일련의 실제 테스트가 수행되었습니다. 결과는 인상적인 강점과 개선 가능성이 있는 일부 영역을 모두 보여줍니다.

사실적인 피사체를 정밀하게 수정

이 모델은 사실적인 피사체를 수정하는 작업에서 놀라운 일관성을 보여줍니다. 예를 들어, 셀카 테스트에서 근육 정의를 추가하라는 요청은 원하는 결과를 얻었습니다. 약간의 얼굴 변경이 발생했지만 전반적인 인식 가능성은 유지되었습니다.

결정적으로 사진 내의 다른 요소는 거의 변경되지 않은 상태로 유지되어 AI가 지정된 수정에만 집중할 수 있는 능력을 보여줍니다. 이 대상 편집 기능은 종종 전체 이미지를 재구성하여 원치 않는 변경을 초래할 수 있는 일반적인 생성 접근 방식과 크게 대조됩니다.

또한 모델에 내장된 안전 장치를 주목하는 것이 중요합니다. 어린아이의 사진 편집을 지속적으로 거부하고 과도한 노출과 관련된 콘텐츠 처리를 피하여 책임감 있는 AI 개발에 대한 Google의 약속을 반영합니다. 더 과감한 이미지 조작을 탐색하려는 사용자에게는 OmniGen이 더 적합한 옵션일 수 있습니다.

스타일 변환 마스터

Gemini 2.0 Flash는 스타일 변환에 놀라운 적성을 보여줍니다. 도널드 트럼프의 사진을 일본 만화 스타일로 변환하라는 요청은 몇 번의 시도 끝에 성공적인 재해석을 얻었습니다.

이 모델은 사진을 그림, 유화 또는 상상할 수 있는 거의 모든 예술적 스타일로 변환하는 등 광범위한 스타일 전송을 능숙하게 처리합니다. 사용자는 온도 설정을 조정하고 다양한 필터를 전환하여 결과를 미세 조정할 수 있습니다. 그러나 더 높은 온도 설정은 원본 이미지에 덜 충실한 변환을 생성하는 경향이 있습니다.

특정 아티스트와 관련된 스타일을 요청할 때 주목할 만한 제한 사항이 나타납니다. Leonardo Da Vinci, Michelangelo, Botticelli 또는 Van Gogh의 스타일과 관련된 테스트에서 AI는 소스 이미지에 고유한 기술을 적용하는 대신 이러한 마스터의 실제 그림을 재현했습니다.

몇 가지 프롬프트 개선과 몇 번의 반복을 통해 사용 가능하지만 평범한 결과를 얻을 수 있습니다. 일반적으로 특정 아티스트보다는 원하는 예술 스타일을 프롬프트하는 것이 더 효과적입니다.

요소 조작의 기술

실용적인 편집 작업에서 Gemini 2.0 Flash는 진정으로 탁월합니다. 인페인팅 및 객체 조작을 전문적으로 처리하여 요청 시 특정 객체를 원활하게 제거하거나 구성에 새로운 요소를 추가합니다. 한 테스트에서 AI는 농구공을 거대한 고무 닭으로 바꾸라는 메시지를 받았으며 유머러스하면서도 상황에 맞는 결과를 제공했습니다.

피사체에 약간의 변경이 발생할 수 있지만 일반적으로 몇 초 안에 표준 디지털 편집 도구로 쉽게 수정할 수 있습니다.

아마도 가장 논란의 여지가 있는 것은 이 모델이 저작권 보호를 제거하는 데 능숙하다는 것입니다. 이는 X와 같은 플랫폼에서 상당한 논의를 불러일으킨 기능입니다. 워터마크가 포함된 이미지를 제시하고 모든 문자, 로고 및 워터마크를 제거하라는 지시를 받았을 때 Gemini는 워터마크가 없는 원본과 거의 구별할 수 없는 깨끗한 이미지를 생성했습니다.

원근 변경 탐색

Gemini의 가장 기술적으로 인상적인 측면 중 하나는 원근을 변경하는 능력입니다. 이는 주류 확산 모델이 일반적으로 어려움을 겪는 위업입니다. AI는 다른 각도에서 장면을 다시 상상할 수 있지만 결과는 원본의 정확한 변환이 아니라 본질적으로 새로운 창작물입니다.

원근 이동은 완벽한 결과를 산출하지 않지만(결국 모델은 새로운 관점에서 전체 이미지를 개념화하고 있음) 2차원 입력을 기반으로 3차원 공간에 대한 AI의 이해가 크게 발전했음을 나타냅니다.

모델에 배경을 조작하도록 지시할 때 적절한 표현이 중요합니다. 종종 전체 그림을 수정하여 완전히 다른 구성을 초래하는 경향이 있습니다.

예를 들어, 한 테스트에서 Gemini는 사진의 배경을 변경하여 앉아 있는 로봇을 원래 위치 대신 이집트에 배치하도록 요청했습니다. 지침은 피사체를 변경하지 말라고 명시적으로 언급했습니다. 그러나 모델은 이 특정 작업을 정확하게 처리하는 데 어려움을 겪었고 대신 로봇이 서 있지만 주요 초점이 아닌 피라미드가 있는 완전히 새로운 구성을 제공했습니다.

또 다른 관찰된 제한 사항은 모델이 단일 이미지에서 여러 번 반복할 수 있지만 각 연속 반복에서 세부 정보의 품질이 저하되는 경향이 있다는 것입니다. 따라서 광범위한 편집을 수행할 때 잠재적인 품질 저하에 유의하는 것이 중요합니다.

이 실험적 모델은 현재 지원되는 모든 지역에서 Google AI Studio 및 Gemini API를 통해 개발자가 액세스할 수 있습니다. Google과 정보를 공유하고 싶지 않은 사용자를 위해 Hugging Face에서도 사용할 수 있습니다.

결론적으로 Google의 이 새로운 제품은 NotebookLM과 마찬가지로 숨겨진 보석처럼 보입니다. 다른 모델이 할 수 없는 작업을 수행하고 좋은 수준의 숙련도로 수행하지만 상대적으로 눈에 띄지 않습니다. 이미지 편집에서 생성 AI의 잠재력을 실험하고 그 과정에서 창의적인 즐거움을 누리고 싶은 사용자에게는 의심할 여지 없이 탐색할 가치가 있습니다. 원하는 변경 사항을 일반 언어로 간단하게 설명할 수 있는 기능은 일반 사용자와 전문가 모두에게 가능성의 세계를 열어 이미지 조작의 민주화에 중요한 진전을 이룹니다. 이 기술은 개인 사진 향상에서 전문 디자인 워크플로, 심지어 완전히 새로운 형태의 시각 예술 창작에 이르기까지 시각적 콘텐츠와 상호 작용하는 방식을 재구성할 수 있는 잠재력을 가지고 있습니다. 기술이 계속 발전함에 따라 창의적인 환경에 미치는 영향을 목격하는 것은 흥미로울 것입니다.