Step1X-Edit의 핵심 역량
Step1X-Edit는 MLLM(Multimodal Large Language Models)과 Diffusion 모델을 통합하여 오픈 소스 프레임워크 내에서 편집 정확도와 이미지 충실도를 크게 향상시킵니다. 새롭게 출시된 GEdit-Bench 이미지 편집 벤치마크에서 Step1X-Edit는 의미론적 일관성, 이미지 품질 및 전체 점수에서 기존 오픈 소스 모델보다 우수한 성능을 보이며 GPT-4o 및 Gemini 2.0 Flash의 성능에 필적합니다.
의미론적 정밀 분석
이 모델은 자연어로 설명된 복잡한 명령어 조합을 지원합니다. 이러한 명령어는 템플릿을 필요로 하지 않으므로 모델이 유연하며 다중 턴, 다중 작업 편집 요구 사항을 처리할 수 있습니다. 또한 이미지에서 텍스트의 식별, 대체 및 재구성을 지원합니다.
- 복잡한 자연어 설명을 지원합니다.
- 고정된 템플릿이 필요하지 않습니다.
- 다중 턴, 다중 작업 편집이 가능합니다.
- 이미지에서 텍스트를 식별, 대체 및 재구성합니다.
정체성 일관성 유지
이 모델은 편집 후에도 얼굴 특징, 포즈 및 정체성 특징을 일관되게 유지합니다. 이는 가상 인간, 전자 상거래 모델 및 소셜 미디어 이미지와 같이 높은 일관성 요구 사항이 있는 시나리오에 적합합니다.
- 얼굴 특징을 유지합니다.
- 포즈를 보존합니다.
- 정체성 특징을 유지합니다.
- 가상 인간, 전자 상거래 모델 및 소셜 미디어에 이상적입니다.
고정밀 지역 제어
이 모델은 특정 영역에서 텍스트, 재료, 색상 및 기타 요소를 대상으로 편집하는 것을 지원합니다. 통합된 이미지 스타일을 유지하고 더욱 정밀한 제어를 제공합니다.
- 특정 영역에서 타겟 편집
- 텍스트, 재료 및 색상 제어
- 통합된 이미지 스타일 유지
- 더욱 정밀한 제어 제공
아키텍처 혁신
Step1X-Edit는 MLLM(Multimodal LLM) + Diffusion의 분리된 아키텍처를 채택하여 자연어 이해와 고충실도 이미지 생성을 개별적으로 처리합니다. 기존 이미지 편집 모델과 비교할 때 이 아키텍처는 명령어 일반화 능력과 이미지 제어 가능성에서 장점이 있습니다.
MLLM 모듈
MLLM 모듈은 자연어 명령어와 이미지 콘텐츠를 처리하는 역할을 합니다. 다중 모드 의미 이해 기능을 통해 복잡한 편집 요구 사항을 잠재적 제어 신호로 구문 분석할 수 있습니다.
- 자연어 명령어 처리
- 이미지 콘텐츠 처리
- 다중 모드 의미 이해
- 복잡한 편집 요구 사항 구문 분석
확산 모듈
확산 모듈은 이미지 생성기(Image Decoder) 역할을 하며 MLLM에서 생성된 잠재 신호를 기반으로 이미지의 재구성 또는 로컬 수정을 완료합니다. 이를 통해 이미지 세부 사항의 보존 및 스타일의 일관성을 보장합니다.
- 이미지 생성기(Image Decoder)
- 이미지 재구성
- 이미지 로컬 수정
- 이미지 세부 사항 및 스타일 보존
이 구조는 기존 파이프라인 모델에서 ‘이해’와 ‘생성’이 분리되는 문제를 해결합니다. 이를 통해 모델은 복잡한 편집 명령을 실행할 때 더 높은 정확도와 제어 능력을 갖게 됩니다.
훈련 데이터
광범위하고 복잡한 이미지 편집 작업을 지원하기 위해 Step1X-Edit는 업계 최고의 이미지 편집 훈련 데이터 세트를 구축했습니다. 2천만 개의 이미지-텍스트 명령어 트리플릿을 생성하고 궁극적으로 1백만 개 이상의 고품질 샘플을 유지합니다. 이 데이터는 텍스트 대체, 액션 생성, 스타일 전송 및 배경 조정과 같이 자주 요청되는 기능을 포함하여 11개의 핵심 작업 유형을 다룹니다. 작업 유형은 고르게 분포되어 있고 명령어 언어는 자연스럽고 사실적입니다.
- 업계 최고의 훈련 데이터 세트
- 2천만 개의 이미지-텍스트 명령어 트리플릿
- 1백만 개의 고품질 샘플
- 11개의 핵심 작업 유형
- 고르게 분포된 작업 유형
성능 평가
Step1X-Edit는 이미지 편집의 11개 하위 작업에서 지속적으로 고품질 출력을 유지합니다. 기능이 균형이 잘 잡혀 있고 거의 모든 작업 차원에서 최전선을 유지하여 강력한 다재다능함과 균형을 보여줍니다.
GEdit-Bench 벤치마크
모델 평가는 자체 개발된 GEdit-Bench 벤치마크를 사용합니다. 수동으로 합성된 작업 모음과 달리 이 벤치마크는 실제 커뮤니티 편집 요청에서 비롯되므로 제품 요구 사항에 더 가깝습니다.
- 자체 개발된 벤치마크
- 실제 커뮤니티 편집 요청
- 제품 요구 사항에 더 가깝습니다.
Step1X-Edit는 GEdit-Bench의 세 가지 핵심 지표에서 기존 오픈 소스 모델을 크게 앞섭니다. GPT-4o에 가까운 성능을 보이며 언어 이해와 이미지 재구성 간의 이상적인 균형을 달성합니다.
기능에 대한 자세한 검토
Step1X-Edit는 단순히 이미지를 변경하는 것이 아니라 편집 뒤에 숨겨진 의도를 진정으로 이해하고 정밀하게 실행하며 원본 이미지의 무결성을 보호하는 데 중점을 둡니다. 핵심 역량인 의미론적 정밀도, 정체성 일관성 및 고정밀 지역 제어는 최신 이미지 편집의 미묘한 요구 사항을 해결하도록 설계되었습니다.
심층적인 의미론적 정밀 분석
Step1X-Edit의 의미론적 정밀 분석은 단순한 키워드 인식을 넘어섭니다. 자연어 설명의 컨텍스트를 자세히 살펴보고 복잡한 명령어 조합을 이해합니다. 엄격한 템플릿에 의존하는 시스템과 달리 Step1X-Edit는 자유 형식 언어를 해석할 수 있으므로 다양한 편집 시나리오에 매우 적응력이 뛰어납니다. 다중 턴 및 다중 작업 편집을 원활하게 처리하고 연속적인 명령어 간의 관계를 이해하여 일관된 결과를 생성합니다.
예를 들어 사용자가 이미지의 표지판에 있는 텍스트를 변경한 다음 표지판의 색상을 다른 테마에 맞게 변경하려고 합니다. Step1X-Edit는 텍스트를 대체하고 색상을 변경하는 것뿐만 아니라 표지판이 단일 객체임을 이해하고 텍스트와 색상 변경이 서로 일관성이 있고 전체 이미지와 일관성이 있는지 확인합니다. 또한 이 모델은 이미지 내에서 부분적으로 가려지거나 왜곡된 경우에도 텍스트를 식별하고 재구성할 수 있습니다. 이 기능은 스캔한 문서 또는 오버레이된 텍스트가 있는 이미지를 편집하는 데 특히 유용합니다.
정체성 일관성 유지 설명
이미지의 피사체가 변경에도 불구하고 인식 가능해야 하는 시나리오에서는 정체성 일관성을 유지하는 것이 중요합니다. 이는 가상 인간 애플리케이션, 전자 상거래 모델링 및 소셜 미디어 콘텐츠 제작에서 특히 중요합니다. Step1X-Edit는 편집 프로세스 전반에 걸쳐 얼굴 특징, 포즈 및 고유한 정체성 특징이 유지되도록 합니다.
예를 들어 사용자가 이미지에서 가상 모델의 복장을 변경하려는 경우 Step1X-Edit는 모델의 얼굴 특징, 헤어스타일 및 신체 비율을 유지하여 편집된 이미지가 여전히 원본 모델을 정확하게 나타내도록 합니다. 마찬가지로 모델이 제품을 선보이는 전자 상거래에서는 고객의 혼란을 방지하기 위해 모델의 외모가 다른 이미지에서 일관되게 유지되어야 합니다.
향상된 고정밀 지역 제어
고정밀 지역 제어를 통해 사용자는 장면의 나머지 부분에 영향을 주지 않고 이미지의 특정 영역을 대상으로 편집할 수 있습니다. 이 기능은 의복 색상 변경, 객체 텍스처 변경 또는 특정 영역에 특정 요소를 추가하는 것과 같이 세밀한 조정이 필요한 작업에 필수적입니다. Step1X-Edit를 사용하면 사용자가 특정 영역을 선택하고 놀라운 정밀도로 편집을 적용하여 변경 사항이 기존 이미지와 완벽하게 조화를 이루도록 할 수 있습니다.
사용자가 사진에서 자동차의 색상을 변경하되 반사광과 그림자는 그대로 유지하려는 시나리오를 상상해 보십시오. Step1X-Edit는 자동차를 격리하고 색상을 변경하며 원래 조명 효과를 보존하여 현실적이고 시각적으로 매력적인 결과를 만들 수 있습니다. 또한 이 모델은 이미지의 전반적인 스타일과 미학이 일관되게 유지되도록 하여 편집된 영역이 어색해 보이는 것을 방지합니다.
아키텍처 디코딩: MLLM + 확산
MLLM(Multimodal Large Language Models)과 확산 모델을 결합한 Step1X-Edit의 분리된 아키텍처는 이미지 편집 기술의 중요한 발전을 나타냅니다. 이 설계를 통해 자연어 이해와 고충실도 이미지 생성을 각 작업에 최적화된 별도의 모듈에서 처리할 수 있습니다.
MLLM 모듈에 대한 자세한 분석
MLLM 모듈은 시스템의 두뇌 역할을 하며 자연어 명령어와 이미지 콘텐츠를 이해하고 해석하는 역할을 합니다. 고급 다중 모드 의미 이해 기능을 통해 복잡한 편집 요구 사항을 실행 가능한 잠재적 제어 신호로 해부할 수 있습니다. 이 프로세스에는 명령어의 언어 구조 분석, 수정할 주요 요소 식별, 이미지의 여러 부분 간의 관계 이해가 포함됩니다.
MLLM 모듈은 정교한 알고리즘을 사용하여 편집 명령어를 확산 모듈이 이해할 수 있는 표현으로 매핑합니다. 이 표현은 명령어의 의미론적 의미를 보존하고 결과 편집이 사용자의 의도와 일치하도록 하는 방식으로 원하는 변경 사항을 인코딩합니다. 예를 들어 사용자가 ‘배경에 일몰을 추가’하도록 요청하는 경우 MLLM 모듈은 배경 영역을 식별하고 일몰 개념을 인식하며 지정된 영역에서 현실적인 일몰을 만들도록 확산 모듈에 지시하는 제어 신호를 생성합니다.
확산 모듈 설명
확산 모듈은 아티스트 역할을 하며 MLLM 모듈에서 생성된 잠재적 제어 신호를 사용하여 이미지를 고충실도로 재구성하거나 수정합니다. 이 모듈은 확산이라는 프로세스를 사용하는데, 이 프로세스는 점진적으로 이미지에 노이즈를 추가한 다음 이 프로세스를 되돌려 새 이미지를 생성하거나 기존 이미지를 수정하는 방법을 학습하는 것입니다. 확산 모듈은 방대한 이미지 데이터 세트에 대해 훈련되어 현실적이고 시각적으로 매력적인 결과를 생성할 수 있습니다.
확산 모듈은 수정된 이미지가 원래 이미지의 세부 사항, 텍스처 및 조명 효과를 유지하도록 보장하여 변경 사항이 기존 콘텐츠와 완벽하게 조화를 이루도록 합니다. 또한 이미지의 전반적인 미학에 맞게 편집 스타일을 조정하여 일관되고 조화로운 결과를 만들 수 있습니다. 예를 들어 사용자가 ‘이미지를 그림처럼 보이게 만들고’ 싶어하는 경우 확산 모듈은 예술적 필터와 텍스처를 적용하여 이미지를 설득력 있는 그림으로 변환하면서 원래 구성과 내용을 보존할 수 있습니다.
시너지: 분리의 힘
Step1X-Edit의 분리된 아키텍처는 기존 이미지 편집 모델의 근본적인 한계를 해결합니다. 여기서 ‘이해’와 ‘생성’은 종종 얽혀 있고 각 작업에 최적화되어 있지 않습니다. 이러한 기능을 별도의 모듈로 분리함으로써 Step1X-Edit는 복잡한 편집 명령을 실행할 때 더 높은 정확도와 제어를 달성합니다. MLLM 모듈은 사용자의 의도를 정확하게 해석하는 데 집중할 수 있는 반면 확산 모듈은 지정된 요구 사항을 충족하는 고품질 이미지를 생성하는 데 집중할 수 있습니다.
MLLM과 확산 모듈 간의 이러한 시너지 효과를 통해 Step1X-Edit는 놀라운 정밀도와 일관성으로 광범위한 편집 작업을 처리할 수 있습니다. 이미지에 미묘한 조정을 가하든 복잡한 변환을 수행하든 Step1X-Edit는 시각적으로 매력적이고 의미론적으로 정확한 결과를 제공할 수 있습니다. 분리된 아키텍처는 모델을 더욱 모듈화하고 업데이트하기 쉽게 만들어 개발자가 성능과 기능을 지속적으로 향상시킬 수 있습니다.
데이터 세트 엔지니어링: 성능의 기반
Step1X-Edit가 처리할 수 있는 다양하고 복잡한 이미지 편집 작업을 지원하기 위해 개발자는 업계 최고의 이미지 편집 훈련 데이터 세트를 구축했습니다. 이 데이터 세트는 광범위한 이미지-텍스트 명령어 트리플릿 모음으로 구성되어 있으며, 이는 모델이 광범위한 편집 명령어를 이해하고 실행하도록 훈련하는 데 사용됩니다. 데이터 세트에는 2천만 개의 트리플릿이 포함되어 있으며, 그중 1백만 개 이상은 정확성과 일관성을 보장하기 위해 신중하게 큐레이팅된 고품질 샘플입니다.
이 데이터는 텍스트 대체, 액션 생성, 스타일 전송 및 배경 조정과 같이 자주 요청되는 기능을 포함하여 11개의 핵심 작업 유형을 다룹니다. 이러한 작업 유형은 데이터 세트 전체에 고르게 분포되어 있어 모델이 균형 잡힌 훈련을 받고 다양한 편집 시나리오에서 잘 수행할 수 있도록 합니다. 데이터 세트에 사용된 명령어 언어는 자연스럽고 현실적이어서 사람들이 이미지 편집을 요청할 때 의사 소통하는 방식을 반영합니다.
데이터 세트에는 ‘이미지를 더 빈티지하게 보이게 만들기’ 또는 ‘장면에 드라마틱함을 더하기’와 같이 복잡하고 미묘한 편집 명령어의 예도 포함되어 있습니다. 이러한 명령어는 모델이 추상적인 개념을 이해하고 창의적이고 시각적으로 매력적인 방식으로 이미지에 적용해야 합니다. 데이터 세트의 다양성과 풍부함은 Step1X-Edit 성능의 중요한 요소이며, 이를 통해 놀라운 정확성과 다재다능함으로 광범위한 편집 작업을 처리할 수 있습니다.
벤치마킹 우수성: GEdit-Bench
Step1X-Edit의 성능을 엄격하게 평가하기 위해 개발자는 GEdit-Bench라는 자체 개발 벤치마크를 만들었습니다. 이 벤치마크는 다양한 이미지 편집 시나리오에서 모델의 기능을 포괄적으로 평가하도록 설계되었습니다. 수동으로 합성된 작업 모음과 달리 GEdit-Bench는 실제 커뮤니티 편집 요청에서 작업을 가져오므로 실제 애플리케이션에서 모델 성능에 대한 더 현실적이고 관련성 있는 측정값을 제공합니다.
GEdit-Bench의 작업은 텍스트 대체, 객체 제거, 스타일 전송 및 배경 조정을 포함하여 광범위한 편집 작업을 다룹니다. 또한 벤치마크에는 모델이 ‘이미지를 더 전문적으로 보이게 만들기’ 또는 ‘장면에 따뜻함을 더하기’와 같이 복잡하고 미묘한 명령어를 이해하고 실행해야 하는 작업이 포함되어 있습니다. GEdit-Bench는 실제 시나리오에서 모델 성능에 대한 더 정확하고 신뢰할 수 있는 평가를 제공합니다.
Step1X-Edit는 GEdit-Bench에서 놀라운 결과를 달성하여 의미론적 일관성, 이미지 품질 및 전체 점수의 세 가지 핵심 지표 모두에서 기존 오픈 소스 모델을 능가했습니다. 모델의 성능은 GPT-4o와 거의 비슷하여 언어 이해와 이미지 재구성 간의 이상적인 균형을 달성하는 능력을 보여줍니다.
결론적으로 Step1X-Edit는 오픈 소스 이미지 편집 기술의 중요한 발전을 나타냅니다. 분리된 아키텍처, 방대한 훈련 데이터 세트 및 엄격한 벤치마킹을 통해 광범위한 편집 작업을 위한 강력하고 다재다능한 도구입니다. 전문 사진 작가, 소셜 미디어 애호가 또는 단순히 이미지를 향상시키고 싶어하는 사람이든 Step1X-Edit는 놀라운 정확성과 용이함으로 목표를 달성하는 데 도움이 될 수 있습니다.