Step1X-Edit: Edición de Imagen de Código Abierto

Step1X-Edit, un modelo de edición de imágenes de código abierto desarrollado por StepFun, ha sido lanzado, alcanzando un rendimiento de última generación (SOTA). Este modelo, que cuenta con 19 mil millones de parámetros (7B MLLM + 12B DiT), sobresale en tres áreas clave: análisis semántico preciso, preservación consistente de la identidad y control de alta precisión a nivel regional. Soporta 11 tipos de tareas frecuentes de edición de imágenes, incluyendo el reemplazo de texto, la transferencia de estilo, la transformación de materiales y el retoque de retratos. Step1X-Edit está diseñado para entender, modificar con precisión y preservar los detalles eficazmente.

Capacidades Centrales de Step1X-Edit

Step1X-Edit integra Modelos de Lenguaje Grande Multimodal (MLLM) y modelos de Difusión, lo que conduce a mejoras significativas en la precisión de la edición y la fidelidad de la imagen dentro del marco de código abierto. En el recientemente lanzado benchmark de edición de imágenes GEdit-Bench, Step1X-Edit supera a los modelos de código abierto existentes en consistencia semántica, calidad de imagen y puntuación general, rivalizando con el rendimiento de GPT-4o y Gemini 2.0 Flash.

Análisis de Precisión Semántica

El modelo soporta combinaciones complejas de instrucciones descritas en lenguaje natural. Estas instrucciones no requieren una plantilla, lo que hace que el modelo sea flexible y capaz de manejar necesidades de edición multi-turno y multi-tarea. También soporta la identificación, el reemplazo y la reconstrucción de texto en imágenes.

  • Soporta descripciones complejas en lenguaje natural
  • No se requieren plantillas fijas
  • Capaz de edición multi-turno y multi-tarea
  • Identifica, reemplaza y reconstruye texto en imágenes

Mantenimiento de la Consistencia de la Identidad

El modelo preserva consistentemente las características faciales, las poses y las características de identidad después de la edición. Esto es adecuado para escenarios con altos requisitos de consistencia, como humanos virtuales, modelos de comercio electrónico e imágenes de redes sociales.

  • Mantiene las características faciales
  • Preserva las poses
  • Retiene las características de identidad
  • Ideal para humanos virtuales, modelos de comercio electrónico y redes sociales

Control Regional de Alta Precisión

El modelo soporta la edición dirigida de texto, materiales, colores y otros elementos en áreas específicas. Mantiene un estilo de imagen unificado y ofrece un control más preciso.

  • Edición dirigida en áreas específicas
  • Controla texto, materiales y colores
  • Mantiene un estilo de imagen unificado
  • Ofrece un control más preciso

Innovaciones Arquitectónicas

Step1X-Edit emplea una arquitectura desacoplada de MLLM (Multimodal LLM) + Diffusion, que maneja por separado la comprensión del lenguaje natural y la generación de imágenes de alta fidelidad. En comparación con los modelos de edición de imágenes existentes, esta arquitectura tiene ventajas en la capacidad de generalización de instrucciones y la controlabilidad de la imagen.

Módulo MLLM

El módulo MLLM es responsable de procesar las instrucciones en lenguaje natural y el contenido de la imagen. Tiene capacidades de comprensión semántica multimodal, que pueden analizar los requisitos de edición complejos en señales de control latentes.

  • Procesa instrucciones en lenguaje natural
  • Maneja el contenido de la imagen
  • Comprensión semántica multimodal
  • Analiza requisitos de edición complejos

Módulo de Difusión

El módulo de Difusión sirve como un generador de imágenes (Decodificador de Imagen), completando la reconstrucción o la modificación local de las imágenes basadas en las señales latentes generadas por el MLLM. Esto asegura la preservación de los detalles de la imagen y la consistencia del estilo.

  • Generador de imágenes (Decodificador de Imagen)
  • Reconstruye imágenes
  • Modifica imágenes localmente
  • Preserva los detalles y el estilo de la imagen

Esta estructura aborda el problema de la separación de la ‘comprensión’ y la ‘generación’ en los modelos de pipeline tradicionales. Esto permite que el modelo tenga una mayor precisión y control al ejecutar instrucciones de edición complejas.

Datos de Entrenamiento

Para soportar una amplia gama de tareas complejas de edición de imágenes, Step1X-Edit ha construido un conjunto de datos de entrenamiento de edición de imágenes líder en la industria. Genera 20 millones de tripletes de instrucción imagen-texto y, en última instancia, retiene más de 1 millón de muestras de alta calidad. Los datos cubren 11 tipos de tareas centrales, incluyendo características solicitadas con frecuencia como el reemplazo de texto, la generación de acciones, la transferencia de estilo y el ajuste de fondo. Los tipos de tareas están distribuidos uniformemente, y el lenguaje de instrucción es natural y realista.

  • Conjunto de datos de entrenamiento líder en la industria
  • 20 millones de tripletes de instrucción imagen-texto
  • 1 millón de muestras de alta calidad
  • 11 tipos de tareas centrales
  • Tipos de tareas distribuidos uniformemente

Evaluación del Rendimiento

Step1X-Edit mantiene consistentemente una salida de alta calidad en las 11 sub-tareas de edición de imágenes. Sus capacidades están bien equilibradas, y se mantiene a la vanguardia en casi todas las dimensiones de la tarea, lo que demuestra su fuerte versatilidad y equilibrio.

Benchmark GEdit-Bench

La evaluación del modelo utiliza un benchmark GEdit-Bench de desarrollo propio. A diferencia de las colecciones de tareas sintetizadas manualmente, este benchmark proviene de solicitudes de edición reales de la comunidad, que están más cerca de las necesidades del producto.

  • Benchmark de desarrollo propio
  • Solicitudes de edición reales de la comunidad
  • Más cerca de las necesidades del producto

Step1X-Edit lidera significativamente los modelos de código abierto existentes en los tres indicadores centrales de GEdit-Bench. Se desempeña cerca de GPT-4o, logrando un equilibrio ideal entre la comprensión del lenguaje y la reconstrucción de la imagen.

Examen Detallado de las Capacidades

Step1X-Edit no se trata solo de alterar imágenes; se trata de comprender genuinamente la intención detrás de las ediciones, ejecutarlas con precisión y salvaguardar la integridad de la imagen original. Las capacidades centrales—precisión semántica, consistencia de identidad y control regional de alta precisión—están diseñadas para abordar las demandas matizadas de la edición de imágenes moderna.

Análisis de Precisión Semántica en Profundidad

El análisis de precisión semántica de Step1X-Edit va más allá del simple reconocimiento de palabras clave. Profundiza en el contexto de las descripciones en lenguaje natural, comprendiendo combinaciones complejas de instrucciones. A diferencia de los sistemas que se basan en plantillas rígidas, Step1X-Edit puede interpretar el lenguaje de forma libre, lo que lo hace altamente adaptable a varios escenarios de edición. Maneja la edición multi-turno y multi-tarea sin problemas, entendiendo las relaciones entre instrucciones sucesivas para producir resultados coherentes.

Considere este ejemplo: Un usuario quiere cambiar el texto en un letrero en una imagen y luego alterar el color del letrero para que coincida con un tema diferente. Step1X-Edit no solo reemplaza el texto y cambia el color; entiende que el letrero es un solo objeto y asegura que los cambios de texto y color sean consistentes entre sí y con la imagen general. Además, el modelo puede identificar y reconstruir texto dentro de las imágenes, incluso si está parcialmente oscurecido o distorsionado. Esta capacidad es particularmente útil para editar documentos escaneados o imágenes con texto superpuesto.

Consistencia de la Identidad Mantenida Explicada

Mantener la consistencia de la identidad es crucial en escenarios donde los sujetos en las imágenes deben permanecer reconocibles a pesar de las alteraciones. Esto es especialmente importante en aplicaciones de humanos virtuales, modelado de comercio electrónico y creación de contenido de redes sociales. Step1X-Edit asegura que las características faciales, las poses y las características de identidad únicas se conserven durante todo el proceso de edición.

Por ejemplo, si un usuario quiere cambiar el atuendo de un modelo virtual en una imagen, Step1X-Edit mantiene las características faciales, el peinado y las proporciones corporales del modelo, asegurando que la imagen editada todavía represente con precisión el modelo original. Del mismo modo, en el comercio electrónico, donde los modelos muestran productos, la apariencia del modelo debe permanecer consistente en diferentes imágenes para evitar confundir a los clientes.

Control Regional de Alta Precisión Mejorado

El control regional de alta precisión permite a los usuarios realizar ediciones dirigidas a áreas específicas de una imagen sin afectar al resto de la escena. Esta capacidad es esencial para tareas que requieren ajustes de grano fino, como cambiar el color de una prenda, alterar la textura de un objeto o agregar elementos específicos a una región en particular. Step1X-Edit permite a los usuarios seleccionar regiones específicas y aplicar ediciones con una precisión notable, asegurando que los cambios se mezclen sin problemas con la imagen existente.

Imagine un escenario donde un usuario quiere cambiar el color de un coche en una foto pero mantener los reflejos y las sombras intactos. Step1X-Edit puede aislar el coche, cambiar su color y preservar los efectos de iluminación originales, creando un resultado realista y visualmente atractivo. El modelo también asegura que el estilo general y la estética de la imagen permanezcan consistentes, evitando que las áreas editadas se vean fuera de lugar.

Decodificando la Arquitectura: MLLM + Difusión

La arquitectura desacoplada de Step1X-Edit, que combina Modelos de Lenguaje Grande Multimodal (MLLM) y modelos de Difusión, marca un avance significativo en la tecnología de edición de imágenes. Este diseño permite una división del trabajo donde la comprensión del lenguaje natural y la generación de imágenes de alta fidelidad son manejadas por módulos separados optimizados para sus respectivas tareas.

Inmersión Profunda en el Módulo MLLM

El módulo MLLM sirve como el cerebro del sistema, responsable de comprender e interpretar tanto las instrucciones en lenguaje natural como el contenido de la imagen. Posee capacidades avanzadas de comprensión semántica multimodal, lo que le permite diseccionar requisitos de edición complejos en señales de control latentes accionables. Este proceso implica analizar la estructura lingüística de las instrucciones, identificar los elementos clave que se modificarán y comprender las relaciones entre diferentes partes de la imagen.

El módulo MLLM utiliza algoritmos sofisticados para mapear las instrucciones de edición a una representación que el módulo de Difusión pueda entender. Esta representación codifica los cambios deseados de una manera que preserve el significado semántico de las instrucciones y asegure que las ediciones resultantes se alineen con la intención del usuario. Por ejemplo, si un usuario pide ‘agregar una puesta de sol al fondo’, el módulo MLLM identifica la región de fondo, reconoce el concepto de una puesta de sol y genera una señal de control que instruye al módulo de Difusión para crear una puesta de sol realista en el área especificada.

Elucidando el Módulo de Difusión

El módulo de Difusión actúa como el artista, tomando las señales de control latentes generadas por el módulo MLLM y usándolas para reconstruir o modificar la imagen con alta fidelidad. Este módulo emplea un proceso llamado difusión, que implica agregar gradualmente ruido a la imagen y luego aprender a revertir este proceso para generar nuevas imágenes o modificar las existentes. El módulo de Difusión está entrenado en un vasto conjunto de datos de imágenes, lo que le permite generar resultados realistas y visualmente atractivos.

El módulo de Difusión asegura que la imagen modificada mantenga los detalles, texturas y efectos de iluminación de la imagen original, mezclando los cambios sin problemas con el contenido existente. También puede adaptar el estilo de las ediciones para que coincida con la estética general de la imagen, creando un resultado coherente y armonioso. Por ejemplo, si un usuario quiere ‘hacer que la imagen parezca una pintura’, el módulo de Difusión puede aplicar filtros y texturas artísticas para transformar la imagen en una pintura convincente, mientras preserva la composición y el contenido originales.

Sinergia: El Poder del Desacoplamiento

La arquitectura desacoplada de Step1X-Edit aborda una limitación fundamental de los modelos de edición de imágenes tradicionales, donde ‘comprender’ y ‘generar’ a menudo están entrelazados y no optimizados para sus respectivas tareas. Al separar estas funciones en módulos distintos, Step1X-Edit logra una mayor precisión y control al ejecutar instrucciones de edición complejas. El módulo MLLM puede centrarse en interpretar con precisión la intención del usuario, mientras que el módulo de Difusión puede concentrarse en generar imágenes de alta calidad que cumplan con los requisitos especificados.

Esta sinergia entre los módulos MLLM y Difusión permite a Step1X-Edit manejar una amplia gama de tareas de edición con una precisión y consistencia notables. Ya sea que se trate de realizar ajustes sutiles a una imagen o de realizar transformaciones complejas, Step1X-Edit puede ofrecer resultados que sean visualmente atractivos y semánticamente precisos. La arquitectura desacoplada también hace que el modelo sea más modular y fácil de actualizar, lo que permite a los desarrolladores mejorar continuamente su rendimiento y capacidades.

Ingeniería del Conjunto de Datos: La Base del Rendimiento

Para soportar las diversas y complejas tareas de edición de imágenes que Step1X-Edit puede manejar, los desarrolladores construyeron un conjunto de datos de entrenamiento de edición de imágenes líder en la industria. Este conjunto de datos comprende una vasta colección de tripletes de instrucción imagen-texto, que se utilizan para entrenar al modelo para comprender y ejecutar una amplia gama de comandos de edición. El conjunto de datos incluye 20 millones de tripletes, de los cuales más de 1 millón son muestras de alta calidad que se han curado cuidadosamente para garantizar la precisión y la consistencia.

Los datos cubren 11 tipos de tareas centrales, que abarcan características solicitadas con frecuencia como el reemplazo de texto, la generación de acciones, la transferencia de estilo y el ajuste de fondo. Estos tipos de tareas se distribuyen uniformemente en todo el conjunto de datos, lo que garantiza que el modelo reciba una capacitación equilibrada y pueda funcionar bien en varios escenarios de edición. El lenguaje de instrucción utilizado en el conjunto de datos es natural y realista, lo que refleja la forma en que las personas se comunican al solicitar ediciones de imágenes.

El conjunto de datos también incluye ejemplos de instrucciones de edición complejas y matizadas, como ‘hacer que la imagen se vea más vintage’ o ‘agregar una sensación de drama a la escena’. Estas instrucciones requieren que el modelo comprenda conceptos abstractos y los aplique a la imagen de una manera creativa y visualmente atractiva. La diversidad y la riqueza del conjunto de datos son factores cruciales en el rendimiento de Step1X-Edit, lo que le permite manejar una amplia gama de tareas de edición con una precisión y versatilidad notables.

Benchmarking de Excelencia: GEdit-Bench

Para evaluar rigurosamente el rendimiento de Step1X-Edit, los desarrolladores crearon un benchmark de desarrollo propio llamado GEdit-Bench. Este benchmark está diseñado para proporcionar una evaluación integral de las capacidades del modelo en varios escenarios de edición de imágenes. A diferencia de las colecciones de tareas sintetizadas manualmente, GEdit-Bench extrae sus tareas de solicitudes de edición reales de la comunidad, lo que lo convierte en una medida más realista y relevante del rendimiento del modelo en aplicaciones del mundo real.

Las tareas en GEdit-Bench cubren una amplia gama de operaciones de edición, incluyendo el reemplazo de texto, la eliminación de objetos, la transferencia de estilo y el ajuste de fondo. El benchmark también incluye tareas que requieren que el modelo comprenda y ejecute instrucciones complejas y matizadas, como ‘hacer que la imagen se vea más profesional’ o ‘agregar una sensación de calidez a la escena’. GEdit-Bench proporciona una evaluación más precisa y confiable del rendimiento del modelo en escenarios del mundo real.

Step1X-Edit ha logrado resultados notables en GEdit-Bench, superando a los modelos de código abierto existentes en los tres indicadores centrales: consistencia semántica, calidad de imagen y puntuación general. El rendimiento del modelo es cercano al de GPT-4o, lo que demuestra su capacidad para lograr un equilibrio ideal entre la comprensión del lenguaje y la reconstrucción de la imagen.

En conclusión, Step1X-Edit representa un avance significativo en la tecnología de edición de imágenes de código abierto. Su arquitectura desacoplada, su vasto conjunto de datos de entrenamiento y su riguroso benchmarking lo convierten en una herramienta poderosa y versátil para una amplia gama de tareas de edición. Ya sea que sea un fotógrafo profesional, un entusiasta de las redes sociales o simplemente alguien que quiera mejorar sus imágenes, Step1X-Edit puede ayudarlo a lograr sus objetivos con una precisión y facilidad notables.