Step1X-Edit, một mô hình chỉnh sửa ảnh nguồn mở được phát triển bởi StepFun, đã được phát hành, đạt được hiệu suất hiện đại (SOTA). Mô hình này, tự hào với 19 tỷ tham số (7B MLLM + 12B DiT), vượt trội trong ba lĩnh vực chính: phân tích ngữ nghĩa chính xác, duy trì nhất quán danh tính và kiểm soát mức vùng có độ chính xác cao. Nó hỗ trợ 11 loại tác vụ chỉnh sửa ảnh thường xuyên, bao gồm thay thế văn bản, chuyển đổi phong cách, chuyển đổi vật liệu và chỉnh sửa chân dung. Step1X-Edit được thiết kế để hiểu, sửa đổi chính xác và bảo tồn chi tiết một cách hiệu quả.
Khả Năng Cốt Lõi của Step1X-Edit
Step1X-Edit tích hợp các Mô hình Ngôn Ngữ Lớn Đa Phương Thức (MLLM) và các mô hình Khuếch tán, dẫn đến những cải tiến đáng kể về độ chính xác chỉnh sửa và độ trung thực của hình ảnh trong khuôn khổ nguồn mở. Trong chuẩn mực chỉnh sửa hình ảnh GEdit-Bench mới được phát hành, Step1X-Edit vượt trội hơn các mô hình nguồn mở hiện có về tính nhất quán ngữ nghĩa, chất lượng hình ảnh và điểm số tổng thể, sánh ngang với hiệu suất của GPT-4o và Gemini 2.0 Flash.
Phân Tích Độ Chính Xác Ngữ Nghĩa
Mô hình hỗ trợ các kết hợp phức tạp của các hướng dẫn được mô tả bằng ngôn ngữ tự nhiên. Các hướng dẫn này không yêu cầu một mẫu, làm cho mô hình linh hoạt và có khả năng xử lý các nhu cầu chỉnh sửa đa nhiệm, đa vòng. Nó cũng hỗ trợ việc xác định, thay thế và tái tạo văn bản trong hình ảnh.
- Hỗ trợ các mô tả ngôn ngữ tự nhiên phức tạp
- Không yêu cầu các mẫu cố định
- Có khả năng chỉnh sửa đa nhiệm, đa vòng
- Xác định, thay thế và tái tạo văn bản trong hình ảnh
Duy Trì Tính Nhất Quán Danh Tính
Mô hình duy trì một cách nhất quán các đặc điểm khuôn mặt, tư thế và đặc điểm nhận dạng sau khi chỉnh sửa. Điều này phù hợp cho các tình huống có yêu cầu nhất quán cao, chẳng hạn như người ảo, mô hình thương mại điện tử và hình ảnh truyền thông xã hội.
- Duy trì các đặc điểm khuôn mặt
- Bảo tồn tư thế
- Giữ lại các đặc điểm nhận dạng
- Lý tưởng cho người ảo, mô hình thương mại điện tử và truyền thông xã hội
Kiểm Soát Vùng Có Độ Chính Xác Cao
Mô hình hỗ trợ chỉnh sửa có mục tiêu văn bản, vật liệu, màu sắc và các yếu tố khác trong các khu vực cụ thể. Nó duy trì một phong cách hình ảnh thống nhất và cung cấp khả năng kiểm soát chính xác hơn.
- Chỉnh sửa có mục tiêu trong các khu vực cụ thể
- Kiểm soát văn bản, vật liệu và màu sắc
- Duy trì một phong cách hình ảnh thống nhất
- Cung cấp khả năng kiểm soát chính xác hơn
Đổi Mới Kiến Trúc
Step1X-Edit sử dụng một kiến trúc tách rời của MLLM (Multimodal LLM) + Diffusion, xử lý riêng biệt sự hiểu biết ngôn ngữ tự nhiên và tạo hình ảnh có độ trung thực cao. So với các mô hình chỉnh sửa hình ảnh hiện có, kiến trúc này có lợi thế về khả năng tổng quát hóa hướng dẫn và khả năng kiểm soát hình ảnh.
Mô-đun MLLM
Mô-đun MLLM chịu trách nhiệm xử lý các hướng dẫn ngôn ngữ tự nhiên và nội dung hình ảnh. Nó có khả năng hiểu ngữ nghĩa đa phương thức, có thể phân tích các yêu cầu chỉnh sửa phức tạp thành các tín hiệu kiểm soát tiềm ẩn.
- Xử lý các hướng dẫn ngôn ngữ tự nhiên
- Xử lý nội dung hình ảnh
- Hiểu ngữ nghĩa đa phương thức
- Phân tích các yêu cầu chỉnh sửa phức tạp
Mô-đun Khuếch Tán
Mô-đun Khuếch tán đóng vai trò là một trình tạo hình ảnh (Bộ giải mã Hình ảnh), hoàn thành việc tái tạo hoặc sửa đổi cục bộ hình ảnh dựa trên các tín hiệu tiềm ẩn được tạo bởi MLLM. Điều này đảm bảo việc bảo tồn các chi tiết hình ảnh và tính nhất quán của phong cách.
- Trình tạo hình ảnh (Bộ giải mã Hình ảnh)
- Tái tạo hình ảnh
- Sửa đổi hình ảnh cục bộ
- Bảo tồn các chi tiết hình ảnh và phong cách
Cấu trúc này giải quyết vấn đề “hiểu” và “tạo” riêng biệt trong các mô hình đường ống truyền thống. Điều này cho phép mô hình có độ chính xác và khả năng kiểm soát cao hơn khi thực hiện các hướng dẫn chỉnh sửa phức tạp.
Dữ Liệu Huấn Luyện
Để hỗ trợ một loạt các tác vụ chỉnh sửa hình ảnh phức tạp, Step1X-Edit đã xây dựng một tập dữ liệu huấn luyện chỉnh sửa hình ảnh hàng đầu trong ngành. Nó tạo ra 20 triệu bộ ba hướng dẫn văn bản hình ảnh và cuối cùng giữ lại hơn 1 triệu mẫu chất lượng cao. Dữ liệu bao gồm 11 loại tác vụ cốt lõi, bao gồm các tính năng thường được yêu cầu như thay thế văn bản, tạo hành động, chuyển đổi phong cách và điều chỉnh nền. Các loại tác vụ được phân phối đồng đều và ngôn ngữ hướng dẫn là tự nhiên và thực tế.
- Tập dữ liệu huấn luyện hàng đầu trong ngành
- 20 triệu bộ ba hướng dẫn văn bản hình ảnh
- 1 triệu mẫu chất lượng cao
- 11 loại tác vụ cốt lõi
- Các loại tác vụ được phân phối đồng đều
Đánh Giá Hiệu Suất
Step1X-Edit duy trì một cách nhất quán đầu ra chất lượng cao trong 11 tác vụ con của chỉnh sửa hình ảnh. Khả năng của nó được cân bằng tốt và nó vẫn ở vị trí hàng đầu trong hầu hết tất cả các khía cạnh của nhiệm vụ, chứng minh tính linh hoạt và cân bằng mạnh mẽ của nó.
Chuẩn Mực GEdit-Bench
Việc đánh giá mô hình sử dụng một chuẩn mực GEdit-Bench tự phát triển. Không giống như các bộ sưu tập tác vụ được tổng hợp thủ công, chuẩn mực này đến từ các yêu cầu chỉnh sửa cộng đồng thực tế, gần gũi hơn với nhu cầu sản phẩm.
- Chuẩn mực tự phát triển
- Các yêu cầu chỉnh sửa cộng đồng thực tế
- Gần gũi hơn với nhu cầu sản phẩm
Step1X-Edit dẫn đầu đáng kể các mô hình nguồn mở hiện có trong ba chỉ số cốt lõi của GEdit-Bench. Nó hoạt động gần giống với GPT-4o, đạt được sự cân bằng lý tưởng giữa hiểu ngôn ngữ và tái tạo hình ảnh.
Xem Xét Chi Tiết về Khả Năng
Step1X-Edit không chỉ là thay đổi hình ảnh; mà là thực sự hiểu được ý định đằng sau các chỉnh sửa, thực hiện chúng một cách chính xác và bảo vệ tính toàn vẹn của hình ảnh gốc. Các khả năng cốt lõi — độ chính xác ngữ nghĩa, tính nhất quán danh tính và kiểm soát vùng có độ chính xác cao — được thiết kế để đáp ứng các yêu cầu sắc thái của chỉnh sửa hình ảnh hiện đại.
Phân Tích Độ Chính Xác Ngữ Nghĩa Chuyên Sâu
Việc phân tích độ chính xác ngữ nghĩa của Step1X-Edit vượt xa việc nhận dạng từ khóa đơn giản. Nó đi sâu vào bối cảnh của các mô tả ngôn ngữ tự nhiên, hiểu các kết hợp phức tạp của các hướng dẫn. Không giống như các hệ thống dựa trên các mẫu cứng nhắc, Step1X-Edit có thể giải thích ngôn ngữ tự do, làm cho nó có khả năng thích ứng cao với các tình huống chỉnh sửa khác nhau. Nó xử lý chỉnh sửa đa nhiệm và đa vòng một cách liền mạch, hiểu các mối quan hệ giữa các hướng dẫn liên tiếp để tạo ra kết quả mạch lạc.
Hãy xem xét ví dụ này: Một người dùng muốn thay đổi văn bản trên một biển báo trong hình ảnh và sau đó thay đổi màu sắc của biển báo để phù hợp với một chủ đề khác. Step1X-Edit không chỉ thay thế văn bản và thay đổi màu sắc; nó hiểu rằng biển báo là một đối tượng duy nhất và đảm bảo rằng các thay đổi văn bản và màu sắc nhất quán với nhau và với hình ảnh tổng thể. Hơn nữa, mô hình có thể xác định và tái tạo văn bản trong hình ảnh, ngay cả khi nó bị che khuất hoặc méo mó một phần. Khả năng này đặc biệt hữu ích để chỉnh sửa các tài liệu được quét hoặc hình ảnh có văn bản lớp phủ.
Giải Thích Duy Trì Tính Nhất Quán Danh Tính
Duy trì tính nhất quán danh tính là rất quan trọng trong các tình huống mà các đối tượng trong hình ảnh cần phải vẫn có thể nhận ra mặc dù có các thay đổi. Điều này đặc biệt quan trọng trong các ứng dụng người ảo, mô hình thương mại điện tử và tạo nội dung truyền thông xã hội. Step1X-Edit đảm bảo rằng các đặc điểm khuôn mặt, tư thế và các đặc điểm nhận dạng duy nhất được bảo tồn trong suốt quá trình chỉnh sửa.
Ví dụ: nếu người dùng muốn thay đổi trang phục của một mô hình ảo trong một hình ảnh, Step1X-Edit duy trì các đặc điểm khuôn mặt, kiểu tóc và tỷ lệ cơ thể của mô hình, đảm bảo rằng hình ảnh đã chỉnh sửa vẫn đại diện chính xác cho mô hình gốc. Tương tự, trong thương mại điện tử, nơi các mô hình giới thiệu sản phẩm, hình thức của mô hình phải nhất quán trên các hình ảnh khác nhau để tránh gây nhầm lẫn cho khách hàng.
Kiểm Soát Vùng Có Độ Chính Xác Cao Được Nâng Cao
Kiểm soát vùng có độ chính xác cao cho phép người dùng thực hiện các chỉnh sửa có mục tiêu cho các khu vực cụ thể của hình ảnh mà không ảnh hưởng đến phần còn lại của cảnh. Khả năng này rất cần thiết cho các tác vụ yêu cầu điều chỉnh chi tiết, chẳng hạn như thay đổi màu sắc của một chiếc áo, thay đổi kết cấu của một đối tượng hoặc thêm các yếu tố cụ thể vào một khu vực cụ thể. Step1X-Edit cho phép người dùng chọn các khu vực cụ thể và áp dụng các chỉnh sửa với độ chính xác đáng kể, đảm bảo rằng các thay đổi hòa trộn liền mạch với hình ảnh hiện có.
Hãy tưởng tượng một tình huống mà người dùng muốn thay đổi màu sắc của một chiếc xe hơi trong một bức ảnh nhưng vẫn giữ nguyên các phản xạ và bóng. Step1X-Edit có thể cô lập chiếc xe hơi, thay đổi màu sắc của nó và bảo tồn các hiệu ứng ánh sáng ban đầu, tạo ra một kết quả thực tế và hấp dẫn về mặt thị giác. Mô hình cũng đảm bảo rằng phong cách và tính thẩm mỹ tổng thể của hình ảnh vẫn nhất quán, ngăn các khu vực đã chỉnh sửa trông không phù hợp.
Giải Mã Kiến Trúc: MLLM + Khuếch Tán
Kiến trúc tách rời của Step1X-Edit, kết hợp các Mô hình Ngôn Ngữ Lớn Đa Phương Thức (MLLM) và các mô hình Khuếch tán, đánh dấu một bước tiến đáng kể trong công nghệ chỉnh sửa hình ảnh. Thiết kế này cho phép phân chia lao động, trong đó sự hiểu biết ngôn ngữ tự nhiên và tạo hình ảnh có độ trung thực cao được xử lý bởi các mô-đun riêng biệt được tối ưu hóa cho các nhiệm vụ tương ứng của chúng.
Đi Sâu Vào Mô-đun MLLM
Mô-đun MLLM đóng vai trò là bộ não của hệ thống, chịu trách nhiệm hiểu và giải thích cả hướng dẫn ngôn ngữ tự nhiên và nội dung hình ảnh. Nó sở hữu các khả năng hiểu ngữ nghĩa đa phương thức tiên tiến, cho phép nó phân tích các yêu cầu chỉnh sửa phức tạp thành các tín hiệu kiểm soát tiềm ẩn có thể hành động. Quá trình này bao gồm phân tích cấu trúc ngôn ngữ của các hướng dẫn, xác định các yếu tố chính cần sửa đổi và hiểu các mối quan hệ giữa các phần khác nhau của hình ảnh.
Mô-đun MLLM sử dụng các thuật toán phức tạp để ánh xạ các hướng dẫn chỉnh sửa thành một biểu diễn mà mô-đun Khuếch tán có thể hiểu được. Biểu diễn này mã hóa các thay đổi mong muốn theo cách bảo tồn ý nghĩa ngữ nghĩa của các hướng dẫn và đảm bảo rằng các chỉnh sửa kết quả phù hợp với ý định của người dùng. Ví dụ: nếu người dùng yêu cầu “thêm một cảnh hoàng hôn vào nền”, mô-đun MLLM xác định vùng nền, nhận ra khái niệm về một cảnh hoàng hôn và tạo ra một tín hiệu kiểm soát hướng dẫn mô-đun Khuếch tán tạo ra một cảnh hoàng hôn thực tế trong khu vực được chỉ định.
Làm Sáng Tỏ Mô-đun Khuếch Tán
Mô-đun Khuếch tán hoạt động như một nghệ sĩ, lấy các tín hiệu kiểm soát tiềm ẩn được tạo ra bởi mô-đun MLLM và sử dụng chúng để tái tạo hoặc sửa đổi hình ảnh với độ trung thực cao. Mô-đun này sử dụng một quá trình gọi là khuếch tán, liên quan đến việc dần dần thêm nhiễu vào hình ảnh và sau đó học cách đảo ngược quá trình này để tạo ra hình ảnh mới hoặc sửa đổi những hình ảnh hiện có. Mô-đun Khuếch tán được đào tạo trên một tập dữ liệu lớn các hình ảnh, cho phép nó tạo ra các kết quả thực tế và hấp dẫn về mặt thị giác.
Mô-đun Khuếch tán đảm bảo rằng hình ảnh đã sửa đổi duy trì các chi tiết, kết cấu và hiệu ứng ánh sáng của hình ảnh gốc, hòa trộn các thay đổi liền mạch với nội dung hiện có. Nó cũng có thể điều chỉnh phong cách của các chỉnh sửa để phù hợp với tính thẩm mỹ tổng thể của hình ảnh, tạo ra một kết quả mạch lạc và hài hòa. Ví dụ: nếu người dùng muốn “làm cho hình ảnh trông giống như một bức tranh”, mô-đun Khuếch tán có thể áp dụng các bộ lọc và kết cấu nghệ thuật để biến hình ảnh thành một bức tranh thuyết phục, đồng thời bảo tồn bố cục và nội dung ban đầu.
Hiệp Lực: Sức Mạnh của Việc Tách Rời
Kiến trúc tách rời của Step1X-Edit giải quyết một hạn chế cơ bản của các mô hình chỉnh sửa hình ảnh truyền thống, trong đó “hiểu” và “tạo” thường đan xen và không được tối ưu hóa cho các nhiệm vụ tương ứng của chúng. Bằng cách tách các chức năng này thành các mô-đun riêng biệt, Step1X-Edit đạt được độ chính xác và khả năng kiểm soát cao hơn khi thực hiện các hướng dẫn chỉnh sửa phức tạp. Mô-đun MLLM có thể tập trung vào việc giải thích chính xác ý định của người dùng, trong khi mô-đun Khuếch tán có thể tập trung vào việc tạo ra các hình ảnh chất lượng cao đáp ứng các yêu cầu được chỉ định.
Sự hiệp lực giữa các mô-đun MLLM và Khuếch tán này cho phép Step1X-Edit xử lý một loạt các tác vụ chỉnh sửa với độ chính xác và nhất quán đáng kể. Cho dù đó là thực hiện các điều chỉnh tinh tế cho hình ảnh hoặc thực hiện các chuyển đổi phức tạp, Step1X-Edit có thể mang lại kết quả vừa hấp dẫn về mặt thị giác vừa chính xác về mặt ngữ nghĩa. Kiến trúc tách rời cũng làm cho mô hình trở nên mô-đun hơn và dễ dàng cập nhật hơn, cho phép các nhà phát triển liên tục cải thiện hiệu suất và khả năng của nó.
Kỹ Thuật Tập Dữ Liệu: Nền Tảng của Hiệu Suất
Để hỗ trợ các tác vụ chỉnh sửa hình ảnh đa dạng và phức tạp mà Step1X-Edit có thể xử lý, các nhà phát triển đã xây dựng một tập dữ liệu huấn luyện chỉnh sửa hình ảnh hàng đầu trong ngành. Tập dữ liệu này bao gồm một bộ sưu tập lớn các bộ ba hướng dẫn văn bản hình ảnh, được sử dụng để huấn luyện mô hình hiểu và thực hiện một loạt các lệnh chỉnh sửa. Tập dữ liệu bao gồm 20 triệu bộ ba, trong đó hơn 1 triệu là các mẫu chất lượng cao đã được tuyển chọn cẩn thận để đảm bảo độ chính xác và nhất quán.
Dữ liệu bao gồm 11 loại tác vụ cốt lõi, bao gồm các tính năng thường được yêu cầu như thay thế văn bản, tạo hành động, chuyển đổi phong cách và điều chỉnh nền. Các loại tác vụ này được phân phối đồng đều trong suốt tập dữ liệu, đảm bảo rằng mô hình nhận được đào tạo cân bằng và có thể hoạt động tốt trong các tình huống chỉnh sửa khác nhau. Ngôn ngữ hướng dẫn được sử dụng trong tập dữ liệu là tự nhiên và thực tế, phản ánh cách mọi người giao tiếp khi yêu cầu chỉnh sửa hình ảnh.
Tập dữ liệu cũng bao gồm các ví dụ về các hướng dẫn chỉnh sửa phức tạp và sắc thái, chẳng hạn như “làm cho hình ảnh trông cổ điển hơn” hoặc “thêm cảm giác kịch tính vào cảnh.” Các hướng dẫn này yêu cầu mô hình hiểu các khái niệm trừu tượng và áp dụng chúng vào hình ảnh một cách sáng tạo và hấp dẫn về mặt thị giác. Sự đa dạng và phong phú của tập dữ liệu là những yếu tố quan trọng trong hiệu suất của Step1X-Edit, cho phép nó xử lý một loạt các tác vụ chỉnh sửa với độ chính xác và linh hoạt đáng kể.
Tiêu Chuẩn Xuất Sắc: GEdit-Bench
Để đánh giá một cách nghiêm ngặt hiệu suất của Step1X-Edit, các nhà phát triển đã tạo ra một tiêu chuẩn tự phát triển gọi là GEdit-Bench. Tiêu chuẩn này được thiết kế để cung cấp một đánh giá toàn diện về khả năng của mô hình trong các tình huống chỉnh sửa hình ảnh khác nhau. Không giống như các bộ sưu tập tác vụ được tổng hợp thủ công, GEdit-Bench rút ra các tác vụ của nó từ các yêu cầu chỉnh sửa cộng đồng thực tế, làm cho nó trở thành một thước đo thực tế và phù hợp hơn về hiệu suất của mô hình trong các ứng dụng trong thế giới thực.
Các tác vụ trong GEdit-Bench bao gồm một loạt các hoạt động chỉnh sửa, bao gồm thay thế văn bản, xóa đối tượng, chuyển đổi phong cách và điều chỉnh nền. Tiêu chuẩn này cũng bao gồm các tác vụ yêu cầu mô hình hiểu và thực hiện các hướng dẫn phức tạp và sắc thái, chẳng hạn như “làm cho hình ảnh trông chuyên nghiệp hơn” hoặc “thêm cảm giác ấm áp vào cảnh.” GEdit-Bench cung cấp một đánh giá chính xác và đáng tin cậy hơn về hiệu suất của mô hình trong các tình huống trong thế giới thực.
Step1X-Edit đã đạt được những kết quả đáng kể trên GEdit-Bench, vượt qua các mô hình nguồn mở hiện có trong cả ba chỉ số cốt lõi: tính nhất quán ngữ nghĩa, chất lượng hình ảnh và điểm số tổng thể. Hiệu suất của mô hình gần giống với GPT-4o, chứng minh khả năng đạt được sự cân bằng lý tưởng giữa hiểu ngôn ngữ và tái tạo hình ảnh.
Tóm lại, Step1X-Edit đại diện cho một bước tiến đáng kể trong công nghệ chỉnh sửa hình ảnh nguồn mở. Kiến trúc tách rời, tập dữ liệu huấn luyện rộng lớn và tiêu chuẩn nghiêm ngặt của nó làm cho nó trở thành một công cụ mạnh mẽ và linh hoạt cho một loạt các tác vụ chỉnh sửa. Cho dù bạn là một nhiếp ảnh gia chuyên nghiệp, một người đam mê truyền thông xã hội, hay đơn giản chỉ là một người muốn nâng cao hình ảnh của mình, Step1X-Edit có thể giúp bạn đạt được mục tiêu của mình với độ chính xác và dễ dàng đáng kể.