Step1X-Edit: โมเดลแก้ไขภาพโอเพนซอร์สล้ำสมัย

Step1X-Edit โมเดลแก้ไขภาพโอเพนซอร์สที่ก้าวล้ำ ซึ่งพัฒนาโดย StepFun ได้เปิดตัวแล้ว โดยบรรลุประสิทธิภาพที่ล้ำสมัย (SOTA) โมเดลนี้มีพารามิเตอร์ 19 พันล้านตัว (7B MLLM + 12B DiT) มีความโดดเด่นในสามด้านหลัก: การวิเคราะห์ความหมายที่แม่นยำ การรักษาเอกลักษณ์ที่สอดคล้องกัน และการควบคุมระดับภูมิภาคที่มีความแม่นยำสูง รองรับงานแก้ไขภาพที่พบบ่อย 11 ประเภท รวมถึงการแทนที่ข้อความ การถ่ายโอนสไตล์ การแปลงวัสดุ และการปรับแต่งภาพบุคคล Step1X-Edit ได้รับการออกแบบมาเพื่อให้เข้าใจ แก้ไขได้อย่างแม่นยำ และรักษาChi tiết một cách hiệu quả

ความสามารถหลักของ Step1X-Edit

Step1X-Edit ผสานรวม Multimodal Large Language Models (MLLM) และ Diffusion models ซึ่งนำไปสู่การปรับปรุงอย่างมีนัยสำคัญในด้านความแม่นยำในการแก้ไขและความเที่ยงตรงของภาพภายในกรอบโอเพนซอร์ส ในเกณฑ์มาตรฐานการแก้ไขภาพ GEdit-Bench ที่เปิดตัวใหม่ Step1X-Edit มีประสิทธิภาพเหนือกว่าโมเดลโอเพนซอร์สที่มีอยู่ในด้านความสอดคล้องทางความหมาย คุณภาพของภาพ และคะแนนโดยรวม เทียบได้กับประสิทธิภาพของ GPT-4o และ Gemini 2.0 Flash

การวิเคราะห์ความแม่นยำเชิงความหมาย

โมเดลรองรับชุดคำสั่งที่ซับซ้อนซึ่งอธิบายด้วยภาษาธรรมชาติ คำสั่งเหล่านี้ไม่จำเป็นต้องมีเทมเพลต ทำให้โมเดลมีความยืดหยุ่นและสามารถจัดการกับความต้องการในการแก้ไขแบบหลายรอบและหลายงานได้ นอกจากนี้ยังรองรับการระบุ การแทนที่ และการสร้างข้อความใหม่ในรูปภาพ

  • รองรับคำอธิบายภาษาธรรมชาติที่ซับซ้อน
  • ไม่จำเป็นต้องมีเทมเพลตที่กำหนดไว้
  • สามารถแก้ไขแบบหลายรอบและหลายงานได้
  • ระบุ แทนที่ และสร้างข้อความใหม่ในรูปภาพ

การบำรุงรักษาความสอดคล้องของเอกลักษณ์

โมเดลรักษาคุณสมบัติของใบหน้า ท่าทาง และลักษณะเฉพาะของเอกลักษณ์อย่างสม่ำเสมอหลังการแก้ไข เหมาะสำหรับสถานการณ์ที่มีข้อกำหนดด้านความสอดคล้องสูง เช่น มนุษย์เสมือน โมเดลอีคอมเมิร์ซ และรูปภาพบนโซเชียลมีเดีย

  • รักษาคุณสมบัติของใบหน้า
  • รักษาท่าทาง
  • รักษาลักษณะเฉพาะของเอกลักษณ์
  • เหมาะสำหรับมนุษย์เสมือน โมเดลอีคอมเมิร์ซ และโซเชียลมีเดีย

การควบคุมระดับภูมิภาคที่มีความแม่นยำสูง

โมเดลรองรับการแก้ไขข้อความ วัสดุ สี และองค์ประกอบอื่นๆ ในพื้นที่เฉพาะเป้าหมาย รักษาลักษณะภาพที่เป็นหนึ่งเดียวและให้การควบคุมที่แม่นยำยิ่งขึ้น

  • การแก้ไขเป้าหมายในพื้นที่เฉพาะ
  • ควบคุมข้อความ วัสดุ และสี
  • รักษาสไตล์ภาพที่เป็นหนึ่งเดียว
  • ให้การควบคุมที่แม่นยำยิ่งขึ้น

นวัตกรรมทางสถาปัตยกรรม

Step1X-Edit ใช้สถาปัตยกรรมแบบแยกส่วนของ MLLM (Multimodal LLM) + Diffusion ซึ่งจัดการการทำความเข้าใจภาษาธรรมชาติและการสร้างภาพที่มีความเที่ยงตรงสูงแยกกัน เมื่อเทียบกับโมเดลแก้ไขภาพที่มีอยู่ สถาปัตยกรรมนี้มีข้อได้เปรียบในด้านความสามารถในการทั่วไปของคำสั่งและการควบคุมภาพ

โมดูล MLLM

โมดูล MLLM มีหน้าที่ในการประมวลผลคำสั่งภาษาธรรมชาติและเนื้อหาของภาพ มีความสามารถในการทำความเข้าใจความหมายแบบมัลติโมดัล ซึ่งสามารถแยกวิเคราะห์ความต้องการในการแก้ไขที่ซับซ้อนให้เป็นสัญญาณควบคุมแฝง

  • ประมวลผลคำสั่งภาษาธรรมชาติ
  • จัดการเนื้อหาของภาพ
  • การทำความเข้าใจความหมายแบบมัลติโมดัล
  • แยกวิเคราะห์ความต้องการในการแก้ไขที่ซับซ้อน

โมดูล Diffusion

โมดูล Diffusion ทำหน้าที่เป็นตัวสร้างภาพ (Image Decoder) โดยทำการสร้างใหม่หรือแก้ไขรูปภาพในเครื่องตามสัญญาณแฝงที่สร้างโดย MLLM สิ่งนี้ทำให้มั่นใจได้ถึงการรักษาChi tiết củaภาพและความสอดคล้องของสไตล์

  • ตัวสร้างภาพ (Image Decoder)
  • สร้างภาพใหม่
  • แก้ไขภาพในเครื่อง
  • รักษาChi tiếtและสไตล์ของภาพ

โครงสร้างนี้แก้ไขปัญหา ‘การทำความเข้าใจ’ และ ‘การสร้าง’ ที่แยกจากกันในโมเดลไปป์ไลน์แบบเดิม สิ่งนี้ทำให้โมเดลมีความแม่นยำและการควบคุมที่สูงขึ้นเมื่อดำเนินการตามคำสั่งแก้ไขที่ซับซ้อน

ข้อมูลการฝึกอบรม

เพื่อรองรับงานแก้ไขภาพที่ซับซ้อนที่หลากหลาย Step1X-Edit ได้สร้างชุดข้อมูลการฝึกอบรมการแก้ไขภาพชั้นนำของอุตสาหกรรม สร้างทริปเปิลคำสั่งข้อความรูปภาพ 20 ล้านรายการ และท้ายที่สุดจะเก็บตัวอย่างคุณภาพสูงมากกว่า 1 ล้านรายการ ข้อมูลครอบคลุมประเภทงานหลัก 11 ประเภท รวมถึงคุณสมบัติที่ร้องขอบ่อย เช่น การแทนที่ข้อความ การสร้างการกระทำ การถ่ายโอนสไตล์ และการปรับพื้นหลัง ประเภทงานมีการกระจายอย่างสม่ำเสมอ และภาษาของคำสั่งเป็นธรรมชาติและสมจริง

  • ชุดข้อมูลการฝึกอบรมชั้นนำของอุตสาหกรรม
  • ทริปเปิลคำสั่งข้อความรูปภาพ 20 ล้านรายการ
  • ตัวอย่างคุณภาพสูง 1 ล้านรายการ
  • ประเภทงานหลัก 11 ประเภท
  • ประเภทงานมีการกระจายอย่างสม่ำเสมอ

การประเมินประสิทธิภาพ

Step1X-Edit รักษาเอาต์พุตคุณภาพสูงอย่างสม่ำเสมอในงานย่อย 11 งานของการแก้ไขภาพ ความสามารถของมันมีความสมดุล และยังคงอยู่ในระดับแนวหน้าในเกือบทุกมิติของงาน แสดงให้เห็นถึงความเก่งกาจและความสมดุลที่แข็งแกร่ง

เกณฑ์มาตรฐาน GEdit-Bench

การประเมินโมเดลใช้เกณฑ์มาตรฐาน GEdit-Bench ที่พัฒนาขึ้นเอง ไม่เหมือนกับชุดงานที่สังเคราะห์ขึ้นด้วยตนเอง เกณฑ์มาตรฐานนี้มาจากคำขอแก้ไขของชุมชนจริง ซึ่งใกล้เคียงกับความต้องการของผลิตภัณฑ์มากกว่า

  • เกณฑ์มาตรฐานที่พัฒนาขึ้นเอง
  • คำขอแก้ไขของชุมชนจริง
  • ใกล้เคียงกับความต้องการของผลิตภัณฑ์มากกว่า

Step1X-Edit นำหน้าโมเดลโอเพนซอร์สที่มีอยู่อย่างมีนัยสำคัญในตัวบ่งชี้หลักสามตัวของ GEdit-Bench มีประสิทธิภาพใกล้เคียงกับ GPT-4o โดยบรรลุความสมดุลในอุดมคติระหว่างการทำความเข้าใจภาษาและการสร้างภาพใหม่

การตรวจสอบความสามารถโดยละเอียด

Step1X-Edit ไม่ใช่แค่การปรับเปลี่ยนรูปภาพเท่านั้น แต่เป็นการทำความเข้าใจอย่างแท้จริงถึงเจตนาเบื้องหลังการแก้ไข ดำเนินการอย่างแม่นยำ และปกป้องความสมบูรณ์ของรูปภาพต้นฉบับ ความสามารถหลัก ความแม่นยำเชิงความหมาย ความสอดคล้องของเอกลักษณ์ และการควบคุมระดับภูมิภาคที่มีความแม่นยำสูง ได้รับการออกแบบมาเพื่อตอบสนองความต้องการที่Chi tiếtของแก้ไขภาพสมัยใหม่

การวิเคราะห์ความแม่นยำเชิงความหมายในเชิงลึก

การวิเคราะห์ความแม่นยำเชิงความหมายของ Step1X-Edit นอกเหนือไปจากการจดจำคำหลักอย่างง่ายๆ นอกจากนี้ยังเจาะลึกลงไปในบริบทของคำอธิบายภาษาธรรมชาติ ทำความเข้าใจชุดคำสั่งที่ซับซ้อน Step1X-Edit สามารถตีความภาษาในรูปแบบอิสระ ทำให้ปรับตัวเข้ากับสถานการณ์การแก้ไขต่างๆ ได้อย่างง่ายดาย จัดการการแก้ไขแบบหลายรอบและหลายงานได้อย่างราบรื่น เข้าใจความสัมพันธ์ระหว่างคำสั่งที่ต่อเนื่องเพื่อสร้างผลลัพธ์ที่สอดคล้องกัน

พิจารณาตัวอย่างนี้: ผู้ใช้ต้องการเปลี่ยนข้อความบนป้ายในรูปภาพ จากนั้นเปลี่ยนสีของป้ายให้ตรงกับธีมที่แตกต่างกัน Step1X-Edit ไม่ได้เพียงแค่แทนที่ข้อความและเปลี่ยนสีเท่านั้น แต่ยังเข้าใจว่าป้ายนั้นเป็นวัตถุเดียวและทำให้แน่ใจว่าการเปลี่ยนแปลงข้อความและสีสอดคล้องกันและสอดคล้องกับรูปภาพโดยรวม นอกจากนี้ โมเดลยังสามารถระบุและสร้างข้อความใหม่ภายในรูปภาพได้ แม้ว่าจะถูกบดบังหรือบิดเบือนบางส่วนก็ตาม ความสามารถนี้มีประโยชน์อย่างยิ่งสำหรับการแก้ไขเอกสารที่สแกนหรือรูปภาพที่มีข้อความซ้อนทับ

การบำรุงรักษาความสอดคล้องของเอกลักษณ์ที่อธิบาย

การรักษาความสอดคล้องของเอกลักษณ์เป็นสิ่งสำคัญในสถานการณ์ที่บุคคลในรูปภาพจำเป็นต้องยังคงเป็นที่รู้จักแม้จะมีการเปลี่ยนแปลงก็ตาม สิ่งนี้มีความสำคัญอย่างยิ่งในการใช้งานมนุษย์เสมือน การสร้างแบบจำลองอีคอมเมิร์ซ และการสร้างเนื้อหาโซเชียลมีเดีย Step1X-Edit ช่วยให้มั่นใจได้ว่าคุณสมบัติของใบหน้า ท่าทาง และลักษณะเฉพาะของเอกลักษณ์เฉพาะตัวจะได้รับการเก็บรักษาไว้ตลอดกระบวนการแก้ไข

ตัวอย่างเช่น หากผู้ใช้ต้องการเปลี่ยนชุดของโมเดลเสมือนในรูปภาพ Step1X-Edit จะรักษาคุณสมบัติของใบหน้า ทรงผม และสัดส่วนร่างกายของโมเดล เพื่อให้มั่นใจว่ารูปภาพที่แก้ไขยังคงแสดงถึงโมเดลเดิมได้อย่างแม่นยำ ในทำนองเดียวกัน ในอีคอมเมิร์ซ ที่ซึ่งโมเดลแสดงผลิตภัณฑ์ ลักษณะที่ปรากฏของโมเดลจะต้องสอดคล้องกันในรูปภาพต่างๆ เพื่อหลีกเลี่ยงไม่ให้ลูกค้าสับสน

การควบคุมระดับภูมิภาคที่มีความแม่นยำสูง

การควบคุมระดับภูมิภาคที่มีความแม่นยำสูงช่วยให้ผู้ใช้ทำการแก้ไขเป้าหมายในพื้นที่เฉพาะของรูปภาพได้โดยไม่ส่งผลกระทบต่อส่วนอื่นๆ ของฉาก ความสามารถนี้จำเป็นสำหรับงานที่ต้องมีการปรับแต่งอย่างละเอียด เช่น การเปลี่ยนสีเสื้อผ้า การเปลี่ยนพื้นผิวของวัตถุ หรือการเพิ่มองค์ประกอบเฉพาะลงในภูมิภาคใดภูมิภาคหนึ่ง Step1X-Edit ช่วยให้ผู้ใช้สามารถเลือกภูมิภาคเฉพาะและใช้การแก้ไขด้วยความแม่นยำที่น่าทึ่ง ทำให้มั่นใจได้ว่าการเปลี่ยนแปลงจะผสมผสานกับรูปภาพที่มีอยู่ได้อย่างราบรื่น

ลองนึกภาพสถานการณ์ที่ผู้ใช้ต้องการเปลี่ยนสีรถในภาพถ่าย แต่ยังคงรักษาสิ่งสะท้อนและเงาไว้ Step1X-Edit สามารถแยกสีรถ เปลี่ยนสี และรักษาระดับแสงดั้งเดิม สร้างผลลัพธ์ที่สมจริงและสวยงาม นอกจากนี้ โมเดลยังช่วยให้มั่นใจได้ว่าสไตล์และความสวยงามโดยรวมของรูปภาพยังคงสอดคล้องกัน ป้องกันไม่ให้พื้นที่ที่แก้ไขดูผิดที่

การถอดรหัสสถาปัตยกรรม: MLLM + Diffusion

สถาปัตยกรรมแบบแยกส่วนของ Step1X-Edit ซึ่งรวม Multimodal Large Language Models (MLLM) และ Diffusion models ถือเป็นความก้าวหน้าที่สำคัญในเทคโนโลยีการแก้ไขภาพ การออกแบบนี้ช่วยให้สามารถแบ่งงาน โดยที่การทำความเข้าใจภาษาธรรมชาติและการสร้างภาพที่มีความเที่ยงตรงสูงได้รับการจัดการโดยโมดูลแยกต่างหากซึ่งปรับให้เหมาะสมกับงานของตน

เจาะลึกโมดูล MLLM

โมดูล MLLM ทำหน้าที่เป็นสมองของระบบ มีหน้าที่ในการทำความเข้าใจและตีความทั้งคำสั่งภาษาธรรมชาติและเนื้อหาของภาพ มีความสามารถในการทำความเข้าใจความหมายแบบมัลติโมดัลขั้นสูง ซึ่งช่วยให้สามารถแยกแยะความต้องการในการแก้ไขที่ซับซ้อนให้เป็นสัญญาณควบคุมแฝงที่นำไปปฏิบัติได้ กระบวนการนี้เกี่ยวข้องกับการวิเคราะห์โครงสร้างทางภาษาของคำสั่ง การระบุองค์ประกอบหลักที่จะแก้ไข และการทำความเข้าใจความสัมพันธ์ระหว่างส่วนต่างๆ ของภาพ

โมดูล MLLM ใช้อัลกอริทึมที่ซับซ้อนในการแมปคำสั่งแก้ไขไปยังการแสดงที่โมดูล Diffusion สามารถเข้าใจได้ การแสดงนี้เข้ารหัสการเปลี่ยนแปลงที่ต้องการในลักษณะที่รักษาความหมายเชิงความหมายของคำสั่งและรับประกันว่าการแก้ไขที่เกิดขึ้นจะสอดคล้องกับความตั้งใจของผู้ใช้ ตัวอย่างเช่น หากผู้ใช้ขอ ‘เพิ่มพระอาทิตย์ตกให้กับพื้นหลัง’ โมดูล MLLM จะระบุภูมิภาคพื้นหลัง จดจำแนวคิดของพระอาทิตย์ตก และสร้างสัญญาณควบคุมที่สั่งให้โมดูล Diffusion สร้างพระอาทิตย์ตกที่สมจริงในพื้นที่ที่ระบุ

การอธิบายโมดูล Diffusion

โมดูล Diffusion ทำหน้าที่เป็นศิลปิน โดยใช้สัญญาณควบคุมแฝงที่สร้างโดยโมดูล MLLM และใช้เพื่อสร้างใหม่หรือแก้ไขรูปภาพด้วยความเที่ยงตรงสูง โมดูลนี้ใช้กระบวนการที่เรียกว่าการแพร่กระจาย ซึ่งเกี่ยวข้องกับการค่อยๆ เพิ่มสัญญาณรบกวนให้กับรูปภาพ จากนั้นเรียนรู้ที่จะย้อนกลับกระบวนการนี้เพื่อสร้างรูปภาพใหม่หรือแก้ไขรูปภาพที่มีอยู่ โมดูล Diffusion ได้รับการฝึกอบรมเกี่ยวกับชุดข้อมูลขนาดใหญ่ของรูปภาพ ทำให้สามารถสร้างผลลัพธ์ที่สมจริงและสวยงาม

โมดูล Diffusion ช่วยให้มั่นใจได้ว่ารูปภาพที่แก้ไขยังคงรักษารายละเอียด พื้นผิว และเอฟเฟกต์แสงของรูปภาพต้นฉบับ โดยผสมผสานการเปลี่ยนแปลงเข้ากับเนื้อหาที่มีอยู่อย่างราบรื่น นอกจากนี้ยังสามารถปรับสไตล์ของการแก้ไขให้ตรงกับสุนทรียภาพโดยรวมของรูปภาพ สร้างผลลัพธ์ที่สอดคล้องกันและกลมกลืน ตัวอย่างเช่น หากผู้ใช้ต้องการ ‘ทำให้รูปภาพดูเหมือนภาพวาด’ โมดูล Diffusion สามารถใช้ฟิลเตอร์และพื้นผิวทางศิลปะเพื่อแปลงรูปภาพให้เป็นภาพวาดที่น่าเชื่อถือ ในขณะที่ยังคงรักษาส่วนประกอบและเนื้อหาดั้งเดิมไว้

Synergy: พลังแห่งการแยกส่วน

สถาปัตยกรรมแบบแยกส่วนของ Step1X-Edit แก้ไขข้อจำกัดพื้นฐานของโมเดลแก้ไขภาพแบบเดิม ซึ่ง ‘การทำความเข้าใจ’ และ ‘การสร้าง’ มักจะเกี่ยวพันกันและไม่ได้ปรับให้เหมาะสมกับงานของตน ด้วยการแยกฟังก์ชันเหล่านี้ออกเป็นโมดูลที่แตกต่างกัน Step1X-Edit จึงบรรลุความแม่นยำและการควบคุมที่สูงขึ้นเมื่อดำเนินการตามคำสั่งแก้ไขที่ซับซ้อน โมดูล MLLM สามารถมุ่งเน้นไปที่การตีความความตั้งใจของผู้ใช้อย่างแม่นยำ ในขณะที่โมดูล Diffusion สามารถมุ่งเน้นไปที่การสร้างภาพคุณภาพสูงที่ตรงตามข้อกำหนดที่ระบุ

การทำงานร่วมกันระหว่างโมดูล MLLM และ Diffusion ช่วยให้ Step1X-Edit สามารถจัดการงานแก้ไขที่หลากหลายด้วยความแม่นยำและความสอดคล้องที่น่าทึ่ง ไม่ว่าจะเป็นการปรับแต่งรูปภาพอย่างละเอียดหรือทำการเปลี่ยนแปลงที่ซับซ้อน Step1X-Edit สามารถให้ผลลัพธ์ที่สวยงามและแม่นยำในเชิงความหมาย สถาปัตยกรรมแบบแยกส่วนยังทำให้โมเดลมีความโมดูลาร์มากขึ้นและง่ายต่อการอัปเดต ทำให้ผู้พัฒนาสามารถปรับปรุงประสิทธิภาพและความสามารถได้อย่างต่อเนื่อง

วิศวกรรมชุดข้อมูล: รากฐานของประสิทธิภาพ

เพื่อรองรับงานแก้ไขภาพที่หลากหลายและซับซ้อนที่ Step1X-Edit สามารถจัดการได้ ผู้พัฒนาได้สร้างชุดข้อมูลการฝึกอบรมการแก้ไขภาพชั้นนำของอุตสาหกรรม ชุดข้อมูลนี้ประกอบด้วยชุดคำสั่งข้อความรูปภาพจำนวนมาก ซึ่งใช้เพื่อฝึกโมเดลให้เข้าใจและดำเนินการตามคำสั่งแก้ไขที่หลากหลาย ชุดข้อมูลประกอบด้วยสามชุด 20 ล้านชุด ซึ่งมากกว่า 1 ล้านชุดเป็นตัวอย่างคุณภาพสูงที่ได้รับการดูแลอย่างรอบคอบเพื่อให้มั่นใจในความถูกต้องและความสอดคล้อง

ข้อมูลครอบคลุมประเภทงานหลัก 11 ประเภท ครอบคลุมคุณสมบัติที่ร้องขอบ่อย เช่น การแทนที่ข้อความ การสร้างการกระทำ การถ่ายโอนสไตล์ และการปรับพื้นหลัง ประเภทงานเหล่านี้กระจายอย่างสม่ำเสมอทั่วทั้งชุดข้อมูล ทำให้มั่นใจได้ว่าโมเดลได้รับการฝึกอบรมที่สมดุลและสามารถทำงานได้ดีในสถานการณ์การแก้ไขต่างๆ ภาษาของคำสั่งที่ใช้ในชุดข้อมูลเป็นธรรมชาติและสมจริง สะท้อนถึงวิธีที่ผู้คนสื่อสารเมื่อขอแก้ไขรูปภาพ

ชุดข้อมูลยังรวมถึงตัวอย่างของคำสั่งแก้ไขที่ซับซ้อนและChi tiết เช่น ‘ทำให้รูปภาพดูวินเทจมากขึ้น’ หรือ ‘เพิ่มความรู้สึกดราม่าให้กับฉาก’ คำสั่งเหล่านี้กำหนดให้โมเดลต้องเข้าใจแนวคิดเชิงนามธรรมและนำไปใช้กับรูปภาพในรูปแบบที่สร้างสรรค์และสวยงาม ความหลากหลายและความสมบูรณ์ของชุดข้อมูลเป็นปัจจัยสำคัญในประสิทธิภาพของ Step1X-Edit ทำให้สามารถจัดการงานแก้ไขที่หลากหลายด้วยความแม่นยำและความอเนกประสงค์ที่น่าทึ่ง

เกณฑ์มาตรฐานความเป็นเลิศ: GEdit-Bench

เพื่อประเมินประสิทธิภาพของ Step1X-Edit อย่างเข้มงวด ผู้พัฒนาได้สร้างเกณฑ์มาตรฐานที่พัฒนาขึ้นเองซึ่งเรียกว่า GEdit-Bench เกณฑ์มาตรฐานนี้ได้รับการออกแบบมาเพื่อให้การประเมินความสามารถของโมเดลอย่างครอบคลุมในสถานการณ์การแก้ไขภาพต่างๆ GEdit-Bench ดึงงานมาจากคำขอแก้ไขของชุมชนจริง ซึ่งทำให้เป็นการวัดประสิทธิภาพของโมเดลในแอปพลิเคชันในโลกแห่งความเป็นจริงที่สมจริงและมีความเกี่ยวข้องมากขึ้น

งานใน GEdit-Bench ครอบคลุมการดำเนินการแก้ไขที่หลากหลาย รวมถึงการแทนที่ข้อความ การลบวัตถุ การถ่ายโอนสไตล์ และการปรับพื้นหลัง เกณฑ์มาตรฐานยังรวมถึงงานที่กำหนดให้โมเดลต้องเข้าใจและดำเนินการตามคำสั่งที่ซับซ้อนและChi tiết เช่น ‘ทำให้รูปภาพดูเป็นมืออาชีพมากขึ้น’ หรือ ‘เพิ่มความรู้สึกอบอุ่นให้กับฉาก’ GEdit-Bench ให้การประเมินประสิทธิภาพของโมเดลในสถานการณ์ในโลกแห่งความเป็นจริงที่ถูกต้องและเชื่อถือได้มากขึ้น

Step1X-Edit ได้บรรลุผลลัพธ์ที่น่าทึ่งบน GEdit-Bench โดยเหนือกว่าโมเดลโอเพนซอร์สที่มีอยู่ในตัวบ่งชี้หลักทั้งสาม: ความสอดคล้องทางความหมาย คุณภาพของภาพ และคะแนนโดยรวม ประสิทธิภาพของโมเดลใกล้เคียงกับประสิทธิภาพของ GPT-4o ซึ่งแสดงให้เห็นถึงความสามารถในการบรรลุความสมดุลในอุดมคติระหว่างการทำความเข้าใจภาษาและการสร้างภาพใหม่

โดยสรุป Step1X-Edit แสดงถึงความก้าวหน้าที่สำคัญในเทคโนโลยีการแก้ไขภาพแบบโอเพนซอร์ส สถาปัตยกรรมแบบแยกส่วน ชุดข้อมูลการฝึกอบรมจำนวนมาก และเกณฑ์มาตรฐานที่เข้มงวดทำให้เป็นเครื่องมือที่ทรงพลังและหลากหลายสำหรับงานแก้ไขที่หลากหลาย ไม่ว่าคุณจะเป็นช่างภาพมืออาชีพ ผู้ที่ชื่นชอบโซเชียลมีเดีย หรือเพียงแค่คนที่ต้องการปรับปรุงรูปภาพ Step1X-Edit สามารถช่วยให้คุณบรรลุเป้าหมายด้วยความแม่นยำและความง่ายดายที่น่าทึ่ง