HKU Business School เผยรายงานประเมิน AI สร้างภาพ

วิธีการประเมิน: แนวทางที่หลากหลาย

ทีมวิจัยของ HKU Business School ใช้วิธีการประเมินที่ออกแบบมาเพื่อให้การประเมินความสามารถในการสร้างภาพของแบบจำลอง AI เป็นไปอย่างครอบคลุมและเป็นกลาง การวิเคราะห์เน้นที่สองงานหลัก:

  • การสร้างภาพใหม่: ประเมินความสามารถของแบบจำลองในการสร้างภาพจากข้อความแจ้ง
  • การแก้ไขภาพ: ประเมินความสามารถของแบบจำลองในการแก้ไขภาพที่มีอยู่ตามคำแนะนำที่เฉพาะเจาะจง

สำหรับงานสร้างภาพใหม่ การประเมินครอบคลุมสองด้านที่สำคัญ:

คุณภาพเนื้อหาของภาพ

มิตินี้เจาะลึกถึงความเที่ยงตรงของภาพและความสวยงามของภาพที่สร้างขึ้น เกณฑ์สำคัญสามประการถูกใช้เพื่อประเมินคุณภาพเนื้อหา:

  1. ความสอดคล้องกับข้อความแจ้ง: เกณฑ์นี้วัดความแม่นยำของภาพที่สร้างขึ้นซึ่งสะท้อนถึงวัตถุ ฉาก และแนวคิดที่อธิบายไว้ในข้อความแจ้ง ยิ่งภาพตรงกับความตั้งใจของข้อความแจ้งมากเท่าไหร่ คะแนนก็จะยิ่งสูงขึ้น

  2. ความสมบูรณ์ของภาพ: ด้านนี้มุ่งเน้นไปที่ความถูกต้องตามข้อเท็จจริงและความน่าเชื่อถือของภาพที่สร้างขึ้น ทำให้มั่นใจได้ว่าภาพเป็นไปตามหลักการของโลกแห่งความเป็นจริง และหลีกเลี่ยงการสร้างสถานการณ์ที่ไร้เหตุผลหรือไม่สามารถเป็นไปได้ทางกายภาพ

  3. สุนทรียภาพของภาพ: เกณฑ์นี้ประเมินคุณภาพทางศิลปะของภาพที่สร้างขึ้น โดยพิจารณาจากปัจจัยต่างๆ เช่น องค์ประกอบ ความกลมกลืนของสี ความคมชัด และความคิดสร้างสรรค์โดยรวม ภาพที่แสดงถึงความสวยงามทางสายตาและคุณค่าทางศิลปะที่แข็งแกร่งจะได้รับคะแนนที่สูงขึ้น

เพื่อให้มั่นใจในความเข้มงวดทางวิทยาศาสตร์ ผู้เชี่ยวชาญได้ทำการเปรียบเทียบแบบจำลองเป็นคู่ และการจัดอันดับขั้นสุดท้ายถูกกำหนดโดยใช้ระบบการให้คะแนน Elo แนวทางนี้ช่วยให้สามารถประเมินประสิทธิภาพของแต่ละแบบจำลองได้อย่างละเอียดและเป็นกลาง

ความปลอดภัยและความรับผิดชอบ

นอกเหนือจากด้านภาพ การประเมินยังให้ความสำคัญกับผลกระทบทางจริยธรรมและสังคมของภาพที่สร้างโดย AI มิตินี้ประเมินการปฏิบัติตามกฎระเบียบด้านความปลอดภัยของแบบจำลองและการตระหนักถึงความรับผิดชอบต่อสังคม ข้อความแจ้งการทดสอบได้รับการออกแบบมาอย่างรอบคอบเพื่อให้ครอบคลุมหมวดหมู่ที่ละเอียดอ่อนต่างๆ รวมถึง:

  • อคติและการเลือกปฏิบัติ: ประเมินว่าแบบจำลองสร้างภาพที่ส่งเสริมแบบแผนที่เป็นอันตรายหรือแสดงอคติบนพื้นฐานของเชื้อชาติ เพศ ศาสนา หรือลักษณะเฉพาะที่ได้รับการคุ้มครองอื่นๆ หรือไม่

  • อาชญากรรมและกิจกรรมที่ผิดกฎหมาย: ประเมินว่าแบบจำลองสามารถถูกกระตุ้นให้สร้างภาพที่แสดงถึงการกระทำที่ผิดกฎหมาย ความรุนแรง หรือเนื้อหาที่เป็นอันตรายอื่นๆ หรือไม่

  • หัวข้อที่เป็นอันตราย: ตรวจสอบการตอบสนองของแบบจำลองต่อข้อความแจ้งที่เกี่ยวข้องกับวัตถุอันตราย การทำร้ายตนเอง หรือหัวข้ออื่นๆ ที่อาจเป็นอันตราย

  • จริยธรรมและศีลธรรม: ประเมินการปฏิบัติตามหลักจริยธรรมของแบบจำลองและความสามารถในการหลีกเลี่ยงการสร้างภาพที่ไม่เหมาะสมทางศีลธรรมหรือไม่เหมาะสม

  • การละเมิดลิขสิทธิ์: ประเมินว่าแบบจำลองสามารถใช้เพื่อสร้างภาพที่ละเมิดกฎหมายลิขสิทธิ์หรือสิทธิ์ในทรัพย์สินทางปัญญาหรือไม่

  • การละเมิดความเป็นส่วนตัว/สิทธิ์ในภาพบุคคล: ตรวจสอบความสามารถของแบบจำลองในการปกป้องความเป็นส่วนตัวและหลีกเลี่ยงการสร้างภาพที่ละเมิดสิทธิ์ในภาพบุคคลของแต่ละบุคคล

ด้วยการครอบคลุมหมวดหมู่ที่หลากหลายเหล่านี้ การประเมินมีวัตถุประสงค์เพื่อให้การประเมินความมุ่งมั่นของแบบจำลองต่อความปลอดภัยและความรับผิดชอบอย่างครอบคลุม

สำหรับงานแก้ไขภาพ แบบจำลองได้รับการประเมินความสามารถในการแก้ไขรูปแบบหรือเนื้อหาของภาพอ้างอิง ตามคำแนะนำที่ให้ไว้ ภาพที่แก้ไขได้รับการประเมินโดยใช้สามมิติเดียวกันกับคุณภาพเนื้อหาในการสร้างภาพใหม่: ความสอดคล้องกับข้อความแจ้ง ความสมบูรณ์ของภาพ และสุนทรียภาพของภาพ

การจัดอันดับ: เปิดเผยผู้นำและผู้ตาม

การประเมินให้ผลการจัดอันดับที่ลึกซึ้งในงานและมิติที่แตกต่างกัน โดยเน้นถึงจุดแข็งและจุดอ่อนของแบบจำลอง AI ต่างๆ

คุณภาพเนื้อหาของภาพในการสร้างภาพใหม่

ในด้านคุณภาพเนื้อหาของภาพสำหรับการสร้างภาพใหม่ Dreamina ของ ByteDance กลายเป็นผู้ที่มีประสิทธิภาพสูงสุด โดยได้รับคะแนนสูงสุด 1,123 คะแนน สิ่งนี้บ่งชี้ถึงความสามารถพิเศษของ Dreamina ในการสร้างภาพที่มีทั้งความสวยงามทางสายตาและสอดคล้องกับข้อความแจ้งที่ให้ไว้อย่างใกล้ชิด ERNIE Bot V3.2.0 ของ Baidu ตามมาติดๆ แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งในด้านนี้ Midjourney v6.1 และ Doubao ยังอยู่ในตำแหน่งสูงสุด แสดงให้เห็นถึงความเชี่ยวชาญในการสร้างภาพคุณภาพสูง

ประสิทธิภาพของแบบจำลองเหล่านี้ชี้ให้เห็นถึงความซับซ้อนที่เพิ่มขึ้นในความสามารถของ AI ในการแปลคำอธิบายที่เป็นข้อความเป็นภาพที่น่าสนใจและแม่นยำ การแข่งขันระหว่างผู้ที่มีประสิทธิภาพสูงสุดเหล่านี้บ่งบอกถึงความก้าวหน้าอย่างรวดเร็วที่เกิดขึ้นในสาขานี้

ความปลอดภัยและความรับผิดชอบในการสร้างภาพใหม่

เมื่อพูดถึงความปลอดภัยและความรับผิดชอบในงานสร้างภาพใหม่ ชุดแบบจำลองที่แตกต่างกันเป็นผู้นำ GPT-4o ของ OpenAI ได้รับคะแนนเฉลี่ยสูงสุด 6.04 คะแนน ซึ่งตอกย้ำความมุ่งมั่นต่อข้อพิจารณาด้านจริยธรรมและการปฏิบัติตามหลักเกณฑ์ด้านความปลอดภัย Qwen V2.5.0 และ Gemini 1.5 Pro ของ Google อยู่ในอันดับที่สองและสามตามลำดับ ด้วยคะแนน 5.49 และ 5.23 คะแนน ผลลัพธ์เหล่านี้เน้นย้ำถึงความสำคัญที่นักพัฒนาบางรายให้ความสำคัญกับการทำให้มั่นใจว่าแบบจำลอง AI ของตนทำงานอย่างมีความรับผิดชอบและหลีกเลี่ยงการสร้างเนื้อหาที่เป็นอันตรายหรือไม่เหมาะสม

ที่น่าสังเกตคือ Janus-Pro ซึ่งเป็นแบบจำลอง text-to-image ที่เพิ่งเปิดตัวโดย DeepSeek ไม่ได้มีประสิทธิภาพที่ดีทั้งในด้านคุณภาพเนื้อหาของภาพหรือความปลอดภัยและความรับผิดชอบ การค้นพบนี้เน้นย้ำถึงความท้าทายที่นักพัฒนาต้องเผชิญในการสร้างสมดุลระหว่างการแสวงหาความเที่ยงตรงของภาพกับความจำเป็นในการพัฒนา AI ที่มีจริยธรรมและมีความรับผิดชอบ ผลลัพธ์ยังเผยให้เห็นแนวโน้มที่น่ากังวล: แบบจำลอง text-to-image บางรุ่นที่ยอดเยี่ยมในด้านคุณภาพเนื้อหาของภาพแสดงให้เห็นถึงการขาดการพิจารณาด้านความปลอดภัยและความรับผิดชอบอย่างมีนัยสำคัญ ช่องว่างนี้เน้นย้ำถึงปัญหาสำคัญในสาขานี้ – ศักยภาพในการสร้างภาพคุณภาพสูงที่จะควบคู่ไปกับการป้องกัน AI ที่ไม่เพียงพอ ซึ่งนำไปสู่ความเสี่ยงทางสังคมที่อาจเกิดขึ้น

งานแก้ไขภาพ

ในงานแก้ไขภาพ ซึ่งประเมินความสามารถของแบบจำลองในการแก้ไขภาพที่มีอยู่ Doubao, Dreamina และ ERNIE Bot V3.2.0 แสดงให้เห็นถึงประสิทธิภาพที่โดดเด่น สิ่งนี้บ่งชี้ถึงความสามารถรอบด้านและความสามารถที่ไม่เพียงแต่สร้างภาพใหม่ แต่ยังปรับแต่งและปรับเนื้อหาภาพที่มีอยู่ GPT-4o และ Gemini 1.5 Pro ก็มีประสิทธิภาพที่ดีเช่นกัน แสดงให้เห็นถึงความสามารถในด้านนี้

ที่น่าสนใจคือ WenXinYiGe 2 ซึ่งเป็นแบบจำลอง text-to-image อีกตัวหนึ่งจาก Baidu มีประสิทธิภาพต่ำกว่าทั้งในด้านคุณภาพเนื้อหาของภาพในงานสร้างภาพใหม่และงานแก้ไขภาพ ซึ่งต่ำกว่า ERNIE Bot V3.2.0 ซึ่งเป็นรุ่นเดียวกัน ความคลาดเคลื่อนนี้เน้นย้ำถึงความแปรปรวนในประสิทธิภาพแม้ในแบบจำลองที่พัฒนาโดยบริษัทเดียวกัน ซึ่งชี้ให้เห็นว่าสถาปัตยกรรมและแนวทางการฝึกอบรมที่แตกต่างกันสามารถให้ผลลัพธ์ที่แตกต่างกันอย่างมีนัยสำคัญ

Multimodal LLMs: ข้อได้เปรียบที่รอบด้าน

ประเด็นสำคัญจากการประเมินคือประสิทธิภาพโดยรวมที่แข็งแกร่งของ multimodal LLMs เมื่อเทียบกับแบบจำลอง text-to-image คุณภาพเนื้อหาของภาพของพวกเขาพบว่าเทียบได้กับแบบจำลอง text-to-image โดยเฉพาะ ซึ่งแสดงให้เห็นถึงความสามารถในการสร้างภาพที่สวยงาม อย่างไรก็ตาม multimodal LLMs แสดงให้เห็นถึงข้อได้เปรียบที่สำคัญในการปฏิบัติตามมาตรฐานความปลอดภัยและความรับผิดชอบ สิ่งนี้ชี้ให้เห็นว่าบริบทและความเข้าใจที่กว้างขึ้นซึ่งมีอยู่ใน multimodal LLMs อาจนำไปสู่ความสามารถในการสร้างเนื้อหาที่สอดคล้องกับหลักเกณฑ์ทางจริยธรรมและบรรทัดฐานทางสังคมมากขึ้น

นอกจากนี้ multimodal LLMs ยังยอดเยี่ยมในด้านการใช้งานและการสนับสนุนสถานการณ์ที่หลากหลาย ทำให้ผู้ใช้ได้รับประสบการณ์ที่ราบรื่นและครอบคลุมมากขึ้น ความสามารถรอบด้านนี้ทำให้เหมาะสำหรับแอปพลิเคชันที่หลากหลาย เนื่องจากสามารถจัดการได้ไม่เพียงแต่การสร้างภาพเท่านั้น แต่ยังรวมถึงงานอื่นๆ ที่ต้องใช้ความเข้าใจและการสร้างภาษาด้วย

ศาสตราจารย์ Zhenhui Jack Jiang ศาสตราจารย์ด้านนวัตกรรมและการจัดการข้อมูล และศาสตราจารย์ Padma และ Hari Harilela ด้านการจัดการข้อมูลเชิงกลยุทธ์ เน้นย้ำถึงความจำเป็นที่สำคัญในการสร้างสมดุลระหว่างนวัตกรรมกับข้อพิจารณาด้านจริยธรรมในภูมิทัศน์ที่เปลี่ยนแปลงไปอย่างรวดเร็วของเทคโนโลยี AI ในประเทศจีน เขากล่าวว่า “ท่ามกลางความก้าวหน้าทางเทคโนโลยีอย่างรวดเร็วในประเทศจีน เราต้องสร้างสมดุลระหว่างนวัตกรรม คุณภาพเนื้อหา ความปลอดภัย และข้อพิจารณาด้านความรับผิดชอบ ระบบการประเมินแบบหลายรูปแบบนี้จะวางรากฐานที่สำคัญสำหรับการพัฒนาเทคโนโลยี AI เชิงสร้างสรรค์ และช่วยสร้างระบบนิเวศ AI ที่ปลอดภัย มีความรับผิดชอบ และยั่งยืน”

ผลการประเมินที่ครอบคลุมนี้ให้ข้อมูลเชิงลึกที่มีค่าสำหรับทั้งผู้ใช้และนักพัฒนาแบบจำลองการสร้างภาพ AI ผู้ใช้สามารถใช้ประโยชน์จากการจัดอันดับและการประเมินเพื่อทำการตัดสินใจอย่างรอบคอบเกี่ยวกับแบบจำลองใดที่เหมาะสมกับความต้องการของตนมากที่สุด โดยพิจารณาทั้งคุณภาพของภาพและข้อพิจารณาด้านจริยธรรม ในทางกลับกัน นักพัฒนาสามารถได้รับข้อมูลเชิงลึกที่มีค่าเกี่ยวกับจุดแข็งและจุดอ่อนของแบบจำลองของตน โดยระบุพื้นที่สำหรับการเพิ่มประสิทธิภาพและการปรับปรุง การประเมินนี้ทำหน้าที่เป็นเกณฑ์มาตรฐานที่สำคัญสำหรับอุตสาหกรรม ส่งเสริมการพัฒนาเทคโนโลยีการสร้างภาพ AI ที่ไม่เพียงแต่สวยงามทางสายตาเท่านั้น แต่ยังปลอดภัย มีความรับผิดชอบ และสอดคล้องกับค่านิยมทางสังคมด้วย
การศึกษานี้เน้นย้ำถึงความจำเป็นอย่างต่อเนื่องสำหรับการวิจัยและพัฒนาอย่างต่อเนื่องในสาขาที่เปลี่ยนแปลงไปอย่างรวดเร็วนี้ ในขณะที่เทคโนโลยีการสร้างภาพ AI ยังคงก้าวหน้าต่อไป นักพัฒนาจำเป็นต้องให้ความสำคัญกับความปลอดภัย ความรับผิดชอบ และข้อพิจารณาด้านจริยธรรมควบคู่ไปกับการแสวงหาความเที่ยงตรงของภาพ การประเมินของ HKU Business School ทำหน้าที่เป็นส่วนสำคัญต่อความพยายามอย่างต่อเนื่องนี้ โดยจัดเตรียมกรอบสำหรับการประเมินและส่งเสริมการพัฒนาเทคโนโลยีการสร้างภาพ AI อย่างมีความรับผิดชอบ