การเติบโตอย่างรวดเร็วของเทคโนโลยี AI ในการสร้างภาพกำลังเป็นที่จับตามอง โดยมีบริษัทและองค์กรจำนวนมากแข่งขันกันเพื่อความเป็นผู้นำ แต่ละผู้พัฒนาต่างก็โฆษณาถึงขีดความสามารถอันโดดเด่นของ AI model ของตน ทำให้เกิดภูมิทัศน์ที่ซับซ้อนและยากต่อการประเมินประสิทธิภาพที่แท้จริง ขอแนะนำ GenAI Image Showdown แพลตฟอร์มที่ได้รับการดูแลจัดการอย่างพิถีพิถันซึ่งออกแบบมาเพื่อให้ความกระจ่างท่ามกลางกระแสโฆษณา เว็บไซต์นี้นำเสนอการเปรียบเทียบแบบเห็นภาพข้างๆ ของ AI สร้างภาพต่างๆ โดยทั้งหมดตอบสนองต่อ prompt เดียวกันอย่างแม่นยำ สิ่งนี้จะช่วยให้สามารถประเมินความสามารถของ AI แต่ละตัวในการแปลคำสั่งให้เป็นภาพที่น่าสนใจได้อย่างซื่อสัตย์
ทหารปรัสเซียและห่วงโลหะ: การทดสอบการตีความตามตัวอักษร
เพื่อแสดงให้เห็นถึงประสิทธิภาพของแพลตฟอร์ม ให้พิจารณา prompt: "ทหารปรัสเซียสองนายสวมหมวกเหล็กแหลมกำลังเผชิญหน้ากันและเล่นเกมโยนห่วงโลหะใส่หนามบนหมวกของกันและกัน" สถานการณ์ที่ดูแปลกประหลาดนี้ใช้เป็นบททดสอบสำหรับ AI สร้างภาพที่โดดเด่นหกตัว:
- Black Forest Labs’ FLUX.1 [dev]
- Google’s Gemini 2.0 Flash
- Tencent’s Hunyuan Image 2.0
- Google’s Imagen 3 and Imagen 4 (จัดกลุ่มเนื่องจากความแตกต่างของประสิทธิภาพมีน้อยมาก)
- Midjourney’s Midjourney V7
- OpenAI’s 4o Image Generation
ผลลัพธ์ที่ได้เปิดเผยให้เห็นว่ามีเพียงสามในหก AIs เท่านั้น – FLUX.1 [dev], Imagen 3 and Imagen 4, และ 4o Image Generation – ที่สร้างภาพได้สำเร็จซึ่งยึดมั่นในรายละเอียดเฉพาะของ prompt ส่วน AIs อื่นๆ แม้ว่าอาจจะสร้างภาพที่น่าสนใจ แต่ก็ไม่สามารถจับภาพสาระสำคัญของคำขอได้อย่างแม่นยำ สิ่งนี้เน้นให้เห็นถึงความแตกต่างที่สำคัญ: คุณภาพของภาพดิบไม่ใช่ปัจจัยชี้ขาดเพียงอย่างเดียวของ AI สร้างภาพที่ประสบความสำเร็จ ความสามารถในการตีความและดำเนินการตามคำแนะนำที่ซับซ้อนอย่างแม่นยำก็มีความสำคัญอย่างยิ่งเช่นกัน
รูปทรงดวงดาว: การประเมินความแม่นยำทางเรขาคณิต
การทดลองขยายออกไปนอกเหนือจากฉากที่ซับซ้อนเพื่อรวมถึง prompts ที่เรียบง่ายและเน้นรูปทรงเรขาคณิตมากขึ้น หนึ่งใน prompts เหล่านั้นคือ: "ภาพประกอบดิจิทัลของดาวที่มีเก้าแฉก" งานที่ดูตรงไปตรงมานี้พิสูจน์ได้ว่าเป็นสิ่งที่ท้าทายอย่างน่าประหลาดใจสำหรับ AIs บางตัว มีเพียง FLUX.1 [dev], Midjourney V7, และ 4o Image Generation เท่านั้นที่สามารถสร้างภาพที่แสดงถึงดาวเก้าแฉกได้อย่างแม่นยำ ความล้มเหลวเน้นให้เห็นถึงความยากลำบากที่ AI เผชิญเมื่อต้องจัดการกับข้อกำหนดทางเรขาคณิตที่เฉพาะเจาะจง แม้ในสถานการณ์ที่ดูเรียบง่าย เป็นเรื่องง่ายที่จะสร้างสิ่งที่ดูเหมือนดาว แต่ยากกว่ามากที่จะสร้างดาวที่ยึดมั่นในคุณลักษณะเฉพาะของการมีเก้าแฉก สิ่งนี้อาจมีความสำคัญสำหรับการสร้างแผนภาพทางเทคนิคหรือทางวิทยาศาสตร์ที่แม่นยำ
ลูกบาศก์สีและความโปร่งแสง: การเจาะลึกความสามารถในการเรนเดอร์
ความท้าทายต่อไปอยู่ในรูปแบบของ prompt ที่มีรายละเอียดสูงซึ่งออกแบบมาเพื่อทดสอบความสามารถในการเรนเดอร์ของ AI: "ภาพ ray-traced ที่มีลูกบาศก์สีห้าลูก ลูกบาศก์สีแดงซ้อนอยู่บนลูกบาศก์สีน้ำเงิน ลูกบาศก์สีน้ำเงินซ้อนอยู่บนลูกบาศก์สีเขียว ลูกบาศก์สีเขียวซ้อนอยู่บนลูกบาศก์สีม่วง ลูกบาศก์สีม่วงซ้อนอยู่บนลูกบาศก์สีเหลือง กล่าวคือจากบนลงล่าง ลำดับคือ แดง น้ำเงิน เขียว ม่วง เหลือง ลูกบาศก์มีความโปร่งแสงบางส่วนและทำจากแก้ว"
prompt นี้ต้องการไม่เพียงแต่การแสดงสีที่ถูกต้องและลำดับการซ้อนเท่านั้น แต่ยังต้องมีความเข้าใจอย่างละเอียดเกี่ยวกับ ray tracing และคุณสมบัติทางภาพของแก้วโปร่งแสง ผลลัพธ์ส่วนใหญ่เป็นไปในเชิงบวก โดย AIs ทั้งหมดยกเว้น Midjourney V7 สามารถสร้างภาพที่ตรงตามเกณฑ์ที่ระบุได้สำเร็จ สิ่งนี้แสดงให้เห็นถึงความซับซ้อนที่เพิ่มขึ้นของ AI ในการเรนเดอร์วัตถุที่สมจริงและซับซ้อนทางสายตา โดยเฉพาะอย่างยิ่งในการจำลองเอฟเฟกต์ของแสงและคุณสมบัติของวัสดุ ความสามารถในการควบคุมเอฟเฟกต์ดังกล่าวนั้นมีความสำคัญอย่างยิ่งสำหรับการใช้งานในการออกแบบผลิตภัณฑ์ การแสดงภาพสถาปัตยกรรม และสาขาอื่นๆ ที่ต้องการภาพที่สมจริง อีกครั้ง ความล้มเหลวของ Midjourney ในการเรนเดอร์ prompt นี้สำเร็จเน้นให้เห็นถึงความแตกต่างระหว่างเครื่องมือ โดยเครื่องมือบางอย่างเหมาะสมกว่าสำหรับงานบางอย่าง
การนำทางในเขาวงกต: การประเมินการใช้เหตุผลเชิงตรรกะ
ความสามารถในการใช้เหตุผลเชิงตรรกะเป็นอีกแง่มุมที่สำคัญของประสิทธิภาพของ AI เพื่อทดสอบความสามารถนี้ AIs ได้รับคำสั่งให้สร้างเขาวงกตพร้อมทั้งแสดงเส้นทางที่ถูกต้องผ่านเขาวงกต งานนี้ต้องการให้ AI ไม่เพียงแต่สร้างเขาวงกตที่สมจริงเท่านั้น แต่ยังต้องเข้าใจและแสดงถึงเส้นทางแก้ไขอีกด้วย สิ่งที่น่าประทับใจคือมีเพียง 4o Image Generation เท่านั้นที่ประสบความสำเร็จในการสร้างผลลัพธ์ที่ถูกต้องและสอดคล้องกัน สิ่งนี้บ่งชี้ว่า AI model บางตัวเริ่มแสดงรูปแบบของการใช้เหตุผลเชิงพื้นที่ ซึ่งสามารถเข้าใจและแสดงความสัมพันธ์ที่ซับซ้อนภายในสภาพแวดล้อมทางภาพได้ การใช้งานที่มีศักยภาพของความสามารถนี้มีมากมาย ตั้งแต่การสร้างแผนที่และเกมแบบโต้ตอบไปจนถึงการช่วยเหลือในการออกแบบระบบที่ซับซ้อน
ปริศนาจำนวนเฉพาะ: การเปิดเผยขีดจำกัดความเข้าใจเชิงตัวเลข
แม้ว่า AI จะมีความก้าวหน้าอย่างน่าทึ่ง แต่ก็ไม่ได้ปราศจากข้อจำกัด สิ่งนี้ได้รับการพิสูจน์อย่างชัดเจนจาก prompt: "ลูกเต๋า 20 หน้าที่ประกอบด้วยจำนวนเฉพาะ 20 จำนวน โดยเริ่มจากจำนวนเฉพาะที่น้อยที่สุด" งานนี้ต้องการให้ AI ไม่เพียงแต่สร้างลูกเต๋า 20 หน้าที่แม่นยำเท่านั้น แต่ยังต้องระบุและจัดเรียงจำนวนเฉพาะ 20 จำนวนแรกบนหน้าต่างๆ อย่างถูกต้องอีกด้วย น่าผิดหวังที่ AI สร้างภาพทั้งหมดล้มเหลวในการสร้างผลลัพธ์ที่น่าพอใจ ความล้มเหลวนี้เน้นให้เห็นถึงความท้าทายที่ AI เผชิญในการรวมข้อมูลเชิงตัวเลขที่แม่นยำเข้ากับการแสดงภาพ แม้ว่า AI จะสามารถสร้างภาพที่สวยงามได้อย่างน่าทึ่ง แต่ก็มักจะประสบปัญหาในงานที่ต้องใช้ความเข้าใจอย่างลึกซึ้งเกี่ยวกับแนวคิดทางคณิตศาสตร์และการแปลอย่างแม่นยำในบริบททางภาพ
คำตัดสิน: การจัดอันดับ AI Image Generators
GenAI Image Showdown รวบรวมผลลัพธ์ของการทดสอบทั้งหมด 12 ครั้ง โดยให้ภาพรวมที่ครอบคลุมของประสิทธิภาพของ AI แต่ละตัวในงานต่างๆ ตามอัตราความแม่นยำ AIs ได้รับการจัดอันดับดังนี้:
- 4o Image Generation
- Imagen 3 and Imagen 4
- FLUX.1 [dev]
- Gemini 2.0 Flash
- Hunyuan Image 2.0
- Midjourney V7
การจัดอันดับนี้ให้ข้อมูลเชิงลึกที่มีค่าสำหรับผู้ใช้ที่ต้องการเลือก AI ที่เหมาะสมที่สุดสำหรับความต้องการเฉพาะของพวกเขา อย่างไรก็ตาม สิ่งสำคัญคือต้องทราบว่า AI แต่ละตัวมีจุดแข็งและจุดอ่อนของตัวเอง และตัวเลือกที่เหมาะสมที่สุดอาจแตกต่างกันไปขึ้นอยู่กับงานเฉพาะที่ทำ ตัวอย่างเช่น หากผู้ใช้ต้องการ AI เพื่อสร้างงานศิลปะที่สวยงามเพื่อใช้โซเชียลมีเดีย Midjourney อาจยังคงเป็นเครื่องมือที่น่าพอใจ แม้ว่าจะล้มเหลวในการทำภารกิจบางอย่างที่กล่าวถึงข้างต้นให้สำเร็จ
ผลกระทบของการศึกษานี้ยังขยายไปไกลเกินกว่าการสร้างภาพอย่างง่าย เครื่องมือ AI เหล่านี้มีศักยภาพในการปฏิวัติอุตสาหกรรมต่างๆ ตั้งแต่การตลาดไปจนถึงวิศวกรรม นักการตลาดสามารถสร้างภาพผลิตภัณฑ์ที่สมจริงซึ่งยังไม่มีอยู่จริงได้ ทำให้สามารถทำการทดสอบ A/B กับลูกค้าเป้าหมายได้อย่างมีประสิทธิภาพ ในทำนองเดียวกัน วิศวกรสามารถสร้างภาพและทำซ้ำแนวคิดการออกแบบที่ซับซ้อนได้อย่างรวดเร็วโดยไม่ต้องรอต้นแบบราคาแพง
ท้ายที่สุดแล้ว GenAI Image Showdown ทำหน้าที่เป็นแหล่งข้อมูลที่มีค่าสำหรับการนำทางภูมิทัศน์ที่ซับซ้อนและมีการพัฒนาอย่างรวดเร็วของการสร้างภาพ AI ด้วยการให้การเปรียบเทียบ AI models ต่างๆ ที่ชัดเจนและเป็นกลาง ทำให้ผู้ใช้สามารถตัดสินใจได้อย่างมีข้อมูลและควบคุมศักยภาพทั้งหมดของเทคโนโลยีที่เปลี่ยนแปลงนี้ ในขณะที่ AI ยังคงพัฒนาต่อไป แพลตฟอร์มเช่น GenAI Image Showdown จะยังคงมีบทบาทสำคัญในการลดความซับซ้อนของเทคโนโลยี และรับประกันว่าทุกคนสามารถเข้าถึงประโยชน์ของเทคโนโลยีนี้ได้ แม้ว่า AI จะสามารถสร้างภาพใหม่ๆ ได้ แต่ก็มีแนวโน้มที่จะสืบทอดอคติทางสังคมที่มีอยู่ในข้อมูลที่ได้รับการฝึกฝน ดังนั้นจึงเป็นไปได้ที่ภาพที่สร้างโดย AI อาจทำให้เกิดแบบแผนทางสังคมที่สืบทอดต่อกันไป
ข้อจำกัดในปัจจุบันของการสร้างภาพ AI ยังหมายความว่าภาพที่สร้างโดย AI มีแนวโน้มที่จะถูกนำไปใช้ในทางที่ผิด ตัวอย่างเช่น พวกเขาอาจถูกใช้เพื่อเผยแพร่ข้อมูลที่ผิด หรือเพื่อสร้าง deepfakes ที่มีเนื้อหาทางเพศอย่างชัดเจน เมื่อเทคโนโลยีก้าวหน้าไป ความซับซ้อนของการโจมตีที่เป็นอันตรายดังกล่าวก็จะเพิ่มขึ้น ดังนั้นจึงจำเป็นอย่างยิ่งที่จะต้องบังคับใช้มาตรการป้องกันที่เพียงพอเพื่อลดอันตรายให้เหลือน้อยที่สุด