ในโลกที่การแก้ไขภาพด้วย AI กำลังพัฒนาอย่างรวดเร็ว บริษัทเทคโนโลยีขนาดใหญ่อย่าง Google และ OpenAI กำลังผลักดันขอบเขตของสิ่งที่เป็นไปได้อย่างต่อเนื่อง เมื่อเร็ว ๆ นี้ Google Gemini ได้เปิดตัวคุณสมบัติการแก้ไขภาพใหม่ โดยสัญญาว่าผู้ใช้จะสามารถทำการเปลี่ยนแปลงเฉพาะเจาะจงกับภาพได้ในขณะที่ยังคงรักษาความสมบูรณ์ของภาพต้นฉบับ ข้อเสนอนี้เผชิญหน้ากับความสามารถในการแก้ไขภาพของ ChatGPT ซึ่งอนุญาตให้ผู้ใช้ปรับเปลี่ยนภาพโดยใช้ข้อความแจ้งได้เช่นกัน
ในขณะที่ ChatGPT มีเครื่องมือเลือกสำหรับการแก้ไขที่แม่นยำ Gemini เน้นย้ำถึงความสามารถในการทำการเปลี่ยนแปลงตามที่ร้องขอโดยไม่เปลี่ยนภาพรวมอย่างมาก นี่ทำให้เกิดคำถามสำคัญ: โมเดล AI เหล่านี้ยึดติดกับภาพต้นฉบับได้ดีเพียงใดเมื่อได้รับแจ้งให้ทำการแก้ไข?
เพื่อตรวจสอบสิ่งนี้ ฉันได้ทำการทดสอบอย่างไม่เป็นทางการ โดยให้ Gemini และ ChatGPT แข่งขันกันในชุดของการท้าทายในการแก้ไขภาพ เป้าหมายคือเพื่อประเมินความแม่นยำและประสิทธิภาพในการทำการเปลี่ยนแปลงที่ร้องขอเท่านั้น โดยไม่ตั้งใจที่จะเปลี่ยนแปลงด้านอื่น ๆ ของภาพ
ฉาก: ร้านกาแฟในปารีส
เพื่อให้มั่นใจถึงสนามแข่งขันที่เท่าเทียมกัน ฉันเริ่มต้นด้วยภาพฐานที่สร้างโดย ChatGPT ภาพแสดงให้เห็นผู้หญิงคนหนึ่งกำลังเพลิดเพลินกับกาแฟที่ร้านกาแฟกลางแจ้งในปารีส โดยสวมเสื้อโค้ทและแว่นกันแดดที่มีสไตล์ นี่เป็นรากฐานสำหรับการแจ้งเตือนการแก้ไขในภายหลัง ทำให้สามารถเปรียบเทียบโมเดล AI ทั้งสองได้โดยตรง
จากจุดเริ่มต้นนี้ ฉันได้ให้ Gemini และ ChatGPT ผ่านการแจ้งเตือนการแก้ไขที่แตกต่างกันสามแบบ โดยประเมินอย่างรอบคอบว่าแต่ละแพลตฟอร์มดำเนินการแก้ไขที่ร้องขอได้อย่างมีประสิทธิภาพเพียงใดในขณะที่ยังคงรักษาภาพต้นฉบับ
รอบที่ 1: เปลี่ยนชุด
ความท้าทายแรกค่อนข้างตรงไปตรงมา: ฉันสั่งให้ AI chatbot ทั้งสอง "เปลี่ยนชุดของเธอเป็นชุดเดรสฤดูร้อนสีสดใสแบบลำลองและถอดแว่นกันแดดออก"
ทั้ง Gemini และ ChatGPT ทำตามคำสั่งสำเร็จ โดยให้ผู้หญิงคนนั้นสวมชุดเดรสฤดูร้อนใหม่และถอดแว่นกันแดดออก อย่างไรก็ตาม การตรวจสอบอย่างใกล้ชิดเผยให้เห็นความแตกต่างที่ละเอียดอ่อนแต่มีความสำคัญในแนวทางของพวกเขา
Gemini แสดงให้เห็นถึงความสามารถที่น่าทึ่งในการยึดติดกับภาพต้นฉบับ การเปลี่ยนแปลงส่วนใหญ่อยู่ที่ชุดและแว่นตา โดยมีการเปลี่ยนแปลงน้อยที่สุดกับองค์ประกอบอื่น ๆ
ในทางกลับกัน ChatGPT ได้แนะนำการปรับเปลี่ยนเพิ่มเติมหลายอย่าง การแสดงออก ทรงผม และขนาดของถ้วย จาน และโต๊ะ ล้วนได้รับการปรับเปลี่ยนเล็กน้อย แม้ว่าการเปลี่ยนแปลงเหล่านี้จะไม่รุนแรง แต่ก็แสดงให้เห็นถึงแนวโน้มที่จะเบี่ยงเบนไปจากภาพต้นฉบับนอกเหนือจากขอบเขตของข้อความแจ้ง
นอกจากนี้ Gemini ยังพิสูจน์ให้เห็นว่าเร็วกว่าอย่างมากในการประมวลผลคำขอ มันทำการแก้ไขเสร็จสิ้นในเวลาประมาณ 20 ถึง 30 วินาที ในขณะที่ ChatGPT แม้จะมีเอ็นจิ้นที่ทรงพลัง แต่ก็ใช้เวลาหลายนาทีในการสร้างภาพที่แก้ไข
รอบที่ 2: เพิ่มสุนัขเป็นเพื่อน
สำหรับรอบที่สอง ฉันตัดสินใจที่จะแนะนำตัวละครอื่นเข้ามาในฉาก: ชิวาวา ฉันแจ้งให้ AI chatbot ทั้งสอง "เพิ่มชิวาวานั่งข้างเธอ มองขึ้นไปที่เธออย่างเสน่หา"
ChatGPT ตอบสนองโดยวางลูกสุนัขน่ารักไว้บนตักของผู้หญิง อย่างไรก็ตาม ภาพนี้ยังรวมถึงการเปลี่ยนแปลงที่ไม่ตั้งใจอีกจำนวนหนึ่ง ผมของผู้หญิงยาวขึ้น รอยยิ้มของเธอกว้างขึ้น และชุดลายดอกไม้ของเธอได้รับการปรับเปลี่ยนอย่างละเอียด รถตู้ที่อยู่ด้านหลังก็หายไปอย่างลึกลับเช่นกัน
Gemini อีกครั้ง เก่งในการรักษาความสมบูรณ์ของภาพต้นฉบับ มันเพิ่มชิวาวาข้างผู้หญิงได้สำเร็จ โดยรักษาความต่อเนื่องโดยรวมของฉาก แม้ว่าการแสดงสุนัขของ Gemini อาจขาดความสมจริงของ ChatGPT แต่ความสามารถในการทำการเปลี่ยนแปลงที่ร้องขอโดยไม่แนะนำการเปลี่ยนแปลงที่ไม่เกี่ยวข้องนั้นน่าชื่นชม
รอบที่ 3: สถานที่สำคัญในปารีส
ในรอบสุดท้าย ฉันตั้งเป้าที่จะรวมองค์ประกอบสำคัญของปารีสไว้ในภาพ: หอไอเฟล ฉันขอให้ Gemini และ ChatGPT "วางหอไอเฟลไว้ด้านหลังอย่างโดดเด่น"
งานนี้กำหนดให้โมเดล AI ผสานรวมองค์ประกอบทางสถาปัตยกรรมที่สำคัญ ปรับพื้นหลัง และรักษาสัดส่วนและมุมมองที่เหมาะสมอย่างราบรื่น
Gemini ได้ลบอาคารทางด้านซ้ายของผู้หญิงออกอย่างมีกลยุทธ์ สร้างพื้นที่สำหรับหอไอเฟล หอคอยดูเล็กน้อย แต่ก็ไม่ได้ดูผิดที่อย่างสิ้นเชิง ที่สำคัญ ส่วนที่เหลือของภาพยังคงสอดคล้องกับภาพต้นฉบับ
อย่างไรก็ตาม ความพยายามของ ChatGPT นั้นล้มเหลว หอไอเฟลปรากฏเป็นสิ่งประดิษฐ์ขนาดเล็กที่มีรูปร่างแปลก ๆ ซึ่งขัดแย้งกับพื้นหลังที่มีอยู่ ชุดและผมของผู้หญิงมีการเปลี่ยนแปลงอีกครั้ง และสุนัขดูเหมือนจะน้ำหนักลดลง ภาพที่ได้รู้สึกไม่ปะติดปะต่อและเบี่ยงเบนไปจากภาพต้นฉบับอย่างชัดเจน
คำตัดสิน: ความแม่นยำของ Gemini
ผลการทดสอบเหล่านี้เน้นให้เห็นถึงความแตกต่างที่ชัดเจนระหว่างความสามารถในการแก้ไขภาพของ Gemini และ ChatGPT Gemini แสดงให้เห็นถึงความสามารถที่เหนือกว่าในการทำการเปลี่ยนแปลงที่ตรงเป้าหมายในขณะที่ยังคงรักษาความสมบูรณ์ของภาพต้นฉบับ การแก้ไขนั้นรวดเร็ว แม่นยำ และส่วนใหญ่จำกัดอยู่เฉพาะการปรับเปลี่ยนเฉพาะที่ร้องขอ
ChatGPT ในขณะที่สามารถสร้างภาพที่มีคุณภาพสูงได้ แสดงให้เห็นถึงแนวโน้มที่จะแนะนำการเปลี่ยนแปลงที่ไม่ตั้งใจ ซึ่งเบี่ยงเบนไปจากต้นฉบับนอกเหนือจากขอบเขตของข้อความแจ้ง สิ่งนี้มักส่งผลให้ภาพที่รู้สึกไม่สอดคล้องกันและเหนียวแน่นน้อยลง
อย่างไรก็ตาม สิ่งสำคัญคือต้องทราบว่า ChatGPT มีเครื่องมือไฮไลต์ที่ช่วยให้ผู้ใช้สามารถเลือกพื้นที่เฉพาะสำหรับการแก้ไข ซึ่งอาจปรับปรุงความแม่นยำได้ เครื่องมือนี้ต้องใช้เวลาและความพยายามเพิ่มเติม แต่อาจจำเป็นเพื่อให้ได้ผลลัพธ์ที่ตรงเป้าหมายมากขึ้น
ข้อพิจารณาด้านคุณภาพของภาพ
ในขณะที่ Gemini เก่งในด้านความแม่นยำและความเร็ว โดยทั่วไปแล้ว ChatGPT จะสร้างภาพที่มีคุณภาพโดยรวมสูงกว่า อย่างไรก็ตาม ข้อได้เปรียบนี้ขึ้นอยู่กับความสามารถของ ChatGPT ในการตีความและดำเนินการแก้ไขตามคำสั่งอย่างถูกต้องในการลองครั้งแรก หากต้องมีการทำซ้ำหลายครั้งเพื่อให้ได้ผลลัพธ์ที่ต้องการ การประหยัดเวลาที่ Gemini นำเสนออาจมีมากกว่าคุณภาพของภาพที่เหนือกว่าของ ChatGPT
ความคิดสุดท้าย
ในขอบเขตของการแก้ไขภาพด้วย AI ทั้ง Google Gemini และ ChatGPT นำเสนอจุดแข็งและจุดอ่อนที่เป็นเอกลักษณ์ Gemini โดดเด่นในด้านความเร็ว ความแม่นยำ และความสามารถในการยึดติดกับภาพต้นฉบับ ในทางกลับกัน ChatGPT มีคุณภาพของภาพโดยรวมที่สูงกว่า แต่อาจต้องใช้ความอดทนและความแม่นยำมากขึ้นเพื่อให้ได้การแก้ไขที่ตรงเป้าหมาย
ท้ายที่สุดแล้ว ทางเลือกระหว่าง Gemini และ ChatGPT ขึ้นอยู่กับความต้องการและลำดับความสำคัญเฉพาะของผู้ใช้ สำหรับการแก้ไขที่รวดเร็วและแม่นยำ Gemini ถือเป็นผู้ชนะอย่างชัดเจน อย่างไรก็ตาม สำหรับผู้ที่ให้ความสำคัญกับคุณภาพของภาพและเต็มใจที่จะลงทุนเวลาและความพยายามมากขึ้น ChatGPT ยังคงเป็นตัวเลือกที่ใช้งานได้
ในขณะที่เทคโนโลยี AI พัฒนาอย่างต่อเนื่อง เป็นไปได้ว่าทั้ง Gemini และ ChatGPT จะยังคงปรับปรุงความสามารถในการแก้ไขภาพของตน โดยทำให้เส้นแบ่งระหว่างจุดแข็งและจุดอ่อนของแต่ละฝ่ายเบลอลง อนาคตของการแก้ไขภาพด้วย AI สัญญาว่าจะเป็นการเดินทางที่น่าตื่นเต้นและเปลี่ยนแปลงไป โดยช่วยให้ผู้ใช้สามารถสร้างและแก้ไขภาพได้อย่างง่ายดายและแม่นยำอย่างที่ไม่เคยมีมาก่อน
ขยายจุดแข็งของ Gemini
ความสามารถของ Gemini ในการรักษาความสมบูรณ์ของภาพต้นฉบับมาจากอัลกอริธึมที่ซับซ้อน ซึ่งออกแบบมาเพื่อลดการเปลี่ยนแปลงที่ไม่ตั้งใจ สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับผู้ใช้ที่ต้องการทำการเปลี่ยนแปลงเฉพาะโดยไม่รบกวนความสวยงามหรือองค์ประกอบโดยรวมของภาพ
นอกจากนี้ ข้อได้เปรียบด้านความเร็วของ Gemini ช่วยให้สามารถทดลองและทำซ้ำได้อย่างรวดเร็ว ผู้ใช้สามารถทดสอบข้อความแจ้งการแก้ไขต่างๆ และประเมินผลลัพธ์ได้อย่างรวดเร็ว โดยไม่ต้องรอหลายนาทีเพื่อให้การปรับเปลี่ยนแต่ละครั้งได้รับการประมวลผล สิ่งนี้สามารถปรับปรุงขั้นตอนการทำงานสร้างสรรค์ได้อย่างมาก และช่วยให้ผู้ใช้สำรวจความเป็นไปได้ที่หลากหลายมากขึ้น
เจาะลึกความสามารถของ ChatGPT
แม้จะมีแนวโน้มที่จะแนะนำการเปลี่ยนแปลงที่ไม่ตั้งใจ แต่ความสามารถในการแก้ไขภาพของ ChatGPT ก็ไม่ควรมองข้าม เอ็นจิ้นที่ทรงพลังและอัลกอริธึมที่ซับซ้อนช่วยให้สามารถสร้างภาพที่มีรายละเอียดและความสมจริงเป็นพิเศษ สิ่งนี้มีค่าอย่างยิ่งสำหรับผู้ใช้ที่สร้างภาพตั้งแต่เริ่มต้นหรือทำการเปลี่ยนแปลงที่สำคัญกับภาพที่มีอยู่
นอกจากนี้ เครื่องมือไฮไลต์ของ ChatGPT ยังให้การควบคุมในระดับที่ไม่มีใน Gemini ด้วยการเลือกพื้นที่เฉพาะสำหรับการแก้ไข ผู้ใช้สามารถกำหนดเป้าหมายการปรับเปลี่ยนได้อย่างแม่นยำและลดความเสี่ยงของการเปลี่ยนแปลงที่ไม่ตั้งใจ อย่างไรก็ตาม วิธีการนี้ต้องใช้เวลาและความพยายามมากขึ้น และอาจไม่เหมาะสำหรับผู้ใช้ที่กำลังมองหาการแก้ไขที่รวดเร็วและง่ายดาย
อนาคตของการแก้ไขภาพด้วย AI
สาขาการแก้ไขภาพด้วย AI ยังอยู่ในช่วงเริ่มต้น และมีศักยภาพอย่างมากสำหรับการเติบโตและนวัตกรรมในอนาคต ในขณะที่อัลกอริธึม AI มีความซับซ้อนมากขึ้น เราสามารถคาดหวังว่าจะได้เห็นการปรับปรุงที่มากยิ่งขึ้นในด้านความแม่นยำ ความเร็ว และคุณภาพของภาพ
หนึ่งในด้านการพัฒนาที่น่าสนใจคือการรวมเครื่องมือแก้ไขภาพ AI กับแอปพลิเคชันสร้างสรรค์อื่น ๆ สิ่งนี้จะช่วยให้ผู้ใช้สามารถรวมภาพที่สร้างโดย AI เข้ากับขั้นตอนการทำงานที่มีอยู่ได้อย่างราบรื่น ปรับปรุงความสามารถในการสร้างเนื้อหาภาพที่น่าสนใจ
ความเป็นไปได้ที่น่าตื่นเต้นอีกอย่างหนึ่งคือการพัฒนาเครื่องมือแก้ไขภาพด้วย AI ที่ปรับให้เหมาะกับอุตสาหกรรมและแอปพลิเคชันเฉพาะ ตัวอย่างเช่น สามารถพัฒนาเครื่องมือ AI เพื่อช่วยช่างภาพในการปรับแต่งภาพบุคคล หรือเพื่อช่วยสถาปนิกในการสร้างภาพจำลองอาคารที่สมจริง
ในขณะที่เทคโนโลยี AI พัฒนาอย่างต่อเนื่อง เป็นไปได้ว่าการแก้ไขภาพด้วย AI จะกลายเป็นเครื่องมือที่ขาดไม่ได้สำหรับผู้เชี่ยวชาญด้านความคิดสร้างสรรค์และผู้ใช้ทั่วไป