AI สุดล้ำของ Google: แก้ไขภาพด้วยคำสั่งข้อความง่ายๆ

ยุคใหม่ของการปรับแต่งรูปภาพ

Google ได้เปิดตัว Gemini AI เวอร์ชันใหม่ที่ทรงพลัง ซึ่งเป็นการปฏิวัติวิธีการที่เราโต้ตอบและแก้ไขรูปภาพอย่างเงียบๆ Gemini 2.0 Flash เวอร์ชันทดลองนี้ ก้าวไปไกลกว่าการสร้างภาพธรรมดา โดยมอบความสามารถที่ไม่เคยมีมาก่อนแก่ผู้ใช้ในการแก้ไขรูปภาพโดยใช้ภาษาที่เป็นธรรมชาติในชีวิตประจำวัน หมดยุคของการที่ต้องมีความเชี่ยวชาญด้านเทคนิคในซอฟต์แวร์แก้ไขภาพที่ซับซ้อนแล้ว – ตอนนี้ใครๆ ก็สามารถแก้ไขรูปภาพได้ด้วยคำสั่งข้อความง่ายๆ

Gemini 2.0 Flash แตกต่างจากเครื่องมือรูปภาพ AI ที่มีอยู่มากมาย ซึ่งเน้นที่การสร้างรูปภาพใหม่ทั้งหมดตั้งแต่เริ่มต้น โดยมีความสามารถในการทำความเข้าใจและแก้ไขรูปภาพที่มีอยู่ ระบบนี้เข้าใจเนื้อหาของภาพถ่ายได้ดีมากจนสามารถทำการเปลี่ยนแปลงเฉพาะตามคำแนะนำในการสนทนาได้ ทั้งหมดนี้ในขณะที่ยังคงรักษาแก่นแท้ของภาพต้นฉบับไว้

ความสำเร็จอันน่าทึ่งนี้เกิดขึ้นได้จากธรรมชาติของ Gemini 2.0 ที่เป็น multimodal โดยกำเนิด มันประมวลผลทั้งข้อความและรูปภาพพร้อมกันได้อย่างราบรื่น โมเดลจะแปลงรูปภาพเป็น ‘โทเค็น’ อย่างชาญฉลาด ซึ่งเป็นหน่วยพื้นฐานเดียวกับที่ใช้สำหรับการประมวลผลข้อความ สิ่งนี้ทำให้สามารถจัดการเนื้อหาภาพโดยใช้ pathways ระบบประสาทเดียวกับที่ใช้ในการทำความเข้าใจภาษา แนวทางที่เป็นหนึ่งเดียวนี้ช่วยลดความจำเป็นในการใช้โมเดลแยกต่างหากและเฉพาะทางเพื่อจัดการกับสื่อประเภทต่างๆ ทำให้กระบวนการทั้งหมดคล่องตัวขึ้น

‘Gemini 2.0 Flash ใช้ประโยชน์จาก multimodal input, การให้เหตุผลที่ได้รับการปรับปรุง และการทำความเข้าใจภาษาธรรมชาติเพื่อสร้างรูปภาพ’ Google กล่าวในประกาศอย่างเป็นทางการ ‘ลองนึกภาพการใช้ Gemini 2.0 Flash เพื่อเล่าเรื่อง และมันจะแสดงภาพประกอบด้วยรูปภาพ โดยรักษาความสอดคล้องของตัวละครและการตั้งค่า ให้ข้อเสนอแนะ และแบบจำลองจะปรับเรื่องราวหรือแก้ไขรูปแบบของภาพวาด’

แนวทางนี้ทำให้ Google แตกต่างจากคู่แข่งอย่าง OpenAI แม้ว่า ChatGPT จะสามารถสร้างรูปภาพโดยใช้ Dall-E 3 และทำซ้ำบนผลงานที่สร้างขึ้นโดยเข้าใจภาษาธรรมชาติได้ แต่ก็ต้องอาศัยโมเดล AI แยกต่างหากเพื่อให้บรรลุเป้าหมายนี้ โดยพื้นฐานแล้ว ChatGPT จะจัดระเบียบการทำงานร่วมกันที่ซับซ้อนระหว่าง GPT-V สำหรับการมองเห็น, GPT-4o สำหรับภาษา และ Dall-E 3 สำหรับการสร้างภาพ อย่างไรก็ตาม OpenAI คาดว่าจะบรรลุโมเดลเดียวที่ครอบคลุมทั้งหมดด้วย GPT-5 ในอนาคต

แนวคิดคู่ขนานมีอยู่ในขอบเขตโอเพนซอร์สด้วย OmniGen ซึ่งพัฒนาโดยนักวิจัยที่ Beijing Academy of Artificial Intelligence ผู้สร้างมองเห็น ‘การสร้างภาพที่หลากหลายโดยตรงผ่านคำแนะนำ multimodal โดยพลการ โดยไม่จำเป็นต้องใช้ปลั๊กอินหรือการดำเนินการเพิ่มเติม คล้ายกับวิธีการทำงานของ GPT ในการสร้างภาษา’

OmniGen มีความสามารถ เช่น การเปลี่ยนแปลงวัตถุ การรวมฉาก และการปรับเปลี่ยนความสวยงาม อย่างไรก็ตาม มันใช้งานง่ายน้อยกว่า Gemini ใหม่มาก ทำงานด้วยความละเอียดที่ต่ำกว่า ต้องการคำสั่งที่ซับซ้อนกว่า และท้ายที่สุดก็ขาดพลังที่แท้จริงของข้อเสนอของ Google อย่างไรก็ตาม มันนำเสนอทางเลือกโอเพนซอร์สที่น่าสนใจสำหรับผู้ใช้บางราย

การทดสอบ Gemini 2.0 Flash

เพื่อให้เข้าใจถึงความสามารถและข้อจำกัดของ Gemini 2.0 Flash อย่างแท้จริง จึงมีการทดสอบเชิงปฏิบัติหลายชุด โดยสำรวจสถานการณ์การแก้ไขต่างๆ ผลลัพธ์แสดงให้เห็นทั้งจุดแข็งที่น่าประทับใจและบางส่วนที่อาจมีการปรับปรุง

การปรับเปลี่ยนวัตถุที่สมจริงด้วยความแม่นยำ

โมเดลแสดงให้เห็นถึงความสอดคล้องกันที่น่าทึ่งเมื่อได้รับมอบหมายให้ปรับเปลี่ยนวัตถุที่สมจริง ตัวอย่างเช่น ในการทดสอบภาพเหมือนตนเอง คำขอให้เพิ่มความคมชัดของกล้ามเนื้อให้ผลลัพธ์ที่ต้องการ แม้ว่าจะมีการเปลี่ยนแปลงเล็กน้อยบนใบหน้า แต่ความสามารถในการจดจำโดยรวมยังคงอยู่

ที่สำคัญ องค์ประกอบอื่นๆ ภายในภาพถ่ายยังคงไม่ถูกแตะต้องเป็นส่วนใหญ่ ซึ่งแสดงให้เห็นถึงความสามารถของ AI ในการมุ่งเน้นไปที่การปรับเปลี่ยนที่ระบุเท่านั้น ความสามารถในการแก้ไขแบบกำหนดเป้าหมายนี้แตกต่างอย่างสิ้นเชิงกับแนวทางการสร้างทั่วไป ซึ่งมักจะสร้างภาพทั้งหมดขึ้นใหม่ ซึ่งอาจทำให้เกิดการเปลี่ยนแปลงที่ไม่ต้องการได้

สิ่งสำคัญคือต้องสังเกตการป้องกันในตัวของโมเดล มันปฏิเสธที่จะแก้ไขรูปถ่ายของเด็กอย่างสม่ำเสมอ และหลีกเลี่ยงการจัดการเนื้อหาใดๆ ที่เกี่ยวข้องกับการเปลือย ซึ่งสะท้อนให้เห็นถึงความมุ่งมั่นของ Google ในการพัฒนา AI อย่างมีความรับผิดชอบ สำหรับผู้ใช้ที่ต้องการสำรวจการปรับแต่งรูปภาพที่เสี่ยงกว่านี้ OmniGen อาจเป็นตัวเลือกที่เหมาะสมกว่า

การเรียนรู้การแปลงสไตล์

Gemini 2.0 Flash แสดงให้เห็นถึงความถนัดที่น่าทึ่งสำหรับการแปลงสไตล์ คำขอให้แปลงภาพถ่ายของ Donald Trump เป็นสไตล์มังงะญี่ปุ่น ทำให้เกิดการปรับเปลี่ยนใหม่ที่ประสบความสำเร็จหลังจากพยายามไม่กี่ครั้ง

โมเดลจัดการการถ่ายโอนสไตล์ในวงกว้างได้อย่างคล่องแคล่ว โดยแปลงภาพถ่ายเป็นภาพวาด ภาพวาดสีน้ำมัน หรือสไตล์ศิลปะแทบทุกรูปแบบที่จินตนาการได้ ผู้ใช้สามารถปรับแต่งผลลัพธ์ได้โดยการปรับการตั้งค่าอุณหภูมิและสลับตัวกรองต่างๆ อย่างไรก็ตาม เป็นที่น่าสังเกตว่าการตั้งค่าอุณหภูมิที่สูงขึ้นมักจะสร้างการแปลงที่ไม่ตรงกับภาพต้นฉบับ

ข้อจำกัดที่โดดเด่นเกิดขึ้นเมื่อขอสไตล์ที่เกี่ยวข้องกับศิลปินเฉพาะ การทดสอบที่เกี่ยวข้องกับสไตล์ของ Leonardo Da Vinci, Michelangelo, Botticelli หรือ Van Gogh ส่งผลให้ AI สร้างภาพวาดจริงของปรมาจารย์เหล่านี้ขึ้นมาใหม่ แทนที่จะใช้เทคนิคที่แตกต่างกันกับภาพต้นฉบับ

ด้วยการปรับแต่ง prompt และการทำซ้ำสองสามครั้ง ก็สามารถได้ผลลัพธ์ที่ใช้งานได้ แม้ว่าจะอยู่ในระดับปานกลาง โดยทั่วไปแล้ว การ prompt สไตล์ศิลปะที่ต้องการจะมีประสิทธิภาพมากกว่าการระบุศิลปิน

ศิลปะแห่งการจัดการองค์ประกอบ

สำหรับงานแก้ไขที่ใช้งานได้จริง Gemini 2.0 Flash นั้นยอดเยี่ยมอย่างแท้จริง มันจัดการ inpainting และการจัดการวัตถุได้อย่างเชี่ยวชาญ ลบวัตถุเฉพาะตามคำขอได้อย่างราบรื่น หรือเพิ่มองค์ประกอบใหม่ให้กับองค์ประกอบ ในการทดสอบหนึ่ง AI ได้รับการ prompt ให้แทนที่บาสเก็ตบอลด้วยไก่ยางยักษ์ ให้ผลลัพธ์ที่ตลกขบขันแต่เหมาะสมกับบริบท

แม้ว่าอาจมีการเปลี่ยนแปลงเล็กน้อยในบางครั้งกับวัตถุ แต่โดยทั่วไปแล้วสิ่งเหล่านี้สามารถแก้ไขได้ง่ายด้วยเครื่องมือแก้ไขดิจิทัลมาตรฐานในเวลาไม่กี่วินาที

บางทีสิ่งที่ขัดแย้งกันมากที่สุดคือ โมเดลแสดงให้เห็นถึงความเชี่ยวชาญในการลบการป้องกันลิขสิทธิ์ ซึ่งเป็นคุณสมบัติที่จุดประกายการสนทนาอย่างมากบนแพลตฟอร์มเช่น X เมื่อนำเสนอภาพที่มีลายน้ำและได้รับคำสั่งให้ลบตัวอักษร โลโก้ และลายน้ำทั้งหมด Gemini ได้สร้างภาพที่สะอาดซึ่งแทบจะแยกไม่ออกจากต้นฉบับที่ไม่มีลายน้ำ

การนำทางการเปลี่ยนแปลงมุมมอง

หนึ่งในแง่มุมที่น่าประทับใจทางเทคนิคมากที่สุดของ Gemini คือความสามารถในการเปลี่ยนแปลงมุมมอง ซึ่งเป็นความสำเร็จที่โมเดล diffusion หลักมักจะประสบปัญหา AI สามารถจินตนาการฉากใหม่จากมุมต่างๆ ได้ แม้ว่าผลลัพธ์จะเป็นการสร้างสรรค์ใหม่มากกว่าการแปลงภาพต้นฉบับที่แม่นยำ

แม้ว่าการเปลี่ยนมุมมองจะไม่ให้ผลลัพธ์ที่สมบูรณ์แบบ – โมเดลกำลังสร้างแนวคิดของภาพทั้งหมดจากมุมมองใหม่ – แต่ก็แสดงถึงความก้าวหน้าครั้งสำคัญในการทำความเข้าใจของ AI เกี่ยวกับพื้นที่สามมิติโดยอิงจากอินพุตสองมิติ

การใช้ถ้อยคำที่เหมาะสมเป็นสิ่งสำคัญเมื่อสั่งให้โมเดลจัดการพื้นหลัง มันมักจะแก้ไขทั้งภาพ ส่งผลให้องค์ประกอบแตกต่างกันอย่างมาก

ตัวอย่างเช่น ในการทดสอบหนึ่ง Gemini ถูกขอให้เปลี่ยนพื้นหลังของภาพถ่าย โดยวางหุ่นยนต์นั่งในอียิปต์แทนตำแหน่งเดิม คำแนะนำระบุอย่างชัดเจนว่าห้ามเปลี่ยนแปลงวัตถุ อย่างไรก็ตาม โมเดลพยายามจัดการกับงานเฉพาะนี้อย่างถูกต้อง แต่กลับให้องค์ประกอบใหม่ทั้งหมดที่มีปิรามิด โดยมีหุ่นยนต์ยืนอยู่ แต่ไม่ได้เป็นจุดสนใจหลัก

ข้อจำกัดอีกประการหนึ่งที่สังเกตได้คือ แม้ว่าโมเดลจะสามารถทำซ้ำได้หลายครั้งในภาพเดียว แต่คุณภาพของรายละเอียดมีแนวโน้มที่จะลดลงในแต่ละการทำซ้ำ ดังนั้นจึงจำเป็นต้องคำนึงถึงการเสื่อมคุณภาพที่อาจเกิดขึ้นเมื่อทำการแก้ไขอย่างกว้างขวาง

โมเดลทดลองนี้สามารถเข้าถึงได้โดยนักพัฒนาผ่าน Google AI Studio และ Gemini API ในทุกภูมิภาคที่รองรับ นอกจากนี้ยังมีอยู่ใน Hugging Face สำหรับผู้ใช้ที่ไม่ต้องการแบ่งปันข้อมูลกับ Google

โดยสรุป ข้อเสนอใหม่นี้จาก Google ดูเหมือนจะเป็นอัญมณีที่ซ่อนอยู่ เช่นเดียวกับ NotebookLM มันประสบความสำเร็จในสิ่งที่โมเดลอื่นไม่สามารถทำได้ และทำได้ด้วยระดับความสามารถที่ดี แต่ก็ยังคงค่อนข้างไม่เป็นที่รู้จัก เป็นสิ่งที่ควรค่าแก่การสำรวจอย่างไม่ต้องสงสัยสำหรับผู้ใช้ที่ต้องการทดลองกับศักยภาพของ generative AI ในการแก้ไขภาพ และสนุกไปกับความคิดสร้างสรรค์ไปพร้อมกัน ความสามารถในการอธิบายการเปลี่ยนแปลงที่ต้องการเป็นภาษาธรรมดาเปิดโลกแห่งความเป็นไปได้สำหรับทั้งผู้ใช้ทั่วไปและมืออาชีพ ซึ่งถือเป็นก้าวสำคัญในการทำให้การปรับแต่งภาพเป็นประชาธิปไตย เทคโนโลยีนี้มีศักยภาพในการปรับเปลี่ยนวิธีการที่เราโต้ตอบกับเนื้อหาภาพ ทำให้เทคนิคการแก้ไขขั้นสูงเข้าถึงได้สำหรับทุกคน โดยไม่คำนึงถึงทักษะทางเทคนิคของพวกเขา ผลกระทบนั้นมีมากมาย ตั้งแต่การปรับปรุงภาพถ่ายส่วนตัวไปจนถึงขั้นตอนการออกแบบอย่างมืออาชีพ และแม้กระทั่งการสร้างรูปแบบใหม่ของทัศนศิลป์ ในขณะที่เทคโนโลยียังคงพัฒนาต่อไป มันจะน่าสนใจที่จะได้เห็นผลกระทบต่อภูมิทัศน์ที่สร้างสรรค์