GPT-4o สร้างภาพได้ในตัว: OpenAI ผสานศิลปะ AI

ภูมิทัศน์ของปัญญาประดิษฐ์ยังคงมีการพัฒนาอย่างรวดเร็ว ล่าสุดมีความก้าวหน้าที่สำคัญจาก OpenAI องค์กรที่มีชื่อเสียงจากการพัฒนาโมเดล AI ตระกูล GPT ที่ทรงอิทธิพล ได้ผสานความสามารถในการสร้างภาพเข้ากับเวอร์ชันล่าสุด GPT-4o โดยตรง การพัฒนานี้ซึ่งประกาศเมื่อวันอังคาร ถือเป็นการเปลี่ยนแปลงครั้งสำคัญ ทำให้โมเดลสามารถผลิตเนื้อหาภาพที่หลากหลายได้โดยไม่ต้องพึ่งพาเครื่องมือเฉพาะทางภายนอก ตอนนี้ผู้ใช้สามารถสนทนากับ AI เพื่อสร้างสรรค์ทุกสิ่งตั้งแต่ อินโฟกราฟิก (infographics) โดยละเอียด การ์ตูนช่อง (comic strips) แบบต่อเนื่อง ไปจนถึง ป้าย (signboards) ที่ออกแบบเฉพาะ กราฟิก (graphics) แบบไดนามิก เมนู (menus) ที่ดูเป็นมืออาชีพ มีม (memes) ร่วมสมัย และแม้แต่ ป้ายถนน (street signs) ที่สมจริง ความสามารถด้านภาพในตัวนี้แสดงถึงก้าวกระโดดในการแสวงหาผู้ช่วย AI ที่หลากหลายและผสานรวมกันได้อย่างราบรื่นยิ่งขึ้น

รุ่งอรุณแห่งการสร้างสรรค์ภาพแบบเนทีฟ (Native Visual Creation)

สิ่งที่ทำให้ความก้าวหน้านี้แตกต่างคือ การนำไปใช้งานแบบเนทีฟ (native implementation) ซึ่งแตกต่างจากเวิร์กโฟลว์ก่อนหน้านี้ที่อาจเกี่ยวข้องกับการส่งคำขอไปยังโมเดลสร้างภาพแยกต่างหาก เช่น DALL-E ของ OpenAI เอง ตอนนี้ GPT-4o มีความสามารถโดยธรรมชาติในการแปลคำอธิบายข้อความเป็นพิกเซล มันดึงเอาฐานความรู้ภายในอันกว้างใหญ่และการออกแบบสถาปัตยกรรมมาสร้างภาพโดยตรง สิ่งนี้ไม่ได้ทำให้ DALL-E ล้าสมัย OpenAI ได้ชี้แจงว่าผู้ใช้ที่ต้องการอินเทอร์เฟซ DALL-E โดยเฉพาะหรือฟังก์ชันเฉพาะของมันสามารถใช้งานต่อไปได้เหมือนเดิม อย่างไรก็ตาม การผสานรวมภายใน GPT-4o นำเสนอแนวทางการสร้างสรรค์ภาพผ่านการสนทนาที่คล่องตัวยิ่งขึ้น

กระบวนการนี้ออกแบบมาเพื่อการโต้ตอบที่ใช้งานง่าย ดังที่ OpenAI กล่าวไว้ว่า ‘การสร้างและปรับแต่งภาพทำได้ง่ายเพียงแค่แชทโดยใช้ GPT‑4o’ ผู้ใช้เพียงแค่สื่อสารวิสัยทัศน์ของตนด้วยภาษาธรรมชาติ ซึ่งรวมถึงการระบุองค์ประกอบที่ต้องการ รายละเอียดองค์ประกอบ ความแตกต่างทางสไตล์ และแม้แต่พารามิเตอร์ทางเทคนิค โมเดลนี้มีความพร้อมที่จะเข้าใจและดำเนินการตามคำแนะนำเกี่ยวกับ อัตราส่วนภาพ (aspect ratios) เพื่อให้แน่ใจว่าภาพจะพอดีกับข้อกำหนดด้านมิติที่เฉพาะเจาะจง นอกจากนี้ ยังสามารถรวม ชุดสี (color palettes) ที่แม่นยำโดยใช้รหัสเลขฐานสิบหก (hexadecimal codes) ซึ่งให้การควบคุมที่ละเอียดสำหรับการสร้างแบรนด์หรือวัตถุประสงค์ทางศิลปะ คุณสมบัติเด่นอีกประการคือความสามารถในการสร้างภาพที่มี พื้นหลังโปร่งใส (transparent backgrounds) ซึ่งเป็นข้อกำหนดที่สำคัญสำหรับการซ้อนกราฟิกในโครงการออกแบบหรือการนำเสนอ

นอกเหนือจากการสร้างครั้งแรก ลักษณะการสนทนายังขยายไปถึงการปรับแต่ง ผู้ใช้ไม่ได้จำกัดอยู่แค่ผลลัพธ์เดียว พวกเขาสามารถมีส่วนร่วมในการสนทนาติดตามผลกับ GPT-4o เพื่อปรับปรุงภาพที่สร้างขึ้น ซึ่งอาจเกี่ยวข้องกับการขอแก้ไของค์ประกอบเฉพาะ การปรับโทนสี การเปลี่ยนสไตล์ หรือการเพิ่มหรือลบรายละเอียด วงจรการทำซ้ำนี้สะท้อนกระบวนการสร้างสรรค์ตามธรรมชาติ ทำให้สามารถปรับแต่งได้อย่างต่อเนื่องจนกว่าผลลัพธ์ทางภาพจะสอดคล้องกับความตั้งใจของผู้ใช้อย่างสมบูรณ์ ความสามารถนี้เปลี่ยนการสร้างภาพจากคำสั่งที่อาจสำเร็จหรือไม่สำเร็จ ให้กลายเป็นการแลกเปลี่ยนร่วมกันระหว่างมนุษย์และเครื่องจักร

ผืนผ้าใบแห่งความเก่งกาจที่ไม่เคยมีมาก่อน (A Canvas of Unprecedented Versatility)

ช่วงของผลลัพธ์ทางภาพที่ GPT-4o สามารถสร้างได้นั้นกว้างขวางอย่างน่าทึ่ง แสดงให้เห็นถึงศักยภาพในหลากหลายสาขา ลองพิจารณาแอปพลิเคชันต่อไปนี้:

  • การแสดงข้อมูลด้วยภาพ (Data Visualization): การสร้าง อินโฟกราฟิก (infographics) ได้ทันทีตามจุดข้อมูลหรือแนวคิดที่ให้มา ทำให้การสื่อสารข้อมูลที่ซับซ้อนง่ายขึ้น
  • การเล่าเรื่องและความบันเทิง (Storytelling and Entertainment): การสร้าง การ์ตูนช่อง (comic strips) หลายช่องจากพรอมต์เรื่องเล่า ซึ่งอาจปฏิวัติการสร้างเนื้อหาสำหรับศิลปินและนักเขียน
  • การออกแบบและการสร้างแบรนด์ (Design and Branding): การผลิต ป้าย (signboards), กราฟิก (graphics), และ เมนู (menus) พร้อมข้อความ โลโก้ (ตามแนวคิด เนื่องจากการจำลองโลโก้โดยตรงมีผลกระทบด้านลิขสิทธิ์) และสไตล์ที่เฉพาะเจาะจง ช่วยให้ธุรกิจสร้างต้นแบบอย่างรวดเร็วและสร้างสื่อการตลาด
  • วัฒนธรรมดิจิทัล (Digital Culture): การสร้าง มีม (memes) ตามเทรนด์ปัจจุบันหรือสถานการณ์เฉพาะ แสดงให้เห็นถึงความเข้าใจในวัฒนธรรมอินเทอร์เน็ต
  • การจำลองและแบบจำลอง (Simulations and Mockups): การสร้าง ป้ายถนน (street signs) ที่สมจริงหรือองค์ประกอบสภาพแวดล้อมอื่นๆ สำหรับสภาพแวดล้อมเสมือนจริงหรือเพื่อวัตถุประสงค์ในการวางแผน
  • การออกแบบส่วนต่อประสานผู้ใช้ (User Interface Design): บางทีความสามารถที่โดดเด่นที่สุดที่แสดงให้เห็นคือการสร้าง ส่วนต่อประสานผู้ใช้ (user interfaces - UIs) โดยอิงจากคำอธิบายข้อความล้วนๆ โดยไม่จำเป็นต้องมีภาพอ้างอิงใดๆ สิ่งนี้สามารถเร่งขั้นตอนการสร้างต้นแบบสำหรับนักพัฒนาแอปและเว็บได้อย่างมาก

ความเก่งกาจนี้เกิดจากความเข้าใจภาษาอย่างลึกซึ้งของโมเดลและความสามารถใหม่ในการแปลความเข้าใจนั้นให้เป็นโครงสร้างภาพที่สอดคล้องกัน ไม่ใช่แค่การจับคู่รูปแบบเท่านั้น แต่ยังเกี่ยวข้องกับการตีความบริบท คำขอสไตล์ และข้อกำหนดการทำงานที่อธิบายไว้ในข้อความ

พลังของ การสร้างข้อความภายในภาพ (text generation within images) ก็ได้รับความสนใจอย่างมากเช่นกัน ในอดีต เครื่องมือสร้างภาพ AI มักประสบปัญหาในการแสดงข้อความอย่างถูกต้อง บ่อยครั้งที่สร้างตัวอักษรที่อ่านไม่ออกหรือไม่มีความหมาย ตัวอย่างเบื้องต้นจาก GPT-4o ชี้ให้เห็นถึงการปรับปรุงที่ชัดเจนในด้านนี้ โดยสร้างภาพที่มีข้อความที่อ่านออกได้และถูกต้องตามบริบทโดยไม่มีการบิดเบือนที่เคยเป็นปัญหาของเครื่องมือสร้างภาพ AI รุ่นก่อนๆ สิ่งนี้มีความสำคัญอย่างยิ่งสำหรับแอปพลิเคชัน เช่น การสร้างโฆษณา โปสเตอร์ หรือไดอะแกรมที่จำเป็นต้องมีข้อความรวมอยู่ด้วย

นอกจากนี้ ความสามารถในการดำเนินการ แปลงสไตล์ (style transformations) บนภาพถ่ายที่มีอยู่ยังเพิ่มมิติของศักยภาพในการสร้างสรรค์อีกด้วย ผู้ใช้สามารถอัปโหลดรูปภาพและขอให้ GPT-4o ตีความใหม่ในสไตล์ศิลปะที่แตกต่างกัน ความสามารถนี้แสดงให้เห็นอย่างชัดเจนเมื่อผู้ใช้เริ่มแปลงภาพถ่ายธรรมดาให้เป็นภาพที่ชวนให้นึกถึงสุนทรียศาสตร์อันโดดเด่นของแอนิเมชัน Studio Ghibli สิ่งนี้ไม่เพียงแต่แสดงให้เห็นถึงความเข้าใจของโมเดลเกี่ยวกับขนบธรรมเนียมทางศิลปะต่างๆ เท่านั้น แต่ยังเป็นเครื่องมืออันทรงพลังสำหรับศิลปินและผู้ที่ทำงานอดิเรกที่ต้องการเอฟเฟกต์ภาพที่ไม่เหมือนใคร

เสียงสะท้อนแห่งความประหลาดใจจากชุมชนผู้ใช้ (Echoes of Astonishment from the User Community)

การเปิดตัวคุณสมบัติภาพแบบเนทีฟเหล่านี้ได้รับการตอบรับอย่างกระตือรือร้นในทันทีและอย่างกว้างขวางจากชุมชน AI และอื่นๆ ผู้ใช้เริ่มทดลองอย่างรวดเร็ว ผลักดันขอบเขตความสามารถของโมเดลและแบ่งปันการค้นพบของพวกเขาทางออนไลน์ ความรู้สึกที่เกิดขึ้นมักจะเป็นความประหลาดใจอย่างแท้จริงต่อคุณภาพ ความสอดคล้อง และความง่ายในการใช้งาน

Tobias Lutke, CEO ของ Shopify, ได้แบ่งปันเรื่องราวส่วนตัวที่น่าสนใจ เขานำเสนอภาพเสื้อยืดของลูกชายซึ่งมีรูปสัตว์ที่ไม่คุ้นเคยให้กับโมเดล GPT-4o ไม่เพียงแต่ระบุชนิดของสิ่งมีชีวิตนั้นได้ แต่ยังอธิบายลักษณะทางกายวิภาคของมันได้อย่างถูกต้อง ปฏิกิริยาของ Lutke ซึ่งบันทึกไว้ในข้อสังเกตออนไลน์ของเขาว่า ‘นี่มันเป็นเรื่องจริงได้อย่างไร?’ สรุปความรู้สึกพิศวงที่หลายคนรู้สึกเมื่อได้เห็นความเข้าใจหลายรูปแบบ (multimodal understanding) และความสามารถในการสร้างที่ซับซ้อนของโมเดลโดยตรง ตัวอย่างนี้เน้นย้ำถึงความสามารถของโมเดลในการวิเคราะห์ควบคู่ไปกับการสร้าง ซึ่งก้าวไปไกลกว่าการสร้างภาพธรรมดา

ความสามารถดังกล่าวในการสร้าง ข้อความที่สะอาดและแม่นยำภายในภาพ ได้รับเสียงตอบรับอย่างมาก สำหรับนักออกแบบกราฟิก นักการตลาด และผู้สร้างเนื้อหาที่ต้องต่อสู้กับข้อจำกัดด้านข้อความของเครื่องมือ AI อื่นๆ สิ่งนี้ถือเป็นความก้าวหน้าในทางปฏิบัติที่สำคัญ พวกเขาไม่จำเป็นต้องใช้ซอฟต์แวร์ออกแบบกราฟิกแยกต่างหากเพียงเพื่อวางซ้อนข้อความที่ถูกต้องลงบนพื้นหลังที่สร้างโดย AI อีกต่อไป

ศักยภาพสำหรับ การสร้าง UI จากพรอมต์เพียงอย่างเดียวก่อให้เกิดความตื่นเต้นเป็นพิเศษในหมู่นักพัฒนาและนักออกแบบ ความสามารถในการสร้างภาพหน้าจอแอปหรือเค้าโครงเว็บไซต์อย่างรวดเร็วตามคำอธิบาย – ‘สร้างหน้าจอเข้าสู่ระบบสำหรับแอปธนาคารบนมือถือที่มีพื้นหลังสีน้ำเงิน ช่องสำหรับชื่อผู้ใช้และรหัสผ่าน และปุ่ม ‘เข้าสู่ระบบ’ ที่โดดเด่น’ – สามารถปรับปรุงขั้นตอนเริ่มต้นของการพัฒนาผลิตภัณฑ์ได้อย่างมาก อำนวยความสะดวกในการทำซ้ำที่เร็วขึ้นและการสื่อสารที่ชัดเจนยิ่งขึ้นภายในทีม

คุณสมบัติ การถ่ายโอนสไตล์ (style transfer) กลายเป็นไวรัลอย่างรวดเร็ว Grant Slatton วิศวกรผู้ก่อตั้งที่ Row Zero ได้แชร์ตัวอย่างที่ได้รับความนิยมเป็นพิเศษในการแปลงภาพถ่ายมาตรฐานให้เป็นสไตล์อนิเมะ ‘Studio Ghibli’ อันเป็นเอกลักษณ์ โพสต์ของเขาทำหน้าที่เป็นตัวกระตุ้น สร้างแรงบันดาลใจให้คนอื่นๆ อีกนับไม่ถ้วนพยายามทำการแปลงที่คล้ายกัน โดยใช้สไตล์ตั้งแต่ อิมเพรสชันนิซึม (impressionism) และ เซอร์เรียลลิซึม (surrealism) ไปจนถึงสุนทรียศาสตร์ของศิลปินเฉพาะหรือรูปลักษณ์แบบภาพยนตร์ การทดลองร่วมกันนี้ไม่เพียงแต่ทำหน้าที่เป็นเครื่องพิสูจน์ถึงความน่าดึงดูดใจของคุณสมบัติเท่านั้น แต่ยังเป็นการสำรวจขอบเขตความคิดสร้างสรรค์และข้อจำกัดของมันโดยอาศัยข้อมูลจากฝูงชน (crowdsourced exploration)

กรณีการใช้งานที่ทรงพลังอีกกรณีหนึ่งเกิดขึ้นในขอบเขตของ การโฆษณาและการตลาด ผู้ใช้รายหนึ่งบันทึกประสบการณ์ของตนในการพยายามจำลองภาพโฆษณาที่มีอยู่สำหรับแอปพลิเคชันของตนเอง พวกเขาให้โฆษณาต้นฉบับเป็นข้อมูลอ้างอิงทางภาพ แต่สั่งให้ GPT-4o แทนที่ภาพหน้าจอแอปที่แสดงในต้นฉบับด้วยภาพหน้าจอของผลิตภัณฑ์ของตนเอง ในขณะที่ยังคงรักษาเค้าโครง สไตล์โดยรวม และรวมข้อความโฆษณา (copy) ที่เกี่ยวข้อง ผู้ใช้รายงานความสำเร็จที่น่าทึ่ง โดยระบุว่า ‘ภายในไม่กี่นาที มันก็จำลองได้เกือบสมบูรณ์แบบ’ สิ่งนี้ชี้ให้เห็นถึงแอปพลิเคชันที่ทรงพลังในการสร้างต้นแบบโฆษณาอย่างรวดเร็ว การทดสอบ A/B รูปแบบต่างๆ และการปรับแต่งสื่อการตลาดด้วยความเร็วที่ไม่เคยมีมาก่อน

นอกเหนือจากแอปพลิเคชันเฉพาะเหล่านี้ ความสามารถทั่วไปในการสร้าง ภาพถ่ายเสมือนจริง (photorealistic images) ยังคงสร้างความประทับใจอย่างต่อเนื่อง ผู้ใช้แชร์ตัวอย่างทิวทัศน์ ภาพบุคคล และการเรนเดอร์วัตถุที่ใกล้เคียงกับคุณภาพของภาพถ่าย ทำให้เส้นแบ่งระหว่างความเป็นจริงที่สร้างขึ้นแบบดิจิทัลและที่ถ่ายด้วยกล้องยิ่งเบลอมากขึ้น ระดับความสมจริงนี้เปิดประตูสู่การถ่ายภาพเสมือนจริง การสร้างคอนเซ็ปต์อาร์ต และการสร้างแอสเซทที่สมจริงสำหรับการจำลองหรือโลกเสมือนจริง การตอบสนองโดยรวมของผู้ใช้ได้วาดภาพเครื่องมือที่ไม่เพียงแต่สร้างความประทับใจทางเทคนิคเท่านั้น แต่ยังมีประโยชน์อย่างแท้จริงและสร้างแรงบันดาลใจในเชิงสร้างสรรค์ในแอปพลิเคชันที่หลากหลาย

การเปิดตัวแบบเป็นระยะและระดับการเข้าถึง (Phased Rollout and Access Tiers)

OpenAI ใช้วิธีการแบบค่อยเป็นค่อยไปในการปรับใช้ความสามารถใหม่เหล่านี้ ในขั้นต้น การเข้าถึงคุณสมบัติการสร้างภาพแบบเนทีฟภายใน GPT-4o ได้รับการอนุญาตให้กับผู้ใช้ที่สมัครสมาชิกแผน Plus, Pro, และ Team ด้วยตระหนักถึงความสนใจในวงกว้าง บริษัทจึงขยายความพร้อมใช้งานไปยังผู้ใช้ใน แผน Free ด้วย แม้ว่าอาจมีขีดจำกัดการใช้งานเมื่อเทียบกับระดับที่ต้องชำระเงิน

สำหรับผู้ใช้ระดับองค์กร การเข้าถึงมีการวางแผนในไม่ช้าสำหรับผู้ที่อยู่ในแผน Enterprise และ Edu ซึ่งบ่งชี้ถึงการผสานรวมที่ปรับให้เหมาะสมหรือการสนับสนุนสำหรับการปรับใช้ขนาดใหญ่ในสภาพแวดล้อมทางธุรกิจและการศึกษา

นอกจากนี้ นักพัฒนาที่กระตือรือร้นที่จะผสานรวมความสามารถเหล่านี้เข้ากับแอปพลิเคชันและบริการของตนเองจะสามารถเข้าถึงได้ผ่าน API OpenAI ระบุว่าการเข้าถึง API จะเปิดตัวอย่างต่อเนื่องในช่วงสองสามสัปดาห์ถัดไปหลังจากการประกาศครั้งแรก การเปิดตัวแบบเป็นขั้นตอนนี้ช่วยให้ OpenAI สามารถจัดการภาระของเซิร์ฟเวอร์ รวบรวมข้อเสนอแนะจากกลุ่มผู้ใช้ต่างๆ และปรับปรุงระบบตามรูปแบบการใช้งานจริงก่อนที่จะทำให้พร้อมใช้งานโดยทั่วไปผ่าน API

บริบทในสนามแข่งขัน AI (Context within the Competitive AI Arena)

การปรับปรุง GPT-4o ของ OpenAI ด้วยการสร้างภาพแบบเนทีฟไม่ได้เกิดขึ้นในสุญญากาศ การประกาศดังกล่าวเกิดขึ้นหลังจากความเคลื่อนไหวที่คล้ายคลึงกันโดย Google ซึ่งได้แนะนำคุณสมบัติการสร้างภาพแบบเนทีฟที่เทียบเคียงได้ในโมเดล AI Gemini 2.0 Flash ความสามารถของ Google ซึ่งเดิมทีได้แสดงตัวอย่างให้ผู้ทดสอบที่เชื่อถือได้ดูในเดือนธันวาคมของปีก่อนหน้า ได้เปิดให้เข้าถึงได้อย่างกว้างขวางในภูมิภาคที่ Google AI Studio รองรับในช่วงเวลาเดียวกับการเปิดตัวของ OpenAI

Google ระบุว่านักพัฒนาสามารถเริ่มทดลองกับ ‘ความสามารถใหม่นี้โดยใช้เวอร์ชันทดลองของ Gemini 2.0 Flash (gemini-2.0-flash-exp) ใน Google AI Studio และผ่าน Gemini API’ การเปิดตัวที่เกือบจะพร้อมกันนี้เน้นย้ำถึงการแข่งขันที่รุนแรงและก้าวที่รวดเร็วของนวัตกรรมในสาขา AI เชิงสร้างสรรค์ ยักษ์ใหญ่ด้านเทคโนโลยีทั้งสองต่างให้ความสำคัญกับการผสานรวมความสามารถหลายรูปแบบ (multimodal capabilities) – ความสามารถในการเข้าใจและสร้างเนื้อหาในรูปแบบต่างๆ เช่น ข้อความและรูปภาพ – เข้ากับโมเดลเรือธงของตนโดยตรง แนวโน้มนี้ชี้ให้เห็นถึงอนาคตที่ผู้ช่วย AI มีความหลากหลายมากขึ้น สามารถจัดการงานสร้างสรรค์และวิเคราะห์ที่หลากหลายขึ้นผ่านอินเทอร์เฟซเดียวที่รวมเป็นหนึ่ง ทำให้การโต้ตอบราบรื่นและทรงพลังยิ่งขึ้นสำหรับผู้ใช้ทั่วโลก การแข่งขันเพื่อมอบประสบการณ์ AI ที่ราบรื่น มีความสามารถ และผสานรวมกันมากที่สุดกำลังดำเนินอยู่