ยุคใหม่ AI รับรู้: Alibaba เปิดตัวโมเดลที่มองเห็นและคิดได้

ปัญญาประดิษฐ์ (Artificial intelligence) เป็นเวลาหลายปีที่สื่อสารและทำงานส่วนใหญ่อยู่ในขอบเขตของข้อความ โมเดลภาษา (Language models) ได้สร้างความตื่นตาตื่นใจด้วยความสามารถในการประมวลผล สร้าง และเข้าใจภาษามนุษย์ ปฏิวัติวิธีที่เราโต้ตอบกับข้อมูลและเทคโนโลยี อย่างไรก็ตาม โลกที่เราอาศัยอยู่ไม่ได้มีเพียงแค่ข้อความเท่านั้น แต่เป็นพรมที่อุดมไปด้วยสิ่งกระตุ้นทางสายตา ด้วยการตระหนักถึงแง่มุมพื้นฐานของความเป็นจริงนี้ แนวหน้าของการพัฒนา AI กำลังผลักดันอย่างรวดเร็วไปสู่ระบบที่ไม่เพียงแต่อ่านได้ แต่ยัง มองเห็น และ ตีความ โลกทัศน์รอบตัวได้อีกด้วย ก้าวเข้าสู่ภูมิทัศน์ที่กำลังพัฒนานี้อย่างมั่นคง กลุ่มบริษัทเทคโนโลยีสัญชาติจีน Alibaba ได้นำเสนอการพัฒนาใหม่ที่น่าสนใจ: QVQ-Max ซึ่งเป็นระบบ AI ที่ออกแบบมาพร้อมกับความสามารถในการให้เหตุผลเชิงภาพ (visual reasoning) นี่เป็นก้าวสำคัญสู่ AI ที่โต้ตอบกับข้อมูลเหมือนที่มนุษย์ทำ – โดยการผสานการมองเห็นเข้ากับการทำความเข้าใจและความคิด

ก้าวข้ามข้อความ: ทำความเข้าใจแก่นแท้ของการให้เหตุผลเชิงภาพ

แนวคิดของการให้เหตุผลเชิงภาพในปัญญาประดิษฐ์หมายถึงการออกจากการประมวลผลที่ขับเคลื่อนด้วยข้อความเพียงอย่างเดียว โมเดลภาษาขนาดใหญ่ (LLMs) แบบดั้งเดิมมีความเป็นเลิศในงานที่เกี่ยวข้องกับภาษาเขียนหรือภาษาพูด เช่น การสรุปบทความ การแปลภาษา การเขียนอีเมล หรือแม้แต่การเขียนโค้ด อย่างไรก็ตาม หากนำเสนอด้วยรูปภาพ แผนภาพ หรือคลิปวิดีโอ ความเข้าใจของพวกมันจะหยุดชะงัก เว้นแต่จะได้รับการฝึกฝนมาโดยเฉพาะสำหรับอินพุตหลายรูปแบบ (multimodal input) พวกมันอาจระบุวัตถุภายในภาพได้หากติดตั้งคอมพิวเตอร์วิทัศน์ (computer vision) ขั้นพื้นฐาน แต่พวกมันมักจะประสบปัญหาในการเข้าใจบริบท ความสัมพันธ์ระหว่างองค์ประกอบ หรือความหมายพื้นฐานที่สื่อผ่านภาพ

การให้เหตุผลเชิงภาพมีจุดมุ่งหมายเพื่อเชื่อมช่องว่างที่สำคัญนี้ มันเกี่ยวข้องกับการติดตั้ง AI ไม่เพียงแค่ความสามารถในการ ‘มองเห็น’ (การรู้จำภาพ - image recognition) แต่ยัง เข้าใจความสัมพันธ์เชิงพื้นที่ อนุมานการกระทำ สรุปบริบท และทำการอนุมานเชิงตรรกะโดยอิงจากอินพุตภาพ ลองนึกภาพ AI ที่ไม่เพียงแค่ระบุ ‘แมว’ และ ‘เสื่อ’ ในภาพ แต่เข้าใจแนวคิดว่า ‘แมวอยู่ บน เสื่อ’ ขยายความต่อไป: AI ที่สามารถดูชุดภาพที่แสดงส่วนผสมและขั้นตอนการทำอาหาร แล้วสร้างคำแนะนำที่สอดคล้องกัน หรือวิเคราะห์แผนภาพทางวิศวกรรมที่ซับซ้อนเพื่อระบุจุดที่อาจเกิดความเค้น

ความสามารถนี้ทำให้ AI เข้าใกล้รูปแบบของปัญญาที่สมบูรณ์ยิ่งขึ้น ซึ่งสะท้อนการรับรู้ของมนุษย์อย่างใกล้ชิดยิ่งขึ้น เราประมวลผลข้อมูลภาพอย่างต่อเนื่อง ผสานรวมเข้ากับความรู้และความสามารถในการให้เหตุผลของเราอย่างราบรื่น เพื่อนำทางโลก แก้ปัญหา และสื่อสารอย่างมีประสิทธิภาพ AI ที่มีความสามารถในการให้เหตุผลเชิงภาพที่แข็งแกร่งสามารถมีส่วนร่วมกับข้อมูลที่หลากหลายมากขึ้น ปลดล็อกความเป็นไปได้ใหม่ๆ สำหรับความช่วยเหลือ การวิเคราะห์ และการโต้ตอบที่ก่อนหน้านี้จำกัดอยู่แค่ในนิยายวิทยาศาสตร์ มันแสดงถึงความแตกต่างระหว่าง AI ที่สามารถอ่านคำอธิบายสัญลักษณ์ของแผนที่ กับ AI ที่สามารถตีความแผนที่เพื่อบอกเส้นทางตามจุดสังเกตทางสายตาได้ QVQ-Max ของ Alibaba วางตำแหน่งตัวเองในฐานะผู้เข้าแข่งขันในขอบเขตที่ซับซ้อนนี้ โดยอ้างว่ามีความสามารถที่ขยายไปสู่ความเข้าใจและกระบวนการคิดที่แท้จริงซึ่งกระตุ้นโดยข้อมูลภาพ

ขอแนะนำ QVQ-Max: การก้าวเข้าสู่โลกแห่งการมองเห็นและความคิดของ AI จาก Alibaba

Alibaba นำเสนอ QVQ-Max ไม่ใช่แค่ในฐานะเครื่องมือรู้จำภาพ แต่เป็น โมเดลการให้เหตุผลเชิงภาพที่ซับซ้อน ข้อความหลักคือ AI bot นี้ก้าวข้ามการตรวจจับวัตถุธรรมดาๆ มัน วิเคราะห์และให้เหตุผล อย่างแข็งขันกับข้อมูลที่รวบรวมจากภาพถ่ายและเนื้อหาวิดีโอ Alibaba ชี้ให้เห็นว่า QVQ-Max ได้รับการออกแบบมาเพื่อ มองเห็น เข้าใจ และคิด เกี่ยวกับองค์ประกอบภาพที่นำเสนอได้อย่างมีประสิทธิภาพ ซึ่งจะช่วยลดช่องว่างระหว่างการประมวลผล AI แบบนามธรรมที่อิงตามข้อความ กับข้อมูลภาพที่จับต้องได้ซึ่งประกอบขึ้นเป็นข้อมูลส่วนใหญ่ในโลกแห่งความเป็นจริง

กลไกเบื้องหลังสิ่งนี้เกี่ยวข้องกับความสามารถขั้นสูงใน การแยกแยะฉากภาพที่ซับซ้อน และ การระบุองค์ประกอบหลักและความสัมพันธ์ระหว่างกัน นี่ไม่ใช่แค่การติดป้ายกำกับวัตถุ แต่เป็นการทำความเข้าใจเรื่องราวหรือโครงสร้างภายในอินพุตภาพ Alibaba เน้นย้ำถึงความยืดหยุ่นของโมเดล โดยชี้ให้เห็นถึงการใช้งานที่เป็นไปได้หลากหลายซึ่งเกิดจากความสามารถหลักในการให้เหตุผลเชิงภาพนี้ การใช้งานเหล่านี้ครอบคลุมสาขาที่หลากหลาย ซึ่งบ่งชี้ถึงลักษณะพื้นฐานของเทคโนโลยีนี้ ตัวอย่างที่อ้างถึง ได้แก่ การช่วย ออกแบบภาพประกอบ โดยอาจเข้าใจสไตล์ภาพหรือสร้างแนวคิดตามคำสั่งภาพ การอำนวยความสะดวกใน การสร้างสคริปต์วิดีโอ โดยอาจตีความลำดับภาพหรืออารมณ์ และการมีส่วนร่วมใน สถานการณ์สวมบทบาท ที่ซับซ้อนซึ่งสามารถรวมบริบททางภาพได้

คำมั่นสัญญาของ QVQ-Max อยู่ที่ศักยภาพในการผสานรวมข้อมูลภาพเข้ากับการแก้ปัญหาและการดำเนินงานโดยตรง ในขณะที่ยังคงรักษาประโยชน์ของ AI chatbots แบบดั้งเดิมสำหรับงานที่หยั่งรากในข้อความและข้อมูลในด้านการทำงาน การศึกษา และชีวิตส่วนตัว มิติทางภาพของมันได้เพิ่มระดับความสามารถ โดยมีเป้าหมายเพื่อจัดการกับปัญหาที่บริบททางภาพไม่ได้เป็นเพียงส่วนเสริม แต่เป็นสิ่งจำเป็น

การใช้งานจริง: จุดที่การให้เหตุผลเชิงภาพสร้างความแตกต่าง

การวัดผลความก้าวหน้าทางเทคโนโลยีที่แท้จริงอยู่ที่ประโยชน์ใช้สอยในทางปฏิบัติ AI ที่สามารถ ‘มองเห็น’ และ ‘ให้เหตุผล’ แปลเป็นประโยชน์ที่จับต้องได้อย่างไร? Alibaba เสนอแนะหลายด้านที่น่าสนใจซึ่งความสามารถทางภาพของ QVQ-Max อาจก่อให้เกิดการเปลี่ยนแปลงได้

การปรับปรุงเวิร์กโฟลว์ระดับมืออาชีพ

ในที่ทำงาน ข้อมูลภาพมีอยู่ทั่วไป ลองพิจารณาผลกระทบที่อาจเกิดขึ้น:

  • การวิเคราะห์การแสดงข้อมูลด้วยภาพ (Data Visualization Analysis): แทนที่จะประมวลผลตารางข้อมูลดิบเพียงอย่างเดียว QVQ-Max อาจสามารถวิเคราะห์แผนภูมิและกราฟได้โดยตรง ระบุแนวโน้ม ความผิดปกติ หรือประเด็นสำคัญที่นำเสนอด้วยภาพ ซึ่งอาจช่วยเร่งการวิเคราะห์รายงานและงานด้านข่าวกรองธุรกิจได้อย่างมาก
  • การตีความแผนภาพทางเทคนิค: วิศวกร สถาปนิก และช่างเทคนิคมักต้องพึ่งพาแผนภาพ พิมพ์เขียว หรือแผนผังที่ซับซ้อน AI ที่ให้เหตุผลเชิงภาพสามารถช่วยตีความเอกสารเหล่านี้ได้ อาจระบุส่วนประกอบ ติดตามการเชื่อมต่อ หรือแม้แต่แจ้งเตือนข้อบกพร่องในการออกแบบที่อาจเกิดขึ้นตามรูปแบบภาพ
  • การออกแบบและความช่วยเหลือเชิงสร้างสรรค์: สำหรับนักออกแบบกราฟิกหรือนักวาดภาพประกอบ โมเดลอาจวิเคราะห์ mood boards หรือภาพแรงบันดาลใจเพื่อแนะนำชุดสี โครงสร้างเลย์เอาต์ หรือองค์ประกอบทางสไตล์ มันอาจสร้างภาพประกอบร่างตามคำอธิบายภาพหรือภาพที่มีอยู่ ทำหน้าที่เป็นพันธมิตรเชิงสร้างสรรค์ที่ซับซ้อน
  • การสร้างงานนำเสนอ: ลองนึกภาพการป้อนชุดรูปภาพที่เกี่ยวข้องกับโครงการให้กับ AI; มันอาจจัดโครงสร้างงานนำเสนอ สร้างคำบรรยายที่เกี่ยวข้อง และรับประกันความสอดคล้องทางภาพ ทำให้กระบวนการสร้างง่ายขึ้น

การปฏิวัติการศึกษาและการเรียนรู้

แวดวงการศึกษาจะได้รับประโยชน์อย่างมากจาก AI ที่เข้าใจข้อมูลภาพ:

  • การแก้ปัญหา STEM: ความสามารถในการวิเคราะห์แผนภาพที่มาพร้อมกับปัญหาคณิตศาสตร์และฟิสิกส์เป็นตัวอย่างสำคัญ QVQ-Max อาจตีความรูปทรงเรขาคณิต แผนภาพแรง หรือแผนผังวงจร เชื่อมโยงการแสดงภาพกับคำอธิบายปัญหาที่เป็นข้อความ เพื่อเสนอคำแนะนำหรือคำอธิบายทีละขั้นตอน นี่เป็นหนทางสู่ความเข้าใจแนวคิดที่เป็นภาพโดยเนื้อแท้
  • การสอนพิเศษวิชาที่เน้นภาพ: วิชาต่างๆ เช่น ชีววิทยา (โครงสร้างเซลล์ กายวิภาคศาสตร์) เคมี (แบบจำลองโมเลกุล) ภูมิศาสตร์ (แผนที่ การก่อตัวทางธรณีวิทยา) และประวัติศาสตร์ศิลปะต้องอาศัยความเข้าใจทางภาพอย่างมาก AI ที่ให้เหตุผลเชิงภาพสามารถทำหน้าที่เป็นผู้สอนแบบโต้ตอบ อธิบายแนวคิดตามรูปภาพ ทดสอบนักเรียนเกี่ยวกับการระบุภาพ หรือให้บริบทสำหรับงานศิลปะทางประวัติศาสตร์
  • สื่อการเรียนรู้แบบโต้ตอบ: ผู้สร้างเนื้อหาทางการศึกษาสามารถใช้ประโยชน์จากเทคโนโลยีดังกล่าวเพื่อสร้างโมดูลการเรียนรู้ที่มีพลวัตและตอบสนองมากขึ้น ซึ่งนักเรียนโต้ตอบกับองค์ประกอบภาพ และ AI ให้ข้อเสนอแนะตามความเข้าใจในภาพนั้น

การทำให้ชีวิตส่วนตัวและงานอดิเรกง่ายขึ้น

นอกเหนือจากการทำงานและการเรียนแล้ว AI ที่ให้เหตุผลเชิงภาพยังมอบความเป็นไปได้ที่น่าสนใจสำหรับงานประจำวันและการพักผ่อนหย่อนใจ:

  • คำแนะนำด้านการทำอาหาร: ตัวอย่างของการแนะนำผู้ใช้ในการทำอาหารตามภาพสูตรอาหารเน้นย้ำถึงสิ่งนี้ AI จะไม่เพียงแค่อ่านขั้นตอนเท่านั้น มันอาจวิเคราะห์ภาพถ่ายความคืบหน้าของผู้ใช้ เปรียบเทียบกับผลลัพธ์ที่คาดหวังในภาพสูตรอาหาร และให้คำแนะนำแก้ไข (‘ดูเหมือนว่าซอสของคุณต้องข้นขึ้นเมื่อเทียบกับภาพนี้’)
  • ความช่วยเหลือ DIY และการซ่อมแซม: ติดขัดในการประกอบเฟอร์นิเจอร์หรือซ่อมเครื่องใช้ไฟฟ้าใช่ไหม? การชี้กล้องไปที่บริเวณที่มีปัญหาหรือแผนภาพในคู่มือการใช้งานอาจช่วยให้ AI ระบุชิ้นส่วนด้วยสายตา เข้าใจขั้นตอนการประกอบ และให้คำแนะนำที่ตรงเป้าหมาย
  • การระบุธรรมชาติ: การระบุพืช แมลง หรือนกจากภาพถ่ายอาจมีความซับซ้อนมากขึ้น โดย AI อาจให้ข้อมูลโดยละเอียดไม่เพียงแค่จากการระบุ แต่ยังรวมถึงบริบททางภาพด้วย (เช่น การระบุพืช และ สังเกตเห็นสัญญาณของโรคที่มองเห็นได้ในภาพ)
  • การสวมบทบาทที่ได้รับการปรับปรุง: การรวมองค์ประกอบภาพเข้ากับเกมสวมบทบาทสามารถสร้างประสบการณ์ที่ดื่มด่ำยิ่งขึ้น AI สามารถตอบสนองต่อภาพที่แสดงฉากหรือตัวละคร สอดแทรกเข้าไปในเรื่องเล่าแบบไดนามิก

เส้นทางข้างหน้า: การปรับปรุงและขยายขีดความสามารถของ QVQ-Max

Alibaba ยอมรับอย่างเต็มใจว่า QVQ-Max ในรูปแบบปัจจุบัน เป็นเพียง การทำซ้ำครั้งแรก ของวิสัยทัศน์สำหรับ AI การให้เหตุผลเชิงภาพ พวกเขาได้กำหนดแผนงานที่ชัดเจนสำหรับการปรับปรุงในอนาคต โดยมุ่งเน้นไปที่สามด้านหลักเพื่อยกระดับความซับซ้อนและประโยชน์ใช้สอยของโมเดล

1. การเสริมสร้างความแม่นยำในการรู้จำภาพ: รากฐานของการให้เหตุผลเชิงภาพคือการรับรู้ที่แม่นยำ Alibaba วางแผนที่จะปรับปรุงความสามารถของ QVQ-Max ในการตีความสิ่งที่ ‘เห็น’ ได้อย่างถูกต้อง ซึ่งเกี่ยวข้องกับการใช้ เทคนิคการเชื่อมโยง (grounding techniques) ใน AI การเชื่อมโยงโดยทั่วไปหมายถึงการเชื่อมต่อสัญลักษณ์นามธรรมหรือการแสดงภาษา (เช่น ข้อความที่สร้างโดยโมเดล) กับสิ่งที่อ้างอิงที่เป็นรูปธรรมในโลกแห่งความเป็นจริง – ในกรณีนี้คือรายละเอียดเฉพาะภายในภาพ โดยการตรวจสอบการสังเกตการณ์ทางภาพกับข้อมูลภาพจริงอย่างเข้มงวดมากขึ้น เป้าหมายคือเพื่อลดข้อผิดพลาด การตีความผิด และ ‘ภาพหลอน’ ของ AI ที่อาจรบกวนโมเดลเจนเนอเรทีฟ การแสวงหาความเข้าใจทางภาพที่มีความเที่ยงตรงสูงขึ้นนี้มีความสำคัญอย่างยิ่งต่อการให้เหตุผลที่น่าเชื่อถือ

2. การจัดการกับความซับซ้อนและการโต้ตอบ: แรงผลักดันสำคัญประการที่สองคือการทำให้โมเดลสามารถจัดการกับงานที่ซับซ้อนมากขึ้นซึ่งต้องดำเนินการหลายขั้นตอนหรือเกี่ยวข้องกับสถานการณ์การแก้ปัญหาที่ซับซ้อน ความทะเยอทะยานนี้ขยายไปไกลกว่าการวิเคราะห์แบบพาสซีฟไปสู่การโต้ตอบแบบแอคทีฟ เป้าหมายที่กล่าวถึง – การทำให้ AI สามารถ ใช้งานโทรศัพท์และคอมพิวเตอร์ และแม้กระทั่งเล่นเกม – เป็นสิ่งที่น่าสังเกตเป็นพิเศษ นี่หมายถึงวิวัฒนาการไปสู่เอเจนต์ AI ที่สามารถเข้าใจส่วนต่อประสานกราฟิกกับผู้ใช้ (GUIs) ตีความผลตอบรับทางภาพแบบไดนามิก (เช่น ในสภาพแวดล้อมของเกม) และดำเนินการลำดับของการกระทำตามอินพุตภาพ ความสำเร็จในด้านนี้จะเป็นก้าวกระโดดที่สำคัญไปสู่ผู้ช่วย AI ที่เป็นอิสระและมีความสามารถมากขึ้น ซึ่งสามารถโต้ตอบกับโลกดิจิทัลด้วยสายตาได้เหมือนกับที่มนุษย์ทำ

3. การขยายรูปแบบนอกเหนือจากข้อความ: สุดท้าย Alibaba วางแผนที่จะผลักดัน QVQ-Max ให้ก้าวข้ามการพึ่งพาการโต้ตอบที่ใช้ข้อความเป็นหลักในปัจจุบันสำหรับเอาต์พุตและการปรับแต่งอินพุตที่อาจเกิดขึ้น แผนงานรวมถึงการรวม การตรวจสอบเครื่องมือ (tool verification) และ การสร้างภาพ (visual generation) การตรวจสอบเครื่องมืออาจหมายถึง AI ยืนยันด้วยสายตาว่าการกระทำที่ร้องขอจากเครื่องมือซอฟต์แวร์ภายนอกหรือ API เสร็จสมบูรณ์แล้ว โดยการวิเคราะห์การเปลี่ยนแปลงหน้าจอหรือภาพเอาต์พุต การสร้างภาพชี้ให้เห็นถึงการก้าวไปสู่ระบบอินพุต/เอาต์พุตหลายรูปแบบอย่างแท้จริง ซึ่ง AI ไม่เพียงแต่เข้าใจภาพเท่านั้น แต่ยัง สร้าง เนื้อหาภาพใหม่ตามการให้เหตุผลและการโต้ตอบที่กำลังดำเนินอยู่ ซึ่งอาจเกี่ยวข้องกับการสร้างแผนภาพ การแก้ไขภาพตามคำแนะนำ หรือการสร้างการแสดงภาพของกระบวนการให้เหตุผล

วาระการมองไปข้างหน้านี้เน้นย้ำถึงศักยภาพระยะยาวที่คาดการณ์ไว้สำหรับ AI การให้เหตุผลเชิงภาพ – ระบบที่ไม่เพียงแต่รับรู้และคิดได้เท่านั้น แต่ยังมีการโต้ตอบมากขึ้นและสามารถดำเนินการที่ซับซ้อนหลายขั้นตอนภายในสภาพแวดล้อมที่อุดมไปด้วยภาพ

การเข้าถึงจิตใจที่มองเห็นได้: การมีส่วนร่วมกับ QVQ-Max

สำหรับผู้ที่กระตือรือร้นที่จะสำรวจความสามารถของโมเดลการให้เหตุผลเชิงภาพใหม่นี้โดยตรง Alibaba ได้ทำให้ QVQ-Max สามารถเข้าถึงได้ผ่านอินเทอร์เฟซ AI chat ที่มีอยู่ ผู้ใช้สามารถไปที่แพลตฟอร์ม chat.qwen.ai ภายในอินเทอร์เฟซ ซึ่งโดยทั่วไปจะอยู่ที่มุมบนซ้าย จะมีเมนูแบบเลื่อนลงสำหรับเลือกรุ่น AI ต่างๆ โดยการเลือกตัวเลือก ‘Expand more models’ ผู้ใช้สามารถค้นหาและเลือก QVQ-Max ได้ เมื่อโมเดลทำงาน การโต้ตอบจะดำเนินการผ่านกล่องแชทมาตรฐาน โดยมีการเพิ่มที่สำคัญคือการแนบเนื้อหาภาพ – รูปภาพหรืออาจเป็นคลิปวิดีโอ – เพื่อปลดล็อกความสามารถในการให้เหตุผลที่เป็นเอกลักษณ์ การทดลองกับอินพุตภาพต่างๆ เป็นกุญแจสำคัญในการทำความเข้าใจขอบเขตและข้อจำกัดในทางปฏิบัติของเครื่องมือการให้เหตุผลเชิงภาพรุ่นแรกนี้