Gemini ของ Google ปลดล็อกความสามารถใหม่: ค้นหาจากวิดีโอและหน้าจอ

การโต้ตอบกับหน้าจอแบบเรียลไทม์: ‘Screenshare’

ฟีเจอร์ ‘Screenshare’ ซึ่งเปิดตัวในงาน Mobile World Congress (MWC) 2025 ที่บาร์เซโลนา แสดงให้เห็นถึงก้าวกระโดดของความเข้าใจในบริบทของ Gemini ฟังก์ชันนี้ช่วยให้ผู้ใช้สามารถแชร์เนื้อหาบนหน้าจอโทรศัพท์กับผู้ช่วย AI ได้โดยตรง ทำให้เกิดการโต้ตอบในระดับใหม่

ลองนึกภาพว่าคุณกำลังเลือกซื้อสินค้าออนไลน์ และกำลังมองหากางเกงยีนส์ทรงหลวมที่สมบูรณ์แบบ ด้วย Screenshare คุณสามารถแชร์หน้าจอกับ Gemini และสอบถามเกี่ยวกับเสื้อผ้าชิ้นอื่นๆ ที่เข้าชุดกันได้ Gemini ซึ่งมีความเข้าใจบริบทของภาพที่ได้รับการปรับปรุง จะสามารถให้คำแนะนำที่เกี่ยวข้อง ทำให้ประสบการณ์การช็อปปิ้งของคุณเป็นธรรมชาติและมีประสิทธิภาพยิ่งขึ้น

ฟีเจอร์นี้เป็นมากกว่าการจดจำภาพธรรมดา มันคือการทำความเข้าใจบริบทปัจจุบันของผู้ใช้ และให้ข้อมูลที่เกี่ยวข้องโดยตรงกับกิจกรรมที่ทำอยู่ ไม่ว่าคุณจะเปรียบเทียบข้อมูลจำเพาะของผลิตภัณฑ์ ค้นหาคำชี้แจงเกี่ยวกับแผนภาพที่ซับซ้อน หรือแม้แต่การนำทางในแอปที่ไม่คุ้นเคย Screenshare ก็เป็นเครื่องมืออันทรงพลังสำหรับการช่วยเหลือในทันทีและรับรู้บริบท

การค้นหาวิดีโอ: เผยข้อมูลเชิงลึกในภาพเคลื่อนไหว

ฟีเจอร์การค้นหาวิดีโอ ซึ่งเปิดตัวครั้งแรกในงาน Google I/O เมื่อปีที่แล้ว ได้ยกระดับความสามารถของ Gemini ให้เหนือกว่าภาพนิ่ง ฟังก์ชันนี้ช่วยให้ผู้ใช้สามารถบันทึกวิดีโอและถามคำถาม Gemini เกี่ยวกับเนื้อหา ในขณะที่กำลังถ่ายทำ

สิ่งนี้เปิดโลกแห่งความเป็นไปได้ ลองนึกภาพว่าคุณอยู่ที่พิพิธภัณฑ์และหลงใหลในงานศิลปะชิ้นหนึ่ง คุณสามารถถ่ายวิดีโอเกี่ยวกับงานศิลปะและถาม Gemini เกี่ยวกับความสำคัญทางประวัติศาสตร์ เทคนิคของศิลปิน หรือแม้แต่สัญลักษณ์ในงานศิลปะ Gemini จะวิเคราะห์วิดีโอแบบเรียลไทม์ และสามารถให้ข้อมูลเชิงลึกได้ทันที ช่วยเพิ่มความเข้าใจและความซาบซึ้งของคุณ

พิจารณาถึงศักยภาพในการนำไปใช้ด้านการศึกษา นักเรียนสามารถถ่ายวิดีโอการทดลองทางวิทยาศาสตร์และถาม Gemini เกี่ยวกับหลักการพื้นฐานที่เกี่ยวข้อง ช่างเครื่องสามารถบันทึกการซ่อมเครื่องยนต์ที่ซับซ้อนและรับคำแนะนำแบบเรียลไทม์จาก Gemini ความเป็นไปได้นั้นกว้างใหญ่และครอบคลุมหลายสาขา

ขยายขอบเขตของการโต้ตอบ AI

ฟีเจอร์ใหม่เหล่านี้ไม่ได้เป็นเพียงแค่การถามคำถามเท่านั้น แต่ยังเกี่ยวกับการสร้างปฏิสัมพันธ์ที่ลื่นไหลและเป็นธรรมชาติยิ่งขึ้นระหว่างผู้ใช้และข้อมูล วิธีการค้นหาแบบดั้งเดิมมักต้องการให้ผู้ใช้กำหนดคำค้นหาที่เป็นข้อความที่แม่นยำ ด้วยการถามคำถามจากวิดีโอและหน้าจอ Gemini ช่วยให้มีแนวทางที่เป็นธรรมชาติมากขึ้น สะท้อนให้เห็นว่าเราสำรวจและเรียนรู้ในโลกแห่งความเป็นจริงได้อย่างไร

การเปลี่ยนแปลงไปสู่ความเข้าใจด้านภาพและบริบทแสดงให้เห็นถึงแนวโน้มที่สำคัญในการพัฒนา AI เมื่อแบบจำลอง AI มีความซับซ้อนมากขึ้น พวกเขาก็สามารถตีความและตอบสนองต่อข้อมูลที่ไม่ใช่ข้อความได้มากขึ้นเรื่อยๆ ซึ่งเปิดช่องทางใหม่สำหรับการโต้ตอบระหว่างมนุษย์กับคอมพิวเตอร์

เจาะลึกฟังก์ชันการทำงานของ Screenshare

ฟีเจอร์ Screenshare เป็นมากกว่าเครื่องมือแชร์หน้าจอธรรมดา มันเป็นระบบที่ซับซ้อนซึ่งรวมความสามารถ AI หลายอย่างเข้าด้วยกัน เพื่อมอบประสบการณ์การใช้งานที่ราบรื่นและเป็นธรรมชาติ

  • การวิเคราะห์ภาพแบบเรียลไทม์: Gemini ไม่ได้เพียงแค่ “มองเห็น” หน้าจอเท่านั้น แต่ยังวิเคราะห์เนื้อหาแบบเรียลไทม์ ซึ่งหมายความว่าสามารถระบุวัตถุ ข้อความ และแม้แต่บริบทโดยรวมของสิ่งที่แสดงอยู่ได้ การวิเคราะห์อย่างต่อเนื่องนี้ช่วยให้ Gemini ตอบคำถามได้อย่างรวดเร็วและแม่นยำ
  • ความเข้าใจในบริบท: Gemini ทำได้มากกว่าแค่ระบุองค์ประกอบบนหน้าจอ มันเข้าใจ บริบท ของกิจกรรมของผู้ใช้ ตัวอย่างเช่น หากคุณกำลังเรียกดูเว็บไซต์ช็อปปิ้ง Gemini จะเข้าใจว่าคุณน่าจะกำลังมองหาข้อมูลผลิตภัณฑ์หรือคำแนะนำ การรับรู้บริบทนี้ช่วยให้ Gemini ให้คำตอบที่เกี่ยวข้องและเป็นประโยชน์มากขึ้น
  • การประมวลผลภาษาธรรมชาติ: แม้ว่าอินพุตจะเป็นภาพ แต่การโต้ตอบยังคงเป็นธรรมชาติและใช้งานง่าย ผู้ใช้สามารถถามคำถามด้วยภาษาธรรมดา เช่นเดียวกับที่พวกเขาถามผู้ช่วยที่เป็นมนุษย์ ความสามารถในการประมวลผลภาษาธรรมชาติของ Gemini ช่วยให้เข้าใจเจตนาเบื้องหลังคำถามและให้คำตอบที่เกี่ยวข้อง
  • การเรียนรู้แบบปรับตัว: Gemini เรียนรู้จากการโต้ตอบแต่ละครั้ง เมื่อผู้ใช้ถามคำถามมากขึ้นและให้ข้อเสนอแนะ ความเข้าใจของ Gemini เกี่ยวกับความชอบและความต้องการของพวกเขาจะดีขึ้น การเรียนรู้แบบปรับตัวนี้ช่วยให้ Gemini ให้ความช่วยเหลือที่เป็นส่วนตัวและเป็นประโยชน์มากขึ้นเมื่อเวลาผ่านไป

สำรวจศักยภาพของการค้นหาวิดีโอ

ฟีเจอร์การค้นหาวิดีโอแสดงถึงความก้าวหน้าครั้งสำคัญในการดึงข้อมูลที่ขับเคลื่อนด้วย AI มันไม่ได้เป็นเพียงแค่การค้นหาวิดีโอเท่านั้น แต่ยังเกี่ยวกับการดึงความรู้และข้อมูลเชิงลึก จากภายใน วิดีโอ

  • การวิเคราะห์เนื้อหาแบบไดนามิก: ไม่เหมือนกับภาพนิ่ง วิดีโอมีข้อมูลแบบไดนามิกมากมาย Gemini สามารถวิเคราะห์การเคลื่อนไหว ระบุการเปลี่ยนแปลงเมื่อเวลาผ่านไป และเข้าใจความสัมพันธ์ระหว่างองค์ประกอบต่างๆ ภายในวิดีโอ สิ่งนี้ช่วยให้เข้าใจเนื้อหาได้สมบูรณ์และละเอียดยิ่งขึ้น
  • การตอบคำถามแบบเรียลไทม์: ความสามารถในการถามคำถาม ขณะ ถ่ายทำเป็นตัวเปลี่ยนเกม สิ่งนี้ช่วยลดความจำเป็นในการจดจำรายละเอียดที่เฉพาะเจาะจงหรือกำหนดคำค้นหาที่ซับซ้อนในภายหลัง ผู้ใช้สามารถชี้กล้องไปที่สิ่งที่น่าสนใจและขอข้อมูลจาก Gemini ได้ทันที
  • การเรียนรู้หลายรูปแบบ: การค้นหาวิดีโอรวมข้อมูลภาพเข้ากับสัญญาณเสียง (ถ้ามี) และความเข้าใจในบริบท แนวทางหลายรูปแบบนี้ช่วยให้ Gemini ดึงข้อมูลจากหลายแหล่งเพื่อให้คำตอบที่ครอบคลุม
  • การเข้าถึงที่เพิ่มขึ้น: การค้นหาวิดีโอจะเป็นประโยชน์อย่างยิ่งสำหรับผู้ที่มีความบกพร่องทางการมองเห็น ด้วยการอนุญาตให้ผู้ใช้ถามคำถามเกี่ยวกับสภาพแวดล้อมของพวกเขา Gemini สามารถช่วยให้พวกเขานำทางโลกได้ง่ายขึ้นและเข้าถึงข้อมูลที่อาจไม่สามารถเข้าถึงได้

อนาคตของความช่วยเหลือที่ขับเคลื่อนด้วย AI

การเปิดตัวการค้นหาจากวิดีโอและหน้าจอใน Gemini เป็นภาพรวมของอนาคตของความช่วยเหลือที่ขับเคลื่อนด้วย AI เมื่อแบบจำลอง AI มีวิวัฒนาการอย่างต่อเนื่อง เราสามารถคาดหวังการโต้ตอบที่ราบรื่นและเป็นธรรมชาติยิ่งขึ้นระหว่างมนุษย์และเทคโนโลยี

  • การเรียนรู้ส่วนบุคคล: ผู้ช่วย AI จะมีความเชี่ยวชาญมากขึ้นในการทำความเข้าใจรูปแบบการเรียนรู้และความชอบของแต่ละบุคคล พวกเขาจะสามารถปรับแต่งเนื้อหาทางการศึกษาและให้คำแนะนำส่วนบุคคลเพื่อช่วยให้ผู้ใช้บรรลุเป้าหมายการเรียนรู้
  • การผสานรวม Augmented Reality: การค้นหาวิดีโอและการค้นหาจากหน้าจอเหมาะสมอย่างยิ่งสำหรับแอปพลิเคชัน Augmented Reality (AR) ลองนึกภาพการสวมแว่นตา AR ที่สามารถระบุวัตถุในขอบเขตการมองเห็นของคุณและให้ข้อมูลแบบเรียลไทม์เกี่ยวกับวัตถุเหล่านั้น
  • ความช่วยเหลือเชิงรุก: ผู้ช่วย AI จะมีความกระตือรือร้นมากขึ้นในการคาดการณ์ความต้องการของผู้ใช้ พวกเขาจะสามารถระบุปัญหาหรือโอกาสที่อาจเกิดขึ้นและให้ความช่วยเหลือก่อนที่จะถูกถามอย่างชัดเจน
  • การทำงานร่วมกันที่เพิ่มขึ้น: ผู้ช่วย AI จะอำนวยความสะดวกในการทำงานร่วมกันระหว่างมนุษย์อย่างมีประสิทธิภาพมากขึ้น พวกเขาจะสามารถแปลภาษาได้แบบเรียลไทม์ สรุปประเด็นสำคัญจากการประชุม และแม้แต่ให้ข้อมูลเชิงลึกเกี่ยวกับพลวัตของทีม

ความพร้อมใช้งานและการเปิดตัว

ฟีเจอร์ที่ก้าวล้ำเหล่านี้มีกำหนดเปิดตัวสำหรับผู้ใช้ Gemini Advanced ในแผน Google One AI Premium บน Android ในปลายเดือนนี้ การเปิดตัวแบบค่อยเป็นค่อยไปนี้ช่วยให้ Google รวบรวมความคิดเห็นของผู้ใช้และปรับปรุงคุณสมบัติเพิ่มเติมก่อนที่จะเปิดตัวในวงกว้าง แผน Google One AI Premium มอบสิทธิประโยชน์มากมาย รวมถึงการเข้าถึงแบบจำลองและฟีเจอร์ AI ที่ล้ำหน้าที่สุด ทำให้เป็นตัวเลือกที่น่าสนใจสำหรับผู้ใช้ที่ต้องการสำรวจเทคโนโลยี AI ที่ล้ำสมัย
ความพร้อมใช้งานเริ่มต้นบน Android นี้สะท้อนให้เห็นถึงการนำแพลตฟอร์มไปใช้อย่างแพร่หลาย และมอบฐานผู้ใช้จำนวนมากสำหรับการทดสอบและการปรับปรุง การขยายไปยังแพลตฟอร์มอื่นๆ ในอนาคตมีแนวโน้มที่จะเกิดขึ้น เนื่องจาก Google ยังคงพัฒนาและปรับปรุงความสามารถของ Gemini อย่างต่อเนื่องในระบบนิเวศ

เน้นที่การใช้งานจริง

พลังที่แท้จริงของฟีเจอร์ Gemini ใหม่เหล่านี้อยู่ที่การใช้งานจริงในสถานการณ์ต่างๆ ลองพิจารณาตัวอย่างที่เฉพาะเจาะจง:

1. การเดินทางและการสำรวจ:

  • การระบุสถานที่สำคัญ: ขณะเยี่ยมชมเมืองใหม่ ผู้ใช้สามารถถ่ายวิดีโออาคารประวัติศาสตร์และถาม Gemini เกี่ยวกับชื่อ ประวัติ และความสำคัญทางสถาปัตยกรรม
  • การแปลเมนู: ที่ร้านอาหารต่างประเทศ ผู้ใช้สามารถแชร์หน้าจอที่แสดงเมนูกับ Gemini และรับการแปลทันที พร้อมคำแนะนำตามความชอบด้านอาหารของพวกเขา
  • การนำทางขนส่งสาธารณะ: ขณะนำทางในระบบรถไฟใต้ดินที่ไม่คุ้นเคย ผู้ใช้สามารถถ่ายวิดีโอแผนที่และถาม Gemini เกี่ยวกับเส้นทางที่ดีที่สุดไปยังจุดหมายปลายทาง

2. การศึกษาและการเรียนรู้:

  • ตำราเรียนแบบโต้ตอบ: นักเรียนสามารถแชร์หน้าจอที่แสดงหน้าตำราเรียนกับ Gemini และถามคำถามเกี่ยวกับแนวคิดหรือคำจำกัดความที่ซับซ้อน
  • ความช่วยเหลือในการทดลองทางวิทยาศาสตร์: ขณะทำการทดลองทางวิทยาศาสตร์ นักเรียนสามารถถ่ายวิดีโอขั้นตอนและถาม Gemini เกี่ยวกับผลลัพธ์ที่คาดหวังหรืออันตรายที่อาจเกิดขึ้น
  • การเรียนรู้ภาษา: ผู้เรียนภาษาสามารถถ่ายวิดีโอการสนทนาหรือคลิปวิดีโอในภาษาต่างประเทศและขอคำแปล คำอธิบายไวยากรณ์ หรือคำแนะนำการออกเสียงจาก Gemini

3. การช็อปปิ้งและการพาณิชย์:

  • การเปรียบเทียบผลิตภัณฑ์: ขณะช็อปปิ้งออนไลน์ ผู้ใช้สามารถแชร์หน้าจอที่แสดงหน้าผลิตภัณฑ์หลายหน้ากับ Gemini และขอเปรียบเทียบคุณสมบัติ ราคา และบทวิจารณ์ของลูกค้า
  • คำแนะนำด้านสไตล์: ดังที่แสดงในตัวอย่างเริ่มต้น ผู้ใช้สามารถขอคำแนะนำด้านแฟชั่นได้โดยการแชร์หน้าจอที่แสดงรายการเสื้อผ้าและขอให้ Gemini แนะนำชิ้นส่วนที่เข้าชุดกันหรือชุดที่เข้าชุดกัน
  • ความช่วยเหลือเกี่ยวกับสูตรอาหาร: ขณะทำตามสูตรอาหารออนไลน์ ผู้ใช้สามารถแชร์หน้าจอกับ Gemini และขอส่วนผสมทดแทนหรือคำชี้แจงเกี่ยวกับเทคนิคการทำอาหาร

4. การสนับสนุนด้านเทคนิคและการแก้ไขปัญหา:

  • การวินิจฉัยปัญหาซอฟต์แวร์: ขณะประสบปัญหาซอฟต์แวร์ ผู้ใช้สามารถแชร์หน้าจอกับ Gemini และรับคำแนะนำการแก้ไขปัญหาทีละขั้นตอน
  • ความช่วยเหลือในการซ่อมแซมฮาร์ดแวร์: ขณะพยายามซ่อมแซมอุปกรณ์ ผู้ใช้สามารถถ่ายวิดีโอขั้นตอนและขอให้ Gemini ระบุส่วนประกอบหรือคำแนะนำเกี่ยวกับขั้นตอนการซ่อมแซมเฉพาะ
  • การแก้ไขปัญหาการเชื่อมต่อเครือข่าย: ขณะประสบปัญหาการเชื่อมต่อเครือข่าย ผู้ใช้สามารถแชร์หน้าจอที่แสดงการตั้งค่าเครือข่ายกับ Gemini และรับความช่วยเหลือในการวินิจฉัยและแก้ไขปัญหา

นี่เป็นเพียงตัวอย่างบางส่วน และการใช้งานที่เป็นไปได้นั้นแทบจะไร้ขีดจำกัด เมื่อผู้ใช้คุ้นเคยกับฟีเจอร์เหล่านี้มากขึ้น พวกเขาจะค้นพบวิธีใหม่ๆ และสร้างสรรค์ในการใช้ประโยชน์จากความสามารถของ Gemini ในชีวิตประจำวันอย่างไม่ต้องสงสัย กุญแจสำคัญคือการเปลี่ยนจากการค้นหาด้วยข้อความเป็นรูปแบบการโต้ตอบที่เป็นธรรมชาติและใช้งานง่ายยิ่งขึ้น ช่วยให้ผู้ใช้เข้าถึงข้อมูลและความช่วยเหลือในลักษณะที่ผสานรวมกับกิจกรรมในโลกแห่งความเป็นจริงได้อย่างราบรื่น