การมาถึงของโหมด Camera ของ Gemini Live ถือเป็นก้าวสำคัญในการพัฒนาปัญญาประดิษฐ์ (AI) ซึ่งนำเสนออนาคตที่จับต้องได้มาสู่ปลายนิ้วของเรา แม้ว่าผู้ที่เริ่มใช้ก่อนหน้ากับอุปกรณ์ Pixel 9 และ Samsung Galaxy S25 จะได้เพลิดเพลินกับคุณสมบัติที่เป็นนวัตกรรมนี้มาบ้างแล้ว แต่การประกาศล่าสุดของ Google ในงานประชุม I/O ได้ขยายการเข้าถึงไปยังผู้ชมที่กว้างขึ้นมาก ครอบคลุมทั้งผู้ใช้ Android และ iOS การพัฒนานี้เป็นเรื่องที่น่าตื่นเต้นอย่างยิ่งสำหรับเจ้าของ iPhone ซึ่งตอนนี้สามารถสัมผัสประสบการณ์ฟังก์ชัน AI ที่น่าสนใจที่สุดที่มีอยู่ในปัจจุบัน โดยเฉพาะอย่างยิ่งเมื่อพิจารณาว่าโหมด Camera ได้เปิดตัวครั้งแรกให้กับผู้ใช้ Android รายอื่นในเดือนเมษายน
เผยพลังแห่งการมองเห็น: โหมด Camera ของ Gemini ทำงานอย่างไร
หัวใจสำคัญของโหมด Camera ของ Gemini Live คือการให้ AI มีความสามารถในการ “มองเห็น” ทำให้สามารถจดจำและระบุวัตถุที่วางอยู่ในขอบเขตการมองเห็นของกล้อง นี่ไม่ใช่แค่ลูกเล่นผิวเผิน แต่เป็นเครื่องมืออันทรงพลังที่ช่วยให้ผู้ใช้โต้ตอบกับสิ่งรอบข้างได้อย่างเป็นธรรมชาติและให้ข้อมูลมากขึ้น
นอกเหนือจากการจดจำวัตถุอย่างง่าย Gemini ยังสามารถตอบคำถามเกี่ยวกับรายการที่ระบุได้ โดยให้บริบทและข้อมูลเชิงลึกตามต้องการ นอกจากนี้ ผู้ใช้ยังสามารถแชร์หน้าจอของตนกับ Gemini ทำให้ AI สามารถวิเคราะห์และระบุองค์ประกอบที่แสดงบนหน้าจอโทรศัพท์ได้ ในการเริ่มต้นเซสชันสดด้วยโหมด Camera ผู้ใช้เพียงแค่เปิดใช้งานมุมมอง Camera สด ทำให้พวกเขาสามารถสนทนากับ chatbot เกี่ยวกับสิ่งที่กล้องจับภาพได้
ความประทับใจแรก: ทดลองขับกับ Gemini Live
ในช่วงการทดสอบเบื้องต้นของฉันกับ Gemini Live บน Pixel 9 Pro XL ฉันรู้สึกประทับใจอย่างมากกับความสามารถของมัน ประสบการณ์ที่น่าจดจำอย่างยิ่งอย่างหนึ่งเกี่ยวข้องกับการขอให้ Gemini ค้นหากรรไกรที่ฉันวางผิดที่
AI ตอบสนองด้วยความแม่นยำที่น่าทึ่ง: "ฉันเพิ่งเห็นกรรไกรของคุณบนโต๊ะ ข้างๆ ถุงพิสตาชิโอสีเขียว คุณเห็นไหม”
ฉันประหลาดใจ Gemini บอกตำแหน่งได้อย่างถูกต้อง กรรไกรอยู่ที่ที่มันบอกจริงๆ แม้ว่าฉันจะเพิ่งเอากล้องผ่านหน้าพวกมันไปเพียงเล็กน้อยในช่วงเซสชันสด 15 นาที ซึ่งโดยพื้นฐานแล้วฉันกำลังพา AI chatbot ไปทัวร์อพาร์ตเมนต์ของฉัน
ด้วยความสนใจจากความสำเร็จครั้งแรกนี้ ฉันจึงสำรวจโหมด Camera ต่อไปอย่างกระตือรือร้น ในการทดสอบที่ขยายออกไปอีกครั้ง ฉันเปิดใช้งานคุณสมบัตินี้และเริ่มเดินผ่านอพาร์ตเมนต์ของฉัน โดยกระตุ้นให้ Gemini ระบุวัตถุที่มันเห็น มันจดจำรายการต่างๆ ได้อย่างแม่นยำ รวมถึงผลไม้ ChapStick และวัตถุในชีวิตประจำวันอื่นๆ อย่างไรก็ตาม การค้นพบกรรไกรของฉันอีกครั้งยังคงเป็นการสาธิตความสามารถที่โดดเด่นที่สุด
ข้อเท็จจริงที่ว่า Gemini ระบุกรรไกรโดยไม่ต้องแจ้งล่วงหน้าใดๆ นั้นน่าประทับใจเป็นพิเศษ AI ได้จดจำพวกมันอย่างเงียบๆ ในช่วงเวลาหนึ่งของเซสชันและจดจำตำแหน่งของพวกมันได้อย่างแม่นยำด้วยความแม่นยำที่น่าทึ่ง ประสบการณ์นี้ให้ความรู้สึกเหมือนเป็นการมองเห็นอนาคตอย่างแท้จริง กระตุ้นให้ฉันทำการตรวจสอบเพิ่มเติมเกี่ยวกับศักยภาพของมัน
แรงบันดาลใจ: วิสัยทัศน์ของ Google สำหรับ Live Video AI
การทดลองของฉันกับคุณสมบัติ Camera ของ Gemini Live สะท้อนถึงการสาธิตที่ Google แสดงให้เห็นเมื่อฤดูร้อนที่แล้ว ซึ่งนำเสนอภาพรวมแรกของความสามารถ AI วิดีโอสดเหล่านี้ การสาธิตมี Gemini เตือนผู้ใช้ว่าพวกเขาทิ้งแว่นตาไว้ที่ไหน ซึ่งเป็นความสำเร็จที่ดูเหมือนดีเกินจริง อย่างไรก็ตาม เท่าที่ฉันค้นพบ ความแม่นยำระดับนี้สามารถทำได้จริง
Gemini Live สามารถจดจำได้มากกว่าแค่ของใช้ในครัวเรือน Google อ้างว่าสามารถช่วยเหลือผู้ใช้ในการนำทางสถานีรถไฟที่แออัด หรือระบุไส้ในขนมอบได้ นอกจากนี้ยังสามารถให้ข้อมูลเชิงลึกที่ลึกซึ้งยิ่งขึ้นเกี่ยวกับงานศิลปะ เช่น ที่มาและว่าเป็นงานรุ่นจำกัดหรือไม่
ฟังก์ชันการทำงานนี้เหนือกว่า Google Lens ทั่วไป คุณสามารถสนทนากับ AI ได้ ซึ่งเป็นการสนทนามากกว่า Google Assistant มาก
Google ยังได้เผยแพร่วิดีโอ YouTube ที่แสดงให้เห็นคุณสมบัตินี้ และตอนนี้มีหน้าเว็บของตัวเองใน Google Store แล้ว
ในการเริ่มต้น ให้เริ่ม Gemini เปิดกล้อง แล้วเริ่มพูด
Gemini Live สร้างขึ้นจาก Project Astra ของ Google ซึ่งนำเสนอครั้งแรกเมื่อปีที่แล้ว และอาจเป็นคุณสมบัติ “เราอยู่ในอนาคต” ที่ใหญ่ที่สุดของบริษัท ซึ่งเป็นขั้นตอนต่อไปในการทดลองสำหรับความสามารถ AI เชิงสร้างสรรค์ นอกเหนือจากการพิมพ์หรือแม้แต่การพูดข้อความแจ้งลงใน chatbot เช่น ChatGPT, Claude หรือ Gemini
บริษัท AI กำลังปรับปรุงความสามารถของเครื่องมือ AI อย่างต่อเนื่อง ตั้งแต่การสร้างวิดีโอไปจนถึงพลังการประมวลผลพื้นฐาน Visual Intelligence ของ Apple ซึ่งผู้ผลิต iPhone เปิดตัวในรุ่นเบต้าเมื่อปีที่แล้ว สามารถเทียบเคียงกับ Gemini Live ได้
Gemini Live มีศักยภาพในการปฏิวัติวิธีที่เราเชื่อมต่อกับสภาพแวดล้อมโดยการรวมสภาพแวดล้อมดิจิทัลและทางฟิสิกส์ของเราเข้าด้วยกันในขณะที่เราเพียงแค่ถือกล้องไว้หน้าสิ่งใดสิ่งหนึ่ง
ทดสอบ Gemini Live: สถานการณ์จริง
ครั้งแรกที่ฉันใช้ Gemini สามารถจดจำของสะสมเกมที่เจาะจงมากของกระต่ายยัดไส้ในมุมมอง Camera ของฉันได้อย่างแม่นยำ ครั้งที่สอง ฉันนำมันไปให้เพื่อนในหอศิลป์ มันจดจำเต่าบนไม้กางเขนได้ทันที (อย่าถามฉัน) และระบุและแปลคันจิที่อยู่ข้างๆ ได้ ให้ความรู้สึกหนาวสั่นแก่เราทั้งคู่และทำให้เรารู้สึกขนลุกเล็กน้อย ในทางบวก ฉันเชื่อ
ฉันเริ่มพิจารณาว่าจะทดสอบฟังก์ชันภายใต้ความเครียดได้อย่างไร เมื่อฉันพยายามบันทึกหน้าจอขณะที่มันทำงาน มันล้มเหลวอย่างต่อเนื่อง จะเกิดอะไรขึ้นถ้าฉันหลงทางจากเส้นทางปกติ? ฉันเป็นแฟนตัวยงของประเภทสยองขวัญ (ภาพยนตร์ ซีรีส์โทรทัศน์ และวิดีโอเกม) และมีของสะสม เครื่องประดับ และสิ่งของอื่นๆ มากมาย มันจะทำงานได้ดีเพียงใดกับสิ่งของที่ไม่ชัดเจนมากขึ้น เช่น ของสะสมธีมสยองขวัญของฉัน
อันดับแรก ฉันต้องบอกว่า Gemini สามารถน่าทึ่งอย่างไม่น่าเชื่อและน่ารำคาญอย่างเหลือเชื่อได้ในรอบคำถามเดียวกัน ฉันมีวัตถุประมาณ 11 ชิ้นที่ฉันต้องการให้ Gemini ระบุ และยิ่งเซสชันสดยาวนานขึ้นเท่าไหร่ มันก็ยิ่งแย่ลง ดังนั้นฉันจึงต้องจำกัดเซสชันไว้ที่วัตถุหนึ่งหรือสองชิ้น ในความเห็นของฉัน Gemini พยายามใช้ข้อมูลตามบริบทจากรายการที่รู้จักก่อนหน้านี้เพื่อเดาเกี่ยวกับรายการใหม่ ซึ่งสมเหตุสมผลในระดับหนึ่ง แต่ในที่สุดก็ไม่เป็นประโยชน์ต่อฉันหรือมัน
บางครั้ง Gemini ก็ค่อนข้างแม่นยำ โดยให้คำตอบที่ถูกต้องได้อย่างง่ายดายและไม่สับสน แม้ว่าสิ่งนี้จะเกิดขึ้นบ่อยกว่ากับวัตถุที่เพิ่งเปิดตัวหรือเป็นที่นิยมมากกว่า ตัวอย่างเช่น ฉันประหลาดใจเมื่อรู้ว่าวัตถุทดสอบชิ้นหนึ่งของฉันไม่ได้มาจาก Destiny 2 เท่านั้น แต่ยังเป็นรุ่นลิมิเต็ดอิดิชั่นจากกิจกรรมตามฤดูกาลเมื่อปีที่แล้วด้วย
Gemini มักจะพลาดเป้าหมายอย่างสมบูรณ์ โดยต้องการให้ฉันให้คำแนะนำเพิ่มเติมเพื่อให้เข้าใกล้คำตอบที่ถูกต้อง บางครั้ง ดูเหมือนว่า Gemini กำลังใช้บริบทจากเซสชันสดก่อนหน้าของฉันเพื่อสร้างการตอบสนอง โดยระบุว่าวัตถุหลายชิ้นมาจาก Silent Hill ในขณะที่พวกมันไม่ได้มาจาก Silent Hill ฉันมีตู้โชว์ที่อุทิศให้กับซีรีส์เกม ดังนั้นฉันจึงเข้าใจว่าทำไมมันถึงต้องการเข้ามาในพื้นที่นั้นอย่างรวดเร็ว
เผยให้เห็นข้อบกพร่อง: ข้อบกพร่องและความผิดปกติในระบบ
Gemini สามารถมีข้อบกพร่องได้อย่างสมบูรณ์ในบางครั้ง ในบางครั้ง Gemini ระบุวัตถุชิ้นหนึ่งผิดว่าเป็นตัวละครสมมติจากเกม Silent Hill: f ที่ยังไม่ได้เปิดตัว โดยรวมส่วนต่างๆ ของชื่อต่างๆ เข้าด้วยกันอย่างชัดเจนเป็นสิ่งที่ไม่มีอยู่จริง ข้อผิดพลาดที่สอดคล้องกันอีกอย่างหนึ่งที่ฉันพบคือ เมื่อ Gemini ให้คำตอบที่ไม่ถูกต้อง และฉันแก้ไขและให้คำแนะนำที่ใกล้เคียงกว่าเกี่ยวกับคำตอบ หรือเพียงแค่ให้คำตอบแก่ Gemini เท่าที่จะทำได้ แต่กลับบอกซ้ำคำตอบที่ไม่ถูกต้องราวกับว่าเป็นเดาใหม่ เมื่อสิ่งนั้นเกิดขึ้น ฉันจะปิดเซสชันและเริ่มเซสชันใหม่ ซึ่งไม่ได้เป็นประโยชน์เสมอไป
เทคนิคหนึ่งที่ฉันค้นพบคือการสนทนาบางรายการมีประสิทธิภาพมากกว่ารายการอื่น หากฉันดูรายการการสนทนา Gemini ของฉัน แตะการแชทเก่าที่เคยได้รับรายการที่ถูกต้องโดยเฉพาะ จากนั้นกลับไปถ่ายทอดสดอีกครั้งจากการแชทนั้น มันจะสามารถระบุรายการได้โดยไม่มีปัญหาใดๆ แม้ว่านี่จะไม่ใช่เรื่องที่คาดเดาได้เสมอไป แต่มันก็น่าสนใจที่จะสังเกตว่าบทสนทนาบางบทสนทนาทำงานได้ดีกว่าบทสนทนาอื่นๆ แม้ว่าจะใช้ภาษาเดียวกันก็ตาม
Google ไม่ได้ตอบคำถามของฉันสำหรับข้อมูลเพิ่มเติมเกี่ยวกับวิธีการทำงานของ Gemini Live
ฉันต้องการให้ Gemini ตอบคำถามที่ท้าทายและเจาะจงมากของฉันได้สำเร็จ ดังนั้นฉันจึงให้คำใบ้มากมายเพื่อช่วยให้มันทำเช่นนั้น ได้รับการพิสูจน์แล้วว่าการกระตุ้นนั้นมีประโยชน์แต่ไม่เสมอไป
เทคโนโลยีที่เปลี่ยนแปลง: ผลกระทบที่อาจเกิดขึ้นจาก Gemini Live
Gemini Live แสดงถึงการเปลี่ยนแปลงกระบวนทัศน์ในวิธีที่เราโต้ตอบกับสิ่งรอบข้าง โดยผสานรวมโลกดิจิทัลและทางกายภาพเข้าด้วยกันอย่างราบรื่นผ่านเลนส์ของกล้องของเรา แม้ว่าเทคโนโลยีจะยังอยู่ในช่วงเริ่มต้น แต่ศักยภาพในการใช้งานนั้นมีมากมายและเปลี่ยนแปลงไป
ลองนึกภาพการใช้ Gemini Live เพื่อ:
- นำทางสภาพแวดล้อมที่ไม่คุ้นเคย: เพียงแค่เล็งกล้องไปที่ป้ายถนนหรือสถานที่สำคัญ แล้ว Gemini จะให้ทิศทางและข้อมูลแบบเรียลไทม์
- เรียนรู้เกี่ยวกับสิ่งประดิษฐ์ทางประวัติศาสตร์: เมื่อไปเยี่ยมชมพิพิธภัณฑ์ ให้ใช้ Gemini เพื่อระบุและให้บริบทสำหรับงานศิลปะและวัตถุทางประวัติศาสตร์
- ปรุงอาหารสูตรที่ซับซ้อน: ขอให้ Gemini แนะนำคุณทีละขั้นตอนของสูตรอาหาร โดยระบุส่วนผสมและแนะนำเทคนิคทางเลือก
- วินิจฉัยปัญหาในครัวเรือนง่ายๆ: เล็งกล้องไปที่เครื่องมือที่ทำงานผิดปกติ แล้ว Gemini จะให้คำแนะนำในการแก้ปัญหาและวิธีแก้ไขที่เป็นไปได้
นี่เป็นเพียงตัวอย่างเล็กๆ น้อยๆ เกี่ยวกับวิธีมากมายที่ Gemini Live สามารถปรับปรุงชีวิตประจำวันของเราได้ เมื่อเทคโนโลยีก้าวหน้าและปรับปรุงอย่างต่อเนื่อง ศักยภาพในการปฏิวัติวิธีที่เราโต้ตอบกับโลกรอบตัวเรานั้นไร้ขีดจำกัดอย่างแท้จริง
การรวม Gemini Live เข้ากับอุปกรณ์ iOS ช่วยขยายการเข้าถึงและความสามารถในการเข้าถึง ทำให้พลังของการมองเห็นที่ขับเคลื่อนด้วย AI มาสู่ผู้ชมที่กว้างขึ้น ในขณะที่เทคโนโลยี AI ยังคงก้าวหน้าในอัตราทวีคูณ คุณสมบัติต่างๆ เช่น Gemini Live นำเสนอภาพรวมของอนาคตที่อุปกรณ์ของเราไม่ได้เป็นเพียงเครื่องมือสำหรับการสื่อสารและความบันเทิงเท่านั้น แต่ยังเป็นเพื่อนร่วมทางอัจฉริยะที่สามารถช่วยเรานำทาง เข้าใจ และโต้ตอบกับโลก เราอยู่ในรูปแบบใหม่ที่มีความหมาย