מצב מצלמת Gemini Live: הצצה לעתיד מבוסס AI, עכשיו ב-iOS

הגעת מצב המצלמה של Gemini Live היא צעד משמעותי קדימה בהתפתחות הבינה המלאכותית, המביאה חלק מוחשי מהעתיד ישירות לקצות אצבעותינו. בעוד שמאמצים מוקדמים עם מכשירי Pixel 9 ו- Samsung Galaxy S25 נהנו מתכונה חדשנית זו כבר זמן מה, ההכרזה האחרונה של גוגל בכנס I/O שלה מרחיבה את הגישה לקהל רחב יותר, המקיף משתמשי Android ו- iOS כאחד. התפתחות זו מרגשת במיוחד עבור בעלי אייפון, שיכולים כעת לחוות את אחת מפונקציות הבינה המלאכותית המשכנעות ביותר הקיימות כיום, במיוחד בהתחשב בעובדה שמצב המצלמה הושק בתחילה למשתמשי אנדרואיד אחרים עוד באפריל.

חשיפת כוח הראייה: כיצד מצב המצלמה של Gemini עובד

בלב העניין, מצב המצלמה של Gemini Live מעניק לבינה המלאכותית את היכולת "לראות", ומאפשר לו לזהות ולזהות אובייקטים הממוקמים בשדה הראייה של המצלמה. זה לא רק גימיק שטחי; זה כלי רב עוצמה המאפשר למשתמשים ליצור אינטראקציה עם סביבתם בצורה אינטואיטיבית ומיידעת יותר.

מעבר לזיהוי אובייקטים פשוט, Gemini יכול גם לענות על שאלות לגבי הפריטים המזוהים, ולספק הקשר ותובנות לפי דרישה. יתר על כן, משתמשים יכולים לשתף את המסך שלהם עם Gemini, ולאפשר לבינה המלאכותית לנתח ולזהות רכיבים המוצגים על מסך הטלפון שלהם. כדי ליזום הפעלה חיה עם מצב המצלמה, משתמשים פשוט מפעילים את תצוגת המצלמה החיה, ומאפשרים להם לנהל שיחה עם הצ’אט בוט על כל מה שהמצלמה מצלמת.

רשמים ראשונים: נסיעת מבחן עם Gemini Live

במהלך שלב הבדיקות הראשוני שלי עם Gemini Live ב-Pixel 9 Pro XL, התרשמתי מאוד מהיכולות שלו. חוויה אחת בלתי נשכחת במיוחד כללה את השאלה של Gemini לאתר את המספריים שלי שאבדו.

הבינה המלאכותית הגיבה בדיוק יוצא דופן: "פשוט ראיתי את המספריים שלך על השולחן, ממש ליד האריזה הירוקה של הפיסטוקים. אתה רואה אותם?"

להפתעתי, Gemini צדק. המספריים היו בדיוק במקום שהוא הצביע עליו, למרות העובדה שרק חלפתי על פני המצלמה בקצרה במהלך סשן חי של 15 דקות שבמהלכו בעצם נתתי לצ’אט בוט של הבינה המלאכותית סיור בדירה שלי.

מסוקרן מההצלחה הראשונית הזו, חקרתי בשקיקה את מצב המצלמה עוד יותר. במבחן נוסף ומורחב יותר, הפעלתי את התכונה והתחלתי ללכת בדירה שלי, וביקשתי מ- Gemini לזהות את האובייקטים שהוא ראה. הוא זיהה במדויק פריטים שונים, כולל פירות, ChapStick וחפצים יומיומיים אחרים. הגילוי מחדש של המספריים שלי, לעומת זאת, נותר ההדגמה הבולטת ביותר של היכולות שלו.

העובדה ש- Gemini זיהה את המספריים ללא כל בקשה מוקדמת הייתה מרשימה במיוחד. הבינה המלאכותית זיהתה אותם בשקט בשלב מסוים במהלך הפגישה ונזכרה במדויק את מיקומם בדיוק ניכר. חוויה זו הרגישה באמת כמו הצצה לעתיד, מה שגרם לי לערוך חקירות נוספות בפוטנציאל שלה.

שאיבת השראה: החזון של גוגל לבינה מלאכותית בווידאו חי

הניסוי שלי עם תכונת המצלמה של Gemini Live שיקף את ההדגמה שהוצגה על ידי גוגל בקיץ הקודם, שהציעה מבט ראשון על יכולות הבינה המלאכותית של סרטונים חיים אלה. ההדגמה הציגה את Gemini מזכיר למשתמש היכן הם השאירו את המשקפיים שלהם, הישג שנראה טוב מכדי להיות אמיתי. עם זאת, כפי שגיליתי, רמת דיוק זו אכן ניתנת להשגה.

Gemini Live מסוגל לזהות הרבה יותר מסתם פריטי בית. גוגל טוענת שהוא יכול לסייע למשתמשים בניווט בתחנות רכבת צפופות או לזהות את המילוי במאפים. זה יכול גם לספק תובנות מעמיקות יותר לגבי יצירות אמנות, כגון מקורן והאם מדובר ביצירה במהדורה מוגבלת.

פונקציונליות זו חורגת מזו של עדשת גוגל רגילה. אתה יכול לנהל שיחה עם הבינה המלאכותית, שהיא שיחתית הרבה יותר מאשר Google Assistant.

גוגל פרסמה גם סרטון יוטיוב המדגים את התכונה, וכעת יש לה דף משלה בחנות גוגל.

כדי להתחיל, הפעל את Gemini, הפעל את המצלמה והתחל לדבר.

Gemini Live בנויה על Project Astra של גוגל, שהוצג לראשונה בשנה שעברה ואולי היא תכונת ה"אנחנו בעתיד" הגדולה ביותר של החברה, צעד ניסיוני הבא ליכולות AI גנרטיבית, מעבר להקלדה פשוטה או אפילו דיבור של הנחיות לתוך צ’אט בוט כמו ChatGPT, Claude, או Gemini.
חברות AI משפרות ללא הרף את היכולות של כלי AI, מיצירת וידאו ועד כוח עיבוד בסיסי. Visual Intelligence של אפל, שיצרנית האייפון שחררה בגרסת בטא בשנה שעברה, דומה ל- Gemini Live.

ל-Gemini Live יש פוטנציאל לחולל מהפכה באופן שבו אנו מתחברים לסביבה על ידי מיזוג הסביבות הדיגיטליות והפיזיות שלנו כאשר אנו פשוט מחזיקים את המצלמה מול כל דבר.

העמדת Gemini Live למבחן: תרחישים בעולם האמיתי

בפעם הראשונה שהשתמשתי בו, Gemini זיהה במדויק אספנות גיימינג ספציפית מאוד של ארנבת ממולאת בתצוגת המצלמה שלי. בפעם השנייה, הראיתי אותו לחבר בגלריה לאמנות. הוא זיהה מיד את הצב על צלב (אל תשאל אותי) וזיהה ותרגם את הקאנג’י ממש לידו, נתן לשנינו צמרמורות והשאיר אותנו קצת מצמררים. בצורה חיובית, אני מאמין.

התחלתי לשקול כיצד אוכל לבדוק את הפונקציה. כשניסיתי להקליט אותה בפעולה, היא נכשלה בעקביות. מה אם אתרחק מהנתיב הרגיל? אני מעריץ גדול של ז’אנר האימה (סרטים, סדרות טלוויזיה ומשחקי וידאו) ויש לי שפע של פריטי אספנות, תכשיטים ופריטים אחרים. כמה טוב הוא יתפקד עם פריטים לא ברורים יותר, כמו פריטי האספנות שלי בנושא אימה?

ראשית, אני חייב לציין ש- Gemini יכול להיות גם מדהים להפליא וגם מעצבן להפליא באותו סבב שאלות. היו לי בערך 11 אובייקטים שרציתי ש- Gemini יזהה, וככל שהסשן החי נמשך, כך הוא גדל, אז הייתי צריך להגביל את הפגישות לאובייקט אחד או שניים. לדעתי, Gemini ניסתה להשתמש במידע הקשרי מפריטים שזוהו בעבר כדי לנחש אובייקטים חדשים, מה שהגיוני במידה מסוימת, אך בסופו של דבר לא הועיל לי או לו.

לפעמים, Gemini הייתה מדויקת למדי, וסיפקה את התשובות הנכונות בקלות וללא בלבול, אם כי זה קרה לעתים קרובות יותר עם אובייקטים עדכניים או פופולריים יותר. הופתעתי, למשל, כשמיהר להסיק שאחד מאובייקטי הבדיקה שלי הוא לא רק מ- Destiny 2, אלא גם מהדורה מוגבלת מאירוע עונתי מהשנה הקודמת.

Gemini תהיה לעתים קרובות לגמרי לא בכיוון, ותדרוש ממני לספק רמזים נוספים כדי להתקרב לתשובה הנכונה. לעתים, נראה כאילו Gemini משתמש בהקשר מפגישות החיות הקודמות שלי כדי ליצור תגובות, ומזהה מספר אובייקטים כאילו הם מגיעים מסיילנט היל כשהם לא. יש לי ויטרינה המוקדשת לסדרת המשחקים, אז אני יכול להבין למה הוא ירצה לצלול לאזור ההוא במהירות.

חשיפת פגמים: באגים ותכונות מוזרות במערכת

Gemini יכול להיות באגי לחלוטין לפעמים. מדי פעם, Gemini זיהה בטעות את אחד האובייקטים כדמות בדיונית מהמשחק הלא משוחרר Silent Hill:f, תוך שילוב ברור של חלקים מכותרות שונות למשהו שמעולם לא היה קיים. כשהעניק Gemini העניק תשובה שגויה, ותיקנתי אותה ונתתי לה רמז קרוב יותר לתשובה - או פשוט הענקתי לה את התשובה - רק כדי שהיא תחזור על התשובה השגויה כאילו הייתה ניחוש חדש, זה היה באג עקבי נוסף שנתקלתי בו. כאשר זה קרה, הייתי סוגר את הפגישה ומתחיל חדשה, מה שלא תמיד עזר.

טכניקה אחת שגיליתי הייתה שדיונים מסוימים היו יעילים יותר מאחרים. אם עברתי על רשימת השיחות שלי ב- Gemini, הקשתי על צ’אט ישן שקיבל פריט מסוים נכון, ואז חזרתי לשדר חי מהצ’אט הזה, הוא היה יכול לזהות את הפריטים ללא בעיות. למרות שזה לא תמיד בלתי צפוי, היה מסקרן לציין שדיאלוגים מסוימים פעלו טוב יותר מאחרים, גם כשמשתמשים באותה שפה.

גוגל לא הגיבה לחקירותיי לקבלת מידע נוסף על אופן הפעולה של Gemini Live.

רציתי ש- Gemini יענה בהצלחה על השאלות המאתגרות ולפעמים הספציפיות מאוד שלי, אז הצעתי הרבה רמזים כדי לעזור לו לעשות זאת. הדחיפות התגלו כמועילות, אך לא תמיד.

טכנולוגיה טרנספורמטיבית: ההשפעה הפוטנציאלית של Gemini Live

Gemini Live מייצג שינוי פרדיגמה באופן שבו אנו מקיימים אינטראקציה עם סביבתנו, ומשלב בצורה חלקה את הממלכות הדיגיטליות והפיזיות דרך עדשת המצלמות שלנו. בעוד שהטכנולוגיה עדיין נמצאת בשלביה המוקדמים, היישומים הפוטנציאליים שלה עצומים וטרנספורמטיביים.

תארו לעצמכם שאתם משתמשים ב- Gemini Live כדי:

  • לנווט בסביבות לא מוכרות: פשוט כוונו את המצלמה שלכם לשלטי רחוב או ציוני דרך, Gemini יספק הנחיות ומידע בזמן אמת.
  • ללמוד על חפצים היסטוריים: כאשר מבקרים במוזיאון, השתמשו ב- Gemini כדי לזהות ולספק הקשר ליצירות אמנות וחפצים היסטוריים.
  • לבשל מתכונים מורכבים: בקשו מ- Gemini להדריך אתכם בכל שלב במתכון, לזהות מרכיבים ולהציע טכניקות חלופיות.
  • לאבחן בעיות ביתיות פשוטות: כוונו את המצלמה שלכם למכשיר תקול, Gemini יספק טיפים לפתרון בעיות ופתרונות אפשריים.

אלה רק כמה דוגמאות לאינספור דרכים שבהן Gemini Live יכול לשפר את חיי היומיום שלנו. ככל שהטכנולוגיה ממשיכה להתפתח ולהשתפר, הפוטנציאל שלה לחולל מהפכה באופן שבו אנו מקיימים אינטראקציה עם העולם סביבנו הוא באמת בלתי מוגבל.

השילוב של Gemini Live במכשירי iOS מרחיב עוד יותר את הטווח הגעה והנגישות שלו, ומביא את הכוח של ראייה מבוססת AI לקהל רחב יותר. ככל שטכנולוגיית הבינה המלאכותית ממשיכה להתקדם בקצב אקספוננציאלי, תכונות כמו Gemini Live מציעות הצצה לעתיד שבו המכשירים שלנו הם לא רק כלים לתקשורת ובידור, אלא גם בני לוויה אינטליגנטיים שיכולים לעזור לנו לנווט, להבין וליצור אינטראקציה עם העולם סביבנו בדרכים חדשות ומשמעותיות.