חשיפת ג’מיני: משפחת הבינה המלאכותית מהדור הבא של גוגל
ג’מיני היא הגיחה השאפתנית של גוגל לדור הבא של מודלי AI. ג’מיני פותחה באמצעות מאמצים משותפים של DeepMind ו-Google Research, מעבדות המחקר המובילות של גוגל בתחום הבינה המלאכותית, ואינה ישות מונוליטית אלא משפחה של מודלים, שכל אחד מהם מותאם למשימות ולרמות ביצועים ספציפיות. משפחה זו כוללת:
- Gemini Ultra: הכבשה הכבדה של המשפחה, המיועדת למשימות מורכבות במיוחד הדורשות כוח מחשוב משמעותי. (כרגע לא זמין)
- Gemini Pro: מודל חזק, קטן יותר מ-Ultra, אך מסוגל להתמודד עם מגוון רחב של משימות. Gemini 2.0 Pro, האיטרציה האחרונה, עומד כיום כספינת הדגל של גוגל.
- Gemini Flash: גרסה יעילה ו’מזוקקת’ של Pro, המתעדפת מהירות ויעילות.
- Gemini Flash-Lite: גרסה מעט מופחתת ומהירה יותר של Gemini Flash.
- Gemini Flash Thinking: מודל המציג יכולות ‘חשיבה’.
- Gemini Nano: כולל שני מודלים קומפקטיים, Nano-1 ו-Nano-2 החזק מעט יותר, המיועדים לפעולה לא מקוונת במכשירים.
מאפיין מגדיר של כל דגמי ג’מיני הוא הרב-מודאליות המובנית שלהם. בניגוד למודלים שאומנו אך ורק על נתוני טקסט, כגון LaMDA של גוגל, דגמי ג’מיני מיומנים בעיבוד וניתוח של סוגי נתונים מגוונים. הם אומנו על מערך נתונים עצום המקיף אודיו, תמונות, סרטונים, בסיסי קוד וטקסט ציבוריים, קנייניים ומורשים במספר שפות.
אופי רב-מודאלי זה מאפשר לג’מיני להתעלות מעל המגבלות של מודלים המבוססים על טקסט בלבד. בעוד ש-LaMDA מוגבלת לקלט ופלט מבוססי טקסט, דגמי ג’מיני, במיוחד הגרסאות החדשות יותר של Flash ו-Pro, יכולים ליצור באופן מקורי תמונות ואודיו לצד טקסט.
עם זאת, ההשלכות האתיות והמשפטיות של אימון מודלים של AI על נתונים הזמינים לציבור, לעתים קרובות ללא הסכמה מפורשת של בעלי הנתונים, נותרו סוגיה מורכבת. בעוד שגוגל מציעה מדיניות שיפוי בינה מלאכותית כדי להגן על לקוחות Google Cloud מסוימים מפני תביעות משפטיות פוטנציאליות, למדיניות זו יש מגבלות. משתמשים, במיוחד אלה שמתכוונים להשתמש בג’מיני למטרות מסחריות, צריכים לנקוט משנה זהירות.
אפליקציות ג’מיני לעומת מודלים של ג’מיני: הבנת ההבחנה
חיוני להבחין בין דגמי ג’מיני לבין אפליקציות ג’מיני הזמינות בפלטפורמות אינטרנט וניידות (שנודעו בעבר בשם Bard).
אפליקציות ג’מיני מתפקדות כלקוחות, המתחברות לדגמי ג’מיני שונים ומציגות ממשק ידידותי למשתמש, דמוי צ’אטבוט. הם משמשים כחזית לאינטראקציה עם יכולות הבינה המלאכותית היוצרת של גוגל.
במכשירי Android, אפליקציית ג’מיני מחליפה את אפליקציית Google Assistant. ב-iOS, אפליקציות Google ו-Google Search פועלות כלקוחות ג’מיני.
משתמשי Android יכולים להפעיל שכבת-על של ג’מיני כדי לשאול שאלות לגבי תוכן המוצג על המסך שלהם, כגון סרטון YouTube. שכבת-על זו מופעלת על ידי לחיצה ממושכת על לחצן ההפעלה של סמארטפון נתמך או על ידי שימוש בפקודה הקולית ‘Hey Google’.
אפליקציות ג’מיני הן רב-תכליתיות, מקבלות תמונות, פקודות קוליות וטקסט כקלט. הם יכולים לעבד קבצים כמו קובצי PDF, שהועלו ישירות או יובאו מ-Google Drive, וליצור תמונות. שיחות שיזמו עם אפליקציות ג’מיני בנייד מסתנכרנות בצורה חלקה עם ג’מיני באינטרנט, בתנאי שהמשתמש מחובר לאותו חשבון Google.
Gemini Advanced: פתיחת תכונות AI מובחרות
אפליקציות ג’מיני אינן השער היחיד למינוף העוצמה של דגמי ג’מיני. גוגל משלבת בהדרגה תכונות המופעלות על ידי ג’מיני ביישומים ובשירותים המרכזיים שלה, כולל Gmail ו-Google Docs.
כדי לרתום את היכולות הללו במלואן, משתמשים דורשים בדרך כלל את תוכנית Google One AI Premium. תוכנית זו, שהיא מבחינה טכנית מרכיב ב-Google One, עולה 20 דולר לחודש ומעניקה גישה לג’מיני ביישומי Google Workspace כמו Docs, Maps, Slides, Sheets, Drive ו-Meet. זה גם פותח את ‘Gemini Advanced’, המספק גישה למודלים המתוחכמים יותר של ג’מיני בתוך אפליקציות ג’מיני.
משתמשי Gemini Advanced נהנים מהטבות נוספות, כגון גישה עדיפות לתכונות ולמודלים חדשים, היכולת לבצע ולשנות קוד Python ישירות בתוך ג’מיני, ומגבלות מורחבות עבור NotebookLM, הכלי של גוגל להפיכת קובצי PDF לפודקאסטים שנוצרו על ידי AI. תוספת אחרונה ל-Gemini Advanced היא תכונת זיכרון המאחסנת את העדפות המשתמש ומאפשרת לג’מיני להתייחס לשיחות קודמות, תוך מתן הקשר לאינטראקציות הנוכחיות.
אחת התכונות המשכנעות ביותר הבלעדיות ל-Gemini Advanced היא ‘Deep Research’. תכונה זו ממנפת מודלים של ג’מיני עם יכולות חשיבה משופרות כדי ליצור תדריכים מפורטים. בתגובה להנחיה, כגון ‘כיצד עלי לעצב מחדש את המטבח שלי?’, Deep Research מגבשת תוכנית מחקר רב-שלבית, סורקת את האינטרנט ומחברת תשובה מקיפה.
בתוך Gmail, ג’מיני שוכן בפאנל צדדי, המסוגל לחבר הודעות דוא’ל ולסכם שרשורי הודעות. פאנל דומה מופיע ב-Docs, ומסייע בכתיבת תוכן, חידוד וחשיבה. ב-Slides, ג’מיני יוצר שקופיות ותמונות מותאמות אישית. ב-Google Sheets, הוא מסייע במעקב אחר נתונים, ארגון ויצירת נוסחאות.
נוכחותו של ג’מיני משתרעת על Google Maps, שם הוא צובר ביקורות על עסקים מקומיים ומציע המלצות, כגון הצעות למסלול טיול לביקור בעיר זרה. יכולות הצ’אטבוט מקיפות גם את Drive, שם הוא יכול לסכם קבצים ותיקיות ולספק מידע תמציתי על פרויקטים.
ג’מיני שולב לאחרונה בדפדפן Chrome של גוגל ככלי כתיבה בינה מלאכותית. ניתן להשתמש בכלי זה כדי ליצור תוכן חדש לחלוטין או לשכתב טקסט קיים, תוך התחשבות בהקשר של דף האינטרנט הנוכחי כדי לספק המלצות מותאמות.
מעבר ליישומים המרכזיים הללו, ניתן למצוא עקבות של ג’מיני במוצרי מסדי הנתונים של גוגל, בכלי אבטחת הענן ובפלטפורמות פיתוח האפליקציות (כולל Firebase ו-Project IDX). הוא גם מפעיל תכונות באפליקציות כמו Google Photos (שאילתות חיפוש בשפה טבעית), YouTube (סיעור מוחות לרעיונות לסרטונים) ו-Meet (תרגום כתוביות).
Code Assist (לשעבר Duet AI for Developers), חבילת הכלים המופעלים על ידי AI של גוגל להשלמה ויצירת קוד, מסתמכת על ג’מיני למשימות עתירות מחשוב. באופן דומה, מוצרי האבטחה של גוגל, כגון Gemini in Threat Intelligence, משתמשים בג’מיני כדי לנתח קוד שעלול להזיק ולהקל על חיפושים בשפה טבעית אחר איומים ואינדיקטורים לפשרה.
הרחבות ג’מיני ו-Gems: התאמת חוויית הבינה המלאכותית
למשתמשי Gemini Advanced יש את היכולת ליצור ‘Gems’, צ’אטבוטים מותאמים אישית המופעלים על ידי מודלים של ג’מיני, הנגישים הן בפלטפורמות שולחניות והן בפלטפורמות ניידות. ניתן ליצור Gems מתיאורים בשפה טבעית, כגון ‘אתה מאמן הריצה שלי. תן לי תוכנית ריצה יומית’, וניתן לשתף אותם עם משתמשים אחרים או לשמור אותם פרטיים.
אפליקציות ג’מיני יכולות להשתלב עם שירותי Google שונים באמצעות ‘הרחבות ג’מיני’. הרחבות אלו מאפשרות לג’מיני ליצור אינטראקציה עם Drive, Gmail, YouTube ושירותים אחרים, ומאפשרות לו להגיב לשאילתות כמו ‘האם תוכל לסכם את שלושת המיילים האחרונים שלי?’.
Gemini Live: השתתפות בשיחות קוליות מעמיקות
‘Gemini Live’ מציע חוויה סוחפת, המאפשרת למשתמשים להשתתף בשיחות קוליות מפורטות עם ג’מיני. תכונה זו זמינה בתוך אפליקציות ג’מיני במכשירים ניידים וב-Pixel Buds Pro 2, שם ניתן לגשת אליה גם כשהטלפון נעול.
עם Gemini Live, משתמשים יכולים להפריע לג’מיני בזמן שהוא מדבר כדי לשאול שאלות הבהרה, והצ’אטבוט מסתגל לדפוסי דיבור בזמן אמת. Live נועד גם לתפקד כמאמן וירטואלי, המסייע בהכנה לאירועים, סיעור מוחות ומשימות אחרות. לדוגמה, Live יכול להציע מיומנויות להדגיש במהלך ראיון עבודה ולספק טיפים לדיבור בפני קהל.
ג’מיני לבני נוער: חוויית AI מותאמת לתלמידים
גוגל מספקת חוויית ג’מיני מיוחדת המותאמת לתלמידים בגיל העשרה.
גרסה זו של ג’מיני המתמקדת בבני נוער משלבת ‘מדיניות ואמצעי הגנה נוספים’, כולל תהליך קליטה מותאם אישית ומדריך לאוריינות בינה מלאכותית. מלבד השינויים הללו, הוא דומה מאוד לחוויית ג’מיני הסטנדרטית, כולל תכונת ‘בדיקה כפולה’ המאמתת את דיוק התגובות של ג’מיני על ידי הפניה צולבת של מידע באינטרנט.
בחינת היכולות של דגמי ג’מיני
האופי הרב-מודאלי של דגמי ג’מיני מעצים אותם לבצע מגוון רחב של משימות, החל מתמלול דיבור ועד לכיתוב תמונות ווידאו בזמן אמת. רבות מהיכולות הללו כבר שולבו במוצרים של גוגל, עם הבטחות להתקדמות נוספת בעתיד הקרוב.
עם זאת, חשוב להכיר בכך שגוגל, כמו מתחרותיה, לא התייחסה במלואה לחלק מהאתגרים הטבועים בטכנולוגיית AI גנרטיבית, כגון הטיות מקודדות והנטייה לפברק מידע (הזיות). יש לקחת בחשבון מגבלות אלו בעת הערכת השימוש בג’מיני, במיוחד עבור יישומים קריטיים.
היכולת של Gemini Pro
גוגל טוענת שהמודל העדכני ביותר שלה Pro, Gemini 2.0 Pro, מייצג את ההצעה המתקדמת ביותר שלה לקידוד ולטיפול בהנחיות מורכבות. 2.0 Pro עולה על קודמו, Gemini 1.5 Pro, במדדים המעריכים תכנות, חשיבה, מתמטיקה ודיוק עובדתי.
בתוך פלטפורמת Vertex AI של גוגל, מפתחים יכולים להתאים אישית את Gemini Pro להקשרים ולמקרי שימוש ספציפיים באמצעות כוונון עדין או ‘הארקה’. לדוגמה, ניתן להנחות את Pro (יחד עם דגמי ג’מיני אחרים) להשתמש בנתונים מספקים של צד שלישי כמו Moody’s, Thomson Reuters, ZoomInfo ו-MSCI, או למקור מידע ממערכי נתונים ארגוניים או מ-Google Search במקום מבסיס הידע הרחב יותר שלו. ניתן גם לחבר את Gemini Pro לממשקי API חיצוניים של צד שלישי כדי לבצע פעולות ספציפיות, כגון אוטומציה של זרימות עבודה במשרד האחורי.
פלטפורמת AI Studio של גוגל מספקת תבניות ליצירת הנחיות צ’אט מובנות עם Pro. מפתחים יכולים לשלוט בטווח היצירתי של המודל, לספק דוגמאות להנחיית הטון והסגנון, ולכוונן את הגדרות הבטיחות של Pro.
Gemini Flash: יעילות קלת משקל ויכולות החשיבה של Gemini Flash Thinking
Gemini 2.0 Flash, מסוגל להשתמש בחיפוש Google ובממשקי API חיצוניים אחרים. למרות שהוא קטן יותר, הוא עולה על כמה מהדגמים הגדולים יותר של 1.5 במדדים המודדים קידוד וניתוח תמונות. כנגזרת של Gemini Pro, Flash מיועד ליעילות, ומכוון למשימות AI גנרטיביות צרות ותדירות גבוהה.
גוגל מדגישה את התאמתו של Flash ליישומים כגון סיכום, יישומי צ’אט, כיתוב תמונות ווידאו וחילוץ נתונים ממסמכים וטבלאות ארוכים. בינתיים, Gemini 2.0 Flash-Lite, איטרציה קומפקטית יותר של Flash, עולה על Gemini 1.5 Flash בביצועים תוך שמירה על אותו מחיר ומהירות, על פי גוגל.
בדצמבר של השנה הקודמת, גוגל הציגה גרסה ‘חושבת’ של Gemini 2.0 Flash, שניחנה ביכולות ‘חשיבה’. מודל AI זה לוקח כמה שניות כדי לעבוד אחורה דרך בעיה לפני מתן תשובה, מה שעשוי לשפר את אמינותו.
Gemini Nano: כוח AI במכשיר
Gemini Nano הוא גרסה קומפקטית להפליא של ג’מיני, שנועדה לפעול ישירות על מכשירים תואמים, ומבטלת את הצורך לשלוח משימות לשרת מרוחק. נכון לעכשיו, Nano מפעיל מספר תכונות ב-Pixel 8 Pro, Pixel 8, Pixel 9 Pro, Pixel 9 ו-Samsung Galaxy S24, כולל Summarize in Recorder ו-Smart Reply ב-Gboard.
אפליקציית Recorder, המאפשרת למשתמשים להקליט ולתמלל אודיו, משלבת תכונת סיכום המופעלת על ידי ג’מיני עבור שיחות מוקלטות, ראיונות, מצגות וקטעי אודיו אחרים. סיכומים אלה נוצרים גם ללא חיבור לרשת, ולמען הפרטיות, שום נתונים לא עוזבים את המכשיר של המשתמש במהלך התהליך.
Nano מוצא את מקומו גם ב-Gboard, החלפת המקלדת של גוגל, שם הוא מפעיל את Smart Reply. תכונה זו מציעה תגובות באפליקציות העברת הודעות כמו WhatsApp, ומייעלת שיחות.
איטרציה עתידית של Android אמורה למנף את Nano כדי להתריע בפני משתמשים על הונאות פוטנציאליות במהלך שיחות טלפון. אפליקציית מזג האוויר החדשה בטלפונים של Pixel משתמשת ב-Gemini Nano כדי ליצור דוחות מזג אוויר מותאמים אישית. בנוסף, TalkBack, שירות הנגישות של גוגל, משתמש ב-Nano כדי ליצור תיאורים שמיעתיים של אובייקטים עבור משתמשים עם לקויות ראייה.
Gemini Ultra: ממתין לחזרתו
Gemini Ultra נעדר יחסית מאור הזרקורים בחודשים האחרונים. המודל אינו זמין כעת בתוך אפליקציות ג’מיני, ואינו רשום בדף התמחור של Gemini API של גוגל. עם זאת, זה לא שולל את האפשרות שגוגל תציג מחדש את Ultra בעתיד.
מבנה תמחור עבור דגמי ג’מיני
Gemini 1.5 Pro, 1.5 Flash, 2.0 Flash ו-2.0 Flash-Lite נגישים דרך Gemini API של גוגל לפיתוח יישומים ושירותים. הם פועלים על בסיס תשלום לפי שימוש. התמחור הבסיסי, לא כולל תוספות, נכון ל-22 בפברואר 2025, הוא כדלקמן:
- Gemini 1.5 Pro: $1.25 למיליון אסימוני קלט (עבור הנחיות עד 128K אסימונים) או $2.50 למיליון אסימוני קלט (עבור הנחיות ארוכות מ-128K אסימונים); $5 למיליון אסימוני פלט (עבור הנחיות עד 128K אסימונים) או $10 למיליון אסימוני פלט (עבור הנחיות ארוכות מ-128K אסימונים)
- Gemini 1.5 Flash: 7.5 סנט למיליון אסימוני קלט (עבור הנחיות עד 128K אסימונים), 15 סנט למיליון אסימוני קלט (עבור הנחיות ארוכות מ-128K אסימונים), 30 סנט למיליון אסימוני פלט (עבור הנחיות עד 128K אסימונים), 60 סנט למיליון אסימוני פלט (עבור הנחיות ארוכות מ-128K אסימונים)
- Gemini 2.0 Flash: 10 סנט למיליון אסימוני קלט, 40 סנט למיליון אסימוני פלט. עבור אודיו, 70 סנט למיליון אסימוני קלט.
- Gemini 2.0 Flash-Lite: 7.5 סנט למיליון אסימוני קלט, 30 סנט למיליון אסימוני פלט.
אסימונים מייצגים יחידות משנה מחולקות של נתונים גולמיים, כגון ההברות ‘fan’, ‘tas’ ו-‘tic’ במילה ‘fantastic’. מיליון אסימונים שווים בערך ל-750,000 מילים. ‘קלט’ מתייחס לאסימונים המוזנים למודל, בעוד ש’פלט’ מציין אסימונים שנוצרו על ידי המודל.
התמחור עבור 2.0 Pro טרם הוכרז, ו-Nano נותר בגישה מוקדמת.
הגעתו הפוטנציאלית של ג’מיני לאייפון
האפשרות לשילוב של ג’מיני עם מכשירי אייפון היא אפשרות מובהקת.
אפל ציינה שהיא מנהלת דיונים כדי לנצל פוטנציאלית את ג’מיני ומודלים אחרים של צד שלישי עבור תכונות שונות בתוך חבילת Apple Intelligence שלה. בעקבות מצגת מרכזית ב-WWDC 2024, סגן הנשיא הבכיר של אפל, קרייג פדריגי, אישר תוכניות לשתף פעולה עם מודלים, כולל ג’מיני, אך נמנע מלגלות פרטים נוספים.