צוות מחקר עמוק: סוכני AI מקיפים

הסוכן השני של OpenAI

לפני שלושה שבועות, OpenAI הציגה את Deep Research, הסוכן השני שלה. סוכן זה יכול לחפש במספר אתרי אינטרנט ולהשלים מחקר מקוון מקיף תוך 5-30 דקות, תוך סינתזה של מידע ומתן דוחות מפורטים עם ציטוטים.

מאמר זה אוסף ומארגן ראיון של Sequoia Capital עם עיסא פולפורד וג’וש טובין, המובילים של Deep Research ב-OpenAI. שני החברים חולקים בפירוט את הפרטים הטכניים ואת חשיבת המוצר שמאחורי Deep Research, יחד עם מקרי השימוש שהם צופים בהם כעת.

Deep Research מקורו בחקירה הפנימית של OpenAI לגבי יכולתו של המודל להתמודד עם משימות ארוכות טווח. המטרה ארוכת הטווח של הצוות היא לספק למשתמשים את הסוכן האולטימטיבי בעתיד: פתרון טבעי הכל-באחד לחיפוש באינטרנט, שימוש במחשב או כל משימה אחרת שהם רוצים שהסוכן ישלים.

Deep Research עבר גם אופטימיזציה ספציפית ברמת המוצר. לדוגמה, כפי שהוזכר בניתוח DeepSeek שלנו, Deep Research משפר את אמון המשתמשים באמצעות ציטוטים ברורים ו-Chain-of-Thought (CoT). הצוות תכנן גם זרימת הבהרה כדי להבטיח הבנה עקבית של המשימה. Deep Research עולה על חיפוש AI ו-ChatGPT באחזור וארגון מידע. עם זאת, בשלב זה, Deep Research אינו יעיל באותה מידה בהפקת תובנות חדשות ממידע קיים ועדיין אינו יכול לבצע תגליות מדעיות חדשות.

נקודות עיקריות:

  • OpenAI השיקה את הסוכן השני שלה, Deep Research, המסוגל לבצע חקירות מקוונות יסודיות.
  • יכולות הסוכן נובעות מאימון מקצה לקצה של המודל.
  • Deep Research מצטיין בסינתזה של מידע ובמציאת עובדות נסתרות.
  • מקרי שימוש כוללים עבודה מקצועית, חיים אישיים, תכנות וחינוך.
  • הצוות צופה התקדמות משמעותית עבור סוכנים בשנת 2025.

יכולות הסוכן נובעות מאימון מודל מקצה לקצה

Deep Research הוא סוכן המסוגל לחפש במספר אתרי אינטרנט מקוונים וליצור דוחות מקיפים, תוך השלמת משימות רבות שייקחו לבני אדם שעות. הוא פועל בתוך ChatGPT, ועונה על שאלות תוך כ-5-30 דקות, מה שמאפשר מחקר מעמיק יותר ומספק תשובות מפורטות וספציפיות יותר מאשר ChatGPT רגיל. OpenAI השיקה בעבר את Operator, ו-Deep Research הוא הסוכן השני שלה, עם עוד סוכנים שיבואו.

מקורות

לפני כשנה, OpenAI החלה לאמץ פרדיגמת חשיבה פנימית, במטרה לאמן מודלים לחשוב לפני שהם עונים. גישה זו הוכיחה את עצמה כמוצלחת ביותר.

בתחילה, OpenAI התמקדה במתמטיקה ומדע. עם זאת, הם גילו שארכיטקטורת מודל החשיבה החדשה הזו פתחה גם את היכולת להתמודד עם משימות ארוכות טווח יותר, הכוללות יכולות סוכן.

במקביל, OpenAI זיהתה שמשימות רבות דורשות מחקר מקוון נרחב או הקשר חיצוני, יכולות חשיבה חזקות, הבחנה במקורות מידע ומידה של יצירתיות. בסופו של דבר, OpenAI פיתחה שיטות אימון מודלים המסוגלות להתמודד עם משימות אלו. הם החליטו לאמן מודלים לבצע משימות גלישה, תוך שימוש באותן שיטות כמו לאימון מודלי חשיבה, אך הוחלו על משימות בעולם האמיתי יותר.

פרויקט Deep Research החל בהדגמה מקורית של עיסא פולפורד ויאש פאטיל. ג’וש טובין הצטרף מחדש ל-OpenAI לפני כשישה חודשים לאחר שעבד בסטארט-אפ, התעניין מאוד בעבודת היסוד והצטרף לפרויקט Deep Research.

אנשי מפתח:

  • עיסא פולפורד: חוקרת AI בצוות Post-training של OpenAI, תורמת מרכזית ל-ChatGPT Retrieval Plugin.
  • יאש פאטיל: חבר בצוות המודל המרכזי בצוות Post-training של OpenAI, לאחר שנשר מסטנפורד.
  • ג’וש טובין: בעבר מדען מחקר ב-OpenAI, הקים מאוחר יותר את Gantry (מוצר לשיפור ML באמצעות ניתוח, התראות ומשוב אנושי). הוא הצטרף מחדש ל-OpenAI ומוביל כעת את צוות מחקר המוצר של Agents.

זרימת הבהרה

Deep Research כולל עיצוב ייחודי: זרימת ההבהרה. לפני תחילת המחקר, מודל Deep Research שואל את המשתמש שאלות. בדרך כלל, ChatGPT שואל רק שאלות המשך בסוף תשובה או שואל אם התשובה מספקת, בניגוד ל-Deep Research, העוסק בהתנהגות זו מראש.

זו הייתה בחירה עיצובית מכוונת של הצוות. משתמשים מקבלים את התגובות הטובות ביותר ממודל Deep Research רק כאשר ההנחיות שלהם ברורות ומפורטות מאוד. עם זאת, משתמשים לעתים קרובות אינם מספקים את כל המידע בהנחיה הראשונית שלהם. לכן, OpenAI רצתה להבטיח שאחרי המתנה של 5 או 30 דקות, המשתמשים יקבלו תשובה מפורטת ומספקת מספיק. שלב נוסף זה נוסף כדי להבטיח שהמשתמשים יספקו את כל הפרטים הדרושים למודל.

משתמשים רבים ב-X הזכירו אינטראקציה עם o1 או o1 Pro תחילה כדי לחדד את ההנחיות שלהם. לאחר שהם מרוצים, הם שולחים את ההנחיה ל-Deep Research.

הצורה האולטימטיבית של סוכנים

במהלך החודשים האחרונים, OpenAI השיקה שלוש גרסאות שונות של Deep Research, כולן בשם Deep Research. ג’וש טובין מאמין שבעוד שלכל מוצר יש את החוזקות והחולשות שלו, הבדלי האיכות ביניהם ניכרים. בסופו של דבר, זה נובע מאופן בניית המודלים, המאמץ המושקע בבניית ערכות הנתונים והשימוש במודלים מסדרת O כמנוע. זה מאפשר למודלים של Deep Research להיות מותאמים, וליצור כלים אינטליגנטיים ואיכותיים ביותר.

נכון לעכשיו, Deep Research, O3 ו-Operator עצמאיים יחסית. עם זאת, OpenAI שואפת שלמשתמשים יהיה בסופו של דבר סוכן יחיד ואולטימטיבי שיוכל לבצע חיפושים באינטרנט, להשתמש במחשבים או להשלים משימות רצויות אחרות, תוך שילוב כל הפונקציות הללו בצורה טבעית יותר.

אימון מקצה לקצה הוא הסיבה הבסיסית לעוצמת המודל

המודל הבסיסי של Deep Research הוא גרסה מכווננת של O3. O3 הוא מודל החשיבה המתקדם ביותר של OpenAI, וחלק ניכר מיכולת הניתוח של Deep Research מגיע ממנו. OpenAI אימנה במיוחד את מודל Deep Research על משימות גלישה מורכבות ומשימות חשיבה אחרות. לכן, Deep Research יכול גם להשתמש בכלי גלישה ובכלי Python. באמצעות אימון מקצה לקצה על משימות אלו, Deep Research למד אסטרטגיות להתמודד איתן, ובסופו של דבר גרם למודל להצטיין בניתוח חיפוש מקוון.

באופן אינטואיטיבי, משתמש מבקש בקשה, והמודל חושב עליה תחילה בקפידה. לאחר מכן, הוא מחפש מידע רלוונטי, מחלץ אותו וקורא אותו. לאחר הבנת האופן שבו מידע זה קשור לבקשה, המודל מחליט מה לחפש הלאה כדי להתקרב לתשובה הסופית הרצויה למשתמש. Deep Research יכול לשלב את כל המידע הזה בדוח מסודר, עם ציטוטים המצביעים על המקורות המקוריים.

החידוש שמעניק ל-Deep Research את יכולות הסוכן שלו טמון באימון מקצה לקצה של המודל על ידי OpenAI. משמעות הדבר היא שפעולות רבות במהלך תהליך המחקר אינן ניתנות לחיזוי מראש. אי אפשר להשיג את הגמישות שהמודל משיג באמצעות אימון על ידי כתיבת מודל שפה, תוכנית או סקריפט. באמצעות אימון, מודל Deep Research למד כיצד להגיב למידע אינטרנטי בזמן אמת ולהתאים אסטרטגיות באופן מיידי על סמך מה שהוא רואה. לכן, מודל Deep Research מבצע למעשה חיפושים יצירתיים מאוד. משתמשים יכולים לראות עד כמה המודל אינטליגנטי בהחלטה מה לחפש הלאה או כיצד לעקוף בעיות מסוימות על ידי קריאת הסיכומים של ה-CoT.

הבדלים בין Deep Research לחיפוש AI

לגבי השאלה של ג’ון קוליסון לגבי כמה מיכולתו של Deep Research מגיעה מגישה בזמן אמת לתוכן אינטרנטי וכמה מ-CoT, שני חוקרי OpenAI מאמינים שיכולתו המצטיינת של Deep Research היא תוצאה של שילוב של שניהם.

מוצרי חיפוש AI אחרים אינם מאומנים מקצה לקצה, ולכן הם אינם גמישים בתגובה למידע כמו Deep Research, וגם אינם יצירתיים באותה מידה בפתרון בעיות ספציפיות.

לפני שהצטרף ל-OpenAI, ג’וש טובין עבד בסטארט-אפ וניסה לבנות סוכנים באופן שבו רוב האנשים מתארים בנייתם, בעצם בניית גרף פעולה עם LLMs המתערבים בצמתים מסוימים. בעוד שה-LLM יכול להחליט מה לעשות הלאה, ההיגיון של כל רצף השלבים מוגדר על ידי בני אדם.

ג’וש טובין מצא שזו שיטה רבת עוצמה ליצירת אב טיפוס מהיר, אך היא נתקלה במהירות בבעיות בעולם האמיתי. קשה לחזות את כל המצבים שהמודל עשוי להתמודד איתם ולשקול את כל הענפים השונים של הנתיבים שהוא עשוי לרצות לנקוט. יתר על כן, מכיוון שמודלים אלה אינם מאומנים במיוחד לקבל החלטות, הם לרוב אינם מקבלי ההחלטות הטובים ביותר בצמתים; הם מאומנים לעשות משהו דומה לקבלת החלטות.

זה חוזר ומדגיש שהעוצמה האמיתית של מודל Deep Research מגיעה מאימון ישיר מקצה לקצה, שמטרתו לפתור את המשימות שמשתמשים באמת צריכים לפתור. לכן, אין צורך להגדיר גרף פעולה או לקבל החלטות צומת בארכיטקטורת הרקע; הכל מונע על ידי המודל עצמו.

יתר על כן, אם למשתמש יש זרימת עבודה ספציפית וצפויה מאוד, אז לעשות זאת בדרך שג’וש טובין תיאר לעיל הוא בעל ערך. אבל אם נדרש עיבוד גמיש מאוד, אז גישה דומה ל-Deep Research עשויה להיות הבחירה הטובה ביותר.

ג’וש טובין מציע שחלק מהכללים המחמירים לא צריכים להיות מקודדים קשיחים במודל. אם יש צורך כמו “לא לרצות שהמודל ייגש למסד נתונים מסוים”, עדיף ליישם אותו עם לוגיקה שנכתבה ידנית. אנשים חושבים לעתים קרובות שהם יכולים להיות חכמים יותר מהמודל על ידי כתיבת קוד, אבל במציאות, ככל שהתחום מתפתח, מודלים בדרך כלל מגיעים לפתרונות טובים יותר מבני אדם.

אחד הלקחים החשובים ביותר של למידת מכונה הוא שהתוצאות שאתה מקבל תלויות במה שאתה מבצע אופטימיזציה עבורו. לכן, אם משתמשים יכולים להגדיר מערכת כדי לבצע אופטימיזציה ישירה לתוצאה הרצויה, זה יהיה הרבה יותר טוב מאשר לנסות לחבר יחד מודלים שאינם מתאימים למשימה כולה. לכן, כוונון RL על בסיס המודל הכולל עשוי להפוך לחלק מרכזי בבניית הסוכנים החזקים ביותר.

נתונים באיכות גבוהה הם אחד מגורמי המפתח להצלחת המודל

אחד מגורמי המפתח להצלחת מודל Deep Research הוא בעל ערכת נתונים באיכות גבוהה. איכות הנתונים המוזנים למודל היא ככל הנראה הגורם המרכזי הקובע את איכות המודל. בפרויקט Deep Research, אדוארד סאן מבצע אופטימיזציה של כל ערכות הנתונים.

יתרונות Deep Research

החוזק של Deep Research טמון ביכולתו לספק את התשובות הטובות ביותר כאשר למשתמשים יש תיאור מפורט של צרכיהם. עם זאת, גם אם השאלה של המשתמש מעורפלת, Deep Research יכול להבהיר את המידע הרצוי. הוא החזק ביותר כאשר משתמשים מחפשים קבוצה ספציפית של מידע.

Deep Research לא רק מסוגל לאסוף באופן נרחב את כל המידע על מקור, אלא גם מצטיין במציאת עובדות מאוד נסתרות, כגון תוכן זנב ארוך שלא יופיע בעמודים הראשונים בחיפוש מסורתי, פרטים על פרק ספציפי של תוכנית טלוויזיה לא ברורה, וכן הלאה. בשאלה על גנרל אוסטרי, ChatGPT נתן פעם תשובה שגויה, בעוד ש-Deep Research מצא בהצלחה את התשובה הנכונה.

Deep Research טוב מאוד בסינתזה של מידע, במיוחד במציאת מידע ספציפי שקשה למצוא. עם זאת, Deep Research אינו יעיל באותה מידה בהפקת תובנות חדשות ממידע קיים ועדיין אינו יכול לבצע תגליות מדעיות חדשות.

מקרי שימוש של Deep Research

משתמשי יעד

Deep Research מיועד לכל מי שעוסק בעבודת ידע בחיי היומיום שלו או בעבודתו, במיוחד אלה שצריכים לאסוף כמויות גדולות של מידע, לנתח נתונים ולקבל החלטות. משתמשים רבים מיישמים את Deep Research בעבודתם, כגון במחקר, כדי להבין את המצב בתחומים כמו שווקים, חברות ונדל”ן.

מקרי שימוש

OpenAI מקווה ש-Deep Research יוכל לשרת תרחישים עסקיים ואישיים כאחד, מכיוון שזו למעשה יכולת רב-תכליתית מאוד החלה הן על עבודה והן על חיים אישיים. המשיכה של Deep Research טמונה ביכולתו לחסוך זמן רב. חלק מהמשימות שאולי היו לוקחות שעות או אפילו ימים יכולות כעת לקבל מענה של 90% עם Deep Research. OpenAI מאמינה שיהיו משימות דומות יותר בתרחישים עסקיים, אבל Deep Research יהפוך גם לחלק מחייהם האישיים של אנשים.

Deep Research אינו עוסק בהחלפת כוח העבודה. עבור עבודת ידע, במיוחד משימות הדורשות זמן רב כדי למצוא מידע ולהסיק מסקנות, Deep Research יעצים אנשים עם כוחות על, ויאפשר למשימות שאולי היו לוקחות 4 או 8 שעות להסתיים תוך 5 דקות, ויאפשר למשתמשים להשיג יותר.

הראיון הזכיר מקרי שימוש הכוללים: רפואה, השקעות ותרחישי עבודה מקצועיים אחרים; קניות, נסיעות ותרחישי משפחה אחרים; תכנות וחינוך מותאם אישית.

  • רפואה, השקעות ותרחישי עבודה מקצועיים אחרים

    ברפואה, Deep Research יכול לעזור למצוא את כל הספרות או המקרים האחרונים של מחלה מסוימת, ובכך לחסוך זמן.

    בהשקעות, בעזרת Deep Research, משקיעים יכולים לבחור לחקור כל סטארט-אפ פוטנציאלי שהם עשויים להשקיע בו, לא רק את אלה שיש להם זמן להיפגש איתם.

    בתפעול החברה, משתמש ששוקל להקים חברת מוצרי צריכה השתמש רבות ב-Deep Research כדי לקבוע אם שמות מותגים ספציפיים כבר נרשמו, אם שמות דומיין תפוסים, גודל שוק ומידע רב אחר.

  • קניות, נסיעות ותרחישי משפחה אחרים

    משתמש ששוקל לקנות מכונית חדשה רצה לדעת מתי הדגם הבא ישוחרר. היו הרבה מאמרים ספקולטיביים באינטרנט, אז המשתמש ביקש מ-Deep Research לאסוף את כל השמועות הרלוונטיות. Deep Research הפיק דוח מצוין, והודיע למשתמש שמכונית חדשה עשויה לצאת בחודשים הקרובים.

    כאשר Deep Research הושק ביפן, משתמשים מצאו שזה מאוד מועיל במציאת מסעדות העונות על דרישות ספציפיות ויכול גם לעזור למשתמשים לגלות דברים שאולי לא היו מוצאים אחרת.

    כאשר משתמשים צריכים לרכוש פריט יקר, לתכנן טיול מיוחד או להשקיע זמן רב בחשיבה על בעיה, הם עשויים לבלות שעות באינטרנט בחיפוש אחר מידע רלוונטי, גלישה בכל הביקורות וכו’. Deep Research יכול לארגן במהירות מידע זה, ליצור דוח סיכום ולספק עצות מפורטות ומותאמות אישית.

    אמהות עובדות עסוקות לעתים קרובות אין להן זמן לתכנן מסיבות יום הולדת לילדיהן, אבל עכשיו הן יכולות לעשות זאת במהירות בעזרת Deep Research.

    Deep Research מצוין גם במעקב אחר הוראות. אם משתמשים לא רק רוצים לדעת על מוצר אלא גם רוצים להשוות אותו לכל שאר המוצרים, או אפילו רוצים לראות ביקורות מאתרים כמו Reddit, הם יכולים לבקש בקשות רבות ושונות מ-Deep Research, והוא ישלים את המשימות האלה בבת אחת. משתמשים יכולים גם לבקש מ-Deep Research לשים את המידע בטבלה.

  • תכנות

    אנשים רבים משתמשים ב-Deep Research לתכנות. תרחיש זה לא נחשב בתחילה על ידי OpenAI, אבל אנשים רבים משתמשים בו כדי לכתוב קוד, לחפש קוד, אפילו למצוא את התיעוד העדכני ביותר עבור חבילה, או לכתוב סקריפטים, עם תוצאות מרשימות.

  • חינוך

    חינוך מותאם אישית הוא תרחיש יישום מעניין מאוד. אם למשתמשים יש נושא שהם רוצים ללמוד, כגון סקירת ביולוגיה או הבנת אירועים אקטואליים, הם צריכים רק לספק את החלקים שהם לא מבינים או את המידע שהם רוצים להתעמק בו, ו-Deep Research יכול לאסוף דוח מפורט. אולי בעתיד, ניתן יהיה לספק חינוך מותאם אישית על סמך מה ש-Deep Research לומד על המשתמש.

סוכנים יופיעו בשנת 2025

כיווני פיתוח עתידיים עבור Deep Research

מבחינת צורת המוצר, OpenAI מקווה ש-Deep Research יוכל להטמיע תמונות בעתיד, למצוא תמונות של מוצרים, ליצור תרשימים ולהטמיע תרשימים אלה בתשובות.

מבחינת מקורות מידע, OpenAI מקווה להרחיב את מקורות הנתונים שהמודל יכול לגשת אליהם. הם מקווים שהמודל יוכל לחפש נתונים פרטיים בעתיד. OpenAI תשפר עוד יותר את יכולות המודל, ותהפוך אותו לטוב יותר בגלישה ובניתוח.

מבחינת דיוק המידע, כדי לאפשר למשתמשים לסמוך על הפלט של Deep Research, משתמשים יכולים לראות את מקורות המידע המצוטטים על ידי המודל. במהלך תהליך אימון המודל, OpenAI גם שואפת להבטיח את נכונות הציטוטים, אך המודל עדיין עשוי לעשות טעויות, להזות, או אפילו לסמוך על מקור שאולי אינו האמין ביותר. לכן, זהו תחום ש-OpenAI מקווה להמשיך ולשפר.

כדי להשתלב באופן נרחב יותר במפת הדרכים של OpenAI Agent, OpenAI מקווה שניתן יהיה להרחיב את Deep Research לתרחישי יישומים רבים ושונים, תוך שילוב מודלי החשיבה המתקדמים ביותר עם כלים שבני אדם יכולים להשתמש בהם כדי להשלים משימות עבודה או חיי יומיום, ולאחר מכן לבצע אופטימיזציה ישירה של המודל כדי להשיג את התוצאות שמשתמשים רוצים שהסוכן ישיג.

בשלב זה, למעשה אין שום דבר שעוצר את Deep Research מלהתרחב לתרחישי משימות מורכבים יותר. AGI הוא כעת נושא תפעולי, ויהיו התפתחויות מרגשות רבות לצפות להן בעתיד.

סם אלטמן מאמין שהמשימות ש-Deep Research יכול להשלים יהוו אחוזים בודדים מכל המשימות הכלכליות בעולם. ג’וש טובין מאמין ש-Deep Research לא יכול לעשות את כל העבודה עבור משתמשים, אבל הוא יכול לחסוך למשתמשים מספר שעות או אפילו ימים. OpenAI מקווה שמטרה קרובה יחסית היא ש-Deep Research והסוכנים שייבנו בהמשך, כמו גם סוכנים אחרים שייבנו על בסיס זה, יחסכו למשתמשים 1%, 5%, 10% או 25% מזמנם, בהתאם לסוג העבודה שהם עושים.

סוכן & RL

עיסא פולפורד וג’וש טובין מסכימים שסוכנים יופיעו השנה.

RL חוותה שיא, ואז נראה שהייתה לה קצת שפל, וכעת היא זוכה שוב לתשומת לב. ליאן לקון היה פעם אנלוגיה: אם אנשים מכינים עוגה, רובה יהיה עוגה, יהיה קצת ציפוי, ולבסוף כמה דובדבנים למעלה. למידה לא מפוקחת היא כמו העוגה, למידה מפוקחת היא הציפוי, ו-RL הוא הדובדבן.

ג’וש טובין מאמין שכאשר עושים RL בשנים 2015-2016, תוך שימוש באנלוגיית העוגה, זה אולי היה ניסיון להוסיף את הדובדבן בלי העוגה. אבל עכשיו, יש מודלי שפה שאומנו מראש על כמויות גדולות של נתונים, מודלים אלה חזקים מאוד, ואנחנו יודעים כיצד לבצע כוונון עדין מפוקח על מודלי שפה אלה כדי להפוך אותם לטובים בביצוע הוראות ובעשיית מה שאנשים רוצים. עכשיו הכל עובד טוב מאוד, וזה מתאים מאוד להתאים את המודלים האלה בהתאם לפונקציות תגמול המוגדרות על ידי המשתמש עבור כל מקרה שימוש.