ההפיכה השקטה של אנתרופיק: קלוד 3.7

Claude 3.7 Sonnet: אמת מידה חדשה ביכולת קידוד

השחרור האחרון של Claude 3.7 Sonnet, לפני שבועיים בלבד, משמש כהוכחה משכנעת. איטרציה אחרונה זו ניפצה שיאי ביצועים קיימים עבור ביצועי קידוד. במקביל, Anthropic חשפה את Claude Code, סוכן AI בשורת הפקודה שנועד לזרז פיתוח יישומים עבור מתכנתים. בנוסף למומנטום הזה, Cursor, עורך קוד מופעל בינה מלאכותית שברירת המחדל שלו היא המודל Claude של Anthropic, עלה על פי הדיווחים ל-100 מיליון דולר בהכנסות שנתיות חוזרות תוך 12 חודשים בלבד.

הדגש המכוון של Anthropic על קידוד עולה בקנה אחד עם ההכרה הגוברת בקרב ארגונים בפוטנציאל הטרנספורמטיבי של סוכני קידוד בינה מלאכותית. סוכנים אלה מעצימים הן מפתחים מנוסים והן אנשים ללא מומחיות בקידוד ליצור יישומים במהירות וביעילות חסרות תקדים. כפי שגיירמו ראוך, מנכ”ל Vercel, חברה המתרחבת במהירות המאפשרת למפתחים (כולל לא-קודנים) לפרוס יישומי front-end, הצהיר כהלכה, ‘Anthropic ממשיכה לצאת בראש’. ההחלטה של Vercel בשנה שעברה להחליף את מודל הקידוד העיקרי שלה מ-GPT של OpenAI ל-Claude של Anthropic, בעקבות הערכה יסודית של ביצועיהם במשימות קידוד חיוניות, מדגישה נקודה זו.

Claude 3.7 Sonnet, שהושק ב-24 בפברואר, הוביל באופן מובהק כמעט בכל מדדי הקידוד. הוא השיג 70.3% מרשימים במדד SWE-bench המוערך מאוד, מדד ליכולות פיתוח התוכנה של סוכן. ציון זה עולה באופן משמעותי על אלה של המתחרים הקרובים ביותר שלו, o1 של OpenAI (48.9%) ו-DeepSeek-R1 (49.2%). יתר על כן, Claude 3.7 מציג ביצועים מעולים במשימות סוכנותיות.

תוצאות אמת מידה אלו אומתו במהירות על ידי קהילות מפתחים באמצעות בדיקות בעולם האמיתי. דיונים מקוונים, במיוחד בפלטפורמות כמו Reddit, המשווים את Claude 3.7 עם Grok 3 (המודל האחרון מ-xAI של אילון מאסק), מעדיפים בעקביות את המודל של Anthropic למשימות קידוד. מגיב מוביל סיכם את הסנטימנט: ‘בהתבסס על מה שבדקתי, נראה ש-Claude 3.7 הוא הטוב ביותר לכתיבת קוד (לפחות עבורי)’. חשוב מאוד לציין שאפילו Manus, הסוכן הרב-תכליתי הסיני החדש שכבש את העולם בסערה מוקדם יותר השבוע, ואמר שהוא טוב יותר מ-Deep Research של Open AI וממשימות אוטונומיות אחרות, נבנה במידה רבה על Claude.

מיקוד אסטרטגי: המהלך הארגוני של Anthropic

ההתמקדות הבלתי מעורערת של Anthropic ביכולות קידוד רחוקה מלהיות מקרית. תחזיות שדלפו שדווחו על ידי The Information מצביעות על כך ש-Anthropic מכוונת להכנסות מדהימות של 34.5 מיליארד דולר עד 2027. זה מייצג עלייה של פי 86 מהרמות הנוכחיות שלה. חלק ניכר (כ-67%) מהכנסות צפויות אלו צפוי לנבוע מעסקי ה-API, כאשר יישומי קידוד ארגוניים משמשים כמנוע הצמיחה העיקרי. בעוד ש-Anthropic לא חשפה נתוני הכנסות מדויקים, היא דיווחה על עלייה מדהימה של 1,000% בהכנסות מקידוד במהלך הרבעון האחרון של 2024. בנוסף למומנטום פיננסי זה, Anthropic הודיעה לאחרונה על סבב גיוס של 3.5 מיליארד דולר, המעריך את החברה ב-61.5 מיליארד דולר מרשימים.

אסטרטגיה ממוקדת קידוד זו עולה בקנה אחד עם ממצאי מדד הכלכלה של Anthropic עצמה. המדד חשף כי 37.2% משמעותיים מהשאילתות המופנות לקלוד נכללו בקטגוריית ‘מחשב ומתמטיקה’. שאילתות אלו כללו בעיקר משימות הנדסת תוכנה כגון שינוי קוד, איתור באגים ופתרון בעיות ברשת.

הגישה של Anthropic בולטת בנוף התחרותי, שבו יריבות נתפסות לעתים קרובות במערבולת של פעילות, בניסיון לתת מענה הן לשווקים הארגוניים והן לשווקים הצרכניים עם מגוון רחב של תכונות. OpenAI, תוך שמירה על יתרון חזק בשל ההכרה והאימוץ המוקדמים שלה בקרב צרכנים, מתמודדת עם האתגר של שירות משתמשים רגילים ועסקים עם מגוון רחב של מודלים ופונקציונליות. Google, באופן דומה, נוקטת באסטרטגיה של הצעת פורטפוליו מוצרים רחב היקף.

הגישה הממושמעת יחסית של Anthropic משתקפת גם בהחלטות המוצר שלה. במקום לרדוף אחרי נתח שוק צרכני, החברה תעדפה תכונות ברמה ארגונית כגון שילוב GitHub, יומני ביקורת, הרשאות הניתנות להתאמה אישית ובקרות אבטחה ספציפיות לתחום. לפני שישה חודשים, היא הציגה חלון הקשר עצום של 500,000 אסימונים למפתחים, בניגוד מוחלט להחלטה של Google להגביל את חלון 1 מיליון האסימונים שלה לבוחנים פרטיים. מיקוד אסטרטגי זה הביא להצעה מקיפה וממוקדת קידוד, המהדהדת יותר ויותר עם ארגונים.

ההצגה האחרונה של החברה של תכונות המאפשרות ללא-קודנים לפרסם יישומים שנוצרו על ידי בינה מלאכותית בתוך הארגונים שלהם, יחד עם שדרוג הקונסולה בשבוע שעבר הכולל יכולות שיתוף פעולה משופרות (כולל הנחיות ותבניות הניתנות לשיתוף), מדגימה עוד יותר מגמה זו. דמוקרטיזציה זו משקפת אסטרטגיית ‘סוס טרויאני’: העצמת מפתחים בתחילה לבנות יסודות חזקים, ולאחר מכן הרחבת הגישה לכוח העבודה הארגוני הרחב יותר, ובסופו של דבר הגעה לסוויטה הארגונית.

התנסות מעשית עם Claude: ניסוי מעשי

כדי להעריך את היכולות בעולם האמיתי של סוכני קידוד אלה, נערך ניסוי מעשי, תוך התמקדות בבניית מסד נתונים לאחסון מאמרים. נעשה שימוש בשלוש גישות נפרדות: Claude 3.7 Sonnet דרך האפליקציה של Anthropic, סוכן הקידוד של Cursor ו-Claude Code.

באמצעות Claude 3.7 ישירות דרך האפליקציה של Anthropic, ההדרכה שניתנה הייתה מעמיקה להפליא, במיוחד עבור מישהו ללא ניסיון רב בקידוד. המודל הציג מספר אפשרויות, החל מפתרונות חזקים המשתמשים במסדי נתונים של PostgreSQL ועד לחלופות קלות משקל יותר כמו Airtable. בבחירה בפתרון קל המשקל, Claude הדריך באופן שיטתי את תהליך חילוץ המאמרים מ-API ושילובם ב-Airtable באמצעות שירות מחבר. בעוד שהתהליך ארך כשעתיים, בעיקר עקב אתגרי אימות, הוא הגיע לשיאו במערכת פונקציונלית. בעיקרו של דבר, במקום לכתוב באופן אוטונומי את כל הקוד, Claude סיפק תוכנית מקיפה להשגת התוצאה הרצויה.

Cursor, עם הסתמכותו המוגדרת כברירת מחדל על המודלים של Claude, הציג חוויית עורך קוד מלאה והפגין נטייה גדולה יותר לאוטומציה. עם זאת, הוא דרש אישור בכל שלב, וכתוצאה מכך זרימת עבודה איטרטיבית במקצת.

Claude Code הציע גישה שונה, הפועלת ישירות בתוך הטרמינל ומשתמשת ב-SQLite כדי ליצור מסד נתונים מקומי המאוכלס במאמרים מ-RSS feed. פתרון זה התגלה כפשוט ואמין יותר בהשגת המטרה הסופית, אם כי פחות חזק ועשיר בתכונות בהשוואה ליישום Airtable. זה מדגיש את הפשרות המובנות הכרוכות בכך ומדגיש את החשיבות של בחירת סוכן קידוד בהתבסס על דרישות הפרויקט הספציפיות.

המסקנה העיקרית מניסוי זה היא שאפילו כלא-מפתח, ניתן היה לבנות יישומי מסד נתונים פונקציונליים באמצעות כל שלוש הגישות. זה היה כמעט בלתי נתפס לפני שנה בלבד. ו, יש לציין, כל שלוש הגישות הסתמכו על היכולות הבסיסיות של Claude.

מערכת האקולוגית של סוכני הקידוד: Cursor ומעבר

אולי האינדיקטור המשכנע ביותר להצלחה של Anthropic הוא הצמיחה הפנומנלית של Cursor, עורך קוד בינה מלאכותית. דיווחים מצביעים על כך ש-Cursor צבר 360,000 משתמשים, כאשר למעלה מ-40,000 מהם הם לקוחות משלמים, תוך 12 חודשים בלבד. מסלול צמיחה מהיר זה ממצב את Cursor כחברת SaaS המהירה ביותר שהגיעה לאבן דרך זו.

ההצלחה של Cursor קשורה באופן מהותי ל-Claude. כפי שסם וויטווין, מייסד שותף של Red Dragon (מפתח עצמאי של סוכני בינה מלאכותית), ציין, ‘אתה צריך לחשוב שהלקוח מספר אחת שלהם הוא Cursor. רוב האנשים ב-[Cursor] השתמשו במודל Claude Sonnet - מודלי 3.5 - כבר. ועכשיו נראה שכולם פשוט עוברים ל-3.7’.

היחסים בין Anthropic לבין המערכת האקולוגית שלה חורגים מחברות בודדות כמו Cursor. בנובמבר, Anthropic הציגה את Model Context Protocol (MCP) שלה כסטנדרט פתוח, המאפשר למפתחים לבנות כלים המקיימים אינטראקציה חלקה עם מודלי Claude. תקן זה זכה לאימוץ נרחב בקהילת המפתחים.

וויטווין הסביר את המשמעות של גישה זו: ‘על ידי השקת זה כפרוטוקול פתוח, הם כאילו אומרים, ‘היי, כולם, תהנו. אתם יכולים לפתח כל מה שתרצו שמתאים לפרוטוקול הזה. אנחנו הולכים לתמוך בפרוטוקול הזה’’.

אסטרטגיה זו יוצרת מעגל קסמים: מפתחים בונים כלים במיוחד עבור Claude, ומשפרים את הצעת הערך שלו עבור ארגונים, אשר בתורו מניע אימוץ נוסף ומושך מפתחיםנוספים.

הנוף התחרותי: Microsoft, OpenAI, Google וקוד פתוח

בעוד ש-Anthropic גילפה לעצמה נישה עם הגישה הממוקדת שלה, המתחרים נוקטים באסטרטגיות מגוונות עם דרגות הצלחה שונות.

Microsoft שומרת על דריסת רגל חזקה באמצעות GitHub Copilot שלה, המתגאה ב-1.3 מיליון משתמשים משלמים ואימוץ על ידי למעלה מ-77,000 ארגונים תוך כשנתיים. חברות בולטות כגון Honeywell, State Street, TD Bank Group ו-Levi’s נמנות עם משתמשיה. אימוץ נרחב זה מיוחס במידה רבה ליחסי הארגון הקיימים של Microsoft וליתרון המהלך הראשון שלה, הנובע מהשקעתה המוקדמת ב-OpenAI והשימוש במודלים של OpenAI להפעלת Copilot.

עם זאת, אפילו Microsoft הכירה בחוזקות של Anthropic. באוקטובר, היא אפשרה למשתמשי GitHub Copilot לבחור במודלים של Anthropic כחלופה להצעות של OpenAI. יתר על כן, המודלים האחרונים של OpenAI, o1 וה-o3 החדש יותר (המדגישים חשיבה באמצעות חשיבה מורחבת), לא הוכיחו יתרונות מיוחדים בקידוד או במשימות סוכנותיות.

Google עשתה מהלך משלה על ידי הצעת Code Assist שלה בחינם לאחרונה, אך נראה שזה יותר תמרון הגנתי ולא יוזמה אסטרטגית.

תנועת הקוד הפתוח מייצגת כוח משמעותי נוסף בנוף זה. מודלי Llama של Meta זכו למשיכה ארגונית משמעותית, כאשר חברות גדולות כמו AT&T, DoorDash ו-Goldman Sachs פורסות מודלים מבוססי Llama עבור יישומים שונים. גישת הקוד הפתוח מספקת לארגונים שליטה רבה יותר, אפשרויות התאמה אישית ויתרונות עלות שמודלים סגורים לרוב אינם יכולים להשתוות להם.

במקום לראות בכך איום ישיר, נראה ש-Anthropic ממצבת את עצמה כמשלימה לקוד פתוח. לקוחות ארגוניים יכולים למנף את Claude בשילוב עם מודלים של קוד פתוח בהתאם לדרישות הספציפיות שלהם, תוך אימוץ גישה היברידית הממקסמת את החוזקות של כל אחד מהם.

למעשה, חברות ארגוניות רבות בקנה מידה גדול אימצו גישה רב-מודאלית, תוך שימוש בכל מודל המתאים ביותר למשימה נתונה. Intuit, למשל, הסתמכה בתחילה על OpenAI כברירת המחדל עבור יישומי החזרי המס שלה, אך עברה לאחר מכן ל-Claude בשל ביצועיו המעולים בתרחישים מסוימים. ניסיון זה הוביל את Intuit לפתח מסגרת תזמור בינה מלאכותית שאפשרה מעבר חלק בין מודלים.

רוב החברות הארגוניות האחרות אימצו מאז נוהג דומה, תוך שימוש במודל המתאים ביותר לכל מקרה שימוש ספציפי, ולעתים קרובות שילוב מודלים באמצעות קריאות API פשוטות. בעוד שמודל קוד פתוח כמו Llama עשוי להתאים במקרים מסוימים, Claude הוא לעתים קרובות הבחירה המועדפת עבור משימות הדורשות דיוק גבוה, כגון חישובים.

השלכות ארגוניות: ניווט במעבר לסוכני קידוד

עבור מקבלי החלטות ארגוניים, נוף זה המתפתח במהירות מציג הן הזדמנויות והן אתגרים.

אבטחה נותרה דאגה עליונה, אך דו’ח עצמאי שפורסם לאחרונה זיהה את Claude 3.7 Sonnet כמודל המאובטח ביותר עד כה, בהיותו היחיד שנבדק שהוכח כ’עמיד בפני פריצה’. עמדת אבטחה זו, בשילוב עם הגיבוי של Anthropic הן מ-Google והן מ-Amazon (ושילוב ב-AWS Bedrock), ממצבת אותה בצורה חיובית לאימוץ ארגוני.

ההתפשטות של סוכני קידוד לא רק משנה את האופן שבו יישומים מפותחים; היא מדמקרטת את התהליך. על פי GitHub, 92% משמעותיים מהמפתחים בארה’ב בחברות ארגוניות כבר השתמשו בכלי קידוד המופעלים על ידי בינה מלאכותית בעבודה לפני 18 חודשים. סביר להניח שנתון זה גדל באופן משמעותי מאז.

וויטווין הדגיש את גישור הפער בין חברי צוות טכניים ולא טכניים: ‘האתגר שאנשים מתמודדים איתו [בגלל] אי היותם קודנים הוא באמת שהם לא מכירים הרבה מהטרמינולוגיה. הם לא מכירים שיטות עבודה מומלצות’. סוכני קידוד בינה מלאכותית מתמודדים יותר ויותר עם אתגר זה, ומאפשרים שיתוף פעולה יעיל יותר.

עבור אימוץ ארגוני, וויטווין תומך בגישה מאוזנת: ‘זה האיזון בין אבטחה לניסויים כרגע. ברור שבצד המפתחים, אנשים מתחילים לבנות אפליקציות אמיתיות עם הדברים האלה’.

הופעתם של סוכני קידוד בינה מלאכותית מסמלת שינוי מהותי בפיתוח תוכנה ארגונית. כאשר כלים אלה נפרסים ביעילות, הם אינם מחליפים מפתחים אלא משנים את תפקידיהם, ומאפשרים להם להתרכז בארכיטקטורה ובחדשנות ולא בפרטי יישום.

הגישה הממושמעת של Anthropic, המתמקדת ספציפית ביכולות קידוד בעוד המתחרים רודפים אחר סדרי עדיפויות מרובים, נראית כמניבה יתרונות משמעותיים. עד סוף 2025, תקופה זו עשויה להיראות בדיעבד כרגע המכריע שבו סוכני קידוד בינה מלאכותית הפכו לכלים ארגוניים חיוניים, כאשר Claude מוביל את המהלך.

עבור מקבלי החלטות טכניים, הציווי ברור: התחילו להתנסות בכלים אלה באופן מיידי או הסתכנו בפיגור אחר מתחרים שכבר ממנפים אותם כדי להאיץ באופן דרמטי את מחזורי הפיתוח. מצב זה משקף את הימים הראשונים של מהפכת האייפון, שבה חברות ניסו בתחילה להגביל מכשירים ‘לא מורשים’ מהרשתות הארגוניות שלהן, רק כדי לאמץ בסופו של דבר מדיניות BYOD ככל שדרישת העובדים הפכה למכריעה. חברות מסוימות, כמו Honeywell, ניסו לאחרונה באופן דומה לסגור שימוש ‘סורר’ בכלי קידוד בינה מלאכותית שלא אושרו על ידי IT.

חברות חכמות כבר מקימות סביבות ארגז חול מאובטחות כדי לאפשר ניסויים מבוקרים. ארגונים שיקבעו מעקות בטיחות ברורים תוך טיפוח חדשנות יקצרו את היתרונות הן מהתלהבות העובדים והן מתובנות לגבי האופן שבו כלים אלה יכולים לשרת בצורה הטובה ביותר את הצרכים הייחודיים שלהם, וימצבו את עצמם לפני מתחרים המתנגדים לשינוי. ו-Claude של Anthropic, לפחות לעת עתה, הוא המרוויח העיקרי מתנועה טרנספורמטיבית זו.