Claude 3.7 Sonnet: معیاری جدید در توانایی کدنویسی
عرضه اخیر Claude 3.7 Sonnet، تنها دو هفته پیش، به عنوان شاهدی قانع کننده عمل می کند. این نسخه اخیر، رکوردهای موجود در بنچمارک های عملکرد کدنویسی را شکسته است. همزمان، Anthropic از Claude Code رونمایی کرد، یک عامل هوش مصنوعی خط فرمان که برای تسریع توسعه برنامه برای برنامه نویسان طراحی شده است. علاوه بر این، Cursor، یک ویرایشگر کد مجهز به هوش مصنوعی که به طور پیش فرض از مدل Claude آنتروپیک استفاده می کند، طبق گزارش ها، در عرض 12 ماه به درآمد سالانه تکراری 100 میلیون دلاری رسیده است.
تاکید عمدی Anthropic بر کدنویسی همزمان با شناخت روزافزون شرکت ها از پتانسیل تحول آفرین عوامل کدنویسی هوش مصنوعی است. این عوامل هم به توسعه دهندگان با تجربه و هم به افرادی که فاقد تخصص کدنویسی هستند، قدرت می دهند تا برنامه هایی را با سرعت و کارایی بی سابقه ای ایجاد کنند. همانطور که گیلرمو راوش، مدیر عامل Vercel، شرکتی که به سرعت در حال گسترش است و توسعه دهندگان (از جمله غیر کدنویسان) را قادر می سازد تا برنامه های front-end را مستقر کنند، به درستی بیان کرد: ‘Anthropic همچنان در صدر قرار دارد.’ تصمیم Vercel در سال گذشته برای تغییر مدل کدنویسی اصلی خود از GPT اوپنایآی به Claude آنتروپیک، پس از ارزیابی دقیق عملکرد آنها در وظایف کدنویسی حیاتی، بر این نکته تاکید می کند.
Claude 3.7 Sonnet که در 24 فوریه راه اندازی شد، به طور آشکار در تقریباً تمام معیارهای کدنویسی پیشتاز بوده است. این مدل به امتیاز قابل توجه 70.3٪ در بنچمارک SWE-bench که معیاری برای قابلیت های توسعه نرم افزار یک عامل است، دست یافت. این امتیاز به طور قابل توجهی از نزدیکترین رقبای خود، o1 اوپنایآی (48.9٪) و DeepSeek-R1 (49.2٪) بالاتر است. علاوه بر این، Claude 3.7 عملکرد برتری را در وظایف عاملی نشان می دهد.
این نتایج بنچمارک به سرعت توسط جوامع توسعه دهنده از طریق آزمایش های دنیای واقعی تایید شده است. بحث های آنلاین، به ویژه در پلتفرم هایی مانند Reddit، که Claude 3.7 را با Grok 3 (آخرین مدل xAI ایلان ماسک) مقایسه می کنند، به طور مداوم مدل Anthropic را برای وظایف کدنویسی ترجیح می دهند. یک مفسر برتر این احساس را خلاصه کرد: ‘بر اساس آنچه من آزمایش کرده ام، به نظر می رسد Claude 3.7 بهترین گزینه برای نوشتن کد باشد (حداقل برای من).’ بسیار مهم است که خاطرنشان کنیم که حتی Manus، عامل چند منظوره جدید چینی که اوایل این هفته دنیا را طوفانی کرد، گفت که بهتر از Deep Research اوپنایآی و سایر وظایف مستقل است، عمدتاً بر اساس Claude ساخته شده است.
تمرکز استراتژیک: بازی سازمانی Anthropic
تمرکز تزلزل ناپذیر Anthropic بر قابلیت های کدنویسی به هیچ وجه تصادفی نیست. پیش بینی های فاش شده که توسط The Information گزارش شده است، نشان می دهد که Anthropic قصد دارد تا سال 2027 به درآمد خیره کننده 34.5 میلیارد دلاری دست یابد. این رقم نشان دهنده افزایش 86 برابری نسبت به سطوح فعلی آن است. انتظار می رود بخش قابل توجهی (تقریباً 67٪) از این درآمد پیش بینی شده از کسب و کار API حاصل شود و برنامه های کدنویسی سازمانی به عنوان موتور اصلی رشد عمل کنند. در حالی که Anthropic ارقام دقیق درآمد را فاش نکرده است، افزایش چشمگیر 1000 درصدی درآمد کدنویسی را در سه ماهه آخر سال 2024 گزارش کرده است. علاوه بر این، Anthropic اخیراً یک دور سرمایه گذاری 3.5 میلیارد دلاری را اعلام کرد که ارزش این شرکت را به 61.5 میلیارد دلار رساند.
این استراتژی متمرکز بر کدنویسی با یافته های شاخص اقتصادی خود Anthropic مطابقت دارد. این شاخص نشان داد که 37.2 درصد از پرس و جوهای ارسالی به Claude در دسته ‘کامپیوتر و ریاضی’ قرار می گیرند. این پرس و جوها عمدتاً شامل وظایف مهندسی نرم افزار مانند اصلاح کد، اشکال زدایی و عیب یابی شبکه می شود.
رویکرد Anthropic در میان چشم انداز رقابتی برجسته است، جایی که رقبا اغلب در گردبادی از فعالیت گرفتار می شوند و تلاش می کنند تا با طیف گسترده ای از ویژگی ها، هم به بازارهای سازمانی و هم به بازارهای مصرف کننده پاسخ دهند. OpenAI، در حالی که به دلیل شناخت و پذیرش اولیه مصرف کننده، پیشتاز است، با چالش ارائه خدمات به کاربران عادی و مشاغل با مجموعه ای متنوع از مدل ها و قابلیت ها روبرو است. گوگل نیز به طور مشابه، استراتژی ارائه مجموعه محصولات گسترده ای را دنبال می کند.
رویکرد نسبتاً منظم Anthropic در تصمیمات محصول آن نیز منعکس شده است. این شرکت به جای دنبال کردن سهم بازار مصرف کننده، ویژگی های درجه سازمانی مانند ادغام GitHub، گزارش های حسابرسی، مجوزهای قابل تنظیم و کنترل های امنیتی خاص دامنه را در اولویت قرار داده است. شش ماه قبل، یک پنجره متنی عظیم 500000 توکنی را برای توسعه دهندگان معرفی کرد، که در تضاد کامل با تصمیم گوگل برای محدود کردن پنجره 1 میلیون توکنی خود به آزمایش کنندگان خصوصی است. این تمرکز استراتژیک منجر به ارائه ای جامع و متمرکز بر کدنویسی شده است که به طور فزاینده ای با شرکت ها طنین انداز می شود.
معرفی اخیر ویژگی هایی که به غیر کدنویسان امکان می دهد برنامه های تولید شده توسط هوش مصنوعی را در سازمان های خود منتشر کنند، همراه با ارتقاء کنسول هفته گذشته که دارای قابلیت های همکاری پیشرفته (از جمله اعلان ها و الگوهای قابل اشتراک گذاری) است، نمونه دیگری از این روند است. این دموکراتیزه کردن نشان دهنده یک استراتژی ‘اسب تروا’ است: در ابتدا توانمندسازی توسعه دهندگان برای ایجاد پایه های قوی، و سپس گسترش دسترسی به نیروی کار سازمانی گسترده تر، و در نهایت رسیدن به مجموعه شرکت.
آزمایش عملی با Claude: یک آزمایش کاربردی
برای ارزیابی قابلیت های دنیای واقعی این عوامل کدنویسی، یک آزمایش عملی انجام شد که بر ساخت پایگاه داده ای برای ذخیره مقالات متمرکز بود. سه رویکرد مجزا به کار گرفته شد: Claude 3.7 Sonnet از طریق برنامه Anthropic، عامل کدنویسی Cursor و Claude Code.
با استفاده از Claude 3.7 به طور مستقیم از طریق برنامه Anthropic، راهنمایی ارائه شده به طرز چشمگیری روشنگر بود، به ویژه برای کسی که تجربه کدنویسی گسترده ای ندارد. این مدل چندین گزینه را ارائه کرد، از راه حل های قوی با استفاده از پایگاه داده های PostgreSQL تا جایگزین های سبک تر مانند Airtable. با انتخاب راه حل سبک، Claude به طور روشمند فرآیند استخراج مقالات از یک API و ادغام آنها در Airtable را با استفاده از یک سرویس اتصال دهنده راهنمایی کرد. در حالی که این فرآیند تقریباً دو ساعت طول کشید، عمدتاً به دلیل چالش های احراز هویت، اما در نهایت به یک سیستم کاربردی منجر شد. در اصل، به جای نوشتن خودکار تمام کد، Claude یک طرح جامع برای دستیابی به نتیجه مطلوب ارائه کرد.
Cursor، با اتکای پیش فرض خود به مدل های Claude، یک تجربه ویرایشگر کد کامل را ارائه داد و تمایل بیشتری به اتوماسیون نشان داد. با این حال، در هر مرحله به مجوز نیاز داشت، که منجر به یک گردش کار تا حدودی تکراری شد.
Claude Code رویکرد متفاوتی را ارائه کرد، که مستقیماً در ترمینال عمل می کرد و از SQLite برای ایجاد یک پایگاه داده محلی پر از مقالات از یک فید RSS استفاده می کرد. این راه حل ساده تر و قابل اطمینان تر در دستیابی به هدف نهایی بود، اگرچه در مقایسه با پیاده سازی Airtable، استحکام و ویژگی های کمتری داشت. این امر مبادلات ذاتی را برجسته می کند و بر اهمیت انتخاب یک عامل کدنویسی بر اساس الزامات خاص پروژه تاکید می کند.
نکته کلیدی این آزمایش این است که حتی به عنوان یک غیر توسعه دهنده، امکان ساخت برنامه های پایگاه داده کاربردی با استفاده از هر سه رویکرد وجود داشت. این امر یک سال پیش تقریباً غیرقابل تصور بود. و نکته قابل توجه این است که هر سه رویکرد به قابلیت های اساسی Claude متکی بودند.
اکوسیستم عامل کدنویسی: Cursor و فراتر از آن
شاید قانع کننده ترین شاخص موفقیت Anthropic، رشد فوق العاده Cursor، یک ویرایشگر کد هوش مصنوعی باشد. گزارش ها نشان می دهد که Cursor در عرض 12 ماه، 360000 کاربر جمع آوری کرده است که بیش از 40000 نفر از آنها مشتری پولی هستند. این مسیر رشد سریع، Cursor را به عنوان سریع ترین شرکت SaaS برای رسیدن به این نقطه عطف قرار می دهد.
موفقیت Cursor ذاتاً با Claude مرتبط است. همانطور که سام ویتوین، یکی از بنیانگذاران Red Dragon (یک توسعه دهنده مستقل عوامل هوش مصنوعی) مشاهده کرد، ‘باید فکر کنید که مشتری شماره یک آنها Cursor است. اکثر مردم در [Cursor] قبلاً از مدل Claude Sonnet - مدل های 3.5 - استفاده می کردند. و اکنون به نظر می رسد همه در حال مهاجرت به 3.7 هستند.’
رابطه بین Anthropic و اکوسیستم آن فراتر از شرکت های தனி مانند Cursor است. در نوامبر، Anthropic پروتکل زمینه مدل (MCP) خود را به عنوان یک استاندارد باز معرفی کرد که به توسعه دهندگان امکان می دهد ابزارهایی بسازند که به طور یکپارچه با مدل های Claude تعامل داشته باشند. این استاندارد در جامعه توسعه دهندگان به طور گسترده ای پذیرفته شده است.
ویتوین اهمیت این رویکردرا توضیح داد: ‘با راه اندازی این پروتکل به عنوان یک پروتکل باز، آنها به نوعی می گویند، ‘هی، همه، به آن بپردازید. شما می توانید هر چیزی را که با این پروتکل مطابقت دارد توسعه دهید. ما از این پروتکل پشتیبانی خواهیم کرد.’’
این استراتژی یک چرخه فضیلت ایجاد می کند: توسعه دهندگان ابزارهایی را به طور خاص برای Claude می سازند، ارزش پیشنهادی آن را برای شرکت ها افزایش می دهند، که به نوبه خود باعث پذیرش بیشتر می شود و توسعه دهندگان بیشتری را جذب می کند.
چشم انداز رقابتی: Microsoft، OpenAI، Google و Open Source
در حالی که Anthropic با رویکرد متمرکز خود جایگاهی را برای خود ایجاد کرده است، رقبا استراتژی های متنوعی را با درجات مختلف موفقیت دنبال می کنند.
Microsoft از طریق GitHub Copilot خود، با 1.3 میلیون کاربر پولی و پذیرش توسط بیش از 77000 سازمان در عرض تقریباً دو سال، جایگاه محکمی را حفظ می کند. شرکت های برجسته ای مانند Honeywell، State Street، TD Bank Group و Levi’s از جمله کاربران آن هستند. این پذیرش گسترده عمدتاً به روابط سازمانی موجود Microsoft و مزیت پیشگام بودن آن، ناشی از سرمایه گذاری اولیه آن در OpenAI و استفاده از مدل های OpenAI برای تامین Copilot است.
با این حال، حتی Microsoft نیز نقاط قوت Anthropic را تایید کرده است. در اکتبر، به کاربران GitHub Copilot اجازه داد تا مدل های Anthropic را به عنوان جایگزینی برای پیشنهادات OpenAI انتخاب کنند. علاوه بر این، مدل های اخیر OpenAI، o1 و o3 جدیدتر (که بر استدلال از طریق تفکر گسترده تاکید دارند)، مزایای خاصی را در کدنویسی یا وظایف عاملی نشان نداده اند.
گوگل با ارائه رایگان Code Assist خود، حرکت خود را انجام داده است، اما به نظر می رسد این بیشتر یک مانور دفاعی باشد تا یک ابتکار استراتژیک.
جنبش منبع باز نیروی مهم دیگری در این چشم انداز است. مدل های Llama متا، کشش سازمانی قابل توجهی را به دست آورده اند، به طوری که شرکت های بزرگی مانند AT&T، DoorDash و Goldman Sachs مدل های مبتنی بر Llama را برای کاربردهای مختلف مستقر می کنند. رویکرد منبع باز به شرکت ها کنترل بیشتر، گزینه های سفارشی سازی و مزایای هزینه ای را ارائه می دهد که مدل های بسته اغلب نمی توانند با آنها مطابقت داشته باشند.
به نظر می رسد Anthropic به جای اینکه این را به عنوان یک تهدید مستقیم ببیند، خود را به عنوان مکمل منبع باز قرار می دهد. مشتریان سازمانی می توانند بسته به نیازهای خاص خود، از Claude همراه با مدل های منبع باز استفاده کنند و رویکردی ترکیبی را اتخاذ کنند که نقاط قوت هر یک را به حداکثر می رساند.
در واقع، بسیاری از شرکت های سازمانی بزرگ، رویکرد چندوجهی را اتخاذ کرده اند و از هر مدلی که برای یک وظیفه معین مناسب تر است استفاده می کنند. به عنوان مثال، Intuit در ابتدا به OpenAI به عنوان پیش فرض برای برنامه های اظهارنامه مالیاتی خود متکی بود، اما متعاقباً به دلیل عملکرد برتر آن در سناریوهای خاص، به Claude روی آورد. این تجربه Intuit را بر آن داشت تا یک چارچوب هماهنگ سازی هوش مصنوعی ایجاد کند که سوئیچینگ یکپارچه بین مدل ها را تسهیل می کند.
اکثر شرکت های سازمانی دیگر از آن زمان تاکنون روش مشابهی را اتخاذ کرده اند و مناسب ترین مدل را برای هر مورد استفاده خاص به کار می گیرند، که اغلب مدل ها را از طریق فراخوانی های API ساده ادغام می کنند. در حالی که یک مدل منبع باز مانند Llama ممکن است در برخی موارد مناسب باشد، Claude اغلب انتخاب ترجیحی برای وظایفی است که به دقت بالایی نیاز دارند، مانند محاسبات.
پیامدهای سازمانی: پیمایش تغییر به عوامل کدنویسی
برای تصمیم گیرندگان سازمانی، این چشم انداز به سرعت در حال تحول، هم فرصت ها و هم چالش هایی را ارائه می دهد.
امنیت همچنان یک نگرانی اساسی است، اما یک گزارش مستقل اخیر، Claude 3.7 Sonnet را به عنوان امن ترین مدل تا به امروز شناسایی کرد، که تنها مدل آزمایش شده ای است که ثابت شده ‘ضد جیلبریک’ است. این وضعیت امنیتی، همراه با پشتیبانی Anthropic از Google و Amazon (و ادغام در AWS Bedrock)، آن را برای پذیرش سازمانی مطلوب قرار می دهد.
گسترش عوامل کدنویسی نه تنها نحوه توسعه برنامه ها را متحول می کند، بلکه این فرآیند را دموکراتیزه می کند. طبق گفته GitHub، 92 درصد از توسعه دهندگان مستقر در ایالات متحده در شرکت های سازمانی، 18 ماه پیش از ابزارهای کدنویسی مجهز به هوش مصنوعی در محل کار استفاده می کردند. این رقم احتمالاً از آن زمان به طور قابل توجهی افزایش یافته است.
ویتوین پر کردن شکاف بین اعضای تیم فنی و غیر فنی را برجسته کرد: ‘چالشی که مردم [به دلیل] کدنویس نبودن با آن روبرو هستند، واقعاً این است که آنها بسیاری از اصطلاحات را نمی دانند. آنها بهترین شیوه ها را نمی دانند.’ عوامل کدنویسی هوش مصنوعی به طور فزاینده ای این چالش را برطرف می کنند و همکاری موثرتری را امکان پذیر می کنند.
برای پذیرش سازمانی، ویتوین از یک رویکرد متعادل حمایت می کند: ‘در حال حاضر تعادل بین امنیت و آزمایش وجود دارد. واضح است که در سمت توسعه دهندگان، مردم شروع به ساخت برنامه های دنیای واقعی با این چیزها کرده اند.’
ظهور عوامل کدنویسی هوش مصنوعی نشان دهنده یک تغییر اساسی در توسعه نرم افزار سازمانی است. هنگامی که این ابزارها به طور موثر مستقر شوند، جایگزین توسعه دهندگان نمی شوند، بلکه نقش آنها را متحول می کنند و به آنها اجازه می دهند تا به جای جزئیات پیاده سازی، بر معماری و نوآوری تمرکز کنند.
به نظر می رسد رویکرد منظم Anthropic، که به طور خاص بر قابلیت های کدنویسی تمرکز دارد در حالی که رقبا اولویت های متعددی را دنبال می کنند، مزایای قابل توجهی را به همراه دارد. تا پایان سال 2025، ممکن است این دوره به عنوان لحظه محوری در نظر گرفته شود که عوامل کدنویسی هوش مصنوعی به ابزارهای سازمانی ضروری تبدیل شدند و Claude پیشتاز این حرکت بود.
برای تصمیم گیرندگان فنی، این ضرورت روشن است: آزمایش با این ابزارها را به سرعت آغاز کنید یا خطر عقب افتادن از رقبایی را که قبلاً از آنها برای تسریع چشمگیر چرخه های توسعه استفاده می کنند، بپذیرید. این وضعیت شبیه روزهای اولیه انقلاب آیفون است، جایی که شرکت ها در ابتدا تلاش کردند تا دستگاه های ‘غیرمجاز’ را از شبکه های شرکتی خود محدود کنند، اما در نهایت با افزایش تقاضای کارکنان، سیاست های BYOD را پذیرفتند. برخی از شرکت ها، مانند Honeywell، اخیراً به طور مشابه تلاش کرده اند تا استفاده ‘سرکش’ از ابزارهای کدنویسی هوش مصنوعی را که توسط IT تایید نشده است، متوقف کنند.
شرکت های هوشمند در حال حاضر محیط های sandbox امنی را برای تسهیل آزمایش کنترل شده ایجاد می کنند. سازمان هایی که ضمن تقویت نوآوری، حفاظ های روشنی را ایجاد می کنند، از مزایای اشتیاق کارکنان و بینش در مورد اینکه چگونه این ابزارها می توانند به بهترین وجه به نیازهای منحصر به فرد آنها پاسخ دهند، بهره مند خواهند شد و خود را جلوتر از رقبایی قرار می دهند که در برابر تغییر مقاومت می کنند. و Claude آنتروپیک، حداقل در حال حاضر، ذینفع اصلی این جنبش تحول آفرین است.