Claude 3.7: Cichy Lider Kodowania

Claude 3.7 Sonnet: Nowy Punkt Odniesienia w Umiejętnościach Kodowania

Niedawne wydanie Claude 3.7 Sonnet, zaledwie dwa tygodnie temu, stanowi przekonujący dowód. Ta najnowsza iteracja pobiła dotychczasowe rekordy wydajności kodowania. Równocześnie Anthropic zaprezentował Claude Code, agenta AI działającego w wierszu poleceń, zaprojektowanego w celu przyspieszenia tworzenia aplikacji dla programistów. Dodatkowo, Cursor, edytor kodu oparty na AI, który domyślnie korzysta z modelu Claude firmy Anthropic, odnotował imponujący wzrost do 100 milionów dolarów rocznych przychodów cyklicznych w ciągu zaledwie 12 miesięcy.

Celowe skupienie się Anthropic na kodowaniu zbiega się w czasie z rosnącym uznaniem wśród przedsiębiorstw dla transformacyjnego potencjału agentów kodowania AI. Agenci ci umożliwiają zarówno doświadczonym programistom, jak i osobom bez doświadczenia w kodowaniu, tworzenie aplikacji z niespotykaną dotąd szybkością i wydajnością. Jak trafnie stwierdził Guillermo Rauch, CEO Vercel, szybko rozwijającej się firmy umożliwiającej programistom (w tym osobom niekodującym) wdrażanie aplikacji front-endowych: ‘Anthropic nadal wychodzi na prowadzenie’. Decyzja Vercel z zeszłego roku o zmianie głównego modelu kodowania z GPT OpenAI na Claude Anthropic, po dokładnej ocenie ich wydajności w kluczowych zadaniach kodowania, podkreśla ten punkt.

Claude 3.7 Sonnet, wydany 24 lutego, wyraźnie objął prowadzenie w prawie wszystkich testach porównawczych kodowania. Osiągnął on niezwykły wynik 70,3% w wysoko cenionym teście SWE-bench, mierzącym możliwości agenta w zakresie tworzenia oprogramowania. Wynik ten znacznie przewyższa wyniki najbliższych konkurentów, o1 OpenAI (48,9%) i DeepSeek-R1 (49,2%). Ponadto Claude 3.7 wykazuje lepszą wydajność w zadaniach agentowych.

Te wyniki testów porównawczych zostały szybko zweryfikowane przez społeczności programistów poprzez testy w świecie rzeczywistym. Dyskusje online, szczególnie na platformach takich jak Reddit, porównujące Claude 3.7 z Grok 3 (najnowszym modelem xAI Elona Muska), konsekwentnie faworyzują model Anthropic do zadań kodowania. Jeden z czołowych komentatorów podsumował nastroje: ‘Na podstawie tego, co przetestowałem, Claude 3.7 wydaje się być najlepszy do pisania kodu (przynajmniej dla mnie)’. Należy zauważyć, że nawet Manus, nowy chiński agent wielozadaniowy, który szturmem zdobył świat na początku tego tygodnia, mówiąc, że jest lepszy niż Deep Research OpenAI i inne autonomiczne zadania, został w dużej mierze zbudowany na Claude.

Strategiczny Fokus: Gra Anthropic w Przedsiębiorstwach

Niezachwiane skupienie Anthropic na możliwościach kodowania nie jest przypadkowe. Ujawnione prognozy, o których informuje The Information, sugerują, że Anthropic dąży do oszałamiających 34,5 miliarda dolarów przychodów do 2027 roku. Stanowi to 86-krotny wzrost w stosunku do obecnego poziomu. Znaczna część (około 67%) tych prognozowanych przychodów ma pochodzić z działalności API, a aplikacje do kodowania dla przedsiębiorstw mają być głównym motorem wzrostu. Chociaż Anthropic nie ujawnił dokładnych danych dotyczących przychodów, poinformował o niezwykłym 1000% wzroście przychodów z kodowania w ostatnim kwartale 2024 roku. Dodatkowo, Anthropic ogłosił niedawno rundę finansowania w wysokości 3,5 miliarda dolarów, wyceniając firmę na imponujące 61,5 miliarda dolarów.

Ta strategia skoncentrowana na kodowaniu jest zgodna z wynikami własnego Indeksu Ekonomicznego Anthropic. Indeks ujawnił, że znaczne 37,2% zapytań kierowanych do Claude należało do kategorii ‘komputerowe i matematyczne’. Zapytania te obejmowały głównie zadania inżynierii oprogramowania, takie jak modyfikacja kodu, debugowanie i rozwiązywanie problemów z siecią.

Podejście Anthropic wyróżnia się na tle konkurencji, gdzie rywale często są uwikłani w wir działań, próbując zaspokoić zarówno rynek przedsiębiorstw, jak i konsumentów, oferując szeroki zakres funkcji. OpenAI, zachowując silną pozycję lidera dzięki wczesnemu rozpoznaniu i przyjęciu przez konsumentów, stoi przed wyzwaniem obsługi zarówno zwykłych użytkowników, jak i firm, oferując różnorodne modele i funkcjonalności. Google, podobnie, realizuje strategię oferowania szerokiego portfolio produktów.

Stosunkowo zdyscyplinowane podejście Anthropic znajduje również odzwierciedlenie w decyzjach produktowych. Zamiast gonić za udziałem w rynku konsumenckim, firma priorytetowo potraktowała funkcje klasy korporacyjnej, takie jak integracja z GitHub, dzienniki audytu, konfigurowalne uprawnienia i kontrole bezpieczeństwa specyficzne dla domeny. Sześć miesięcy wcześniej firma wprowadziła ogromne okno kontekstowe o rozmiarze 500 000 tokenów dla programistów, co stanowi wyraźny kontrast z decyzją Google o ograniczeniu okna o rozmiarze 1 miliona tokenów do prywatnych testerów. Ten strategiczny fokus zaowocował kompleksową, skoncentrowaną na kodowaniu ofertą, która coraz bardziej rezonuje z przedsiębiorstwami.

Niedawne wprowadzenie przez firmę funkcji umożliwiających osobom niekodującym publikowanie aplikacji generowanych przez AI w ich organizacjach, w połączeniu z ubiegłotygodniową aktualizacją konsoli, obejmującą ulepszone możliwości współpracy (w tym udostępniane podpowiedzi i szablony), dodatkowo ilustruje ten trend. Ta demokratyzacja odzwierciedla strategię ‘konia trojańskiego’: początkowo umożliwienie programistom budowania solidnych fundamentów, a następnie rozszerzenie dostępu do szerszej siły roboczej przedsiębiorstwa, ostatecznie docierając do kadry kierowniczej.

Praktyczne Doświadczenie z Claude: Eksperyment

Aby ocenić rzeczywiste możliwości tych agentów kodowania, przeprowadzono praktyczny eksperyment, koncentrując się na budowie bazy danych do przechowywania artykułów. Zastosowano trzy odrębne podejścia: Claude 3.7 Sonnet za pośrednictwem aplikacji Anthropic, agent kodowania Cursor i Claude Code.

Korzystając z Claude 3.7 bezpośrednio przez aplikację Anthropic, dostarczone wskazówki były niezwykle wnikliwe, szczególnie dla osoby bez dużego doświadczenia w kodowaniu. Model przedstawił kilka opcji, od solidnych rozwiązań wykorzystujących bazy danych PostgreSQL po lżejsze alternatywy, takie jak Airtable. Wybierając lekkie rozwiązanie, Claude metodycznie prowadził przez proces wyodrębniania artykułów z API i integrowania ich z Airtable za pomocą usługi łącznika. Chociaż proces trwał około dwóch godzin, głównie z powodu problemów z uwierzytelnianiem, zakończył się działającym systemem. Zasadniczo, zamiast autonomicznie pisać cały kod, Claude dostarczył kompleksowy plan osiągnięcia pożądanego rezultatu.

Cursor, z domyślnym poleganiem na modelach Claude, oferował w pełni rozwinięte środowisko edytora kodu i wykazywał większą skłonność do automatyzacji. Wymagał jednak zgody na każdym kroku, co skutkowało nieco iteracyjnym przepływem pracy.

Claude Code oferował inne podejście, działając bezpośrednio w terminalu i wykorzystując SQLite do tworzenia lokalnej bazy danych wypełnionej artykułami z kanału RSS. To rozwiązanie okazało się prostsze i bardziej niezawodne w osiągnięciu celu końcowego, choć mniej solidne i bogate w funkcje w porównaniu z implementacją Airtable. Podkreśla to nieodłączne kompromisy i uwydatnia znaczenie wyboru agenta kodowania w oparciu o specyficzne wymagania projektu.

Kluczowym wnioskiem z tego eksperymentu jest to, że nawet jako osoba niebędąca programistą, możliwe było zbudowanie funkcjonalnych aplikacji bazodanowych przy użyciu wszystkich trzech podejść. Byłoby to praktycznie niewyobrażalne jeszcze rok temu. I, co istotne, wszystkie trzy podejścia opierały się na podstawowych możliwościach Claude.

Ekosystem Agentów Kodowania: Cursor i Inne

Być może najbardziej przekonującym wskaźnikiem sukcesu Anthropic jest fenomenalny wzrost Cursor, edytora kodu AI. Raporty wskazują, że Cursor zgromadził 360 000 użytkowników, z czego ponad 40 000 to płacący klienci, w ciągu zaledwie 12 miesięcy. Ta szybka trajektoria wzrostu potencjalnie pozycjonuje Cursor jako najszybszą firmę SaaS, która osiągnęła ten kamień milowy.

Sukces Cursor jest nierozerwalnie związany z Claude. Jak zauważył Sam Witteveen, współzałożyciel Red Dragon (niezależnego dewelopera agentów AI): ‘Trzeba myśleć, że ich numerem jeden jest Cursor. Większość ludzi na [Cursor] korzystała już z modelu Claude Sonnet – modeli 3.5. A teraz wydaje się, że wszyscy po prostu migrują do 3.7’.

Relacja między Anthropic a jego ekosystemem wykracza poza poszczególne firmy, takie jak Cursor. W listopadzie Anthropic wprowadził swój Model Context Protocol (MCP) jako otwarty standard, umożliwiając programistom tworzenie narzędzi, które bezproblemowo współpracują z modelami Claude. Ten standard zyskał szerokie uznanie w społeczności programistów.

Witteveen wyjaśnił znaczenie tego podejścia: ‘Uruchamiając to jako otwarty protokół, mówią coś w stylu: ‘Hej, wszyscy, do dzieła. Możecie opracować cokolwiek chcecie, co pasuje do tego protokołu. Będziemy wspierać ten protokół’’.

Ta strategia tworzy cykl cnót: programiści tworzą narzędzia specjalnie dla Claude, zwiększając jego wartość dla przedsiębiorstw, co z kolei napędza dalsze wdrażanie i przyciąga więcej programistów.

Krajobraz Konkurencji: Microsoft, OpenAI, Google i Open Source

Podczas gdy Anthropic wypracował sobie niszę dzięki swojemu skoncentrowanemu podejściu, konkurenci realizują różnorodne strategie z różnym stopniem sukcesu.

Microsoft utrzymuje silną pozycję dzięki swojemu GitHub Copilot, szczycąc się 1,3 milionami płatnych użytkowników i wdrożeniem przez ponad 77 000 organizacji w ciągu około dwóch lat. Znane firmy, takie jak Honeywell, State Street, TD Bank Group i Levi’s, należą do jego użytkowników. To szerokie wdrożenie jest w dużej mierze przypisywane istniejącym relacjom Microsoft z przedsiębiorstwami i jego przewadze pierwszego gracza, wynikającej z wczesnej inwestycji w OpenAI i wykorzystania modeli OpenAI do zasilania Copilot.

Jednak nawet Microsoft uznał mocne strony Anthropic. W październiku umożliwił użytkownikom GitHub Copilot wybór modeli Anthropic jako alternatywy dla ofert OpenAI. Co więcej, najnowsze modele OpenAI, o1 i nowszy o3 (które kładą nacisk na rozumowanie poprzez rozszerzone myślenie), nie wykazały szczególnych zalet w kodowaniu lub zadaniach agentowych.

Google wykonał własny ruch, oferując niedawno swój Code Assist za darmo, ale wydaje się to być bardziej manewrem obronnym niż strategiczną inicjatywą.

Ruch open-source stanowi kolejną znaczącą siłę w tym krajobrazie. Modele Llama firmy Meta zyskały znaczną popularność w przedsiębiorstwach, a duże firmy, takie jak AT&T, DoorDash i Goldman Sachs, wdrażają modele oparte na Llama do różnych zastosowań. Podejście open-source zapewnia przedsiębiorstwom większą kontrolę, opcje dostosowywania i korzyści kosztowe, których zamknięte modele często nie mogą dorównać.

Zamiast postrzegać to jako bezpośrednie zagrożenie, Anthropic wydaje się pozycjonować jako uzupełnienie open source. Klienci korporacyjni mogą wykorzystywać Claude w połączeniu z modelami open-source w zależności od ich specyficznych wymagań, przyjmując hybrydowe podejście, które maksymalizuje mocne strony każdego z nich.

W rzeczywistości wiele dużych przedsiębiorstw przyjęło podejście multimodalne, wykorzystując model, który najlepiej pasuje do danego zadania. Intuit, na przykład, początkowo polegał na OpenAI jako domyślnym rozwiązaniu dla swoich aplikacji do zeznań podatkowych, ale następnie przełączył się na Claude ze względu na jego lepszą wydajność w niektórych scenariuszach. To doświadczenie doprowadziło Intuit do opracowania frameworka orkiestracji AI, który ułatwił bezproblemowe przełączanie się między modelami.

Większość innych przedsiębiorstw przyjęła od tego czasu podobną praktykę, wykorzystując najbardziej odpowiedni model dla każdego konkretnego przypadku użycia, często integrując modele za pomocą prostych wywołań API. Podczas gdy model open-source, taki jak Llama, może być odpowiedni w niektórych przypadkach, Claude jest często preferowanym wyborem do zadań wymagających wysokiej dokładności, takich jak obliczenia.

Implikacje dla Przedsiębiorstw: Nawigacja po Przejściu na Agentów Kodowania

Dla decydentów w przedsiębiorstwach ten szybko ewoluujący krajobraz stwarza zarówno możliwości, jak i wyzwania.

Bezpieczeństwo pozostaje nadrzędnym priorytetem, ale niedawny niezależny raport zidentyfikował Claude 3.7 Sonnet jako najbezpieczniejszy model do tej pory,będący jedynym przetestowanym, który okazał się ‘odporny na jailbreak’. Ta postawa bezpieczeństwa, w połączeniu ze wsparciem Anthropic zarówno ze strony Google, jak i Amazon (i integracją z AWS Bedrock), pozycjonuje go korzystnie do wdrożenia w przedsiębiorstwach.

Rozprzestrzenianie się agentów kodowania nie tylko zmienia sposób tworzenia aplikacji; demokratyzuje ten proces. Według GitHub, znaczne 92% programistów z siedzibą w USA w firmach korporacyjnych korzystało już z narzędzi do kodowania opartych na AI w pracy 18 miesięcy temu. Liczba ta prawdopodobnie znacznie wzrosła od tego czasu.

Witteveen podkreślił zacieranie się granicy między technicznymi i nietechnicznymi członkami zespołu: ‘Wyzwanie, z którym ludzie się borykają [z powodu] braku umiejętności kodowania, polega na tym, że nie znają oni wielu terminów. Nie znają najlepszych praktyk’. Agenci kodowania AI coraz częściej radzą sobie z tym wyzwaniem, umożliwiając bardziej efektywną współpracę.

W przypadku wdrożenia w przedsiębiorstwach Witteveen opowiada się za zrównoważonym podejściem: ‘W tej chwili jest to równowaga między bezpieczeństwem a eksperymentowaniem. Oczywiście po stronie programistów ludzie zaczynają budować prawdziwe aplikacje za pomocą tych rzeczy’.

Pojawienie się agentów kodowania AI oznacza fundamentalną zmianę w tworzeniu oprogramowania dla przedsiębiorstw. Po skutecznym wdrożeniu narzędzia te nie zastępują programistów, ale raczej zmieniają ich role, pozwalając im skoncentrować się na architekturze i innowacjach, a nie na szczegółach implementacji.

Zdyscyplinowane podejście Anthropic, koncentrujące się konkretnie na możliwościach kodowania, podczas gdy konkurenci realizują wiele priorytetów, wydaje się przynosić znaczące korzyści. Do końca 2025 roku ten okres może być retrospektywnie postrzegany jako kluczowy moment, w którym agenci kodowania AI stali się niezbędnymi narzędziami dla przedsiębiorstw, a Claude przewodził tej zmianie.

Dla decydentów technicznych imperatyw jest jasny: należy niezwłocznie rozpocząć eksperymentowanie z tymi narzędziami lub ryzykować pozostanie w tyle za konkurentami, którzy już wykorzystują je do radykalnego przyspieszenia cykli rozwoju. Sytuacja ta przypomina wczesne dni rewolucji iPhone’a, kiedy firmy początkowo próbowały ograniczyć ‘niesankcjonowane’ urządzenia w swoich sieciach korporacyjnych, tylko po to, by ostatecznie przyjąć politykę BYOD, gdy zapotrzebowanie pracowników stało się przytłaczające. Niektóre firmy, takie jak Honeywell, próbowały ostatnio w podobny sposób zablokować ‘nieautoryzowane’ użycie narzędzi do kodowania AI, które nie zostały zatwierdzone przez dział IT.

Inteligentne firmy już tworzą bezpieczne środowiska piaskownicy, aby ułatwić kontrolowane eksperymentowanie. Organizacje, które ustanowią jasne bariery, jednocześnie wspierając innowacje, skorzystają zarówno z entuzjazmu pracowników, jak i wglądu w to, jak te narzędzia mogą najlepiej służyć ich unikalnym potrzebom, pozycjonując się przed konkurentami, którzy opierają się zmianom. A Claude firmy Anthropic, przynajmniej na razie, jest głównym beneficjentem tego transformacyjnego ruchu.