Беше ли GPT-4.5 провал?

Мащабът и обхватът на GPT-4.5

GPT-4.5 представлява най-амбициозното начинание на OpenAI до момента по отношение на чист размер. Въпреки че точните подробности относно неговата архитектура и данни за обучение остават оскъдни, известно е, че процесът на обучение е бил толкова изчислително интензивен, че е наложил разпределение между множество центрове за данни. Само това подсказва за монументалните ресурси, вложени в неговото развитие.

Ценовата структура на модела допълнително подчертава позиционирането му като премиум предложение. Разходите са значително по-високи от тези на неговите предшественици, надвишавайки GPT-4o с коефициент 15-30 пъти, o1 с 3-5 пъти и Claude 3.7 Sonnet с 10-25 пъти. Достъпът понастоящем е ограничен до абонати на ChatGPT Pro (на сериозната цена от $200 на месец) и API клиенти, желаещи да плащат на база токен.

Въпреки това, подобренията в производителността, поне в някои области, не съответстват напълно на цената. Първоначалните бенчмаркове разкриха само скромни подобрения спрямо GPT-4o и дори показаха, че GPT-4.5 изостава от модели като o1 и o3-mini в задачи за разсъждение.

Разбиране на предназначението на GPT-4.5

От решаващо значение е да се признае, че OpenAI никога изрично не е рекламирал GPT-4.5 като свой водещ модел с общо предназначение. Всъщност, ранните версии на тяхната публикация в блога изясниха, че той не е предназначен да бъде “граничен модел”, който да разширява абсолютните граници на възможностите. Освен това, той не е проектиран предимно като модел за разсъждение, което прави директните сравнения с модели, оптимизирани за тази цел (като o3 и DeepSeek-R1), донякъде подвеждащи.

OpenAI посочи, че GPT-4.5 ще бъде последният им модел, който не е базиран на верига от мисли (chain-of-thought). Това означава, че обучението му се е фокусирало силно върху вграждането на огромни количества знания за света и съгласуването с потребителските предпочитания, а не върху разработването на сложни способности за разсъждение.

Къде GPT-4.5 може да блесне: Знание и нюанси

Основното предимство на по-големите модели често се крие в разширения им капацитет за придобиване на знания. GPT-4.5, в съответствие с този принцип, демонстрира намалена склонност към халюцинации в сравнение с по-малките си аналози. Това го прави потенциално ценен в сценарии, където стриктното придържане към фактите и контекстуалната информация е от първостепенно значение.

Освен това, GPT-4.5 показва подобрена способност да следва потребителските инструкции и предпочитания. Това беше демонстрирано в различни демонстрации от OpenAI и потвърдено от потребителски опит, споделен онлайн. Моделът изглежда схваща нюансите на потребителското намерение по-ефективно, което води до по-персонализирани и релевантни резултати.

Дебатът за качеството на прозата: Субективност и потенциал

Възникна оживена дискусия относно способността на GPT-4.5 да генерира превъзходна проза. Някои ръководители на OpenAI похвалиха качеството на изхода на модела, като главният изпълнителен директор Сам Алтман дори предположи, че взаимодействието с него е предоставило поглед към “AGI” (Artificial General Intelligence) за някои проницателни тестери.

Въпреки това, по-широката реакция беше определено смесена. Съоснователят на OpenAI, Андрей Карпати, очакваше подобрения в задачи, които са по-малко зависими от чистото разсъждение, като подчерта области като “EQ” (емоционална интелигентност), креативност, създаване на аналогии и хумор – аспекти, често затруднени от знанията за света и общото разбиране.

Интересното е, че последващо проучване, проведено от Карпати, разкри общо потребителско предпочитание към отговорите на GPT-4o пред тези на GPT-4.5 по отношение на качеството на писане. Това подчертава присъщата субективност при оценяването на прозата и предполага, че умелото инженерство на подкани (prompt engineering) може да извлече сравнимо качество от по-малки, по-ефективни модели.

Самият Карпати призна двусмислието на резултатите, предлагайки различни възможни обяснения: тестерите с “висок вкус” може би възприемат фини структурни подобрения, пропуснати от други, тестваните примери може да не са били идеални или разликите може просто да са твърде фини, за да бъдат различени в малка извадка.

Границите на мащабирането и бъдещето на LLMs

Пускането на GPT-4.5, в някои отношения, подчертава потенциалните ограничения на простото мащабиране на модели, обучени върху масивни набори от данни. Иля Суцкевер, друг съосновател на OpenAI и бивш главен учен, заяви на NeurIPS 2024, че “предварителното обучение, както го познаваме, безспорно ще приключи… Достигнахме пика на данните и няма да има повече. Трябва да се справим с данните, които имаме. Има само един интернет.”

Намаляващата възвръщаемост, наблюдавана при GPT-4.5, служи като свидетелство за предизвикателствата на мащабирането на модели с общо предназначение, обучени предимно на интернет данни и фино настроени за съгласуване чрез обучение с подсилване от човешка обратна връзка (RLHF).

Следващата граница за големите езикови модели изглежда е мащабирането по време на тестване (или мащабиране по време на извод). Това включва обучение на моделите да “мислят” за по-дълъг период от време чрез генериране на токени на верига от мисли (CoT). Мащабирането по време на тестване подобрява способността на модела да се справя със сложни проблеми на разсъждение и е ключов фактор за успеха на модели като o1 и R1.

Не провал, а основа

Въпреки че GPT-4.5 може да не е оптималният избор за всяка задача, от решаващо значение е да се признае потенциалната му роля като основен елемент за бъдещи постижения. Здравата база от знания е от съществено значение за разработването на по-сложни модели за разсъждение.

Дори ако самият GPT-4.5 не се превърне в модел за повечето приложения, той може да служи като ключов градивен елемент за последващи модели за разсъждение. Дори е възможно той вече да се използва в модели като o3.

Както обясни Марк Чен, главен изследовател в OpenAI, “Имате нужда от знания, за да изградите разсъждения върху тях. Моделът не може да влезе сляпо и просто да научи разсъждения от нулата. Така че ние намираме тези две парадигми за доста допълващи се и смятаме, че те имат обратни връзки помежду си.”

Следователно, разработването на GPT-4.5 не представлява задънена улица, а стратегическа стъпка в продължаващата еволюция на големите езикови модели. Това е свидетелство за итеративния характер на изследванията в областта на изкуствения интелект, където всяка стъпка, дори и да изглежда невпечатляваща сама по себе си, допринася за по-широкия напредък към по-способни и гъвкави AI системи. Фокусът сега се измества към използването на тази силна основа от знания за изграждане на модели, които могат не само да си припомнят информация, но и да разсъждават и решават проблеми с безпрецедентна ефективност. Пътуването към наистина интелигентен AI продължава и GPT-4.5, въпреки смесеното си приемане, играе важна роля в това пътуване.
Фокусът сега е не само върху това колко знае един модел, а колко добре може да използва тези знания. Това е основното предизвикателство, с което се бори AI общността, и GPT-4.5, макар и да не е перфектно решение, предоставя ценни прозрения и солидна основа за бъдещи пробиви. Пътят напред включва комбинация от подходи: усъвършенстване на съществуващите техники, изследване на нови архитектури и разработване на по-сложни методи за обучение и оценка. Крайната цел остава същата: да се създадат AI системи, които могат не само да разбират и генерират човешки език, но и да разсъждават, учат и се адаптират по начини, които някога са били считани за изключителна област на човешкия интелект.