Улучшения производительности: подробный обзор
Внутренние тесты OpenAI показывают, что GPT-4.5 действительно превосходит GPT-4o в нескольких ключевых областях. Одним из заметных улучшений является ее производительность в многоязычном тесте MMMLU (общие знания). GPT-4.5 набрала 85,1%, превзойдя 81,5% у GPT-4o. Это говорит о более широком и глубоком понимании общих знаний на разных языках.
Помимо стандартизированных тестов, OpenAI утверждает, что GPT-4.5 демонстрирует уменьшение ‘конфабуляций’, более известных как галлюцинации. Это означает, что модель менее склонна к генерации ложной или вводящей в заблуждение информации, что является критически важным достижением для приложений, требующих точности фактов. Меньшее количество сфабрикованных ответов знаменует собой шаг к большей надежности.
Пользовательский опыт также улучшился, хотя и незначительно. Оценки OpenAI показывают, что пользователи предпочитали ответы GPT-4.5 ответам GPT-4o примерно в 57% взаимодействий. Хотя это и не является убедительной победой, это предпочтение предполагает заметное улучшение общего качества и релевантности выходных данных модели. Взаимодействия ощущаются более естественными и соответствуют ожиданиям пользователей.
Еще один значительный скачок наблюдается в точности простых вопросов (Simple QA Accuracy). Здесь GPT-4.5 набирает 62,5%, что значительно больше, чем 38,2% у GPT-4o. Это указывает на заметное улучшение способности модели давать точные ответы на простые вопросы, демонстрируя улучшенные возможности понимания и извлечения информации.
Эмоциональный коэффициент: более человечное взаимодействие
GPT-4.5 отличается не только чистыми показателями производительности, но и повышенным эмоциональным коэффициентом (EQ). Модель разработана так, чтобы принимать более естественный и эмпатичный тон, делая взаимодействие менее роботизированным и более привлекательным. Это значительный шаг на пути к созданию ИИ, который ощущается более человечным в общении.
- Естественный тон: Разговоры протекают более плавно, а ответы лучше имитируют человеческие разговорные модели.
- Эмпатичные ответы: Модель демонстрирует большую способность понимать эмоциональные оттенки разговора и реагировать на них.
- Привлекательное взаимодействие: Общий опыт разработан так, чтобы быть более захватывающим, удерживая внимание пользователя и способствуя более позитивному взаимодействию.
Этот повышенный EQ делает GPT-4.5 особенно подходящей для приложений, где человеческое взаимодействие имеет первостепенное значение. Обслуживание клиентов, виртуальные помощники и даже терапевтические приложения могут извлечь выгоду из этого более тонкого и эмоционально интеллектуального подхода.
Кроме того, GPT-4.5 превосходно справляется с ‘управляемостью’ (‘steerability’). Это относится к способности модели интерпретировать и реагировать на тонкие подсказки с большей точностью. Пользователи заметили, что GPT-4.5 демонстрирует более сильное понимание тонкостей, что позволяет ей более эффективно обрабатывать сложные или неоднозначные запросы. Она может лучше различать скрытое намерение вопроса, что приводит к более релевантным и полезным ответам.
Слон в комнате: ценовые проблемы
Несмотря на достижения, ценообразование GPT-4.5 стало основным предметом споров. Хотя она предлагает улучшения по сравнению с GPT-4o, разница в стоимости существенна. Для обработки входных данных GPT-4.5 примерно в 30 раз дороже, а для генерации выходных данных — в 15 раз дороже. Эта модель ценообразования поднимает серьезные вопросы о ценностном предложении новой модели.
Основная проблема заключается в убывающей отдаче. Хотя GPT-4.5, несомненно, больше и сложнее, чем ее предшественница, улучшения производительности, по-видимому, не масштабируются пропорционально увеличению стоимости. Это несоответствие заставило многих в сообществе ИИ усомниться в том, оправдывает ли незначительный прирост экспоненциальное повышение цены.
Запретительное ценообразование имеет серьезные последствия для доступности. Многие разработчики, особенно те, кто работает независимо или в небольших компаниях, могут счесть GPT-4.5 просто недоступной. Это создает барьер для входа, потенциально подавляя инновации и ограничивая широкое внедрение технологии.
Рассмотрим практический пример: суммирование романа из 300 000 слов (примерно 450 000 токенов) и создание аналитического отчета на 50 000 токенов. С GPT-4.5 эта задача будет стоить примерно 41,25 доллара. Та же задача с использованием GPT-4 обойдется всего в 1,6 доллара. Этот резкий контраст подчеркивает финансовое бремя, которое GPT-4.5 возлагает на пользователей, особенно для крупномасштабных проектов.
Эта стратегия ценообразования вызывает опасения по поводу доступности и инклюзивности в сфере разработки ИИ. Более мелкие организации и отдельные исследователи могут быть вынуждены выбирать менее дорогие, хотя и менее мощные альтернативы, что потенциально может помешать им конкурировать с более крупными организациями, которые могут позволить себе премиальную стоимость.
Способности к рассуждению: работа продолжается
Хотя GPT-4.5 демонстрирует достижения в нескольких областях, важно признать ее ограничения. Модель была разработана с использованием предварительного обучения, контролируемой тонкой настройки и обучения с подкреплением на основе обратной связи от человека (RLHF). Однако она еще не оптимизирована для сложных задач, связанных с рассуждениями.
Это означает, что текущий выпуск не приносит значительных улучшений в областях, которые в значительной степени зависят от сильных навыков рассуждения, таких как математика и кодирование. Эти области требуют более глубокого уровня логического вывода и решения проблем, которыми GPT-4.5 в ее нынешнем состоянии не обладает в полной мере.
Для задач, требующих надежных способностей к рассуждению, GPT-4o остается ведущей моделью. Похоже, что стратегия OpenAI включает поэтапный подход, при этом первоначальный выпуск GPT-4.5 фокусируется на таких областях, как общие знания, пользовательский опыт и эмоциональный интеллект. Компания, вероятно, сместит акцент на применение дополнительного RL-обучения к GPT-4.5специально для улучшения ее способностей к рассуждению в последующих итерациях. Это предполагает приверженность постоянному совершенствованию, при этом будущие обновления потенциально устранят текущие ограничения в задачах, требующих интенсивного рассуждения. Ожидается, что будущие улучшения сократят разрыв, в конечном итоге позиционируя GPT-4.5 как лидера и в приложениях, основанных на рассуждениях.
В целом, выпуск GPT-4.5 представляет собой сложную картину. Он демонстрирует достижения в определенных областях, особенно в том, что касается пользовательского опыта и эмоционального интеллекта. Однако модель ценообразования вызывает серьезные опасения по поводу доступности и общего ценностного предложения. Хотя модель представляет собой шаг вперед, ее экономическая эффективность остается предметом споров в сообществе ИИ. Ограничения в способностях к рассуждению также подчеркивают продолжающийся процесс разработки, при этом ожидается, что будущие обновления устранят эти недостатки. Траектория развития GPT-4.5 будет зависеть от того, как OpenAI справится с балансом между производительностью, стоимостью и доступностью, что в конечном итоге определит ее влияние на более широкий ландшафт ИИ.