OpenAI выпустила новое поколение общих моделей — серию GPT-4.1, 14 апреля 2025 года. Серия включает в себя три модели, ориентированные на разработчиков: GPT-4.1, GPT-4.1 mini и GPT-4.1 nano.
OpenAI является одним из самых известных поставщиков в эпоху генеративного ИИ.
Краеугольным камнем работы компании в области ИИ является серия моделей GPT, которая также лежит в основе сервиса ChatGPT. Первоначально ChatGPT работал на GPT-3 и неуклонно развивался, поскольку OpenAI разрабатывала новые модели GPT, в том числе GPT-4 и GPT-4o.
OpenAI сталкивается с растущей конкуренцией со стороны нескольких конкурентов на рынке genAI, включая Google Gemini, Anthropic Claude и Meta Llama. Эта конкуренция стимулировала быстрый выпуск новых модельных технологий. Эти модели конкурируют в различных аспектах производительности, включая точность, производительность кодирования и способность правильно следовать инструкциям.
14 апреля 2025 года OpenAI выпустила GPT-4.1, новую серию общих моделей. Благодаря сильной ориентации на разработчиков новые модели GPT 4.1 первоначально доступны только через API.
Что такое GPT-4.1?
GPT-4.1 — это серия больших языковых моделей (LLM) на основе Transformer, разработанных OpenAI в качестве флагманской общей модели компании. Она построена на архитектуре предыдущих моделей эпохи GPT-4, в то же время объединяя достижения в области надежности и обработки информации.
Серия GPT-4.1 включает в себя три модели: основную модель GPT-4.1, GPT-4.1 mini и GPT-4.1 nano. Для всех трех моделей в серии OpenAI использовала передовой метод обучения, который, по утверждению компании, разработан на основе прямых отзывов разработчиков.
GPT-4.1 полезна как общая LLM, но обладает рядом оптимизаций, ориентированных на опыт разработчиков. Одно из таких улучшений — оптимизация возможностей кодирования во внешнем интерфейсе. Например, в прямой трансляции анонса новой модели от OpenAI компания продемонстрировала, как GPT-4.1 может создавать приложения из одного запроса и достаточно дружественного пользовательского интерфейса.
Модели GPT-4.1 также были оптимизированы для улучшения возможностей следования инструкциям. По сравнению с предыдущими моделями, GPT-4.1 будет более тесно и точно следовать инструкциям сложных многошаговых запросов. В внутренних тестах OpenAI на соответствие инструкциям GPT-4.1 набрала 49%, что значительно лучше, чем у GPT-4o, которая набрала всего 29%.
Как и GPT-4o, GPT-4.1 — это мультимодальная модель, которая поддерживает анализ текста и изображений. OpenAI расширила контекстное окно GPT-4.1 для поддержки до 1 миллиона токенов, что позволяет анализировать более длинные наборы данных. Чтобы поддерживать более длинные контекстные окна, OpenAI также улучшила механизм внимания GPT-4.1, чтобы модель могла правильно анализировать и извлекать информацию из длинных наборов данных.
Что касается ценообразования, GPT-4.1 стоит 2 доллара США за миллион входных токенов и 8 долларов США за миллион выходных токенов, что делает ее премиальным предложением в серии GPT-4.1.
Что такое GPT 4.1 Mini?
Как и GPT-4o, у GPT-4.1 есть mini версия. Основная концепция mini версии заключается в том, что LLM имеет меньший размер и может работать с меньшими затратами.
GPT-4.1 mini — это модель уменьшенного размера, которая снижает задержку примерно на 50%, сохраняя при этом сопоставимую производительность с GPT-4o. По словам OpenAI, она соответствует или превосходит GPT-4o в нескольких тестах, включая визуальные задачи, связанные с графиками, схемами и визуальной математикой.
Несмотря на меньший размер, чем у флагманской модели GPT-4.1, GPT-4.1 mini по-прежнему поддерживает контекстное окно в 1 миллион токенов, которое используется в одном запросе.
На момент выпуска GPT-4.1 mini стоила 0,40 доллара США за миллион входных токенов и 1,60 доллара США за миллион выходных токенов, что дешевле, чем полная версия модели GPT-4.1.
Что такое GPT 4.1 Nano?
GPT-4.1 nano — это первая LLM nano-класса, представленная OpenAI. Nano-класс меньше и экономичнее, чем mini-класс LLM от OpenAI.
GPT-4.1 nano — это самая маленькая и экономичная модель из недавно представленной серии GPT-4.1 от OpenAI. Благодаря меньшему размеру она самая быстрая и имеет более низкую задержку, чем GPT-4.1 или GPT-4.1 mini. Несмотря на то, что это более маленькая модель, nano модель сохраняет контекстное окно в 1 миллион токенов своих более крупных аналогов, что позволяет ей обрабатывать большие документы и наборы данных.
OpenAI позиционирует GPT-4.1 nano как идеально подходящую для конкретных приложений, в которых скорость обработки является приоритетом над возможностями комплексного рассуждения. Nano модель была оптимизирована для использования в быстрых, целенаправленных задачах, таких как предложения по автозаполнению, классификация контента и извлечение информации из больших документов.
На момент выпуска GPT-4.1 nano стоила 0,10 доллара США за миллион входных токенов и 0,40 доллара США за миллион выходных токенов.
Сравнение серии моделей GPT
В следующей таблице показаны некоторые ключевые параметры для сравнения GPT-4o, GPT-4.5 и GPT-4.1:
Проект | GPT-4o | GPT-4.5 | GPT-4.1 |
---|---|---|---|
Дата выпуска | 13 мая 2024 г. | 27 февраля 2025 г. | 14 апреля 2025 г. |
Акцент | Мультимодальная интеграция | Масштабное неконтролируемое обучение | Улучшения для разработчиков и кодирования |
Модальность | Текст, изображения и звук | Текст и изображения | Текст и изображения |
Контекстное окно | 128 000 токенов | 128 000 токенов | 1 000 000 токенов |
Дата прекращения знаний | Октябрь 2023 г. | Октябрь 2024 г. | Июнь 2024 г. |
SWE-bench Verified (кодирование) | 33% | 38% | 55% |
MMMU | 69% | 75% | 75% |
Глубокое погружение в технические характеристики GPT-4.1
Чтобы лучше понять возможности GPT-4.1, давайте углубимся в технические детали, лежащие в его основе. Являясь флагманской общей моделью OpenAI, GPT-4.1 в своей основе имеет архитектуру большой языковой модели (LLM) на основе Transformer. Эта архитектура позволяет ей обрабатывать и генерировать сложный текст и изображения, а также превосходно справляться с различными задачами.
Преимущества архитектуры Transformer
Архитектура Transformer — это прорыв в области обработки естественного языка (NLP), произошедший в последние годы. Благодаря механизму самовнимания она способна улавливать взаимосвязи между разными словами в тексте, что позволяет лучше понимать смысл текста. По сравнению с традиционными рекуррентными нейронными сетями (RNN), архитектура Transformer имеет следующие преимущества:
- Параллельные вычисления: Архитектура Transformer может параллельно обрабатывать все слова в тексте, что значительно повышает эффективность вычислений.
- Зависимости на больших расстояниях: Архитектура Transformer может эффективно улавливать зависимости на больших расстояниях в тексте, что имеет решающее значение для понимания длинных текстов.
- Интерпретируемость: Механизм самовнимания в архитектуре Transformer можно визуализировать, что помогает нам понять, как модель делает прогнозы.
GPT-4.1 унаследовала эти преимущества архитектуры Transformer и усовершенствовала их, что позволило ей превосходно справляться с различными задачами.
Разнообразие обучающих данных
Сила GPT-4.1 также заключается в использовании большого количества разнообразных обучающих данных. Эти данные включают в себя:
- Текстовые данные: Различные тексты из Интернета, включая новостные статьи, блоги, книги, код и т. д.
- Данные изображений: Различные изображения из Интернета, включая фотографии, диаграммы, схемы и т. д.
Используя эти разнообразные обучающие данные, GPT-4.1 способна получить богатые знания и навыки, что позволяет ей превосходно справляться с различными задачами.
Повышение мультимодальных возможностей
GPT-4.1 способна обрабатывать не только текстовые данные, но и данные изображений, что делает ее обладателем мощных мультимодальных возможностей. Объединяя текст и изображения, GPT-4.1 способна лучше понимать мир и генерировать более богатый и полезный контент.
Например, GPT-4.1 может:
- Генерировать описания на основе изображений: На основе заданного изображения GPT-4.1 может сгенерировать текстовое описание содержимого изображения.
- Генерировать изображения на основе текста: На основе заданного текста GPT-4.1 может сгенерировать изображение, связанное с содержимым текста.
- Отвечать на вопросы, связанные с изображениями: На основе заданного изображения и вопроса GPT-4.1 может ответить на вопрос, опираясь на содержимое изображения.
Эти мультимодальные возможности делают GPT-4.1 обладателем огромного потенциала в различных сценариях применения.
Оптимизация возможностей следования инструкциям
GPT-4.1 оптимизирована для возможностей следования инструкциям, что позволяет ей лучше понимать намерения пользователей и генерировать контент, который в большей степени соответствует потребностям пользователей. Для достижения этой цели OpenAI использовала передовой метод обучения, основанный на прямых отзывах разработчиков.
Используя этот метод, GPT-4.1 способна научиться лучше понимать инструкции пользователей и генерировать более точный, полный и полезный контент.
Потенциал GPT-4.1 в реальных приложениях
GPT-4.1, будучи мощной общей моделью, обладает огромным потенциалом в различных реальных приложениях. Ниже приведены некоторые потенциальные сценарии применения GPT-4.1:
- Обслуживание клиентов: GPT-4.1 можно использовать для создания интеллектуальных чат-ботов, повышая тем самым эффективность и качество обслуживания клиентов.
- Создание контента: GPT-4.1 можно использовать для оказания помощи в создании контента, например, в написании новостных статей, блогов, книг и т. д.
- Образование: GPT-4.1 можно использовать для создания интеллектуальных систем обучения, повышая тем самым персонализацию и эффективность образования.
- Научные исследования: GPT-4.1 можно использовать для оказания помощи в научных исследованиях, например, в анализе данных, генерировании гипотез, написании статей и т. д.
- Медицина: GPT-4.1 можно использовать для оказания помощи в медицине, например, в диагностике заболеваний, разработке планов лечения, предоставлении рекомендаций по здоровью и т. д.
По мере развития технологий GPT-4.1 ее потенциал в реальных приложениях будет возрастать.
GPT-4.1 Mini и Nano: более легкие варианты
Помимо флагманской модели GPT-4.1, OpenAI также выпустила две более легкие модели: GPT-4.1 Mini и GPT-4.1 Nano. Эти две модели, сохраняя определенную производительность, снижают вычислительные затраты и задержку, что делает их более подходящими для некоторых сценариев применения с ограниченными ресурсами.
GPT-4.1 Mini: баланс между производительностью и эффективностью
GPT-4.1 Mini — это модель уменьшенного размера, которая снижает задержку примерно на 50%, сохраняя при этом сопоставимую производительность с GPT-4o. Это делает GPT-4.1 Mini очень подходящей для некоторых сценариев применения, требующих быстрой реакции, например, для перевода в режиме реального времени, распознавания голоса и т. д.
Несмотря на меньший размер, GPT-4.1 Mini по-прежнему поддерживает контекстное окно в 1 миллион токенов, которое используется в одном запросе. Это позволяет GPT-4.1 Mini по-прежнему обрабатывать большие объемы данных и превосходно справляться с различными задачами.
GPT-4.1 Nano: инструмент для мгновенного реагирования
GPT-4.1 Nano — это первая LLM nano-класса, представленная OpenAI. Nano-класс меньше и экономичнее, чем mini-класс LLM от OpenAI. Это делает GPT-4.1 Nano очень подходящей для некоторых сценариев применения, требующих мгновенного реагирования, например, для предложений по автозаполнению, классификации контента и т. д.
Несмотря на минимальный размер, GPT-4.1 Nano по-прежнему сохраняет контекстное окно в 1 миллион токенов своих более крупных аналогов. Это позволяет GPT-4.1 Nano по-прежнему обрабатывать большие объемы данных и превосходно справляться с различными задачами.
В общем и целом, GPT-4.1 Mini и GPT-4.1 Nano — это два более легких варианта, которые, сохраняя определенную производительность, снижают вычислительные затраты и задержку, что делает их более подходящими для некоторых сценариев применения с ограниченными ресурсами.
Стратегия ценообразования GPT-4.1
OpenAI приняла различные стратегии ценообразования для серии моделей GPT-4.1, чтобы удовлетворить потребности различных пользователей.
- GPT-4.1: 2 доллара США за миллион входных токенов, 8 долларов США за миллион выходных токенов.
- GPT-4.1 Mini: 0,40 доллара США за миллион входных токенов, 1,60 доллара США за миллион выходных токенов.
- GPT-4.1 Nano: 0,10 доллара США за миллион входных токенов, 0,40 доллара США за миллион выходных токенов.
Из стратегии ценообразования видно, что GPT-4.1 — это продукт премиум-класса, подходящий для сценариев применения, требующих высокой производительности и высокого качества. GPT-4.1 Mini и GPT-4.1 Nano более экономичны и подходят для некоторых сценариев применения с ограниченными ресурсами.
Заключение
GPT-4.1 — это последняя серия общих моделей, выпущенная OpenAI, включающая три модели: GPT-4.1, GPT-4.1 Mini и GPT-4.1 Nano. GPT-4.1 оптимизирована по производительности, мультимодальным возможностям и возможностям следования инструкциям, что делает ее обладателем огромного потенциала в различных сценариях применения. GPT-4.1 Mini и GPT-4.1 Nano более легкие и подходят для некоторых сценариев применения с ограниченными ресурсами.
По мере развития технологий GPT-4.1 ее потенциал в реальных приложениях будет возрастать. Мы надеемся, что GPT-4.1 сможет принести нам больше сюрпризов в будущем.