Доступ к Pixtral-12B-2409 через Amazon Bedrock Marketplace
Amazon Bedrock Marketplace теперь предлагает Pixtral 12B (pixtral-12b-2409), передовую 12-миллиардную параметрическую модель визуального языка (VLM), разработанную Mistral AI. Эта мощная модель превосходно справляется как с текстовыми, так и с мультимодальными задачами. Amazon Bedrock Marketplace, новая функция в Amazon Bedrock, расширяет выбор доступных базовых моделей (FM), позволяя разработчикам находить, тестировать и использовать более 100 популярных, новых и специализированных моделей, дополняя существующий набор ведущих в отрасли моделей. В этом посте рассказывается о том, как найти, развернуть и использовать модель Pixtral 12B для различных практических приложений, связанных со зрением.
Глубокое погружение в Pixtral 12B
Pixtral 12B, первый опыт Mistral в области VLM, демонстрирует впечатляющую производительность по целому ряду тестов. Согласно внутренним оценкам Mistral, он превосходит другие открытые модели и даже конкурирует с гораздо более крупными моделями. Pixtral разработан как для понимания изображений, так и для понимания документов, демонстрируя расширенные возможности в задачах, ориентированных на зрение. К ним относятся интерпретация диаграмм и рисунков, ответы на вопросы о содержании документа, участие в мультимодальных рассуждениях и тщательное следование инструкциям. Ключевой особенностью этой модели является ее способность обрабатывать изображения в их исходном разрешении и соотношении сторон, обеспечивая высокую точность обработки входных данных. Кроме того, и в отличие от многих альтернатив с открытым исходным кодом, Pixtral 12B достигает отличных результатов в тестах на основе текста – демонстрируя мастерство в следовании инструкциям, кодировании и математических рассуждениях – без ущерба для производительности мультимодальных задач.
Инновация, лежащая в основе Pixtral 12B, заключается в новой архитектуре Mistral, тщательно разработанной как для вычислительной эффективности, так и для высокой производительности. Модель состоит из двух основных компонентов: кодировщика зрения с 400 миллионами параметров, предназначенного для токенизации изображений, и мультимодального декодера-трансформера с 12 миллиардами параметров. Этот декодер предсказывает следующий текстовый токен на основе заданной последовательности текста и изображений. Кодировщик зрения специально обучен для обработки изображений переменного размера. Это позволяет Pixtral точно интерпретировать диаграммы, графики и документы с высоким разрешением, сохраняя при этом высокую скорость вывода для небольших изображений, таких как значки, клипарты и уравнения. Эта тщательно продуманная архитектура поддерживает обработку произвольного количества изображений разного размера в пределах значительного контекстного окна в 128 000 токенов.
При использовании моделей с открытым весом лицензионные соглашения имеют первостепенное значение. Отражая подход к лицензированию других моделей Mistral, таких как Mistral 7B, Mixtral 8x7B, Mixtral 8x22B и Mistral Nemo 12B, Pixtral 12B выпускается под коммерчески разрешительной лицензией Apache 2.0. Это предоставляет как корпоративным клиентам, так и стартапам высокопроизводительный вариант VLM, позволяя им создавать сложные мультимодальные приложения.
Показатели производительности и тесты: подробный обзор
Pixtral 12B тщательно обучен понимать как естественные изображения, так и документы. Он набрал 52,5% в тесте рассуждений Massive Multitask Language Understanding (MMLU), превзойдя несколько более крупных моделей, как сообщает Mistral. Тест MMLU служит строгим испытанием, оценивающим способность языковой модели понимать и использовать язык в широком спектре предметов. MMLU включает более 10 000 вопросов с несколькими вариантами ответов, которые охватывают различные академические дисциплины, включая математику, философию, право и медицину.
Pixtral 12B демонстрирует надежные возможности в таких задачах, как понимание диаграмм и рисунков, ответы на вопросы на основе содержания документа, участие в мультимодальных рассуждениях и соблюдение инструкций. Способность модели принимать изображения в их естественном разрешении и соотношении сторон предоставляет пользователям гибкость в количестве токенов, используемых для обработки изображений. Кроме того, Pixtral может обрабатывать несколько изображений в своем обширном контекстном окне в 128 000 токенов. Примечательно, что, в отличие от предыдущих моделей с открытым исходным кодом, Pixtral не жертвует производительностью в текстовых тестах, чтобы преуспеть в мультимодальных задачах, согласно результатам Mistral.
Развертывание Pixtral 12B на Amazon Bedrock Marketplace: пошаговое руководство
Консоль Amazon Bedrock упрощает поиск моделей, адаптированных к конкретным вариантам использования или языкам. Результаты поиска включают как бессерверные модели, так и модели, доступные через Amazon Bedrock Marketplace. Пользователи могут уточнить свой поиск, отфильтровав результаты по поставщику, модальности (например, текст, изображение или аудио) или задаче (например, классификация или обобщение текста).
Чтобы получить доступ к Pixtral 12B в Amazon Bedrock Marketplace, выполните следующие подробные действия:
Перейдите в каталог моделей: В консоли Amazon Bedrock найдите и выберите ‘Model catalog’ в разделе ‘Foundation models’ на панели навигации.
Отфильтруйте и выберите Pixtral 12B: Уточните список моделей, выбрав ‘Hugging Face’ в качестве поставщика, а затем выбрав модель Pixtral 12B. Кроме того, вы можете напрямую найти ‘Pixtral’ в поле ввода ‘Filter for a model’.
Просмотрите сведения о модели: На странице сведений о модели представлена важная информация о возможностях модели, структуре ценообразования и рекомендациях по внедрению. Эта страница предлагает подробные инструкции по использованию, включая примеры вызовов API и фрагменты кода для облегчения интеграции. Она также предоставляет варианты развертывания и информацию о лицензировании, чтобы упростить процесс включения Pixtral 12B в ваши приложения.
Начните развертывание: Чтобы начать использовать Pixtral 12B, нажмите кнопку ‘Deploy’.
Настройте параметры развертывания: Вам будет предложено настроить сведения о развертывании для Pixtral 12B. Идентификатор модели будет предварительно заполнен для вашего удобства.
Примите лицензионное соглашение с конечным пользователем (EULA): Внимательно прочитайте и примите лицензионное соглашение с конечным пользователем (EULA).
Имя конечной точки: ‘Endpoint Name’ заполняется автоматически; однако клиенты могут переименовать конечную точку.
Количество экземпляров: Укажите желаемое количество экземпляров, от 1 до 100.
Тип экземпляра: Выберите предпочтительный тип экземпляра. Для оптимальной производительности с Pixtral 12B рекомендуется использовать тип экземпляра на базе GPU, например ml.g6.12xlarge.
Дополнительные параметры (необязательно): При необходимости можно настроить дополнительные параметры безопасности и инфраструктуры. К ним относятся сеть виртуального частного облака (VPC), разрешения роли службы и параметры шифрования. Хотя настройки по умолчанию подходят для большинства случаев использования, для производственных развертываний рекомендуется просмотреть эти настройки, чтобы обеспечить соответствие требованиям безопасности и соответствия вашей организации.
Разверните модель: Нажмите ‘Deploy’, чтобы начать процесс развертывания модели.
Отслеживайте статус развертывания: После завершения развертывания ‘Endpoint status’ должен перейти в состояние ‘In Service’. После того, как конечная точка станет активной, вы можете напрямую протестировать возможности Pixtral 12B в песочнице Amazon Bedrock.
Доступ к песочнице: Выберите ‘Open in playground’, чтобы получить доступ к интерактивному интерфейсу. Этот интерфейс позволяет экспериментировать с различными подсказками и настраивать параметры модели, такие как температура и максимальная длина.
Песочница предоставляет отличную среду для изучения возможностей модели по рассуждению и генерации текста, прежде чем интегрировать ее в ваши приложения. Она предлагает немедленную обратную связь, позволяя вам понять, как модель реагирует на различные входные данные, и точно настроить свои подсказки для достижения оптимальных результатов.
Хотя песочница позволяет быстро тестировать через пользовательский интерфейс, программный вызов развернутой модели с использованием API Amazon Bedrock требует использования ARN конечной точки в качестве model-id
в Amazon Bedrock SDK.
Изучение вариантов использования Pixtral 12B
В этом разделе рассматриваются практические примеры возможностей Pixtral 12B, демонстрирующие его универсальность с помощью примеров подсказок.
Визуальное логическое рассуждение: мощное приложение
Одним из наиболее убедительных применений моделей зрения является их способность решать задачи логического рассуждения или визуальные головоломки. Модели зрения Pixtral 12B демонстрируют исключительное мастерство в решении вопросов логического рассуждения. Давайте рассмотрим конкретный пример, чтобы проиллюстрировать эту возможность. Основная сила заключается в способности не только видеть изображение, но и извлекать закономерности и применять логику. Возможности большой языковой модели используются для предоставления ответа.
Пример:
Представьте себе визуальную головоломку, в которой представлена последовательность фигур, и задача состоит в том, чтобы определить следующую фигуру в последовательности на основе скрытого шаблона.
Подсказка: ‘Проанализируйте следующую последовательность фигур и предскажите следующую фигуру в серии. Объясните свои рассуждения.’
Входные данные: (Изображение, изображающее последовательность фигур)
Ожидаемый результат: Pixtral 12B в идеале должен:
- Определить шаблон: Правильно распознать основной шаблон, управляющий последовательностью фигур. Это может включать распознавание изменений формы, цвета, ориентации или комбинации этих факторов.
- Предсказать следующую фигуру: На основе идентифицированного шаблона точно предсказать характеристики следующей фигуры в последовательности.
- Объяснить рассуждения: Четко сформулировать логические шаги, предпринятые для получения предсказания, объяснив, как идентифицированный шаблон был применен для определения следующей фигуры.
Этот пример подчеркивает способность Pixtral 12B не только обрабатывать визуальную информацию, но и применять логические рассуждения для интерпретации информации и составления прогнозов. Эта возможность выходит за рамки простого распознавания образов, охватывая более сложные сценарии, включающие пространственное мышление, дедукции на основе правил и даже понимание абстрактных концепций.
Дополнительные варианты использования и расширения
Помимо визуальных головоломок, возможности визуального логического рассуждения Pixtral 12B могут быть применены к широкому спектру реальных сценариев:
- Анализ и интерпретация данных: Анализ диаграмм, графиков и схем для извлечения ключевых идей и тенденций. Например, выявление корреляций между различными наборами данных, представленными в сложной визуализации.
- Анализ медицинских изображений: Помощь в интерпретации медицинских изображений, таких как рентгеновские снимки, компьютерная томография и МРТ, путем выявления аномалий или закономерностей, указывающих на конкретные состояния.
- Робототехника и автономные системы: Предоставление роботам возможности ориентироваться в сложных средах, интерпретируя визуальные подсказки и принимая решения на основе своего понимания сцены.
- Безопасность и наблюдение: Анализ видеозаписей для обнаружения подозрительных действий или идентификации интересующих объектов.
- Образование и обучение: Создание интерактивных учебных материалов, которые адаптируются к пониманию пользователя на основе его ответов на визуальные подсказки.
- Понимание документов: Извлечение структурированных данных из сложных документов.
Универсальность Pixtral 12B в сочетании с доступностью Amazon Bedrock открывает широкий спектр возможностей для разработчиков и предприятий, стремящихся использовать возможности моделей визуального языка. Способность обрабатывать изображения и текст унифицированным образом в сочетании с сильными способностями к рассуждению делает Pixtral 12B ценным инструментом для множества приложений. Простота развертывания и коммерчески разрешительное лицензирование еще больше повышают его привлекательность, делая его привлекательным вариантом как для исследований, так и для коммерческих начинаний.