Pixtral-12B-2409 в Amazon Bedrock

Задълбочен поглед върху Pixtral 12B

Pixtral 12B, първият опит на Mistral в областта на VLM, демонстрира впечатляваща производителност в редица бенчмаркове. Според вътрешните оценки на Mistral, той превъзхожда други отворени модели и дори се конкурира с много по-големи модели. Pixtral е проектиран както за разбиране на изображения, така и на документи, като показва разширени възможности в задачи, ориентирани към зрението. Те включват интерпретиране на графики и фигури, отговаряне на въпроси относно съдържанието на документи, участие в мултимодално разсъждение и щателно следване на инструкции. Ключова характеристика на този модел е способността му да обработва изображения в тяхната естествена разделителна способност и съотношение, осигурявайки висококачествена обработка на входа. Освен това, за разлика от много алтернативи с отворен код, Pixtral 12B постига отлични резултати в текстови бенчмаркове – демонстрирайки умения в следването на инструкции, кодирането и математическите разсъждения – без да компрометира производителността си при мултимодални задачи.

Иновацията зад Pixtral 12B се крие в новата архитектура на Mistral, щателно проектирана както за изчислителна ефективност, така и за висока производителност. Моделът се състои от два основни компонента: 400-милионен параметър vision encoder, натоварен със задачата да токенизира изображения, и 12-милиарден параметър multimodal transformer decoder. Този декодер предсказва следващия текстов токен въз основа на дадена последователност от текст и изображения. Vision encoder е специално обучен да обработва променливи размери на изображенията. Това позволява на Pixtral да интерпретира точно диаграми, графики и документи с висока разделителна способност, като същевременно поддържа бързи скорости на извод за по-малки изображения, като икони, клипарт и уравнения. Тази внимателно изработена архитектура поддържа обработката на произволен брой изображения с различни размери, всички в рамките на значителен контекстен прозорец от 128 000 токена.

Когато се използват модели с отворени тегла, лицензионните споразумения са от първостепенно значение. Отразявайки лицензионния подход на други модели на Mistral като Mistral 7B, Mixtral 8x7B, Mixtral 8x22B и Mistral Nemo 12B, Pixtral 12B е пуснат под търговския разрешителен лиценз Apache 2.0. Това предоставя както на корпоративните, така и на стартиращите клиенти високопроизводителна VLM опция, която им дава възможност да изграждат сложни мултимодални приложения.

Показатели за ефективност и бенчмаркове: По-отблизо

Pixtral 12B е щателно обучен да разбира както естествени изображения, така и документи. Той постигна резултат от 52,5% на бенчмарка за разсъждения Massive Multitask Language Understanding (MMLU), превъзхождайки няколко по-големи модела, както се съобщава от Mistral. Бенчмаркът MMLU служи като строг тест, оценяващ способността на езиковия модел да разбира и използва език в широк спектър от теми. MMLU се състои от над 10 000 въпроса с избираем отговор, които обхващат различни академични дисциплини, включително математика, философия, право и медицина.

Pixtral 12B демонстрира стабилни възможности в задачи като разбиране на графики и фигури, отговаряне на въпроси въз основа на съдържанието на документи, участие в мултимодално разсъждение и спазване на инструкции. Способността на модела да приема изображения в тяхната естествена разделителна способност и съотношение на страните предоставя на потребителите гъвкавост в броя на токените, използвани за обработка на изображения. Освен това Pixtral може да обработва множество изображения в рамките на своя обширен 128 000-токенов контекстен прозорец. Трябва да се отбележи, че за разлика от предишните модели с отворен код, Pixtral не жертва производителността на текстовите бенчмаркове, за да се отличи в мултимодалните задачи, според констатациите на Mistral.

Внедряване на Pixtral 12B на Amazon Bedrock Marketplace: Ръководство стъпка по стъпка

Конзолата на Amazon Bedrock улеснява търсенето на модели, пригодени за конкретни случаи на употреба или езици. Резултатите от търсенето обхващат както serverless модели, така и модели, достъпни чрез Amazon Bedrock Marketplace. Потребителите могат да прецизират търсенето си, като филтрират резултатите въз основа на доставчик, модалност (напр. текст, изображение или аудио) или задача (напр. класификация или обобщаване на текст).

За да получите достъп до Pixtral 12B в Amazon Bedrock Marketplace, следвайте тези подробни стъпки:

  1. Навигирайте до каталога с модели: В конзолата на Amazon Bedrock намерете и изберете ‘Model catalog’ под секцията ‘Foundation models’ в навигационния панел.

  2. Филтрирайте и изберете Pixtral 12B: Прецизирайте списъка с модели, като изберете ‘Hugging Face’ като доставчик и след това изберете модела Pixtral 12B. Като алтернатива можете директно да потърсите ‘Pixtral’ в полето за въвеждане ‘Filter for a model’.

  3. Преглед на подробностите за модела: Страницата с подробности за модела предоставя важна информация относно възможностите на модела, структурата на ценообразуване и насоките за внедряване. Тази страница предлага изчерпателни инструкции за употреба, включително примерни API извиквания и кодови фрагменти за улесняване на интеграцията. Той също така представя опции за внедряване и информация за лицензиране, за да се рационализира процесът на включване на Pixtral 12B във вашите приложения.

  4. Иницииране на внедряване: За да започнете да използвате Pixtral 12B, щракнете върху бутона ‘Deploy’.

  5. Конфигуриране на настройките за внедряване: Ще бъдете подканени да конфигурирате подробностите за внедряването на Pixtral 12B. Идентификаторът на модела ще бъде предварително попълнен за ваше удобство.

  6. Приемете лицензионното споразумение с крайния потребител (EULA): Прочетете внимателно и приемете лицензионното споразумение с крайния потребител (EULA).

  7. Име на крайната точка: ‘Endpoint Name’ се попълва автоматично; клиентите обаче имат възможност да преименуват крайната точка.

  8. Брой инстанции: Посочете желания брой инстанции, вариращи от 1 до 100.

  9. Тип инстанция: Изберете предпочитания от вас тип инстанция. За оптимална производителност с Pixtral 12B се препоръчва тип инстанция, базиран на GPU, като ml.g6.12xlarge.

  10. Разширени настройки (по избор): По избор можете да конфигурирате разширени настройки за сигурност и инфраструктура. Те включват мрежова връзка с virtual private cloud (VPC), разрешения за роля на услугата и настройки за криптиране. Въпреки че настройките по подразбиране са подходящи за повечето случаи на употреба, за производствени внедрявания е препоръчително да прегледате тези настройки, за да осигурите съответствие с изискванията за сигурност и съответствие на вашата организация.

  11. Внедряване на модела: Щракнете върху ‘Deploy’, за да инициирате процеса на внедряване на модела.

  12. Наблюдение на състоянието на внедряване: След като внедряването приключи, ‘Endpoint status’ трябва да премине към ‘In Service’. След като крайната точка е активна, можете директно да тествате възможностите на Pixtral 12B в Amazon Bedrock playground.

  13. Достъп до Playground: Изберете ‘Open in playground’, за да получите достъп до интерактивен интерфейс. Този интерфейс ви позволява да експериментирате с различни подкани и да коригирате параметрите на модела, като температура и максимална дължина.

Playground предоставя отлична среда за изследване на разсъжденията на модела и възможностите за генериране на текст, преди да го интегрирате във вашите приложения. Той предлага незабавна обратна връзка, която ви позволява да разберете как моделът реагира на различни входове и да прецизирате подканите си за оптимални резултати.

Докато playground позволява бързо тестване чрез потребителския интерфейс, програмното извикване на внедрения модел с помощта на Amazon Bedrock API изисква използването на endpoint ARN като model-id в Amazon Bedrock SDK.

Проучване на случаите на употреба на Pixtral 12B

Този раздел се задълбочава в практически примери за възможностите на Pixtral 12B, демонстрирайки неговата гъвкавост чрез примерни подкани.

Визуално логическо разсъждение: Мощно приложение

Едно от най-завладяващите приложения на vision моделите е способността им да решават проблеми с логически разсъждения или визуални пъзели. Pixtral 12B vision моделите демонстрират изключителни умения в справянето с въпроси за логически разсъждения. Нека разгледаме конкретен пример, за да илюстрираме тази способност. Основната сила е способността не само да се види изображението, но и да се извлекат моделите и да се приложи логика. Възможностите на големия езиков модел се използват за предоставяне на отговор.

Пример:
Представете си визуален пъзел, при който е представена последователност от фигури и задачата е да се определи следващата фигура в последователността въз основа на скрит модел.

Подкана: ‘Анализирайте следната последователност от фигури и предскажете следващата фигура в серията. Обяснете разсъжденията си.’

Входен полезен товар: (Изображение, изобразяващо последователността от фигури)

Очакван изход: Pixtral 12B в идеалния случай би:

  1. Идентифициране на модела: Правилно разпознаване на основния модел, управляващ последователността от фигури. Това може да включва разпознаване на промени във формата, цвета, ориентацията или комбинация от тези фактори.
  2. Предсказване на следващата фигура: Въз основа на идентифицирания модел, точно предсказване на характеристиките на следващата фигура в последователността.
  3. Обяснение на разсъжденията: Ясно формулиране на логическите стъпки, предприети за достигане до прогнозата, обяснявайки как идентифицираният модел е приложен за определяне на следващата фигура.

Този пример подчертава способността на Pixtral 12B не само да обработва визуална информация, но и да прилага логически разсъждения, за да интерпретира информацията и да прави прогнози. Тази способност се простира отвъд простото разпознаване на образи, обхващайки по-сложни сценарии, включващи пространствени разсъждения, изводи, базирани на правила, и дори разбиране на абстрактни концепции.

Допълнителни случаи на употреба и разширения

Освен визуалните пъзели, възможностите за визуално логическо разсъждение на Pixtral 12B могат да бъдат приложени към широк спектър от сценарии от реалния свят:

  • Анализ и интерпретация на данни: Анализиране на графики, диаграми и схеми за извличане на ключови прозрения и тенденции. Например, идентифициране на корелации между различни набори от данни, представени в сложна визуализация.
  • Анализ на медицински изображения: Подпомагане на интерпретацията на медицински изображения, като рентгенови снимки, CT сканирания и ЯМР, чрез идентифициране на аномалии или модели, показателни за специфични състояния.
  • Роботика и автономни системи: Позволяване на роботите да навигират в сложни среди чрез интерпретиране на визуални сигнали и вземане на решения въз основа на тяхното разбиране на сцената.
  • Сигурност и наблюдение: Анализиране на видеозаписи за откриване на подозрителни дейности или идентифициране на обекти от интерес.
  • Образование и обучение: Създаване на интерактивни учебни материали, които се адаптират към разбирането на потребителя въз основа на техните отговори на визуални подкани.
  • Разбиране на документи: Извличане на структурирани данни от сложни документи.

Гъвкавостта на Pixtral 12B, съчетана с достъпността на Amazon Bedrock, отваря огромен набор от възможности за разработчици и фирми, които искат да се възползват от силата на vision language моделите. Способността за обработка на изображения и текст по унифициран начин, съчетана със силни възможности за разсъждение, прави Pixtral 12B ценен инструмент за множество приложения. Лесното внедряване и търговското разрешително лицензиране допълнително повишават неговата привлекателност, което го прави атрактивна опция както за изследователски, така и за търговски начинания.