이제 Amazon Bedrock Marketplace에서 Pixtral-12B-2409 사용 가능

Pixtral 12B 심층 분석

Mistral의 VLM에 대한 첫 진출인 Pixtral 12B는 다양한 벤치마크에서 인상적인 성능을 보여줍니다. Mistral의 내부 평가에 따르면 다른 오픈 모델보다 성능이 뛰어나고 훨씬 더 큰 모델과도 경쟁합니다. Pixtral은 이미지 및 문서 이해를 위해 설계되었으며, 차트 및 그림 해석, 문서 내용에 대한 질문 응답, 멀티모달 추론 수행, 지침을 꼼꼼하게 따르는 등 비전 중심 작업에서 고급 기능을 보여줍니다. 이 모델의 주요 특징은 기본 해상도와 가로 세로 비율로 이미지를 처리하여 고화질 입력 처리를 보장하는 기능입니다. 또한, 많은 오픈 소스 대안과 달리 Pixtral 12B는 멀티모달 작업 성능을 저하시키지 않으면서 텍스트 기반 벤치마크에서 탁월한 결과를 달성하여 지침 준수, 코딩 및 수학적 추론에 대한 숙련도를 입증합니다.

Pixtral 12B의 혁신은 계산 효율성과 고성능을 위해 세심하게 설계된 Mistral의 새로운 아키텍처에 있습니다. 이 모델은 두 가지 핵심 구성 요소로 구성됩니다. 이미지를 토큰화하는 4억 파라미터 비전 인코더와 텍스트 및 이미지 시퀀스를 기반으로 후속 텍스트 토큰을 예측하는 120억 파라미터 멀티모달 트랜스포머 디코더입니다. 비전 인코더는 다양한 이미지 크기를 기본적으로 처리하도록 특별히 훈련되었습니다. 이를 통해 Pixtral은 고해상도 다이어그램, 차트 및 문서를 정확하게 해석하는 동시에 아이콘, 클립 아트 및 방정식과 같은 더 작은 이미지에 대해 빠른 추론 속도를 유지할 수 있습니다. 이 신중하게 제작된 아키텍처는 128,000 토큰의 상당한 컨텍스트 창 내에서 다양한 크기의 임의 개수의 이미지 처리를 지원합니다.

오픈 웨이트 모델을 사용할 때 라이선스 계약은 가장 중요한 고려 사항입니다. Mistral 7B, Mixtral 8x7B, Mixtral 8x22B 및 Mistral Nemo 12B와 같은 다른 Mistral 모델의 라이선스 접근 방식을 반영하여 Pixtral 12B는 상업적으로 허용되는 Apache 2.0 라이선스에 따라 출시됩니다. 이를 통해 기업 및 스타트업 고객 모두에게 고성능 VLM 옵션을 제공하여 정교한 멀티모달 애플리케이션을 구축할 수 있습니다.

성능 지표 및 벤치마크: 자세히 살펴보기

Pixtral 12B는 자연 이미지와 문서를 모두 이해하도록 세심하게 훈련되었습니다. Mistral에서 보고한 바와 같이 MMLU(Massive Multitask Language Understanding) 추론 벤치마크에서 52.5%의 점수를 달성하여 여러 더 큰 모델보다 성능이 뛰어났습니다. MMLU 벤치마크는 다양한 주제에 걸쳐 언어를 이해하고 활용하는 언어 모델의 능력을 평가하는 엄격한 테스트 역할을 합니다. MMLU는 수학, 철학, 법률 및 의학을 포함한 다양한 학문 분야에 걸쳐 10,000개 이상의 객관식 질문으로 구성됩니다.

Pixtral 12B는 차트 및 그림 이해, 문서 내용을 기반으로 한 질문 응답, 멀티모달 추론 수행, 지침 준수와 같은 작업에서 강력한 기능을 보여줍니다. 자연스러운 해상도와 가로 세로 비율로 이미지를 수집하는 모델의 기능은 사용자에게 이미지 처리에 사용되는 토큰 수에 대한 유연성을 제공합니다. 또한 Pixtral은 광범위한 128,000 토큰 컨텍스트 창 내에서 여러 이미지를 처리할 수 있습니다. 특히, Mistral의 연구 결과에 따르면 이전 오픈 소스 모델과 달리 Pixtral은 멀티모달 작업에서 탁월한 성능을 발휘하기 위해 텍스트 벤치마크 성능을 희생하지 않습니다.

Amazon Bedrock Marketplace에 Pixtral 12B 배포: 단계별 가이드

Amazon Bedrock 콘솔은 특정 사용 사례 또는 언어에 맞는 모델 검색을 용이하게 합니다. 검색 결과에는 서버리스 모델과 Amazon Bedrock Marketplace를 통해 사용할 수 있는 모델이 모두 포함됩니다. 사용자는 공급자, 양식(예: 텍스트, 이미지 또는 오디오) 또는 작업(예: 분류 또는 텍스트 요약)을 기준으로 결과를 필터링하여 검색 범위를 좁힐 수 있습니다.

Amazon Bedrock Marketplace 내에서 Pixtral 12B에 액세스하려면 다음의 자세한 단계를 따르세요.

  1. 모델 카탈로그로 이동: Amazon Bedrock 콘솔 내에서 탐색 창의 ‘Foundation models’ 섹션 아래에서 ‘Model catalog’를 찾아 선택합니다.

  2. Pixtral 12B 필터링 및 선택: 공급자로 ‘Hugging Face’를 선택한 다음 Pixtral 12B 모델을 선택하여 모델 목록을 구체화합니다. 또는 ‘Filter for a model’ 입력 상자에서 ‘Pixtral’을 직접 검색할 수 있습니다.

  3. 모델 세부 정보 검토: 모델 세부 정보 페이지는 모델의 기능, 가격 구조 및 구현 지침에 관한 중요한 정보를 제공합니다. 이 페이지는 통합을 용이하게 하기 위해 샘플 API 호출 및 코드 스니펫을 포함한 포괄적인 사용 지침을 제공합니다. 또한 Pixtral 12B를 애플리케이션에 통합하는 프로세스를 간소화하기 위해 배포 옵션 및 라이선스 정보를 제공합니다.

  4. 배포 시작: Pixtral 12B 활용을 시작하려면 ‘Deploy’ 버튼을 클릭합니다.

  5. 배포 설정 구성: Pixtral 12B에 대한 배포 세부 정보를 구성하라는 메시지가 표시됩니다. 모델 ID는 편의를 위해 미리 채워집니다.

  6. 최종 사용자 라이선스 계약(EULA) 동의: 최종 사용자 라이선스 계약(EULA)을 주의 깊게 읽고 동의합니다.

  7. 엔드포인트 이름: ‘Endpoint Name’은 자동으로 채워집니다. 그러나 고객은 엔드포인트 이름을 바꿀 수 있습니다.

  8. 인스턴스 수: 원하는 인스턴스 수를 1에서 100 사이로 지정합니다.

  9. 인스턴스 유형: 선호하는 인스턴스 유형을 선택합니다. Pixtral 12B의 최적 성능을 위해서는 ml.g6.12xlarge와 같은 GPU 기반 인스턴스 유형을 권장합니다.

  10. 고급 설정(선택 사항): 선택적으로 고급 보안 및 인프라 설정을 구성할 수 있습니다. 여기에는 가상 사설 클라우드(VPC) 네트워킹, 서비스 역할 권한 및 암호화 설정이 포함됩니다. 기본 설정은 대부분의 사용 사례에 적합하지만 프로덕션 배포의 경우 이러한 설정을 검토하여 조직의 보안 및 규정 준수 요구 사항에 부합하는지 확인하는 것이 좋습니다.

  11. 모델 배포: ‘Deploy’를 클릭하여 모델 배포 프로세스를 시작합니다.

  12. 배포 상태 모니터링: 배포가 완료되면 ‘Endpoint status’가 ‘In Service’로 전환되어야 합니다. 엔드포인트가 활성화되면 Amazon Bedrock 플레이그라운드 내에서 Pixtral 12B의 기능을 직접 테스트할 수 있습니다.

  13. 플레이그라운드 액세스: ‘Open in playground’를 선택하여 대화형 인터페이스에 액세스합니다. 이 인터페이스를 통해 다양한 프롬프트를 실험하고 온도 및 최대 길이와 같은 모델 매개변수를 조정할 수 있습니다.

플레이그라운드는 애플리케이션에 통합하기 전에 모델의 추론 및 텍스트 생성 능력을 탐색할 수 있는 훌륭한 환경을 제공합니다. 즉각적인 피드백을 제공하여 모델이 다양한 입력에 어떻게 반응하는지 이해하고 최적의 결과를 위해 프롬프트를 미세 조정할 수 있습니다.

플레이그라운드에서는 UI를 통해 빠른 테스트가 가능하지만 Amazon Bedrock API를 사용하여 배포된 모델을 프로그래밍 방식으로 호출하려면 Amazon Bedrock SDK에서 엔드포인트 ARN을 model-id로 사용해야 합니다.

Pixtral 12B 사용 사례 탐색

이 섹션에서는 샘플 프롬프트를 통해 Pixtral 12B의 다양한 기능을 보여주는 실용적인 예제를 살펴봅니다.

시각적 논리 추론: 강력한 애플리케이션

비전 모델의 가장 매력적인 애플리케이션 중 하나는 논리적 추론 문제 또는 시각적 퍼즐을 해결하는 능력입니다. Pixtral 12B 비전 모델은 논리적 추론 질문을 해결하는 데 탁월한 숙련도를 보여줍니다. 이 기능을 설명하기 위해 구체적인 예를 살펴보겠습니다. 핵심 강점은 이미지를 보는 것뿐만 아니라 패턴을 추출하고 논리를 적용하는 능력입니다. 응답을 제공하기 위해 대규모 언어 모델 기능이 사용됩니다.

예시:
일련의 도형이 제시되고 숨겨진 패턴을 기반으로 시퀀스의 다음 도형을 결정하는 작업인 시각적 퍼즐을 상상해 보십시오.

프롬프트: ‘다음 도형 시퀀스를 분석하고 시리즈의 다음 도형을 예측합니다. 추론을 설명하십시오.’

입력 페이로드: (도형 시퀀스를 나타내는 이미지)

예상 출력: Pixtral 12B는 이상적으로 다음을 수행합니다.

  1. 패턴 식별: 도형 시퀀스를 제어하는 기본 패턴을 올바르게 식별합니다. 여기에는 모양, 색상, 방향 또는 이러한 요소의 조합 변화를 인식하는 것이 포함될 수 있습니다.
  2. 다음 도형 예측: 식별된 패턴을 기반으로 시퀀스에서 다음 도형의 특성을 정확하게 예측합니다.
  3. 추론 설명: 예측에 도달하기 위해 취한 논리적 단계를 명확하게 설명하고 식별된 패턴이 다음 도형을 결정하는 데 어떻게 적용되었는지 설명합니다.

이 예는 시각적 정보를 처리할 뿐만 아니라 정보를 해석하고 예측하기 위해 논리적 추론을 적용하는 Pixtral 12B의 능력을 강조합니다. 이 기능은 단순한 패턴 인식을 넘어 공간 추론, 규칙 기반 추론, 추상적 개념 이해를 포함하는 더 복잡한 시나리오를 포괄합니다.

추가 사용 사례 및 확장

시각적 퍼즐 외에도 Pixtral 12B의 시각적 논리 추론 기능은 광범위한 실제 시나리오에 적용될 수 있습니다.

  • 데이터 분석 및 해석: 차트, 그래프 및 다이어그램을 분석하여 주요 통찰력과 추세를 추출합니다. 예를 들어 복잡한 시각화에 제시된 서로 다른 데이터 세트 간의 상관 관계를 식별합니다.
  • 의료 영상 분석: 특정 상태를 나타내는 이상 또는 패턴을 식별하여 X-레이, CT 스캔 및 MRI와 같은 의료 영상 해석을 지원합니다.
  • 로봇 공학 및 자율 시스템: 시각적 단서를 해석하고 장면에 대한 이해를 기반으로 결정을 내려 로봇이 복잡한 환경을 탐색할 수 있도록 합니다.
  • 보안 및 감시: 비디오 영상을 분석하여 의심스러운 활동을 감지하거나 관심 대상을 식별합니다.
  • 교육 및 훈련: 시각적 프롬프트에 대한 응답을 기반으로 사용자의 이해도에 맞는 대화형 학습 자료를 만듭니다.
  • 문서 이해: 복잡한 문서에서 구조화된 데이터를 추출합니다.

Pixtral 12B의 다양성과 Amazon Bedrock의 접근성이 결합되어 비전 언어 모델의 힘을 활용하려는 개발자와 기업에게 광범위한 가능성을 열어줍니다. 통합된 방식으로 이미지와 텍스트를 처리하는 기능과 강력한 추론 기능이 결합된 Pixtral 12B는 다양한 애플리케이션을 위한 귀중한 도구입니다. 배포 용이성과 상업적으로 허용되는 라이선스는 매력을 더욱 높여 연구 및 상업적 노력 모두에 매력적인 옵션입니다.