Pixtral-12B-2409 trên Amazon Bedrock

Giới thiệu về Pixtral-12B-2409 trên Amazon Bedrock Marketplace

Amazon Bedrock Marketplace hiện cung cấp Pixtral 12B (pixtral-12b-2409), một mô hình ngôn ngữ thị giác (VLM) 12 tỷ tham số tiên tiến được phát triển bởi Mistral AI. Mô hình mạnh mẽ này vượt trội trong cả các tác vụ dựa trên văn bản và đa phương thức. Amazon Bedrock Marketplace, một tính năng mới trong Amazon Bedrock, mở rộng lựa chọn các mô hình nền tảng (FM) có sẵn, cho phép các nhà phát triển khám phá, thử nghiệm và sử dụng hơn 100 mô hình phổ biến, mới nổi và chuyên biệt, bổ sung cho phạm vi hiện có của các mô hình hàng đầu trong ngành. Bài đăng này hướng dẫn bạn qua quy trình khám phá, triển khai và tận dụng mô hình Pixtral 12B cho nhiều ứng dụng thực tế liên quan đến thị giác.

Tìm hiểu sâu về Pixtral 12B

Pixtral 12B, bước đột phá đầu tiên của Mistral vào lĩnh vực VLM, thể hiện hiệu suất ấn tượng trên một loạt các bài kiểm tra điểm chuẩn. Theo đánh giá nội bộ của Mistral, nó vượt trội hơn các mô hình mở khác và thậm chí còn cạnh tranh với các mô hình lớn hơn nhiều. Pixtral được thiết kế cho cả việc hiểu hình ảnh và tài liệu, thể hiện khả năng nâng cao trong các tác vụ tập trung vào thị giác. Chúng bao gồm giải thích biểu đồ và số liệu, trả lời câu hỏi về nội dung tài liệu, tham gia vào lý luận đa phương thức và tuân thủ tỉ mỉ các hướng dẫn. Một tính năng chính của mô hình này là khả năng xử lý hình ảnh ở độ phân giải gốc và tỷ lệ khung hình, đảm bảo xử lý đầu vào có độ trung thực cao. Hơn nữa, và không giống như nhiều giải pháp thay thế nguồn mở, Pixtral 12B đạt được kết quả xuất sắc trong các bài kiểm tra điểm chuẩn dựa trên văn bản – thể hiện sự thành thạo trong việc tuân theo hướng dẫn, viết mã và lý luận toán học – mà không ảnh hưởng đến hiệu suất tác vụ đa phương thức của nó.

Sự đổi mới đằng sau Pixtral 12B nằm ở kiến trúc mới lạ của Mistral, được thiết kế tỉ mỉ cho cả hiệu quả tính toán và hiệu suất cao. Mô hình bao gồm hai thành phần cốt lõi: bộ mã hóa thị giác 400 triệu tham số, có nhiệm vụ mã hóa hình ảnh và bộ giải mã biến áp đa phương thức 12 tỷ tham số. Bộ giải mã này dự đoán mã thông báo văn bản tiếp theo dựa trên một chuỗi văn bản và hình ảnh nhất định. Bộ mã hóa thị giác được đào tạo đặc biệt để xử lý các kích thước hình ảnh thay đổi một cách tự nhiên. Điều này cho phép Pixtral diễn giải chính xác các sơ đồ, biểu đồ và tài liệu có độ phân giải cao trong khi vẫn duy trì tốc độ suy luận nhanh chóng cho các hình ảnh nhỏ hơn, chẳng hạn như biểu tượng, clipart và phương trình. Kiến trúc được chế tạo cẩn thận này hỗ trợ xử lý một số lượng hình ảnh tùy ý có kích thước khác nhau, tất cả đều nằm trong một cửa sổ ngữ cảnh đáng kể là 128.000 mã thông báo.

Khi sử dụng các mô hình trọng số mở, thỏa thuận cấp phép là một yếu tố quan trọng hàng đầu. Phản ánh cách tiếp cận cấp phép của các mô hình Mistral khác như Mistral 7B, Mixtral 8x7B, Mixtral 8x22B và Mistral Nemo 12B, Pixtral 12B được phát hành theo giấy phép Apache 2.0 cho phép thương mại. Điều này cung cấp cho cả khách hàng doanh nghiệp và khách hàng khởi nghiệp một tùy chọn VLM hiệu suất cao, cho phép họ xây dựng các ứng dụng đa phương thức phức tạp.

Các chỉ số hiệu suất và điểm chuẩn: Xem xét kỹ hơn

Pixtral 12B được đào tạo tỉ mỉ để hiểu cả hình ảnh tự nhiên và tài liệu. Nó đạt được số điểm 52,5% trên bài kiểm tra điểm chuẩn lý luận Massive Multitask Language Understanding (MMLU), vượt trội hơn một số mô hình lớn hơn, theo báo cáo của Mistral. Bài kiểm tra điểm chuẩn MMLU đóng vai trò là một bài kiểm tra nghiêm ngặt, đánh giá khả năng của một mô hình ngôn ngữ trong việc hiểu và sử dụng ngôn ngữ trên một loạt các chủ đề khác nhau. MMLU bao gồm hơn 10.000 câu hỏi trắc nghiệm trải rộng trên nhiều lĩnh vực học thuật khác nhau, bao gồm toán học, triết học, luật và y học.

Pixtral 12B thể hiện khả năng mạnh mẽ trong các tác vụ như hiểu biểu đồ và số liệu, trả lời câu hỏi dựa trên nội dung tài liệu, tham gia vào lý luận đa phương thức và tuân thủ hướng dẫn. Khả năng nhập hình ảnh ở độ phân giải tự nhiên và tỷ lệ khung hình của mô hình cung cấp cho người dùng sự linh hoạt về số lượng mã thông báo được sử dụng để xử lý hình ảnh. Ngoài ra, Pixtral có thể xử lý nhiều hình ảnh trong cửa sổ ngữ cảnh 128.000 mã thông báo mở rộng của nó. Đáng chú ý, và trái ngược với các mô hình nguồn mở trước đây, Pixtral không hy sinh hiệu suất trên các bài kiểm tra điểm chuẩn văn bản để vượt trội trong các tác vụ đa phương thức, theo kết quả của Mistral.

Triển khai Pixtral 12B trên Amazon Bedrock Marketplace: Hướng dẫn từng bước

Bảng điều khiển Amazon Bedrock tạo điều kiện thuận lợi cho việc tìm kiếm các mô hình phù hợp với các trường hợp sử dụng hoặc ngôn ngữ cụ thể. Kết quả tìm kiếm bao gồm cả mô hình không máy chủ và mô hình có sẵn thông qua Amazon Bedrock Marketplace. Người dùng có thể tinh chỉnh tìm kiếm của mình bằng cách lọc kết quả dựa trên nhà cung cấp, phương thức (ví dụ: văn bản, hình ảnh hoặc âm thanh) hoặc tác vụ (ví dụ: phân loại hoặc tóm tắt văn bản).

Để truy cập Pixtral 12B trong Amazon Bedrock Marketplace, hãy làm theo các bước chi tiết sau:

  1. Điều hướng đến Danh mục mô hình (Model catalog): Trong bảng điều khiển Amazon Bedrock, tìm và chọn ‘Model catalog’ trong phần ‘Foundation models’ trong ngăn điều hướng.

  2. Lọc và chọn Pixtral 12B: Tinh chỉnh danh sách mô hình bằng cách chọn ‘Hugging Face’ làm nhà cung cấp và sau đó chọn mô hình Pixtral 12B. Ngoài ra, bạn có thể tìm kiếm trực tiếp ‘Pixtral’ trong hộp nhập ‘Filter for a model’.

  3. Xem lại chi tiết mô hình (Model Details): Trang chi tiết mô hình cung cấp thông tin quan trọng liên quan đến khả năng của mô hình, cấu trúc giá cả và hướng dẫn triển khai. Trang này cung cấp hướng dẫn sử dụng toàn diện, bao gồm các lệnh gọi API mẫu và đoạn mã để tạo điều kiện tích hợp. Nó cũng trình bày các tùy chọn triển khai và thông tin cấp phép để hợp lý hóa quy trình kết hợp Pixtral 12B vào các ứng dụng của bạn.

  4. Bắt đầu triển khai (Initiate Deployment): Để bắt đầu sử dụng Pixtral 12B, hãy nhấp vào nút ‘Deploy’.

  5. Định cấu hình cài đặt triển khai (Configure Deployment Settings): Bạn sẽ được nhắc định cấu hình chi tiết triển khai cho Pixtral 12B. ID mô hình sẽ được điền trước để thuận tiện cho bạn.

  6. Chấp nhận Thỏa thuận cấp phép người dùng cuối (EULA): Đọc kỹ và chấp nhận Thỏa thuận cấp phép người dùng cuối (EULA).

  7. Tên điểm cuối (Endpoint Name): ‘Endpoint Name’ được tự động điền; tuy nhiên, khách hàng có tùy chọn đổi tên điểm cuối.

  8. Số lượng phiên bản (Number of Instances): Chỉ định số lượng phiên bản mong muốn, từ 1 đến 100.

  9. Loại phiên bản (Instance Type): Chọn loại phiên bản ưa thích của bạn. Để có hiệu suất tối ưu với Pixtral 12B, nên sử dụng loại phiên bản dựa trên GPU, chẳng hạn như ml.g6.12xlarge.

  10. Cài đặt nâng cao (Tùy chọn) (Advanced Settings (Optional)): Tùy chọn, bạn có thể định cấu hình cài đặt bảo mật và cơ sở hạ tầng nâng cao. Chúng bao gồm mạng đám mây riêng ảo (VPC), quyền vai trò dịch vụ và cài đặt mã hóa. Mặc dù cài đặt mặc định phù hợp với hầu hết các trường hợp sử dụng, nhưng đối với các triển khai sản xuất, bạn nên xem xét các cài đặt này để đảm bảo phù hợp với các yêu cầu bảo mật và tuân thủ của tổ chức bạn.

  11. Triển khai mô hình (Deploy the Model): Nhấp vào ‘Deploy’ để bắt đầu quá trình triển khai mô hình.

  12. Theo dõi trạng thái triển khai (Monitor Deployment Status): Sau khi triển khai hoàn tất, ‘Endpoint status’ sẽ chuyển sang ‘In Service’. Sau khi điểm cuối hoạt động, bạn có thể kiểm tra trực tiếp khả năng của Pixtral 12B trong sân chơi Amazon Bedrock.

  13. Truy cập sân chơi (Access the Playground): Chọn ‘Open in playground’ để truy cập giao diện tương tác. Giao diện này cho phép bạn thử nghiệm với các câu lệnh khác nhau và điều chỉnh các thông số mô hình, chẳng hạn như nhiệt độ và độ dài tối đa.

Sân chơi cung cấp một môi trường tuyệt vời để khám phá khả năng lý luận và tạo văn bản của mô hình trước khi tích hợp nó vào các ứng dụng của bạn. Nó cung cấp phản hồi ngay lập tức, cho phép bạn hiểu cách mô hình phản ứng với các đầu vào khác nhau và tinh chỉnh câu lệnh của bạn để có kết quả tối ưu.

Mặc dù sân chơi cho phép kiểm tra nhanh thông qua giao diện người dùng, việc gọi mô hình đã triển khai theo chương trình bằng API Amazon Bedrock yêu cầu sử dụng ARN điểm cuối làm ‘model-id’ trong Amazon Bedrock SDK.

Khám phá các trường hợp sử dụng Pixtral 12B

Phần này đi sâu vào các ví dụ thực tế về khả năng của Pixtral 12B, giới thiệu tính linh hoạt của nó thông qua các câu lệnh mẫu.

Lý luận logic trực quan: Một ứng dụng mạnh mẽ

Một trong những ứng dụng hấp dẫn nhất của mô hình thị giác là khả năng giải quyết các vấn đề lý luận logic hoặc câu đố trực quan. Các mô hình thị giác Pixtral 12B thể hiện khả năng đặc biệt trong việc giải quyết các câu hỏi lý luận logic. Hãy xem xét một ví dụ cụ thể để minh họa khả năng này. Sức mạnh cốt lõi là khả năng không chỉ nhìn thấy hình ảnh mà còn trích xuất các mẫu và áp dụng logic. Khả năng mô hình ngôn ngữ lớn được sử dụng để cung cấp phản hồi.

Ví dụ:
Hãy tưởng tượng một câu đố trực quan trong đó một chuỗi các hình dạng được trình bày và nhiệm vụ là xác định hình dạng tiếp theo trong chuỗi dựa trên một mẫu ẩn.

Câu lệnh (Prompt): ‘Phân tích chuỗi hình dạng sau và dự đoán hình dạng tiếp theo trong chuỗi. Giải thích lý do của bạn.’

Tải trọng đầu vào (Input Payload): (Một hình ảnh mô tả chuỗi hình dạng)

Đầu ra mong đợi (Expected Output): Pixtral 12B lý tưởng sẽ:

  1. Xác định mẫu (Identify the Pattern): Nhận biết chính xác mẫu cơ bản chi phối chuỗi hình dạng. Điều này có thể liên quan đến việc nhận ra những thay đổi về hình dạng, màu sắc, hướng hoặc sự kết hợp của các yếu tố này.
  2. Dự đoán hình dạng tiếp theo (Predict the Next Shape): Dựa trên mẫu đã xác định, dự đoán chính xác các đặc điểm của hình dạng tiếp theo trong chuỗi.
  3. Giải thích lý do (Explain the Reasoning): Trình bày rõ ràng các bước logic được thực hiện để đi đến dự đoán, giải thích cách mẫu đã xác định được áp dụng để xác định hình dạng tiếp theo.

Ví dụ này làm nổi bật khả năng của Pixtral 12B không chỉ xử lý thông tin hình ảnh mà còn áp dụng lý luận logic để diễn giải thông tin và đưa ra dự đoán. Khả năng này mở rộng ra ngoài việc nhận dạng mẫu đơn giản, bao gồm các tình huống phức tạp hơn liên quan đến lý luận không gian, suy luận dựa trên quy tắc và thậm chí hiểu khái niệm trừu tượng.

Các trường hợp sử dụng và mở rộng khác

Ngoài các câu đố trực quan, khả năng lý luận logic trực quan của Pixtral 12B có thể được áp dụng cho một loạt các tình huống thực tế:

  • Phân tích và diễn giải dữ liệu (Data Analysis and Interpretation): Phân tích biểu đồ, đồ thị và sơ đồ để trích xuất những hiểu biết và xu hướng chính. Ví dụ: xác định mối tương quan giữa các tập dữ liệu khác nhau được trình bày trong một hình ảnh trực quan phức tạp.
  • Phân tích hình ảnh y tế (Medical Image Analysis): Hỗ trợ giải thích hình ảnh y tế, chẳng hạn như X-quang, CT scan và MRI, bằng cách xác định các điểm bất thường hoặc các mẫu chỉ ra các tình trạng cụ thể.
  • Robot và hệ thống tự động (Robotics and Autonomous Systems): Cho phép robot điều hướng các môi trường phức tạp bằng cách diễn giải các tín hiệu thị giác và đưa ra quyết định dựa trên sự hiểu biết của chúng về cảnh.
  • An ninh và giám sát (Security and Surveillance): Phân tích cảnh quay video để phát hiện các hoạt động đáng ngờ hoặc xác định các đối tượng quan tâm.
  • Giáo dục và đào tạo (Education and Training): Tạo tài liệu học tập tương tác thích ứng với sự hiểu biết của người dùng dựa trên phản hồi của họ đối với các câu lệnh trực quan.
  • Hiểu tài liệu (Document understanding): Trích xuất dữ liệu có cấu trúc từ các tài liệu phức tạp.

Tính linh hoạt của Pixtral 12B, kết hợp với khả năng truy cập của Amazon Bedrock, mở ra một loạt các khả năng cho các nhà phát triển và doanh nghiệp đang tìm cách tận dụng sức mạnh của mô hình ngôn ngữ thị giác. Khả năng xử lý hình ảnh và văn bản theo một cách thống nhất, cùng với khả năng lý luận mạnh mẽ, làm cho Pixtral 12B trở thành một công cụ có giá trị cho vô số ứng dụng. Việc dễ dàng triển khai và cấp phép thương mại cho phép càng nâng cao sức hấp dẫn của nó, khiến nó trở thành một lựa chọn hấp dẫn cho cả nghiên cứu và nỗ lực thương mại.