Mistral Medium 3: Ndoto na Ukweli

Kampuni changa ya Ufaransa, Mistral AI, hivi karibuni ilitoa mfumo wake mpya wa multimodal, Mistral Medium 3, ambao umevutia umakini mkubwa katika tasnia. Mistral anadai kwamba utendaji wa mfumo huu unaweza kushindana au hata kuzidi 90% ya Claude Sonnet 3.7, huku gharama ikiwa chini ya DeepSeek V3, na kuifanya kuwa chaguo la thamani kubwa kwa pesa. Hata hivyo, matokeo halisi ya majaribio yanaonyesha tofauti fulani na utangazaji rasmi, na kuzua mijadala kuhusu uhalisi wa utendaji wa mfumo.

Mambo Muhimu ya Mistral Medium 3

Mistral ameorodhesha mambo kadhaa muhimu ya Mistral Medium 3 katika blogi yake rasmi:

  • Mizania kati ya Utendaji na Gharama: Mistral Medium 3 inalenga kufikia utendaji wa hali ya juu huku ikipunguza gharama kwa nane ya awali na kurahisisha mchakato wa upelekaji, na hivyo kuharakisha matumizi ya biashara.
  • Utendaji Bora katika Hali Maalum za Utumiaji: Mfumo huu unaonyesha utendaji bora katika hali maalum za utumiaji kama vile uandishi wa msimbo na uelewa wa multimodal.
  • Vipengele vya Kiwango cha Biashara: Mistral Medium 3 hutoa vipengele kadhaa vya kiwango cha biashara, ikiwa ni pamoja na usaidizi wa upelekaji wa wingu mseto, upelekaji wa ndani na upelekaji ndani ya VPC, mafunzo ya baada ya ubinafsishaji, na ujumuishaji katika zana na mifumo ya biashara.

Mistral Medium 3 API sasa inapatikana kwenye Mistral La Plateforme na Amazon Sagemaker, na itazinduliwa hivi karibuni kwenye IBM WatsonX, NVIDIA NIM, Azure AI Foundry na Google Cloud Vertex.

Biashara kati ya Utendaji na Gharama

Moja ya pointi kuu za uuzaji za Mistral Medium 3 ni kwamba inatoa utendaji wa hali ya juu huku ikipunguza gharama kwa kiasi kikubwa. Takwimu rasmi zinaonyesha kuwa katika vipimo mbalimbali, utendaji wa Mistral Medium 3 unafikia au hata unazidi 90% ya Claude Sonnet 3.7, lakini gharama ni ndogo sana (gharama ya kuingiza kwa kila tokeni milioni ni $0.4, na gharama ya pato ni $2).

Zaidi ya hayo, utendaji wa Mistral Medium 3 pia unazidi mifumo inayoongoza ya wazi kama vile Llama 4 Maverick na Cohere Command A. Iwe ni API au upelekaji huru, gharama ya Mistral Medium 3 ni ya chini kuliko DeepSeek V3.

Mistral Medium 3 pia inaweza kupelekwa kwenye wingu lolote, ikiwa ni pamoja na mazingira ya kujisimamia na GPU nne au zaidi, na kuwapa biashara kubadilika zaidi.

Kufuatia Utendaji wa Juu

Mistral anadai kwamba lengo la Mistral Medium 3 ni kuwa mfumo wa hali ya juu, hasa katika majukumu ya usimbaji na STEM, na utendaji unaokaribia wapinzani wakubwa na wa polepole.

Jedwali lililotolewa na Mistral linaonyesha kuwa utendaji wa Mistral Medium 3 kimsingi umezidi Llama 4 Maverick na GPT-4o, na unakaribia viwango vya Claude Sonnet 3.7 na DeepSeek 3.1. Hata hivyo, data hii inatoka hasa kwa vipimo vya kitaaluma, ambayo huenda haionyeshi kikamilifu utendaji wa mfumo katika matumizi halisi.

Ongezeko la Tathmini ya Kibinadamu

Ili kutathmini utendaji wa Mistral Medium 3 kwa ukamilifu zaidi, Mistral pia alichapisha matokeo ya tathmini ya kibinadamu ya mtu wa tatu. Tathmini ya kibinadamu inawakilisha vyema zaidi matumizi ya ulimwengu halisi na inaweza kukabiliana na upungufu wa vipimo vya kitaaluma.

Kulingana na matokeo ya tathmini ya kibinadamu, Mistral Medium 3 inafanya vizuri katika usimbaji na hutoa utendaji bora kuliko washindani wengine katika nyanja zote. Hii inaonyesha kuwa Mistral Medium 3 inaweza kuwa na faida fulani katika matumizi halisi.

Imeundwa kwa Matumizi ya Kiwango cha Biashara

Mistral Medium 3 inafanya kazi vizuri zaidi kuliko mifumo mingine ya SOTA katika suala la uwezo wa kukabiliana na mazingira ya biashara. Wakati biashara zinakabiliwa na chaguo ngumu la kurekebisha kupitia API au kupeleka na kubadilisha tabia ya mfumo kutoka mwanzo, Mistral Medium 3 hutoa njia ya kuunganisha akili kikamilifu katika mifumo ya biashara.

Ili kukidhi mahitaji ya biashara zaidi, Mistral pia alizindua Le Chat Enterprise, huduma ya chatbot inayotumiwa na mfumo wa Mistral Medium 3, ambayo inalenga biashara. Le Chat Enterprise hutoa zana ya kujenga mawakala wa akili bandia na kuunganisha mifumo ya Mistral na huduma za watu wengine kama vile Gmail, Google Drive na SharePoint. Inalenga kushughulikia changamoto za AI zinazokabili biashara, kama vile kugawanyika kwa zana, ujumuishaji wa maarifa usio salama, mifumo ngumu, na kurudi polepole kwa uwekezaji. Hutoa jukwaa la umoja la AI kwa kazi zote za shirika.

Le Chat Enterprise itasaidia itifaki ya MCP hivi karibuni, ambayo ni kiwango kilichopendekezwa na Anthropic kwa kuunganisha AI na mifumo ya data na programu.

Mtazamo wa Baadaye wa Mistral

Mistral ilifichua katika blogi kwamba ingawa Mistral Small na Mistral Medium zimetoa, katika wiki zijazo, wana mpango “mkuu”, ambao ni Mistral Large. Walisema kuwa utendaji wa Mistral Medium iliyotolewa hivi karibuni umezidi mifumo ya wazi inayoongoza kama vile Llama 4 Maverick, na utendaji wa Mistral Large unastahili kutarajiwa zaidi.

Utoaji wa Mistral Large bila shaka utaongeza zaidi ushindani wa Mistral katika uwanja wa AI na kuwapa watumiaji chaguo zaidi.

Tofauti katika Majaribio Halisi

Ingawa Mistral ana imani kubwa katika utendaji wa Mistral Medium 3 na anadai kuwa inazidi 90% ya Claude Sonnet 3.7, matokeo halisi ya majaribio yameonyesha matatizo fulani.

Vyombo vya habari na wanamtandao haraka walianza vipimo vya vitendo vya Mistral Medium 3, lakini matokeo yalikatisha tamaa. Katika tathmini kulingana na maswali ya uainishaji wa msamiati ya safu ya New York Times Connections, Medium 3 ilikuwa katika nafasi ya mwisho na haikuweza kupatikana popote. Katika tathmini mpya ya maswali 100, haikuweza kuorodheshwa kati ya mifumo ya mstari wa mbele.

Mtumiaji alitest Medium 3 na akasema kwamba uwezo wake wa kuandika ulikuwa kama hapo awali na hakuna uboreshaji dhahiri. Hata hivyo, katika tathmini ya LLM, ilikuwa katika mstari wa mbele wa Pareto.

Matokeo ya mtihani ya Zhu Liang yanaonyesha kuwa Mistral Medium 3 hufanya vizuri katika uandishi wa msimbo na uzalishaji wa maandishi, na inashika nafasi ya tano bora katika tathmini zote mbili.

Katika kazi rahisi za usimbaji (programu ya Next.js TODO):

  • Ilitoa majibu mafupi na wazi
  • Utafutaji na Gemini 2.5 Pro, Claude 3.5 Sonnet zilikuwa karibu
  • Dhaifu kuliko DeepSeek V3 (mpya) na GPT-4.1

Katika kazi ngumu za usimbaji (taswira ya vipimo):

  • Ilizalisha matokeo ya wastani sawa na Gemini 2.5 Pro na DeepSeek V3 (mpya)
  • Sio nzuri kama GPT-4.1, o3 na Claude 3.7 Sonnet

Katika uandishi:

  • Maudhui yake yalishughulikia mambo mengi muhimu, lakini umbizo halikuwa sahihi
  • Utafutaji ulikuwa karibu na DeepSeek V3 (mpya) na Claude 3.7 Sonnet
  • Sio nzuri kama GPT-4.1 na Gemini 2.5 Pro

Bwana mkubwa “karminski-daktari wa meno” aligundua baada ya vipimo vya vitendo kwamba utendaji wa Mistral Medium 3 sio kama ilivyotangazwa rasmi, na hata alipendekeza kwamba watumiaji wasipakue, ili kuepuka kupoteza trafiki na nafasi ya diski ngumu.

Hitimisho

Mistral Medium 3, kama jaribio la ubunifu katika uwanja wa AI wa Ulaya, inatafuta kusawazisha utendaji na gharama na imeboreshwa kwa matumizi ya kiwango cha biashara. Hata hivyo, matokeo halisi ya mtihani yanaonyesha tofauti fulani na utangazaji rasmi, kuonyesha kwamba Mistral anaweza kuwa amezidisha matangazo kuhusu utendaji wa mfumo.

Hata hivyo, Mistral Medium 3 bado ina uwezo fulani, hasa katika usimbaji na uzalishaji wa maandishi. Katika siku zijazo, Mistral anahitaji kuboresha zaidi utendaji wa mfumo na kuimarisha vipimo vya matumizi ya vitendo ili kupata uaminifu wa watumiaji. Wakati huo huo, toleo la Mistral Large pia linastahili kutarajiwa, labda litaweza kukabiliana na upungufu wa Mistral Medium 3 na kuleta uzoefu bora kwa watumiaji.

Kwa ujumla, toleo la Mistral Medium 3 linaonyesha uchunguzi chanya na roho ya ubunifu ya Ulaya katika uwanja wa AI. Ingawa utendaji halisi unatofautiana na matarajio, Mistral bado anastahili kutunzwa, na maendeleo yake ya baadaye yanastahili kutarajiwa.