Tangazo Rasmi la Mistral Medium 3
Kampuni mpya ya Ufaransa, Mistral AI, hivi majuzi ilizindua modeli yake mpya ya lugha ya aina nyingi, Mistral Medium 3, ikidai kuwa utendaji wake unaweza kushindana na Claude Sonnet 3.7 yenye nguvu, na kwa gharama ndogo kuliko DeepSeek V3. Habari hii mara moja ilisababisha taharuki kubwa katika ulimwengu wa teknolojia. Hata hivyo, watumiaji baada ya majaribio ya kivitendo wamegundua kuwa utendaji wa modeli hii una pengo kubwa na matangazo rasmi, na wengine hata wanapendekeza watumiaji wasipoteze muda na rasilimali kupakua.
Mistral AI katika blogi yake rasmi ilisisitiza mambo muhimu ya Mistral Medium 3:
- Uwiano wa utendaji na gharama: Mistral Medium 3 inalenga kutoa utendaji wa hali ya juu huku ikipunguza gharama hadi sehemu ya nane ya ile ya awali, na hivyo kuharakisha matumizi ya biashara.
- Manufaa ya matukio maalum ya matumizi: Modeli hii inafanya kazi vizuri katika maeneo maalum kama vile uandishi wa msimbo na uelewa wa aina nyingi.
- Vipengele vya kiwango cha biashara: Mistral Medium 3 hutoa safu ya vipengele vya kiwango cha biashara, ikiwa ni pamoja na usaidizi wa kupelekwa kwa wingu mseto, kupelekwa kwa ndani, na kupelekwa ndani ya VPC, pamoja na mafunzo ya baada ya ubinafsishaji na ujumuishaji katika zana na mifumo ya biashara.
Mistral Medium 3 API tayari iko mtandaoni kwenye Mistral La Plateforme na Amazon Sagemaker, na imepangwa kuzinduliwa hivi karibuni kwenye IBM WatsonX, NVIDIA NIM, Azure AI Foundry, na Google Cloud Vertex.
Ulinganisho wa Viashiria vya Utendaji
Mistral AI inadai kuwa katika vipimo mbalimbali vya alama, utendaji wa Mistral Medium 3 unafikia au hata unazidi 90% ya Claude Sonnet 3.7, lakini gharama inapunguzwa sana. Hasa, gharama ya pembejeo ya Mistral Medium 3 kwa kila Tokeni milioni ni $0.4, na gharama ya pato ni $2.
Zaidi ya hayo, utendaji wa Mistral Medium 3 unadaiwa kuwa unazidi Llama 4 Maverick na Cohere Command A, modeli zinazoongoza za chanzo huria. Iwe kupitia API au upelekaji unaojiendesha, gharama ya Mistral Medium 3 ni ya chini kuliko DeepSeek V3. Modeli hii pia inaweza kupelekwa kwenye wingu lolote, ikijumuisha mazingira ya kujiendesha yenye GPU nne au zaidi.
Kuzingatia Matumizi ya Kiwango cha Biashara
Mistral AI inasisitiza kwamba lengo la Mistral Medium 3 ni kuwa modeli yenye utendaji wa hali ya juu, hasa katika majukumu ya kuweka msimbo na STEM, na utendaji wake unakaribia washindani wakubwa na wa polepole zaidi.
Data rasmi iliyochapishwa inaonyesha kuwa utendaji wa Mistral Medium 3 kimsingi unazidi Llama 4 Maverick na GPT-4o, karibu na kiwango cha Claude Sonnet 3.7 na DeepSeek 3.1.
Ili kuthibitisha zaidi utendaji wa modeli, Mistral AI pia imechapisha matokeo ya tathmini ya kibinadamu ya wahusika wengine, ambayo yanawakilisha vyema zaidi kesi za matumizi ya ulimwengu halisi. Matokeo yanaonyesha kuwa Mistral Medium 3 inafanya kazi vizuri katika uwanja wa kuweka msimbo, na inatoa utendaji bora katika nyanja zote kuliko washindani wengine.
Mistral Medium 3 pia ni bora kuliko modeli zingine za SOTA katika suala la uwezo wa kukabiliana na mazingira ya biashara. Inatoa biashara njia ya kuunganisha akili kikamilifu katika mifumo ya biashara, kutatua matatizo ya biashara katika urekebishaji mzuri wa API na ubinafsishaji wa modeli.
Le Chat Enterprise
Mistral AI pia ilizindua Le Chat Enterprise, huduma ya roboti ya mazungumzo inayolenga biashara, inayoendeshwa na modeli ya Mistral Medium 3. Inatoa zana ya ujenzi wa wakala mahiri wa AI na kuunganisha modeli za Mistral na huduma za wahusika wengine kama vile Gmail, Google Drive, na SharePoint.
Le Chat Enterprise inalenga kushughulikia changamoto za AI zinazokabili biashara, kama vile kugawanyika kwa zana, ujumuishaji wa maarifa usio salama, modeli ngumu, na marejesho ya uwekezaji polepole, ikitoa jukwaa moja la AI kwa kazi zote za shirika.
Le Chat Enterprise itasaidia itifaki ya MCP hivi karibuni, ambayo ni kiwango kilichopendekezwa na Anthropic cha kuunganisha AI na mifumo ya data na programu.
Mtazamo wa Mistral Large
Mistral AI pia ilifichua katika blogi kwamba ingawa Mistral Small na Mistral Medium tayari zimetoa, katika wiki zijazo, wana mpango “mkuu”, ambao ni Mistral Large. Walisema kuwa utendaji wa Mistral Medium iliyozinduliwa hivi punde tayari unazidi modeli za chanzo huria za hali ya juu kama vile Llama 4 Maverick, na utendaji wa Mistral Large unatarajiwa zaidi.
Hali Halisi ya Upimaji wa Watumiaji
Hata hivyo, baada ya Mistral AI kutangaza sana utendaji dhabiti wa Mistral Medium 3, vyombo vya habari na watumiaji walifanya haraka majaribio ya kivitendo, lakini matokeo yalikuwa ya kukatisha tamaa.
Pengo katika Upimaji wa Utendaji
Katika tathmini kulingana na maswali ya uainishaji wa msamiati wa safu ya “Connections” ya The New York Times, utendaji wa Mistral Medium 3 ulikuwa wa kukatisha tamaa, na karibu haukuweza kupatikana. Katika tathmini mpya kabisa ya maswali 100, haishikilii nafasi yoyote katika safu ya mbele ya modeli.
Baadhi ya watumiaji baada ya kupima wamesema kuwa hakuna uboreshaji dhahiri katika uwezo wa uandishi wa Mistral Medium 3. Hata hivyo, katika tathmini ya LLM, iko kwenye mstari wa Pareto.
Jaribio la Zhu Liang liligundua kuwa Mistral Medium 3 ilifanya kazi vizuri katika uandishi wa msimbo na utengenezaji wa maandishi, ikishika nafasi ya tano bora katika tathmini zote mbili.
Utendaji wa Kazi za Usimbaji
Katika kazi rahisi ya usimbaji (programu ya Next.js TODO), Mistral Medium 3 ilizalisha majibu mafupi na wazi, ikipata alama sawa na Gemini 2.5 Pro na Claude 3.5 Sonnet, lakini ikiwa duni kuliko DeepSeek V3 (mpya) na GPT-4.1.
Katika kazi ngumu ya usimbaji (taswira ya jaribio la alama), matokeo ya wastani yanayozalishwa na Mistral Medium 3 yalikuwa sawa na Gemini 2.5 Pro na DeepSeek V3 (mpya), lakini chini ya GPT-4.1, o3, na Claude 3.7 Sonnet.
Tathmini ya Uwezo wa Uandishi
Katika suala la uandishi, Mistral Medium 3 ilishughulikia mambo mengi muhimu, lakini umbizo halikuwa sahihi, ikipata alama sawa na DeepSeek V3 (mpya) na Claude 3.7 Sonnet, chini ya GPT-4.1 na Gemini 2.5 Pro.
Mtu mashuhuri “karminski-daktari wa meno” pia alisema baada ya majaribio ya kivitendo kwamba utendaji wa Mistral Medium 3 haukuwa dhabiti kama ilivyotangazwa rasmi, akipendekeza watumiaji wasipakue ili kuepuka kupoteza trafiki na nafasi ya diski ngumu.
Ulinganisho na Tafakari
Kesi ya Mistral Medium 3 inatukumbusha tena kwamba katika kutathmini utendaji wa modeli za AI, hatuwezi kutegemea matangazo rasmi na matokeo ya vipimo vya alama tu, lakini tunapaswa kuzingatia uzoefu halisi wa watumiaji na tathmini ya wahusika wengine.
Matangazo rasmi mara nyingi huchagua kuonyesha nguvu za modeli, huku yakipuuza upungufu wake. Ingawa vipimo vya alama vinaweza kutoa thamani fulani ya marejeleo, haviwezi kuonyesha kikamilifu utendaji wa modeli katika ulimwengu halisi. Uzoefu halisi wa watumiaji na tathmini ya wahusika wengine ni ya malengo zaidi na ya kina, na inaweza kutusaidia kuelewa nguvu na udhaifu wa modeli kwa usahihi zaidi.
Zaidi ya hayo, utendaji wa modeli za AI huathiriwa na mambo mbalimbali, ikiwa ni pamoja na data ya mafunzo, usanifu wa modeli, algorithms za uboreshaji, nk. Modeli tofauti zinaweza kuonyesha nguvu na udhaifu tofauti katika kazi tofauti. Kwa hiyo, katika kuchagua modeli za AI, ni muhimu kuzingatia kwa kina kulingana na matukio na mahitaji maalum ya maombi.
Tofauti kubwa kati ya uzinduzi wa Mistral Medium 3 na matokeo ya upimaji wa watumiaji pia imezua mjadala kuhusu viwango vya tathmini ya modeli za AI. Jinsi ya kuanzisha mfumo wa tathmini wa modeli za AI wa kisayansi zaidi, wenye malengo, na wa kina ni suala ambalo linastahili kuchunguzwa kwa kina.
Athari za Sekta
Tukio la Mistral Medium 3 pia limekuwa na athari fulani kwenye tasnia nzima ya AI. Kwa upande mmoja, inakumbusha kampuni za AI kuzingatia zaidi uzoefu wa watumiaji, kuepuka utangazaji kupita kiasi na utangazaji bandia. Kwa upande mwingine, pia inawahimiza watendaji katika uwanja wa AI kuzingatia zaidi uundaji na uboreshaji wa viwango vya tathmini ya modeli za AI.
Katika siku zijazo, kadiri teknolojia ya AI inavyoendelea kuendelea, utendaji wa modeli za AI utaendelea kuboreka, na matukio ya maombi pia yataendelea kupanuka. Tunahitaji kutazama teknolojia ya AI kwa mtazamo wa busara na wa malengo zaidi, huku tukiona uwezo wake mkubwa na kutambua mapungufu yake. Ni kwa njia hii tu tunaweza kutumia vizuri teknolojia ya AI kuunda thamani kwa jamii ya wanadamu.
Kwa kifupi, kesi ya Mistral Medium 3 ni onyo, inatukumbusha kudumisha mawazo ya kina katika kutathmini modeli za AI, kutoziamini vipofu matangazo rasmi, lakini kuchanganya uzoefu wa kivitendo na tathmini ya wahusika wengine kufanya uamuzi wa busara.