Fransız startup şirketi Mistral AI, kısa süre önce güçlü Claude Sonnet 3.7 ile rekabet edebileceğini ve DeepSeek V3’ten daha ucuz olduğunu iddia ettiği en yeni çok modlu modeli Mistral Medium 3’ü piyasaya sürdü. Bu haber, teknoloji dünyasında büyük ilgi uyandırdı. Ancak kullanıcılar, gerçek testlerden sonra modelin performansının resmi tanıtımla büyük ölçüde çeliştiğini fark etti. Hatta bazıları kullanıcıların zaman ve kaynaklarını indirmek için harcamamalarını tavsiye etti.
Mistral Medium 3’ün Resmi Tanıtımı
Mistral AI, resmi blogunda Mistral Medium 3’ün temel özelliklerini vurguladı:
- Performans ve Maliyet Dengesi: Mistral Medium 3, en iyi performansı sağlarken maliyetleri sekizde bire düşürmeyi ve böylece kurumsal uygulamaları hızlandırmayı amaçlıyor.
- Profesyonel Uygulama Senaryolarındaki Avantajlar: Model, kod yazma ve çok modlu anlama gibi profesyonel alanlarda mükemmel performans gösteriyor.
- Kurumsal Sınıf Özellikler: Mistral Medium 3, karma bulut dağıtımı, yerel dağıtım ve VPC içinde dağıtımın yanı sıra özelleştirilmiş son eğitim ve kurumsal araçlara ve sistemlere entegrasyon dahil olmak üzere bir dizi kurumsal sınıf özellik sunuyor.
Mistral Medium 3 API’si Mistral La Plateforme ve Amazon Sagemaker’da yayında ve yakında IBM WatsonX, NVIDIA NIM, Azure AI Foundry ve Google Cloud Vertex’te de kullanıma sunulacak.
Performans Metriklerinin Karşılaştırılması
Mistral AI, çeşitli kıyaslama testlerinde Mistral Medium 3’ün performansının Claude Sonnet 3.7’nin %90’ına ulaştığını veya aştığını, ancak maliyetlerin önemli ölçüde daha düşük olduğunu iddia ediyor. Özellikle, Mistral Medium 3’ün milyon Token başına giriş maliyeti 0,4 ABD doları ve çıktı maliyeti 2 ABD doları.
Ek olarak, Mistral Medium 3’ün performansı, Llama 4 Maverick ve Cohere Command A gibi önde gelen açık kaynaklı modelleri aştığı iddia ediliyor. API veya bağımsız dağıtım yoluyla olsun, Mistral Medium 3’ün maliyeti DeepSeek V3’ten daha düşüktür. Model ayrıca dört veya daha fazla GPU’ya sahip kendi kendine barındırılan ortamlar dahil olmak üzere herhangi bir buluta da dağıtılabilir.
Kurumsal Sınıf Uygulamalara Odaklanma
Mistral AI, Mistral Medium 3’ün özellikle kodlama ve STEM görevlerinde öne çıkan ve performansı daha büyük, daha yavaş rakiplerine yaklaşan, üstün performanslı bir model olmayı hedeflediğini vurguluyor.
Resmi olarak yayınlanan verilere göre, Mistral Medium 3’ün performansı temelde Llama 4 Maverick ve GPT-4o’yu aşıyor ve Claude Sonnet 3.7 ve DeepSeek 3.1 seviyelerine yaklaşıyor.
Modelin performansını daha da doğrulamak için Mistral AI, gerçek dünyadaki kullanım durumlarını daha iyi temsil eden üçüncü taraf insan değerlendirmelerinin sonuçlarını da yayınladı. Sonuçlar, Mistral Medium 3’ün kodlama alanında mükemmel performans gösterdiğini ve her açıdan diğer rakiplerinden daha iyi performans sağladığını gösteriyor.
Mistral Medium 3, kurumsal ortamlara uyum sağlama yeteneği açısından da diğer SOTA modellerinden daha iyi. Şirketlere, zekayı kurumsal sistemlere kapsamlı bir şekilde entegre etmenin bir yolunu sunarak, şirketlerin API ince ayarı ve model özelleştirmesi konusundaki zorluklarını çözüyor.
Le Chat Enterprise
Mistral AI ayrıca Mistral Medium 3 modeliyle çalışan, işletmelere yönelik bir sohbet robotu hizmeti olan Le Chat Enterprise’ı da piyasaya sürdü. Bu, bir AI akıllı ajan oluşturma aracı sağlar ve Mistral’in modellerini Gmail, Google Drive ve SharePoint gibi üçüncü taraf hizmetlerle entegre eder.
Le Chat Enterprise, araç parçalanması, güvenli olmayan bilgi entegrasyonu, katı modeller ve yavaş yatırım getirisi gibi şirketlerin karşılaştığı AI zorluklarını çözmeyi ve tüm organizasyonel çalışmalar için birleşik bir AI platformu sağlamayı amaçlıyor.
Le Chat Enterprise kısa süre sonra, Anthropic tarafından önerilen ve AI’yı veri sistemlerine ve yazılımlara bağlayan bir standart olan MCP protokolünü destekleyecektir.
Mistral Large’ın Beklentileri
Mistral AI ayrıca blogda, Mistral Small ve Mistral Medium yayınlanmış olsa da, önümüzdeki haftalarda “büyük” bir planları olduğunu, yani Mistral Large’ı piyasaya süreceklerini açıkladı. Yeni yayınlanan Mistral Medium’un performansının Llama 4 Maverick gibi en iyi açık kaynaklı modelleri çoktan geride bıraktığını ve Mistral Large’ın performansının daha da beklentileri aşacağını söylediler.
Kullanıcı Testlerinin Gerçek Durumu
Ancak Mistral AI, Mistral Medium 3’ün güçlü performansını geniş çapta duyurduktan sonra, medya ve kullanıcılar hızla gerçek testler gerçekleştirdi ve sonuçlar hayal kırıklığı yarattı.
Performans Testinde Düşüş
New York Times’ın Connections sütunundaki kelime sınıflandırma sorularına dayalı bir değerlendirmede, Mistral Medium 3’ün performansı hayal kırıklığı yarattı ve neredeyse hiç görünmedi. Yepyeni 100 soruluk bir testte, öndeki modellerde de sıralamaya giremedi.
Bazı kullanıcılar testlerden sonra Mistral Medium 3’ün yazma yeteneklerinde belirgin bir gelişme olmadığını söyledi. Ancak LLM değerlendirmesinde, Pareto cephesindeydi.
Zhu Liang’ın testi, Mistral Medium 3’ün hem kod yazma hem de metin oluşturma konusunda sağlam bir performans sergilediğini ve her iki değerlendirmede de ilk beşe girdiğini ortaya koydu.
Kodlama Görevlerindeki Performans
Basit kodlama görevinde (Next.js TODO uygulaması), Mistral Medium 3, Gemini 2.5 Pro ve Claude 3.5 Sonnet ile aynı puana sahip, kısa ve öz yanıtlar oluşturdu, ancak DeepSeek V3 (yeni) ve GPT-4.1’den daha düşüktü.
Karmaşık kodlama görevinde (kıyaslama görselleştirme), Mistral Medium 3’ün ürettiği ortalama sonuçlar Gemini 2.5 Pro ve DeepSeek V3 (yeni) ile benzerdi, ancak GPT-4.1, o3 ve Claude 3.7 Sonnet’ten daha düşüktü.
Yazma Yeteneği Değerlendirmesi
Yazma açısından, Mistral Medium 3 içeriği çoğu noktayı kapsıyordu, ancak format yanlıştı ve DeepSeek V3 (yeni) ve Claude 3.7 Sonnet’e yakın puan aldı, GPT-4.1 ve Gemini 2.5 Pro’dan daha düşüktü.
Tanınmış bir isim olan “karminski-diş hekimi” de gerçek testlerden sonra Mistral Medium 3’ün performansının resmi olarak lanse edildiği kadar güçlü olmadığını ve kullanıcıların trafik ve sabit disk alanını boşa harcamamak için indirmemelerini tavsiye etti.
Karşılaştırma ve Yansıma
Mistral Medium 3 örneği, bir AI modelinin performansını değerlendirirken yalnızca resmi tanıtımlara ve kıyaslama testi sonuçlarına güvenmememiz, daha çok kullanıcıların gerçek deneyimlerine ve üçüncü taraf değerlendirmelerine önem vermemiz gerektiğini bir kez daha hatırlatıyor.
Resmi tanıtımlar genellikle modelin avantajlarını seçici olarak sergiler ve eksikliklerini göz ardı eder. Kıyaslama testleri belirli bir referans değeri sağlayabilse de modelin gerçek dünyadaki performansını tam olarak yansıtmıyor. Kullanıcıların gerçek deneyimi ve üçüncü taraf değerlendirmeleri daha objektif ve kapsamlıdır ve modelin avantajlarını ve dezavantajlarını daha doğru bir şekilde anlamamıza yardımcı olabilir.
Ek olarak, AI modellerinin performansı eğitim verileri, model mimarisi, optimizasyon algoritmaları vb. dahil olmak üzere çeşitli faktörlerden etkilenir. Farklı modeller farklı görevlerde farklı güçlü ve zayıf yönler gösterebilir. Bu nedenle, bir AI modeli seçerken, belirli uygulama senaryolarını ve gereksinimlerini kapsamlı bir şekilde göz önünde bulundurmak gerekir.
Mistral Medium 3’ün lansmanı ve kullanıcı test sonuçları arasındaki büyük çelişki, AI modeli değerlendirme standartları hakkında da bir tartışma başlattı. Daha bilimsel, objektif ve kapsamlı bir AI modeli değerlendirme sistemi nasıl kurulur, derinlemesine tartışılmaya değer bir konudur.
Sektör Etkisi
Mistral Medium 3 olayı ayrıca tüm AI endüstrisi üzerinde belirli bir etkiye sahipti. Bir yandan, AI şirketlerine kullanıcı deneyimine daha fazla önem vermelerini, aşırı tanıtım ve yanlış tanıtım yapmaktan kaçınmalarını hatırlattı. Öte yandan, AI alanındaki uygulayıcıları AI modeli değerlendirme standartlarının formülasyonuna ve iyileştirilmesine daha fazla odaklanmaya teşvik etti.
Gelecekte, AI teknolojisinin sürekli gelişmesiyle, AI modellerinin performansı sürekli olarak artacak ve uygulama senaryoları sürekli olarak genişleyecektir. AI teknolojisine daha rasyonel ve objektif bir şekilde bakmamız gerekiyor, hem büyük potansiyelini görmeli hem de sınırlamalarının farkında olmalıyız. Ancak bu şekilde AI teknolojisini insan toplumuna değer yaratmak için daha iyi kullanabiliriz.
Sonuç olarak, Mistral Medium 3 örneği bir uyarıdır ve AI modellerini değerlendirirken eleştirel düşünmeyi sürdürmemizi, resmi tanıtımlara körü körüne inanmamamızı ve gerçek deneyimlere ve üçüncü taraf değerlendirmelerine dayanarak rasyonel kararlar vermemizi hatırlatıyor.