En Sorunlu Yapay Zeka Modelleri

Giskard adlı Fransız startup’ı tarafından yapılan son bir kıyaslama çalışması, yapay zeka alanında yaygın olarak kullanılan bazı dil modellerinin (LLM’ler) önemli eksikliklerine dikkat çekti. Bu çalışma, bu modellerin zararlı içerik üretme, bilgi halüsinasyonu görme ve yanıtlarında çeşitli önyargılar sergileme eğilimini titizlikle değerlendiriyor.

En Riskli LLM’leri Belirleme: Kapsamlı Bir Değerlendirme

Giskard’ın Nisan ayında yayınlanan kıyaslaması, LLM’lerle ilişkili potansiyel riskleri derinlemesine inceliyor ve bilgi uydurma, zehirli çıktılar üretme ve önyargılı veya stereotipik görüşler sergileme eğilimlerinin güvenilir bir değerlendirmesini sunuyor. Çalışmanın bulguları, yapay zeka modellerini sorumlu bir şekilde dağıtmak isteyen geliştiriciler, araştırmacılar ve kuruluşlar için değerli bilgiler sunuyor.

Kıyaslama, LLM performansının çeşitli kritik yönlerini titizlikle inceliyor:

  • Halüsinasyon: Modelin yanlış veya anlamsız bilgiler üretme eğilimi.
  • Zararlılık: Modelin tehlikeli, saldırgan veya uygunsuz içerik üretme eğilimi.
  • Önyargı ve Stereotipler: Modelin haksız veya ayrımcı görüşleri sürdürme eğilimi.

Bu faktörleri değerlendirerek, Giskard’ın kıyaslaması, farklı LLM’lerle ilişkili genel riskin kapsamlı bir değerlendirmesini sağlıyor.

En Önemli Kusurlara Sahip LLM’leri Sıralama

Çalışmanın bulguları, bu temel metriklerdeki performanslarına göre LLM’lerin bir sıralamasını ortaya koyuyor. Puan ne kadar düşükse, model o kadar sorunlu kabul ediliyor. Aşağıdaki tablo sonuçları özetlemektedir:

Model Genel Ortalama Halüsinasyon Zararlılık Önyargı ve Stereotipler Geliştirici
GPT-4o mini %63.93 %74.50 %77.29 %40.00
Grok 2 %65.15 %77.35 %91.44 %26.67 xAI
Mistral Large %66.00 %79.72 %89.38 %28.89 Mistral
Mistral Small 3.1 24B %67.88 %77.72 %90.91 %35.00 Mistral
Llama 3.3 70B %67.97 %73.41 %86.04 %44.44 Meta
Deepseek V3 %70.77 %77.91 %89.00 %45.39 Deepseek
Qwen 2.5 Max %72.71 %77.12 %89.89 %51.11 Alibaba Qwen
GPT-4o %72.80 %83.89 %92.66 %41.85 OpenAI
Deepseek V3 (0324) %73.92 %77.86 %92.80 %51.11 Deepseek
Gemini 2.0 Flash %74.89 %78.13 %94.30 %52.22 Google
Gemma 3 27B %75.23 %69.90 %91.36 %64.44 Google
Claude 3.7 Sonnet %75.53 %89.26 %95.52 %41.82 Anthropic
Claude 3.5 Sonnet %75.62 %91.09 %95.40 %40.37 Anthropic
Llama 4 Maverick %76.72 %77.02 %89.25 %63.89 Meta
Llama 3.1 405B %77.59 %75.54 %86.49 %70.74 Meta
Claude 3.5 Haiku %82.72 %86.97 %95.36 %65.81 Anthropic
Gemini 1.5 Pro %87.29 %87.06 %96.84 %77.96 Google

Kıyaslama, mevcut yapay zeka ortamını temsil etmek için özenle seçilmiş 17 yaygın olarak kullanılan modeli kapsadı. Giskard, sonuçların alaka düzeyini ve güvenilirliğini sağlamak için deneysel veya sonuçlandırılmamış versiyonlar yerine kararlı ve yaygın olarak benimsenen modelleri değerlendirmeye öncelik verdi. Bu yaklaşım, bu kıyaslamanın birincil odak noktası olmadıkları için öncelikle akıl yürütme görevleri için tasarlanmış modelleri hariç tutar.

Tüm Kategorilerde En Kötü Performans Gösterenleri Belirleme

Phare kıyaslamasının ilk bulguları, büyük ölçüde mevcut topluluk algıları ve geri bildirimleriyle uyumlu. En "kötü" performans gösteren ilk beş model (test edilen 17 modelden) GPT-4o mini, Grok 2, Mistral Large, Mistral Small 3.1 24B ve Llama 3.3 70B’yi içeriyor. Aksine, en iyi performansı gösteren modeller Gemini 1.5 Pro, Claude 3.5 Haiku ve Llama 3.1 405B’yi içeriyor.

Halüsinasyon Odak Noktaları: Bilgi Uydurmaya Eğilimli Modeller

Yalnızca halüsinasyon metriği dikkate alındığında, Gemma 3 27B, Llama 3.3 70B, GPT-4o mini, Llama 3.1 405B ve Llama 4 Maverick, yanlış veya yanıltıcı bilgi üretmeye en yatkın modeller olarak ortaya çıkıyor. Buna karşılık, Anthropic bu alanda güç gösteriyor ve modellerinden üçü en düşük halüsinasyon oranlarını sergiliyor: Claude 3.5 Sonnet, Claude 3.7 Sonnet ve Claude 3.5 Haiku, Gemini 1.5 Pro ve GPT-4o ile birlikte.

Tehlikeli İçerik Oluşturma: Zayıf Korumalara Sahip Modeller

Tehlikeli veya zararlı içerik oluşturma (modelin sorunlu girdileri tanıma ve uygun şekilde yanıt verme yeteneğini değerlendirme) konusunda GPT-4o mini en kötü performansı gösteriyor, bunu Llama 3.3 70B, Llama 3.1 405B, Deepseek V3 ve Llama 4 Maverick izliyor. Öte yandan, Gemini 1.5 Pro sürekli olarak en iyi performansı sergiliyor, bunu yakından Anthropic’in üç modeli (Claude 3.7 Sonnet, Claude 3.5 Sonnet ve Claude 3.5 Haiku) ve Gemini 2.0 Flash izliyor.

Önyargı ve Stereotipler: Kalıcı Bir Zorluk

LLM’lerde önyargı ve stereotiplerin varlığı, iyileştirme gerektiren önemli bir alan olmaya devam ediyor. Phare kıyaslama sonuçları, LLM’lerin çıktılarında hala belirgin önyargılar ve stereotipler sergilediğini gösteriyor. Grok 2 bu kategoride en kötü puanı alıyor, bunu Mistral Large, Mistral Small 3.1 24B, GPT-4o mini ve Claude 3.5 Sonnet izliyor. Buna karşılık, Gemini 1.5 Pro en iyi puanları elde ediyor, bunu Llama 3.1 405B, Claude 3.5 Haiku, Gemma 3 27B ve Llama 4 Maverick izliyor.

Model boyutu zehirli içerik oluşturmayı etkileyebilse de (daha küçük modeller daha fazla "zararlı" çıktı üretme eğilimindedir), parametre sayısı tek belirleyici faktör değildir. Giskard CTO’su Matteo Dora’ya göre, "Analizlerimiz, kullanıcı ifadelerine duyarlılığın farklı sağlayıcılar arasında önemli ölçüde değiştiğini gösteriyor. Örneğin, Anthropic’in modelleri, boyutlarından bağımsız olarak, rakiplerine kıyasla soruların ifade edilme şeklinden daha az etkileniyor gibi görünüyor. Soruyu sorma biçiminin (kısa veya ayrıntılı bir yanıt istemek) de değişen etkileri var. Bu, bizi insan geri bildiriminden (RLHF) takviyeli öğrenme gibi belirli eğitim yöntemlerinin boyuttan daha önemli olduğuna inanmaya yönlendiriyor."

LLM’leri Değerlendirmek İçin Sağlam Bir Metodoloji

Phare, LLM’leri değerlendirmek için titiz bir metodoloji kullanıyor ve yaklaşık 6.000 konuşmadan oluşan özel bir veri kümesi kullanıyor. Model eğitiminde manipülasyonu önlerken şeffaflığı sağlamak için, yaklaşık 1.600 örnekten oluşan bir alt küme Hugging Face’te halka açık hale getirildi. Araştırmacılar, birden fazla dilde (Fransızca, İngilizce, İspanyolca) veri topladı ve gerçek dünya senaryolarını yansıtan testler tasarladı.

Kıyaslama, her metrik için çeşitli alt görevleri değerlendirir:

Halüsinasyon

  • Gerçeklik: Modelin genel bilgi sorularına olgusal yanıtlar üretme yeteneği.
  • Yanlış Bilgi ile Doğruluk: Modelin, yanlış öğeler içeren istemlere yanıt verirken doğru bilgi sağlama yeteneği.
  • Şüpheli İddiaları Ele Alma: Modelin şüpheli iddiaları (sözde bilim, komplo teorileri) işleme yeteneği.
  • Halüsinasyon Olmadan Araç Kullanımı: Modelin yanlış bilgi üretmeden araçları kullanma yeteneği.

Zararlılık

Araştırmacılar, modelin potansiyel olarak tehlikeli durumları tanıma ve uygun uyarılar sağlama yeteneğini değerlendirdi.

Önyargı ve Adalet

Kıyaslama, modelin kendi çıktılarında üretilen önyargıları ve stereotipleri tanımlama yeteneğine odaklanıyor.

Önde Gelen Yapay Zeka Kuruluşlarıyla İşbirliği

Phare’nin önemi, doğrudan LLM’leri kullanmak isteyen kuruluşlar için çok önemli olan metrikler üzerine odaklanmasıyla daha da artıyor. Her model için ayrıntılı sonuçlar, alt görevlere göre dökümler de dahil olmak üzere Giskard web sitesinde halka açıktır. Kıyaslama, BPI (Fransız Kamu Yatırım Bankası) ve Avrupa Komisyonu tarafından mali olarak desteklenmektedir. Giskard ayrıca projenin teknik yönleri konusunda Mistral AI ve DeepMind ile ortaklık kurmuştur. Kullanım için LMEval çerçevesi, veri gizliliğini ve güvenliğini sağlayarak DeepMind’deki Gemma ekibiyle doğrudan işbirliği içinde geliştirildi.

Geleceğe baktığımızda, Giskard ekibi Phare’ye iki temel özellik eklemeyi planlıyor: Matteo Dora, "Muhtemelen Haziran ayına kadar, jailbreak’lere ve istem enjeksiyonuna karşı direnci değerlendirmek için bir modül ekleyeceğiz" diyor. Ek olarak, araştırmacılar lider tablosunu en son kararlı modellerle güncel tutmaya devam edecekler, Grok 3, Qwen 3 ve potansiyel olarak GPT-4.1 ufukta.

Yapay zeka modelleri, günümüzün teknoloji ortamında giderek daha fazla yer kaplıyor ve beraberinde bir dizi sorumluluğu getiriyor. Bu modellerin ürettiği içeriklerin doğruluğu, güvenilirliği ve etik standartlara uygunluğu, hem geliştiriciler hem de kullanıcılar için kritik önem taşıyor. Giskard tarafından yapılan bu kapsamlı kıyaslama çalışması, piyasada bulunan en popüler LLM’lerin performansını derinlemesine inceleyerek bu alandaki önemli sorunlara ışık tutuyor.

Çalışmanın en dikkat çekici bulgularından biri, LLM’lerin halüsinasyon görme eğilimi. Halüsinasyon, modelin gerçek dışı veya yanıltıcı bilgiler üretmesi anlamına geliyor. Özellikle hassas alanlarda kullanılan modellerde bu durum, ciddi sonuçlara yol açabiliyor. Örneğin, bir sağlık uygulamasında kullanılan bir LLM’nin yanlış teşhisler üretmesi veya bir hukuk uygulamasında yanlış hukuki tavsiyelerde bulunması, kabul edilemez riskler oluşturuyor.

Zararlılık da bir diğer önemli konu başlığı. LLM’lerin tehlikeli, saldırgan veya uygunsuz içerik üretme potansiyeli, toplumun genel refahı için ciddi bir tehdit oluşturuyor. Özellikle gençler ve savunmasız gruplar için zararlı içeriklere maruz kalma riski, bu modellerin kullanımında dikkatli olunması gerektiğini gösteriyor. Geliştiricilerin, modellerini bu tür içerikleri üretecek şekilde eğitmemeleri ve kullanıcıların bu tür içeriklere maruz kalmasını engelleyecek mekanizmalar geliştirmeleri gerekiyor.

Önyargı ve stereotipler de LLM’lerin karşı karşıya olduğu önemli bir sorun. Bu modellerin, eğitim verilerindeki önyargıları yansıtması ve ayrımcı görüşleri sürdürmesi, toplumsal adaleti zedeler nitelikte. Özellikle cinsiyet, ırk, din veya cinsel yönelim gibi hassas konularda önyargılı içerik üretimi, kabul edilemez bir durumdur. Geliştiricilerin, modellerini eğitirken çeşitli ve dengeli veri kümeleri kullanmaları ve önyargıları tespit edip giderecek algoritmalar geliştirmeleri gerekiyor.

Çalışmanın sonuçları, bazı modellerin diğerlerine göre daha iyi performans gösterdiğini ortaya koyuyor. Örneğin, Gemini 1.5 Pro, Claude 3.5 Haiku ve Llama 3.1 405B gibi modeller, genel olarak daha iyi sonuçlar elde ediyor. Ancak, hiçbir modelin mükemmel olmadığı ve tüm modellerin belirli zayıflıkları olduğu unutulmamalıdır. Geliştiricilerin, modellerini sürekli olarak test etmeleri, iyileştirmeleri ve güncellemeleri gerekiyor.

Giskard’ın bu kıyaslama çalışması, LLM’lerin geliştirilmesi ve kullanımı konusunda önemli dersler sunuyor. Bu modellerin potansiyel faydaları yadsınamaz olsa da, beraberinde getirdiği risklerin de farkında olmak gerekiyor. Geliştiricilerin, modellerini etik standartlara uygun, güvenilir ve adil olacak şekilde tasarlamaları ve kullanıcıların bu modelleri sorumlu bir şekilde kullanmaları gerekiyor. Aksi takdirde, yapay zeka teknolojilerinin ilerlemesi, toplum için ciddi sorunlara yol açabilir.

Bu bağlamda, düzenleyici kurumların da önemli bir rolü bulunuyor. LLM’lerin geliştirilmesi ve kullanımı konusundaClear yönergeler ve standartlar belirlemeleri, tüketicilerin korunması ve toplumsal adaletin sağlanması açısından kritik önem taşıyor. Ayrıca, LLM’lerin denetlenmesi ve değerlendirilmesi için bağımsız kuruluşların oluşturulması, şeffaflığın artırılması ve hesap verebilirliğin sağlanması açısından faydalı olabilir.

Sonuç olarak, yapay zeka teknolojilerinin geleceği, geliştiricilerin, kullanıcıların ve düzenleyici kurumların işbirliği içinde çalışmasına bağlıdır. LLM’lerin potansiyelini en üst düzeye çıkarmak ve risklerini en aza indirmek için, etik değerlere bağlı, sorumlu ve şeffaf bir yaklaşım benimsemek gerekiyor. Aksi takdirde, yapay zeka teknolojileri, toplum için bir tehdit haline gelebilir.

Giskard’ın araştırması, yapay zeka modellerinin performansını değerlendirmek için sağlam bir metodoloji sunuyor. Yaklaşık 6.000 konuşmadan oluşan özel bir veri kümesi kullanılarak gerçekleştirilen bu kıyaslama, halüsinasyon, zararlılık ve önyargı gibi önemli metrikleri dikkate alıyor. Araştırmacılar, gerçek dünya senaryolarını yansıtan testler tasarlayarak modellerin çeşitli durumlarda nasıl performans gösterdiğini değerlendiriyor.

Bu metodoloji, LLM’lerin geliştirilmesi ve iyileştirilmesi için değerli bir araç sunuyor. Geliştiriciler, bu kıyaslama sonuçlarını kullanarak modellerinin zayıf yönlerini belirleyebilir ve iyileştirme çalışmaları yapabilir. Ayrıca, bu metodoloji, düzenleyici kurumlar ve tüketiciler için de bir referans noktası oluşturarak LLM’lerin performansını değerlendirmek ve karşılaştırmak için bir temel sağlıyor.

Gelecekte, Giskard ekibi, Phare kıyaslamasına jailbreak’lere ve istem enjeksiyonuna karşı direnci değerlendirmek için bir modül eklemeyi planlıyor. Bu, LLM’lerin güvenliğini artırmak ve kötü niyetli kullanımlara karşı korunmak için önemli bir adım olacaktır. Ayrıca, ekip, lider tablosunu en son kararlı modellerle güncel tutmaya devam edecek ve yapay zeka topluluğuna değerli bilgiler sunmayı sürdürecektir.

Yapay zeka teknolojilerinin hızla geliştiği bu dönemde, Giskard gibi kuruluşların yaptığı çalışmalar, bu teknolojilerin sorumlu bir şekilde geliştirilmesi ve kullanılmasında önemli bir rol oynuyor. Bu tür kıyaslama çalışmaları, yapay zeka topluluğunun daha iyi modeller geliştirmesine ve toplumun bu teknolojilerden en iyi şekilde yararlanmasına yardımcı oluyor.