Yapay zeka (YZ) modelleri, haber başlıklarına ve sosyal medya akışlarına hakim olan iyi bilinen isimlerin çok ötesine geçerek hızla çoğalıyor. YZ ortamı artık açık kaynaklı girişimleri, tescilli sistemleri ve Gemini, Claude, OpenAI, Grok ve Deepseek gibi teknoloji devlerinin tekliflerini kapsayan yüzlerce modelle dolu. Bu modeller, özünde, karmaşık kalıpları tanımalarını sağlayan geniş veri kümelerinde titizlikle eğitilmiş sinir ağlarıdır. Günümüz çağı, bu gelişmeleri iş uygulamalarından kişisel yardıma ve yaratıcı zenginleştirmeye kadar çeşitli amaçlar için kullanmak için eşsiz bir fırsat sunuyor. Bu kılavuz, YZ alanına yeni gelenlere temel bir anlayış sağlamayı, bu teknolojiyi etkili bir şekilde kullanmalarını sağlamayı amaçlamaktadır. Amaç, yalnızca YZ üzerinde değil, YZ ile inşa etmek, temel kavramları, pratik uygulamaları ve doğruluğu değerlendirme yöntemlerini anlamaya odaklanmaktır.
Bu kılavuz aşağıdaki temel yönleri kapsayacaktır:
- YZ modellerinin kategorilere ayrılması
- Modelleri belirli görevlerle eşleştirme
- Model adlandırma kurallarını anlama
- Model doğruluk performansını değerlendirme
- Kıyaslama referanslarını kullanma
Her türlü görevi yerine getirebilen tek, evrensel bir YZ modelinin mevcut olmadığını anlamak çok önemlidir. Bunun yerine, farklı modeller belirli uygulamalar için uyarlanmıştır.
YZ Modellerinin Kategorileri
YZ modelleri genel olarak dört ana kategoriye ayrılabilir:
- Saf Dil İşleme (Genel)
- Üretken (Resim, Video, Ses, Metin, Kod)
- Ayırt Edici (Bilgisayar Görüsü, Metin Analizi)
- Pekiştirmeli Öğrenme
Birçok model tek bir kategoride uzmanlaşırken, diğerleri değişen derecelerde doğruluğa sahip çok modlu yetenekler sergiler. Her model, maruz kaldığı verilerle ilgili görevleri gerçekleştirmesini sağlayan belirli veri kümeleri üzerinde eğitimden geçer. Aşağıdaki liste, her kategoriyle ilişkili yaygın görevleri özetlemektedir.
Saf Dil İşleme
Bu kategori, bilgisayarların belirteçleştirme ve istatistiksel modeller kullanarak insan dilini yorumlamasını, anlamasını ve oluşturmasını sağlamaya odaklanır. Sohbet robotları bunun en iyi örneğidir ve ChatGPT, ‘Üretken Önceden Eğitilmiş Dönüştürücü’nün kısaltması olarak dikkat çekici bir örnektir. Bu modellerin çoğu, önceden eğitilmiş dönüştürücü mimarilerine dayanmaktadır. Bu modeller, insan dilindeki bağlamı, nüansları ve incelikleri anlamakta mükemmeldir, bu da onları doğal dil etkileşimi gerektiren uygulamalar için ideal hale getirir. Aşağıdaki gibi görevler için kullanılabilirler:
- Duygu Analizi: Bir metnin duygusal tonunu belirleme, bu da müşteri geri bildirimlerini anlamak veya kamuoyunu ölçmek için kullanışlıdır.
- Metin Özetleme: Büyük miktarda metni daha kısa, daha yönetilebilir özetlere yoğunlaştırma, bilgi işlemde zamandan ve emekten tasarruf etme.
- Makine Çevirisi: Metni otomatik olarak bir dilden diğerine çevirme, dil engellerini aşan iletişimi kolaylaştırma.
- Soru Cevaplama: Doğal dilde sorulan sorulara yanıt verme, kullanıcıların bilgilere hızlı ve kolay bir şekilde erişmesini sağlama.
- İçerik Oluşturma: Makaleler, blog gönderileri veya sosyal medya güncellemeleri gibi orijinal metin içeriği oluşturma.
Saf dil işleme modellerinin arkasındaki temel teknoloji, dilin yapısını ve anlamını analiz eden karmaşık algoritmaları içerir. Bu algoritmalar, metin ve koddan oluşan büyük veri kümelerinden öğrenir ve kelimeler ve ifadeler arasındaki kalıpları ve ilişkileri belirlemelerini sağlar. Modeller daha sonra bu bilgiyi yeni metin oluşturmak veya mevcut metnin anlamını anlamak için kullanır.
Üretken Modeller
Resimler, videolar, ses, metin ve kod üretenler de dahil olmak üzere üretken modeller, genellikle üretken çekişmeli ağlar (GAN’lar) kullanır. GAN’lar iki alt modelden oluşur: bir üreteç ve bir ayrıştırıcı. Bu modeller, eğitildikleri kapsamlı verilere göre gerçekçi resimler, ses, metin ve kod üretebilir. Kararlı yayılma, resim ve video oluşturmak için yaygın bir tekniktir. Bu modeller şu amaçlarla kullanılabilir:
- Resim Oluşturma: Metin açıklamalarından veya diğer girdilerden gerçekçi veya sanatsal resimler oluşturma.
- Video Oluşturma: Metin istemlerinden veya diğer girdilerden kısa videolar üretme.
- Ses Oluşturma: Metin açıklamalarından veya diğer girdilerden müzik, konuşma veya diğer ses türlerini oluşturma.
- Metin Oluşturma: Şiirler, senaryolar veya kod gibi orijinal metin içeriği oluşturma.
- Kod Oluşturma: İstenen işlevselliğin doğal dil açıklamalarından kodu otomatik olarak oluşturma.
Bir GAN’daki üreteç alt modeli yeni veri örnekleri oluşturmaktan sorumluyken, ayrıştırıcı alt modeli gerçek veri örnekleri ile üreteç tarafından oluşturulanlar arasında ayrım yapmaya çalışır. İki alt model, üreteç ayrıştırıcıyı kandırmaya çalışırken ve ayrıştırıcı gerçek veri örneklerini doğru bir şekilde tanımlamaya çalışırken, çekişmeli bir şekilde eğitilir. Bu işlem, üretecin gerçekçi veri örnekleri üretme konusunda giderek daha yetenekli olmasına neden olur.
Ayırt Edici Modeller
Bilgisayar görüşü ve metin analizinde kullanılan ayırt edici modeller, karar verme için veri kümelerinden farklı sınıfları öğrenmek için tasarlanmış algoritmalar kullanır. Örnekler arasında duygu analizi, optik karakter tanıma (OCR) ve görüntü sınıflandırması yer alır. Bu modeller, farklı veri kategorileri arasında ayrım yapmak için tasarlanmıştır ve bu da onları çok çeşitli uygulamalar için kullanışlı hale getirir. Aşağıdaki amaçlarla kullanılabilirler:
- Resim Sınıflandırması: Bir resimde bulunan nesneleri veya sahneleri tanımlama.
- Nesne Algılama: Bir resim veya video içindeki belirli nesneleri bulma ve tanımlama.
- Duygu Analizi: Bir metnin duygusal tonunu belirleme.
- Optik Karakter Tanıma (OCR): Metin resimlerini makine tarafından okunabilir metne dönüştürme.
- Sahtekarlık Tespiti: Sahte işlemleri veya faaliyetleri tanımlama.
Ayırt edici modellerde kullanılan algoritmalar, farklı veri sınıfları arasında ayrım yapmak için en önemli olan özellikleri tanımlamayı öğrenir. Bu özellikler, yeni veri örneklerini doğru bir şekilde sınıflandırabilen bir model oluşturmak için kullanılabilir.
Pekiştirmeli Öğrenme
Pekiştirmeli öğrenme modelleri, robotik, oyun ve otonom sürüş gibi amaçlara yönelik sonuçlar elde etmek için deneme yanılma yöntemleri ve insan girdisi kullanır. Bu yaklaşım, bir aracının bir ortamda bir ödülü en üst düzeye çıkarmak için kararlar almayı öğrenmesini içerir. Ajan, davranışını ayarlamak için kullandığı ödüller veya cezalar şeklinde geri bildirim alır. Bu işlem, ajanın hedeflerine ulaşmak için en uygun stratejileri öğrenmesini sağlar. Pekiştirmeli öğrenme şu amaçlarla kullanılabilir:
- Robotik: Robotları yürüme, nesneleri kavrama veya ortamlarda gezinme gibi karmaşık görevleri gerçekleştirmek için eğitme.
- Oyun: Oyunları yüksek düzeyde oynayabilen YZ ajanları geliştirme.
- Otonom Sürüş: Kendi kendine giden arabaları yollarda gezinmek ve engellerden kaçınmak için eğitme.
- Kaynak Yönetimi: Enerji veya bant genişliği gibi kaynakların tahsisini optimize etme.
- Kişiselleştirilmiş Öneriler: Kullanıcılara geçmiş davranışlarına göre kişiselleştirilmiş öneriler sunma.
Deneme yanılma süreci, ajanın farklı stratejileri keşfetmesini ve hangilerinin en etkili olduğunu öğrenmesini sağlar. Ödüllerin ve cezaların kullanılması, ajana en uygun davranışa doğru rehberlik eden geri bildirim sağlar.
Model Adlandırma Kurallarını Anlama
Farklı YZ modeli türlerini ve ilgili görevlerini anladıktan sonraki adım, kalitelerini ve performanslarını değerlendirmektir. Bu, modellerin nasıl adlandırıldığını anlamakla başlar. YZ modellerini adlandırmak için resmi bir kural bulunmamasına rağmen, popüler modeller genellikle basit bir ada ve ardından bir sürüm numarasına sahiptir (örn. ChatGPT #, Claude #, Grok #, Gemini #).
Daha küçük, açık kaynaklı, göreve özel modeller genellikle daha ayrıntılı adlara sahiptir. Genellikle huggingface.co gibi platformlarda bulunan bu adlar, genellikle kuruluş adını, model adını, parametre boyutunu ve bağlam boyutunu içerir.
Bunu göstermek için bazı örnekler:
MISTRALAI/MISTRAL-SMALL-3.1-24B-INSTRUCT-2053
- Mistralai: Modeli geliştirmekten sorumlu kuruluş.
- Mistral-small: Modelin kendisinin adı.
- 3.1: Modelin sürüm numarası.
- 24b-instruct: Modelin 24 milyar veri noktasında eğitildiğini ve talimatları izleme görevleri için tasarlandığını gösteren parametre sayısı.
- 2053: Modelin aynı anda işleyebileceği bilgi miktarını temsil eden bağlam boyutu veya belirteç sayısı.
Google/Gemma-3-27b
- Google: Modelin arkasındaki kuruluş.
- Gemma: Modelin adı.
- 3: Sürüm numarası.
- 27b: Modelin 27 milyar veri noktasında eğitildiğini gösteren parametre boyutu.
Temel Hususlar
Adlandırma kurallarını anlamak, bir modelin yetenekleri ve amaçlanan kullanımı hakkında değerli bilgiler sağlar. Kuruluş adı, modelin kaynağını ve güvenilirliğini gösterir. Model adı, aynı kuruluş tarafından geliştirilen farklı modeller arasında ayrım yapmaya yardımcı olur. Sürüm numarası, geliştirme ve iyileştirme düzeyini gösterir. Parametre boyutu, modelin karmaşıklığının ve öğrenme kapasitesinin kabaca bir göstergesini sağlar. Bağlam boyutu, modelin etkin bir şekilde işleyebileceği girdi uzunluğunu belirler.
Karşılaşabileceğiniz ek ayrıntılar arasında bit cinsinden niceleme biçimi yer alır. Daha yüksek niceleme biçimleri, modeli çalıştırmak için daha fazla RAM ve bilgisayar depolama alanı gerektirir. Niceleme biçimleri genellikle 4, 6, 8 ve 16 gibi kayan nokta gösteriminde temsil edilir. GPTQ, NF4 ve GGML gibi diğer biçimler, belirli {donanım} yapılandırmaları için kullanımı gösterir.
Niceleme: Bu, modelin parametrelerini temsil etmek için kullanılan sayıların duyarlılığını azaltma tekniğini ifade eder. Bu, modelin boyutunu ve bellek ayak izini önemli ölçüde azaltabilir ve kaynak kısıtlı cihazlarda dağıtılmasını kolaylaştırır. Bununla birlikte, niceleme aynı zamanda doğrulukta hafif bir azalmaya da yol açabilir.
Donanım Hususları: Farklı donanım yapılandırmaları farklı niceleme biçimleri için daha uygun olabilir. Örneğin, bazı donanımlar 4 bit niceleme için optimize edilebilirken, diğerleri 8 bit veya 16 bit niceleme için daha uygun olabilir.
Model Doğruluğunu Değerlendirme
Yeni model sürümleriyle ilgili haber başlıkları heyecan verici olsa da, iddia edilen performans sonuçlarına dikkatle yaklaşmak önemlidir. YZ performans ortamı oldukça rekabetçi ve şirketler bazen pazarlama amacıyla performans rakamlarını şişiriyor. Model kalitesini değerlendirmenin daha güvenilir bir yolu, standartlaştırılmış testlerden elde edilen puanları ve lider tablolarını incelemektir.
Birkaç test standartlaştırılmış olduğunu iddia etse de, YZ modellerini değerlendirmek, bu sistemlerin ‘kara kutu’ yapısı ve ilgili çok sayıda değişken nedeniyle zorlu olmaya devam ediyor. En güvenilir yaklaşım, YZ’nin yanıtlarını ve çıktılarını olgusal ve bilimsel kaynaklara göre doğrulamaktır.
Lider tablosu web siteleri, genellikle yüzdeler olarak ifade edilen oylar ve güven aralığı puanları ile sıralanabilir sıralamalar sunar. Yaygın kıyaslamalar, YZ modeline sorular sormayı ve yanıtlarının doğruluğunu ölçmeyi içerir. Bu kıyaslamalar şunları içerir:
- AI2 Muhakeme Yarışması (ARC)
- HellaSwag
- MMLU (Büyük Çok Görevli Dil Anlama)
- GerçekçiQA
- Winogrande
- GSM8K
- HumanEval
Kıyaslama Açıklamaları
AI2 Muhakeme Yarışması (ARC): İlkokul öğrencileri için tasarlanmış 7787 çoktan seçmeli fen sorusundan oluşan bir set. Bu kıyaslama, modelin bilimsel kavramlar hakkında akıl yürütme ve sorun çözme yeteneğini test eder.
HellaSwag: Cümle tamamlama alıştırmaları yoluyla sağduyuyu değerlendiren bir kıyaslama. Bu kıyaslama, modelin bir cümlenin bağlamını anlamasını ve en mantıklı sonu seçmesini sağlar.
MMLU (Büyük Çok Görevli Dil Anlama): Bu kıyaslama, modelin geniş bir görev yelpazesindeki sorunları çözme yeteneğini test eder ve kapsamlı dil anlayışı gerektirir. Görevler, matematik, tarih, bilim ve hukuk dahil olmak üzere çeşitli konuları kapsar.
GerçekçiQA: Bu kıyaslama, modelin doğruluğunu değerlendirir, yanlışları cezalandırır ve ‘Emin değilim’ gibi kaçamak cevapları engeller. Bu kıyaslama, modeli doğru ve dürüst yanıtlar vermeye teşvik eder.
Winogrande: Bir tetikleyici kelimeye göre farklılık gösteren neredeyse aynı iki cümleye sahip Winograd şemasına dayanan bir zorluk. Bu kıyaslama, modelin anlamdaki ince farklılıkları anlama ve belirsizliği çözme yeteneğini test eder.
GSM8K: 8.000 ilkokul matematik sorusundan oluşan bir veri seti. Bu kıyaslama, modelin matematiksel problemleri çözme ve hesaplamalar yapma yeteneğini test eder.
HumanEval: Bu kıyaslama, modelin 164 zorluğa yanıt olarak doğru Python kodu oluşturma yeteneğini ölçer. Bu kıyaslama, modelin kodlama becerilerini ve programlama kavramlarını anlama ve uygulama yeteneğini test eder.
Bu kıyaslamaları dikkatlice inceleyerek ve YZ’nin yanıtlarını olgusal kaynaklara göre doğrulayarak, bir modelin yetenekleri ve sınırlamaları hakkında daha doğru bir anlayış kazanabilirsiniz. Bu bilgiler daha sonra, belirli ihtiyaçlarınız için en uygun olan modeller hakkında bilinçli kararlar vermek için kullanılabilir.