Yapay zekanın siren sesi giderek yükseliyor, endüstriler arasında verimlilik ve dönüşüm vaat ediyor. Özellikle cazip bir olasılık, güçlü yapay zeka modellerini doğrudan kişisel bilgisayarlarda çalıştırmak, böylece bulut bağımlılığını, abonelik ücretlerini ve veri gizliliği endişelerini aşmaktır. Google, Meta ve Mistral AI gibi devler, sofistike Büyük Dil Modellerini (LLM’ler) ücretsiz olarak indirilebilir hale getirdi. Ancak bu erişilebilirlik pratik kullanıma dönüşüyor mu? Masaüstü veya dizüstü bilgisayarın silikonuna hapsedilmiş bu dijital zihinler, gazetecilik yazımı gibi karmaşık iş akışlarını gerçekten geliştirebilir mi? Bu yazı, tam da bu soruyu yanıtlamak için tasarlanmış kapsamlı bir deneyi detaylandırmaktadır.
Yerel Yapay Zeka Deneyinin Kurgulanması
Birkaç ay boyunca, tamamen yerel donanımda çalışan çeşitli ücretsiz indirilebilir LLM’lerin gerçek dünya performansını değerlendirmek için özel bir çaba sarf edildi. İncelenen modellerin listesi, açık kaynaklı yapay zekanın hızla gelişen manzarasını yansıtan çeşitlilikteydi:
- Google Gemma (özellikle sürüm 3)
- Meta Llama (sürüm 3.3)
- Anthropic Claude (sürüm 3.7 Sonnet – genellikle bulut tabanlı olmasına rağmen, dahil edilmesi geniş kapsamlı testleri düşündürüyor)
- Mistral AI’dan çoklu iterasyonlar (Mistral, Mistral Small 3.1, Mistral Nemo ve Mixtral dahil)
- IBM Granite (sürüm 3.2)
- Alibaba Qwen (sürüm 2.5)
- DeepSeek R1 (genellikle Qwen veya Llama’nın damıtılmış versiyonları üzerine uygulanan bir akıl yürütme katmanı)
Temel amaç iddialı ama pratikti: bu yerel olarak çalıştırılan yapay zekaların ham röportaj transkriptlerini cilalı, yayınlanabilir makalelere dönüştürüp dönüştüremeyeceğini belirlemek. Bu, sadece teknik fizibiliteyi – donanım yükü kaldırabilir mi? – değil, aynı zamanda niteliksel çıktıyı da – sonuçta ortaya çıkan metin kullanılabilir mi? – değerlendirmeyi içeriyordu. Tamamen otomatikleştirilmiş, yayına hazır bir makaleye ulaşmanın zor olduğunun baştan belirtilmesi önemlidir. Birincil hedef, bu özel, zorlu kullanım durumu aracılığıyla mevcut cihaz içi yapay zekanın gerçek yeteneklerini ve sınırlamalarını anlamaya doğru kaydı.
Seçilen metodoloji, önemli bir istem (prompt) etrafında toplandı. Bu, istenen makale yapısını, stilini ve tonunu titizlikle özetleyen yaklaşık 1.500 token (kabaca 6.000 karakter veya iki tam sayfa metin) içeriyordu. Bu talimat setine, tipik bir 45 dakikalık konuşma için ortalama 11.000 token olan röportaj transkriptinin kendisi eklendi. Bu birleşik girdinin (genellikle 12.500 token’ı aşan) büyüklüğü, birçok çevrimiçi yapay zeka platformunun ücretsiz kullanım sınırlarını tipik olarak aşmaktadır. Bu kısıtlama, işleme maliyetinin girdi boyutundan bağımsız olarak ücretsiz kaldığı ve yalnızca makinenin yetenekleriyle sınırlı olduğu yerel dağıtımı keşfetme mantığının altını çizdi.
Bu testleri yürütmek, yerel olarak çalışan LLM’lerle etkileşim kurmak için kullanıcı dostu bir sohbet botu benzeri arayüz sağlayan popüler bir topluluk yazılımı olan LM Studio‘nun kullanılmasını içeriyordu. LM Studio, çeşitli model sürümlerini indirme işlevlerini kolayca entegre eder, ancak bu ücretsiz olarak sunulan modellerin birincil kaynağı, yapay zeka topluluğu için merkezi bir merkez olan Hugging Face deposu olmaya devam etmektedir.
Teknik Labirentte Gezinme: Donanım, Bellek ve Model Boyutu
Yerel yapay zeka işleme yolculuğu, yazılım ve donanım arasında karmaşık bir etkileşimi hızla ortaya çıkardı. Yapay zekanın çıktısının kalitesi ve hızı, test makinesinde bulunan kaynaklarla yakından ilişkiliydi – Apple Silicon M1 Max çip üzerinde sistem (SoC) ve cömert 64 GB RAM ile donatılmış bir Mac. Kritik olarak, bu mimari Birleşik Bellek Mimarisi (UMA) özelliğine sahiptir, bu da 48 GB RAM’in işlemci çekirdekleri (CPU), grafik çekirdekleri (GPU – vektör hızlandırma için kullanılır) ve nöral işlem birimi çekirdekleri (NPU – matris hızlandırma için kullanılır) arasında dinamik olarak paylaşılmasına olanak tanır.
Birkaç temel teknik faktör belirleyici olarak ortaya çıktı:
- Model Parametreleri: LLM’ler genellikle parametre sayılarıyla (tipik olarak milyarlarca) ölçülür. Daha büyük modeller genellikle daha fazla bilgiye ve nüansa sahiptir. Ancak, önemli ölçüde daha fazla bellek gerektirirler.
- Kuantizasyon (Quantization): Bu, modelin parametrelerini depolamak için kullanılan hassasiyeti ifade eder (örneğin, 8-bit, 4-bit, 3-bit). Daha düşük bit hassasiyeti, bellek ayak izini büyük ölçüde azaltır ve işlem hızını artırır, ancak genellikle doğruluk ve çıktı kalitesi pahasına (hatalar, tekrarlar veya anlamsız dil kullanımı gibi).
- Bağlam Penceresi (Context Window): Bu, yapay zekanın aynı anda dikkate alabileceği maksimum bilgi miktarını (istem + girdi verisi) token cinsinden tanımlar. Gerekli pencere boyutu göreve göre belirlenir; bu durumda, büyük istem ve transkript önemli bir pencere gerektiriyordu.
- Kullanılabilir RAM: Bellek miktarı, hangi modellerin (ve hangi kuantizasyon seviyesinde) etkili bir şekilde yüklenip çalıştırılabileceğini doğrudan sınırlar.
Değerlendirme sırasında test makinesinde kalite ve fizibilite arasında en iyi dengeyi sağlayan tatlı nokta, Google’ın 27 milyar parametreli, 8 bite kuantize edilmiş Gemma modelini (sürüm “27B Q8_0”) kullanarak elde edildi. Bu yapılandırma, 32.000 token’lık bir bağlam penceresi içinde çalıştı ve yaklaşık 15.000 token’lık girdiyi (talimatlar + transkript) rahatça işledi. Belirtilen Mac donanımında, 48 GB paylaşılan belleği kullanarak çalıştı.
Bu optimal koşullar altında, işlem hızı saniyede 6.82 token olarak ölçüldü. İşlevsel olsa da, bu anlık olmaktan uzaktır. Çıktı kalitesinden ödün vermeden hız iyileştirmeleri öncelikle daha hızlı donanıma bağlıdır – özellikle daha yüksek saat hızlarına (GHz) veya daha fazla sayıda işlem çekirdeğine (CPU, GPU, NPU) sahip SoC’lere.
Önemli ölçüde daha fazla parametreye sahip modelleri (örneğin, 32 milyar, 70 milyar) yüklemeye çalışmak hızla bellek tavanına çarptı. Bu daha büyük modeller ya tamamen yüklenemedi ya da ciddi şekilde kesilmiş, kullanılamaz çıktılar üretti (tam bir makale yerine tek bir paragraf gibi). Tersine, daha az parametreli modeller kullanmak, belleği boşaltırken, tekrarlama ve kötü ifade edilmiş fikirlerle karakterize edilen yazma kalitesinde gözle görülür bir düşüşe neden oldu. Benzer şekilde, daha agresif kuantizasyon kullanmak (parametreleri 3, 4, 5 veya 6 bite düşürmek) hızı artırdı ancak dilbilgisi hataları ve hatta uydurma kelimeler ortaya çıkararak çıktıyı ciddi şekilde bozdu.
Girdi verileri tarafından belirlenen gerekli bağlam penceresinin boyutu, görev için esasen pazarlık konusu değildir. Girdi verileri, seçilen model boyutu ve kuantizasyonla birleştiğinde mevcut RAM’i aşan bir pencere gerektiriyorsa, tek çare daha küçük bir model seçmektir, bu da kaçınılmaz olarak bellek sınırları içinde kalmak için nihai sonucun potansiyel kalitesinden ödün verir.
Kalite Arayışı: Yapı Maddeyle Buluştuğunda (veya Buluşmadığında)
Yerel olarak çalıştırılan yapay zeka kullanılabilir makaleler üretmeyi başardı mı? Evet ve hayır. Üretilen metinler genellikle şaşırtıcı derecede iyi bir yapı sergiledi. Genellikle istenen formata bağlı kaldılar ve şunları içeriyorlardı:
- Belirgin bir açı veya odak noktası.
- Tematik bölümler arasında tutarlı bir akış.
- Transkriptten uygun şekilde yerleştirilmiş alıntılar.
- İlgi çekici başlıklar ve sonuç cümleleri.
Ancak, özellikle gelişmiş akıl yürütme için tasarlanmış DeepSeek R1 gibi modeller de dahil olmak üzere test edilen tüm LLM’lerde tutarlı bir şekilde kritik bir kusur ortaya çıktı: röportaj içindeki bilgilerin ilgisini doğru bir şekilde ayırt etme ve önceliklendirme konusunda temel bir yetersizlik. Yapay zeka modelleri sürekli olarak konuşmanın özünü kaçırdı, ikincil noktalara veya teğetsel ayrıntılara odaklandı.
Sonuç genellikle dilbilgisi açısından sağlam ve iyi organize edilmiş, ancak sonuçta yüzeysel ve ilgi çekici olmayan makaleler oldu. Bazı durumlarda, yapay zeka, bariz olanı belirtmek için önemli, iyi tartışılmış pasajlar ayıracaktı – örneğin, röportaj yapılan şirketin rakipleri olan bir pazarda faaliyet gösterdiğini uzun uzadıya detaylandırmak gibi. Bu, dilsel yeterlilik (tutarlı cümleler kurma) ile gerçek kavrayış (önemi ve bağlamı anlama) arasındaki boşluğu vurguladı.
Ayrıca, üslup çıktısı modeller arasında önemli ölçüde değişiyordu:
- Meta’nın Llama 3.x: Test sırasında, cümleleri genellikle karmaşık ve anlaşılması zordu.
- Mistral Modelleri & Gemma: Coşkulu sıfatlar ve olumlu çerçeveleme kullanan ancak somut içerik ve spesifik ayrıntılardan yoksun bir “pazarlama dili” tarzına eğilim gösterdi.
- Alibaba’nın Qwen: Şaşırtıcı bir şekilde, test kurulumunun kısıtlamaları dahilinde, bu Çinli model Fransızca’da (orijinal değerlendirme ekibinin dili) estetik açıdan en hoş düzyazılardan bazılarını üretti.
- Mixtral 8x7B: Başlangıçta, bu “uzmanlar karışımı” modeli (sekiz küçük, uzmanlaşmış 7 milyar parametreli modeli birleştiren) umut vaat etti. Ancak, 48 GB bellek kısıtlamasına sığdırmak, önemli sözdizimi hatalarına yol açan agresif 3-bit kuantizasyon gerektirdi. 4-bit kuantize edilmiş bir sürüm (“Q4_K_M”) başlangıçta daha iyi bir uzlaşma sundu, ancak LM Studio yazılımına yapılan sonraki güncellemeler bellek ayak izini artırdı ve bu yapılandırmanın da kesilmiş sonuçlar üretmesine neden oldu.
- Mistral Small 3.1: 8-bit kuantizasyonda 24 milyar parametreye sahip daha yeni bir model, güçlü bir rakip olarak ortaya çıktı. Çıktı kalitesi 27B Gemma modeline yaklaştı ve saniyede 8.65 token işleyerek hafif bir hız avantajı sundu.
Bu çeşitlilik, bir LLM seçmenin sadece boyut veya hızla ilgili olmadığını vurgular; temel eğitim verileri ve mimarisi, yazma stilini ve potansiyel önyargılarını önemli ölçüde etkiler.
Donanım Mimarisi: Yerel Yapay Zekanın Adsız Kahramanı
Deneyler, genellikle göz ardı edilen kritik bir faktöre ışık tuttu: temel donanım mimarisi, özellikle belleğe nasıl erişildiği. Apple Silicon Mac’te gözlemlenen üstün performans yalnızca RAM miktarından kaynaklanmıyordu, aynı zamanda kritik olarak Birleşik Bellek Mimarisine (UMA) dayanıyordu.
Bir UMA sisteminde, CPU, GPU ve NPU çekirdeklerinin tümü aynı fiziksel RAM havuzunu paylaşır ve verilere aynı bellek adreslerinden eş zamanlı olarak erişebilir. Bu, verileri farklı işlemcilere ayrılmış ayrı bellek havuzları arasında (örneğin, CPU için sistem RAM’i ve ayrı bir grafik kartı için özel VRAM) kopyalama ihtiyacını ortadan kaldırır.
Bu neden LLM’ler için bu kadar önemli?
- Verimlilik: LLM işleme, farklı çekirdek türleri arasında yoğun hesaplama içerir. UMA, veri kopyalama ve aktarma ile ilişkili gecikmeyi ve ek yükü azaltarak sorunsuz veri paylaşımına olanak tanır.
- Bellek Kullanımı: UMA olmayan sistemlerde (ayrı bir GPU’ya sahip tipik bir PC gibi), aynı verinin hem ana sistem RAM’ine (CPU için) hem de GPU’nun VRAM’ine yüklenmesi gerekebilir. Bu, LLM’nin kendisi için kullanılabilir belleği etkili bir şekilde azaltır.
Pratik sonuç önemlidir. Test Mac’i 48 GB paylaşılan UMA RAM kullanarak 27 milyar parametreli, 8-bit kuantize edilmiş bir modeli rahatça çalıştırabilirken, UMA olmayan bir PC’de benzer performansı elde etmek önemli ölçüde daha fazla toplam RAM gerektirebilir. Örneğin, toplam 48 GB RAM’i CPU için 24 GB ve GPU için 24 GB olarak bölünmüş bir PC, bellek bölümlemesi ve veri kopyalama ek yükü nedeniyle yalnızca çok daha küçük bir 13 milyar parametreli modeli etkili bir şekilde çalıştırabilir.
Bu mimari avantaj, Apple Silicon çipli Mac’lerin yerel yapay zeka alanında kazandığı erken liderliği açıklıyor. Bunu fark eden AMD gibi rakipler, benzer bir birleşik bellek yaklaşımını içerecek şekilde tasarlanmış Ryzen AI Max SoC serisini (2025 başlarında bekleniyor) duyurdu. Bu testlerin yapıldığı sırada, Intel’in Core Ultra SoC’leri, CPU, GPU ve NPU’yu entegre etmelerine rağmen, tüm çekirdek türleri arasında aynı düzeyde tam birleşik bellek erişimine sahip değildi. Bu donanım ayrımı, daha büyük, daha yetenekli LLM’leri yerel olarak çalıştırma konusunda ciddi olan herkes için kritik bir husustur.
İstem Mühendisliğinin Karmaşık Dansı
Bir yapay zekanın bir röportajı makaleye dönüştürmek gibi karmaşık bir görevi yerine getirmesini sağlamak, yalnızca güçlü donanım ve yetenekli bir modelden daha fazlasını gerektirir; sofistike talimatlar – istem mühendisliği (prompt engineering) sanatı ve bilimi – talep eder. Yapay zekayı yönlendiren ilk 1.500 token’lık istemi oluşturmak önemli bir girişimdi.
Yararlı bir başlangıç noktası tersine mühendislik (reverse engineering) içeriyordu: yapay zekaya tamamlanmış, insan tarafından yazılmış bir makaleyi ilgili transkriptiyle birlikte beslemek ve bu sonuca ulaşmak için hangi istemin verilmesi gerektiğini sormak. Yapay zekanın çeşitli örnekler üzerindeki önerilerini analiz etmek, talimat seti için temel unsurları belirlemeye yardımcı oldu.
Ancak, yapay zeka tarafından oluşturulan istem önerileri sürekli olarak çok kısaydı ve kapsamlı bir makalenin oluşturulmasını yönlendirmek için gerekli ayrıntıdan yoksundu. Asıl iş, bu ilk yapay zeka tarafından sağlanan ipuçlarını alıp detaylandırmak, gazetecilik yapısı, tonu, stili ve etik hususlar hakkında derin alan bilgisini yerleştirmekte yatıyordu.
Birkaç sezgisel olmayan ders ortaya çıktı:
- Zarafet Üzerine Netlik: Şaşırtıcı bir şekilde, istemi daha doğal, akıcı bir tarzda yazmak genellikle yapay zekanın kavrayışını azalttı. Modeller belirsizlikle, özellikle zamirlerle (“o,” “bu”) mücadele etti. En etkili yaklaşım, makine hassasiyeti için insan okunabilirliğinden ödün vermeyi, olası herhangi bir yanlış yorumlamayı önlemek için özneleri açıkça tekrarlamayı (“makale şöyle olmalı…”, “makalenin tonu şöyle olmalı…”, “makalenin girişi şöyle olmalı…”) içeriyordu.
- Yaratıcılığın Zor Anlaşılır Doğası: Esnekliğe izin vermeyi amaçlayan dikkatli istem tasarımına rağmen, yapay zeka tarafından oluşturulan makaleler sürekli olarak bir “aile benzerliği” paylaştı. İnsan yaratıcılığının ve üslup çeşitliliğinin genişliğini tek bir istemde veya hatta birden fazla rakip istemde yakalamak son derece zor oldu. Gerçek çeşitlilik, istem ayarlamasının tek başına sağlayabileceğinden daha temel değişimler gerektiriyor gibi görünüyordu.
İstem mühendisliği tek seferlik bir görev değil, iyileştirme, test etme ve belirli iş mantığını ve üslup nüanslarını dahil etme konusunda tekrarlayan bir süreçtir. Teknik anlayış ve derin konu uzmanlığının bir karışımını gerektirir.
İş Yükü Kayması: Yapay Zeka Paradoksunu Açıklamak
Deneyler nihayetinde yapay zeka paradoksu olarak adlandırılan kritik bir farkındalığa yol açtı: mevcut durumunda, yapay zekanın potansiyel olarak bazı kullanıcı iş yükünü (makale taslağını yazma) hafifletmesi için, kullanıcının genellikle daha fazla ön çalışma yatırımı yapması gerekir.
Temel sorun, yapay zekanın ham röportaj transkripti içindeki ilgiyi güvenilir bir şekilde ölçememesi olarak kaldı. İlgili bir makale üretmek için, tüm transkripti beslemek yeterli değildi. Gerekli bir ara adım ortaya çıktı: transkripti manuel olarak ön işleme tabi tutmak. Bu şunları içeriyordu:
- İlgisiz sohbetleri, konudan sapmaları ve tekrarları çıkarmak.
- Yapay zekanın anlayışını yönlendirmek için potansiyel olarak bağlamsal notlar eklemek (nihai makale için olmasa bile).
- Anahtar bölümleri dikkatlice seçmek ve belki de yeniden sıralamak.
Bu transkript “kürasyonu” önemli ölçüde insan zamanı ve muhakemesi gerektirir. Yapay zekanın ilk taslağı oluşturarak tasarruf edilen zaman, girdi verilerini titizlikle hazırlama ve istemi iyileştirme gibi yeni görevlerle etkili bir şekilde dengelendi veya hatta aşıldı. İş yükü ortadan kalkmadı; sadece doğrudan yazmaktan veri hazırlamaya ve istem iyileştirmeye kaydı.
Dahası, ayrıntılı 1.500 token’lık istem, tek bir makale türüne (örneğin, bir ürün lansmanı hakkındaki bir röportaj) oldukça özeldi. Bir gazetecinin günlük olarak ürettiği çeşitli makale formatlarını – startup profilleri, stratejik analizler, etkinlik kapsamı, çok kaynaklı araştırmalar – kapsamak, her bir kullanım durumu için ayrı, eşit derecede ayrıntılı bir istem geliştirmeyi, test etmeyi ve sürdürmeyi gerektirecektir. Bu, önemli bir başlangıç ve devam eden mühendislik yatırımı anlamına gelir.
Daha da kötüsü, altı aydan fazla süren bu kapsamlı deneyler, yalnızca yüzeyi kazıdı. En basit senaryoya odaklandılar: genellikle görüşmecinin noktalarının zaten bir şekilde yapılandırıldığı basın toplantıları gibi kontrollü ortamlarda yapılan tek bir röportajdan bir makale oluşturmak. Birden fazla röportajdan bilgi sentezleme, arka plan araştırmasını dahil etme veya daha az yapılandırılmış konuşmaları ele alma gibi çok daha karmaşık, ancak yaygın görevler, temel durum için bile gereken zaman yatırımı nedeniyle keşfedilmeden kaldı.
Bu nedenle, LLM’leri yerel olarak çalıştırmak teknik olarak mümkün olsa ve maliyet ve veri gizliliği açısından faydalar sunsa da, gazetecilik gibi karmaşık bilgi işleri için zaman veya çabadan kolayca tasarruf sağladığı fikri, bu araştırmaya dayanarak şu anda yanıltıcıdır. Gerekli çaba basitçe dönüşür, veri hazırlama ve son derece spesifik istem mühendisliğine doğru yukarı yönde hareket eder. Bu özel zorluklarda – ilgiyi ayırt etme, kapsamlı ön işleme gerektirme – yerel olarak çalıştırılan yapay zeka, ücretli çevrimiçi hizmetlerle karşılaştırılabilir bir performans sergiledi, bu da bunların dağıtım yönteminden bağımsız olarak mevcut nesil LLM’lerin temel sınırlamaları olduğunu düşündürmektedir. Bu tür alanlarda gerçekten sorunsuz yapay zeka yardımına giden yol karmaşık olmaya devam ediyor ve hem yapay zeka yeteneklerinde hem de onlarla etkileşim yöntemlerimizde daha fazla evrim gerektiriyor.