‘Açık kaynak’ terimi, teknoloji dünyasında güçlü bir yankı uyandırır. İşbirlikçi yenilik, paylaşılan bilgi ve şeffaflığa duyulan temel bir inanç imgelerini çağrıştırır. Bu ruh, yarım yüzyıl önce Kaliforniya, Menlo Park’ta Homebrew Computer Club’ın kurulmasıyla canlı bir şekilde somutlaşmıştı. Bu meraklılar ve tamirciler topluluğu sadece makineler inşa etmedi; fikirleri ve yazılımları serbestçe değiş tokuş etmeye dayalı bir kültür inşa ettiler ve bilişimi devrimleştirecek açık kaynak hareketinin temel taşlarını döşediler. Ancak bugün, bu zor kazanılmış miras ve açıklığın tanımı, özellikle hızla genişleyen yapay zeka alanında, ince ama önemli bir zorlukla karşı karşıyadır. Gelişmiş yapay zeka modelleri geliştiren artan sayıda şirket, yarattıklarını hevesle ‘açık kaynak’ olarak markalamaktadır, ancak daha yakından bakıldığında bu etiketin genellikle yüzeysel olarak uygulandığı ve hareketin temel ilkelerinden uzak bir gerçeği maskelediği ortaya çıkmaktadır. Anlamın bu şekilde sulandırılması sadece anlamsal bir laf kalabalığı değildir; özellikle bilim camiası içinde büyük önem taşıyan şeffaflık ve tekrarlanabilirlik ilkelerine gerçek bir tehdit oluşturmaktadır.
Gerçek Açık İşbirliği Ruhunu Anlamak
Mevcut zor durumu kavramak için öncelikle ‘açık kaynak’ın gerçekte ne anlama geldiğini takdir etmek gerekir. Bu, sadece ücretsiz yazılımdan daha fazlasıdır; kolektif ilerleme ve doğrulanabilir güvene dayanan bir felsefedir. Bu felsefenin temeli dört temel özgürlüğe dayanır:
- Programı herhangi bir amaç için çalıştırma özgürlüğü.
- Programın nasıl çalıştığını inceleme özgürlüğü ve istediğiniz gibi hesaplama yapması için değiştirme özgürlüğü. Kaynak koduna erişim bunun için bir ön koşuldur.
- Başkalarına yardımcı olabilmeniz için kopyaları yeniden dağıtma özgürlüğü.
- Değiştirilmiş sürümlerinizin kopyalarını başkalarına dağıtma özgürlüğü. Bunu yaparak tüm topluluğa değişikliklerinizden yararlanma şansı verebilirsiniz. Kaynak koduna erişim bunun için bir ön koşuldur.
Genellikle GNU General Public License (GPL), MIT License veya Apache License gibi lisanslarda yer alan bu özgürlükler, tarihsel olarak kaynak koduna odaklanmıştır. Kaynak kodu – programcılar tarafından yazılan insan tarafından okunabilir talimatlar – geleneksel yazılımın planıdır. Bu kodun açıkça kullanılabilir hale getirilmesi, herkesin onu incelemesine, mantığını anlamasına, potansiyel kusurları belirlemesine, yeni ihtiyaçlara uyarlamasına ve bu iyileştirmeleri paylaşmasına olanak tanır.
Bu model, yenilik ve bilimsel ilerleme için olağanüstü bir katalizör olmuştur. Dünya çapındaki araştırmacıların kolayca erişebildiği araçların etkisini düşünün:
- İstatistiksel analiz: R Studio gibi yazılımlar, istatistiksel hesaplama ve grafikler için güçlü, şeffaf ve genişletilebilir bir ortam sağlar ve sayısız bilimsel alanda veri analizinin temel taşı haline gelmiştir. Açıklığı, yöntemlerin akran denetimine ve özel paketlerin geliştirilmesine olanak tanır.
- Hesaplamalı akışkanlar dinamiği: OpenFOAM, havacılık mühendisliğinden çevre bilimine kadar çeşitli alanlarda kritik öneme sahip olan akışkan akışlarını simüle etmek için gelişmiş bir kütüphane sunar. Açık doğası, karmaşık simülasyonların özelleştirilmesini ve doğrulanmasını sağlar.
- İşletim sistemleri: Linux ve diğer açık kaynaklı işletim sistemleri, kararlılıkları, esneklikleri ve şeffaflıkları nedeniyle değer verilen bilimsel yüksek performanslı bilgi işlem kümeleri de dahil olmak üzere dünyanın bilgi işlem altyapısının çoğunun bel kemiğini oluşturur.
Faydaları sadece maliyet tasarrufunun çok ötesine uzanır. Açık kaynak, bilimsel yöntemin temel taşı olan tekrarlanabilirliği teşvik eder. Araştırmada kullanılan araçlar ve kodlar açık olduğunda, diğer bilim insanları deneyleri tekrarlayabilir, bulguları doğrulayabilir ve güvenle çalışmanın üzerine inşa edebilir. Engelleri yıkarak ve farklı geçmişlere ve kurumlara sahip araştırmacıların ortak zorluklara katkıda bulunmasına olanak tanıyarak küresel işbirliğini teşvik eder. Araştırma yatırımlarını tescilli yazılım şirketlerinin kaprislerinden koruyarak uzun ömürlülüğü sağlar ve satıcıya bağımlılığı önler. Yeni fikirlerin ve tekniklerin hızla yayılmasına ve yinelenmesine izin vererek keşfi hızlandırır. Açık kaynak ahlakı, temel olarak şeffaflık, inceleme ve paylaşılan ilerleme yoluyla bilimsel bilgi arayışıyla uyumludur.
Yapay Zeka: Tamamen Farklı Bir Canavar
Kaynak kodunun erişilebilirliği etrafında güvenli bir şekilde inşa edilen yerleşik açık kaynak paradigması, yapay zeka alanına, özellikle de temel büyük dil modelleri (LLM’ler) gibi büyük ölçekli modellere uygulandığında önemli türbülanslarla karşılaşır. Bu yapay zeka sistemleri kesinlikle kod içerirken, işlevsellikleri ve davranışları çok daha karmaşık ve genellikle opak unsurlar tarafından şekillendirilir. Bir sinir ağının mimari kodunu basitçe yayınlamak, geleneksel yazılımlarda olduğu gibi gerçek açıklığa eşit değildir.
Bir yapay zeka modeli, özellikle de bir derin öğrenme modeli, tipik olarak birkaç temel bileşenden oluşur:
- Model Mimarisi: Bu, sinir ağının yapısal tasarımıdır – katmanların, nöronların ve bağlantıların düzenlenmesi. Şirketler genellikle bu bilgiyi yayınlar ve bunu açıklığın kanıtı olarak sunarlar. Bu, bir motorun planını paylaşmaya benzer.
- Model Ağırlıkları (Parametreler): Bunlar, eğitim süreci sırasında ayarlanan, genellikle milyarlarca olan ağ içindeki sayısal değerlerdir. Eğitim verilerinden çıkarılan öğrenilmiş kalıpları ve bilgiyi temsil ederler. Ağırlıkların yayınlanması, başkalarının önceden eğitilmiş modeli kullanmasına olanak tanır. Bu, çalışmaya hazır, tamamen monte edilmiş motoru sağlamak gibidir.
- Eğitim Verileri: Bu, belki de en kritik ve en sık gizlenen bileşendir. Temel modeller, genellikle internetten kazınan veya tescilli ya da özel koleksiyonlardan (önemli gizlilik endişeleri doğuran tıbbi kayıtlar gibi) elde edilen devasa veri kümeleri üzerinde eğitilir. Bu verilerin bileşimi, kürasyonu, filtrelenmesi ve içindeki potansiyel önyargılar, modelin yeteneklerini, sınırlamalarını ve etik davranışını derinden etkiler. Eğitim verileri hakkında ayrıntılı bilgi olmadan, bir modelin neden bu şekilde davrandığını anlamak veya belirli uygulamalar için uygunluğunu ve güvenliğini değerlendirmek inanılmaz derecede zorlaşır. Bu, motorun çalıştırıldığı gizli yakıt karışımı ve hassas koşullardır.
- Eğitim Kodu ve Süreci: Bu, eğitim için kullanılan belirli algoritmaları, optimizasyon tekniklerini, seçilen hiperparametreleri (öğrenme sürecini kontrol eden ayarlar), kullanılan hesaplama altyapısını ve tüketilen önemli enerjiyi içerir. Eğitim sürecindeki küçük farklılıklar farklı model davranışlarına yol açabilir ve mimari ve veriler bilinse bile tekrarlanabilirliği zorlaştırabilir. Bu, motoru inşa etmek ve ayarlamak için kullanılan ayrıntılı mühendislik özelliklerini, araçları ve fabrika koşullarını temsil eder.
Şu anda ‘açık kaynak’ yapay zeka olarak pazarlanan birçok sistem, öncelikle model mimarisine ve önceden eğitilmiş ağırlıklara erişim sunar. Bu, kullanıcıların modeli çalıştırmasına ve belki de daha küçük veri kümeleri üzerinde ince ayar yapmasına izin verirken, eğitim verileri ve süreciyle ilgili gerekli şeffaflığı sağlamada kritik bir şekilde başarısız olur. Bu, modelin temel özelliklerini gerçekten inceleme veya yeniden eğitim gerektiren ya da kökenlerini anlamayı gerektiren derinlemesine anlamlı yollarla değiştirme yeteneğini ciddi şekilde kısıtlar. Açık kaynak tanımının merkezinde yer alan inceleme ve değiştirme özgürlükleri, veri ve eğitim metodolojisinin önemli unsurları gizli kaldığında önemli ölçüde engellenir. Modelin yaratılışını sıfırdan tekrarlamak – bilimsel anlayış ve doğrulamanın önemli bir testi – neredeyse imkansız hale gelir.
Yapay Zekada Rahatsız Edici ‘Openwashing’ Eğilimi
Etiket ile gerçeklik arasındaki bu boşluk, “openwashing” olarak bilinen bir uygulamaya yol açmıştır. Bu terim, şirketlerin ‘açık kaynak’ın olumlu itibarından ve algılanan faydalarından pazarlama ve stratejik avantaj için yararlanırken, aynı zamanda ayrıntılı eğitim verisi bilgileri veya eğitimin kendisi için kullanılan kod gibi kritik bileşenlere erişimi engelleme eylemini tanımlar. Sistemlerini, şeffaflık ve topluluk erişimi gibi zorlu ilkelerini tam olarak benimsemeden açıklık diliyle örterler.
Yaygın olarak kullanılmasına ve bazen ‘açık’ bir tanım taşımasına rağmen, birçok önde gelen yapay zeka modeli, Open Source Initiative (OSI) gibi kuruluşlar tarafından savunulan kapsamlı açık kaynak tanımına göre ölçüldüğünde yetersiz kalmaktadır. 2022’den beri yapay zeka bağlamında açık kaynağın anlamını netleştirmek için özenle çalışan OSI tarafından yapılan bir analiz, birkaç popüler modelle ilgili endişeleri vurgulamıştır:
- Llama 2 & Llama 3.x (Meta): Model ağırlıkları ve mimarisi mevcut olsa da, kullanım kısıtlamaları ve tam eğitim veri kümesi ve süreciyle ilgili eksik şeffaflık, geleneksel açık kaynak değerleriyle uyumlarını sınırlar.
- Grok (X): Benzer şekilde, kullanıma sunulmuş olsa da, eğitim verileri ve metodolojisi hakkında kapsamlı bilgi eksikliği, gerçek açıklığı hakkında sorular doğurmaktadır.
- Phi-2 (Microsoft): Genellikle ‘açık model’ olarak tanımlansa da, oluşturma süreci ve verileriyle ilgili tam şeffaflık sınırlı kalmaktadır.
- Mixtral (Mistral AI): Parçaları yayınlanmış olsa da, çalışma ve değişiklik için gerekli tüm bileşenlere erişimdeki sınırlamalar nedeniyle açık kaynak için tam kriterleri karşılamamaktadır.
Bu örnekler, açık kaynak ilkelerine daha fazla bağlı kalmaya çalışan çabalarla tezat oluşturmaktadır:
- OLMo (Allen Institute for AI): Kar amacı gütmeyen bir araştırma enstitüsü tarafından geliştirilen OLMo, açıkça açıklık göz önünde bulundurularak tasarlanmış, sadece ağırlıkları değil, aynı zamanda eğitim kodunu ve kullanılan veriler hakkındaki ayrıntıları da yayınlamıştır.
- LLM360’s CrystalCoder: Veriler, eğitim prosedürleri ve değerlendirme metrikleri dahil olmak üzere modelin yaşam döngüsü boyunca tam şeffaflığı hedefleyen topluluk odaklı bir proje.
Neden openwashing yapılır? Motivasyonlar çok yönlüdür:
- Pazarlama ve Algı: ‘Açık kaynak’ etiketi önemli bir iyi niyet taşır. İşbirliği, etik uygulamalar ve daha geniş topluluğa bağlılık önerir, bu da kullanıcıları, geliştiricileri ve olumlu basını çekebilir.
- Ekosistem Oluşturma: Tam şeffaflık olmasa bile model ağırlıklarını yayınlamak, geliştiricileri yapay zeka sistemi üzerine uygulamalar oluşturmaya teşvik eder ve potansiyel olarak kaynak şirkete fayda sağlayan bağımlı bir ekosistem yaratır.
- Düzenleyici Arbitraj: Bu özellikle endişe verici bir itici güçtür. Avrupa Birliği’nin Yapay Zeka Yasası (2024) gibi yaklaşan düzenlemelerin, belirli yüksek riskli yapay zeka sistemlerine daha katı gereklilikler getirmesi beklenmektedir. Ancak, ‘ücretsiz ve açık kaynaklı yazılım’ için genellikle muafiyetler veya daha hafif incelemeler önerilmektedir. Şirketler, ‘açık kaynak’ etiketini – yerleşik tanımlara göre yanlış olsa bile – uygulayarak, tescilli, yüksek riskli sistemlerle ilişkili potansiyel olarak maliyetli uyumluluk yüklerinden kaçınarak bu düzenlemelerde daha kolay gezinmeyi umabilirler. Bu stratejik etiketleme, düzenlemenin güvenlik ve şeffaflık sağlama niyetini baltalayarak potansiyel bir boşluktan yararlanır.
Bu uygulama nihayetinde ‘açık kaynak’ teriminin değerini düşürür ve kafa karışıklığı yaratır, kullanıcıların, geliştiricilerin ve araştırmacıların hangi yapay zeka sistemlerinin etiketin ima ettiği şeffaflığı ve özgürlükleri gerçekten sunduğunu ayırt etmesini zorlaştırır.
Gerçek Açıklığın Bilim İçin Neden Acilen Önemli Olduğu
Bilim camiası için bu tartışmadaki riskler son derece yüksektir. Bilim, şeffaflık, tekrarlanabilirlik ve bağımsız doğrulama yeteneği üzerine gelişir. Yapay zekanın araştırmaya – genomik verileri analiz etmekten ve iklim değişikliğini modellemekten yeni malzemeler keşfetmeye ve karmaşık biyolojik sistemleri anlamaya kadar – artan entegrasyonu, bu yapay zeka araçlarının doğasını kritik derecede önemli hale getirir. ‘Kara kutu’ yapay zeka sistemlerine veya gerçek şeffaflık sağlamadan açık gibi görünenlere güvenmek, derin riskler ortaya çıkarır:
- Bozulmuş Tekrarlanabilirlik: Araştırmacılar bir çalışmada kullanılan bir yapay zeka modelinin arkasındaki eğitim verilerine ve metodolojisine erişemez veya anlayamazsa, sonuçları tekrarlamak imkansız hale gelir. Bu, temel olarak bilimsel yöntemin temel direklerinden birini baltalar. Bağımsız olarak doğrulanamazlarsa bulgulara nasıl güvenilebilir veya üzerine nasıl inşa edilebilir?
- Gizli Önyargılar ve Sınırlamalar: Tüm yapay zeka modelleri, eğitim verilerinden ve tasarım seçimlerinden önyargılar miras alır. Şeffaflık olmadan, araştırmacılar bu önyargıları yeterince değerlendiremez veya modelin sınırlamalarını anlayamaz. Önyargılı bir modeli farkında olmadan kullanmak, özellikle tıp araştırması veya sosyal bilimler gibi hassas alanlarda çarpık sonuçlara, kusurlu sonuçlara ve potansiyel olarak zararlı gerçek dünya sonuçlarına yol açabilir.
- İnceleme Eksikliği: Opak modeller sıkı akran denetiminden kaçar. Bilim camiası, modelin iç işleyişini tam olarak sorgulayamaz, mantığındaki potansiyel hataları belirleyemez veya tahminleriyle ilişkili belirsizlikleri anlayamaz. Bu, bilimsel sorgulamanın kendi kendini düzelten doğasını engeller.
- Kurumsal Sistemlere Bağımlılık: Şirketler tarafından kontrol edilen kapalı veya yarı kapalı yapay zeka sistemlerine güvenmek bağımlılıklar yaratır. Araştırma gündemleri, mevcut kurumsal araçların yetenekleri ve sınırlamaları tarafından ustaca etkilenebilir ve erişim kısıtlanabilir veya maliyetli hale gelebilir, bu da potansiyel olarak bağımsız araştırma yönlerini boğabilir ve iyi finanse edilen kurumlarla diğerleri arasındaki uçurumu genişletebilir.
- Engellenmiş Yenilik: Gerçek açık kaynak, araştırmacıların yalnızca araçları kullanmasına değil, aynı zamanda onları parçalarına ayırmasına, değiştirmesine, iyileştirmesine ve yeniden tasarlamasına olanak tanır. Yapay zeka modellerinin temel bileşenleri erişilemez kalırsa, bu önemli yenilik yolu engellenir. Bilim insanları, yeni eğitim teknikleriyle deney yapmaktan, farklı veri kombinasyonlarını keşfetmekten veya modelleri orijinal geliştiricilerin öngörmediği belirli, incelikli araştırma soruları için uyarlamaktan alıkonulur.
Bilim camiası, ‘açık kaynak’ teriminin sulandırılmasını pasif bir şekilde kabul edemez. Özellikle bu araçlar araştırma bağlamlarında kullanıldığında, yapay zeka geliştiricilerinden aktif olarak netlik savunmalı ve gerçek şeffaflık talep etmelidir. Bu şunları içerir:
- Net Standartları Teşvik Etmek: Mimari, ağırlıklar, eğitim verileri ve eğitim süreçleriyle ilgili şeffaflığı kapsayan ‘açık kaynak yapay zeka’ için net, titiz tanımlar oluşturmak üzere OSI tarafından yapılanlar gibi çabaları desteklemek.
- Doğrulanabilir Araçlara Öncelik Vermek: Başlangıçta daha az performanslı olsalar veya hazır opak alternatiflerden daha fazla çaba gerektirseler bile, bu yüksek şeffaflık standartlarını karşılayan yapay zeka modellerinin ve platformlarının kullanımını tercih etmek.
- Şeffaflık Talep Etmek: Yapay zeka içeren yayınların, eğitim verilerinin kaynağı, işlenmesi ve potansiyel önyargıları ile eğitim metodolojileri hakkında kapsamlı bilgiler de dahil olmak üzere kullanılan modeller hakkında ayrıntılı açıklamalar içermesi konusunda ısrar etmek.
- Gerçekten Açık Projeleri Desteklemek: Yapay zeka geliştirmede gerçek açıklığa kendini adamış kurumlardan gelen topluluk odaklı projelere ve girişimlere katkıda bulunmak ve bunları kullanmak.
Homebrew Computer Club’ın ruhu – paylaşılan bilgi ve işbirlikçi inşa etme ruhu – yapay zeka çağının karmaşıklıklarında sorumlu bir şekilde gezinmek için esastır. Yapay zeka için ‘açık kaynak’ın gerçek anlamını geri kazanmak ve savunmak sadece terminolojik saflıkla ilgili değildir; giderek artan bir şekilde yapay zeka odaklı bir dünyada bilimin bütünlüğünü, tekrarlanabilirliğini ve sürekli ilerlemesini korumakla ilgilidir. İleriye giden yol, uyanıklık ve yapay zekanın güçlü araçlarının, bilime yüzyıllardır çok iyi hizmet etmiş olan açık sorgulama ilkeleriyle tutarlı bir şekilde geliştirilmesini ve konuşlandırılmasını sağlamak için kolektif bir bağlılık gerektirir.