Büyük YZ 'Açık Kaynak' Maskaralığı: Bilimsel Bütünlük Çağrısı

Temel Bir Kavramın Değersizleştirilmesi: ‘Açık Kaynak’ın Erozyonu

‘Açık kaynak’ terimi bir zamanlar teknolojik ve bilimsel alanlarda bir yol gösterici olarak duruyordu. Şeffaflık, engelsiz erişim, işbirlikçi iyileştirme ve tekrarlanabilirlik temel ilkesine dayanan güçlü bir ahlakı temsil ediyordu. Nesiller boyu araştırmacılar ve geliştiriciler için, paylaşılan bilgiye ve kolektif ilerlemeye olan bağlılığı ifade ediyordu. Disiplinler arası sayısız analizi güçlendiren R Studio gibi ortamlarda bulunan temel istatistiksel araçlardan, akışkan dinamiğinin karmaşıklıklarını çözmek için kullanılan OpenFOAM gibi sofistike simülasyon platformlarına kadar, açık kaynaklı yazılım inovasyon için vazgeçilmez bir katalizör olmuştur. Bilim insanlarının küresel olarak birbirlerinin çalışmalarını incelemesine, doğrulamasına, değiştirmesine ve üzerine inşa etmesine olanak tanıyarak keşifleri hızlandırdı ve bulguların kopyalanıp doğrulanabilmesini sağladı – bilimsel yöntemin tam da temeli buydu.

Ancak, şimdi bu güvenilir tanımın üzerinde, yapay zeka alanının hızla büyümesiyle oluşan bir gölge beliriyor. Nature gibi yayınlar tarafından da belirtilen son kritik tartışmalarda vurgulandığı gibi, önde gelen YZ geliştiricilerinin modelleri için ‘açık kaynak’ etiketini benimserken aynı zamanda gerçek açıklık için gerekli olan kritik bileşenleri sakladıkları endişe verici bir eğilim ortaya çıktı. Bu uygulama, terimin anlamını sulandırma, onu şeffaflığın bir sembolünden potansiyel olarak yanıltıcı bir pazarlama sloganına dönüştürme riski taşıyor. Temel sorun genellikle modern YZ sistemlerinin benzersiz doğasında yatmaktadır. Kaynak kodunun her şeyden önemli olduğu geleneksel yazılımların aksine, büyük YZ modellerinin gücü ve davranışı, eğitimleri için kullanılan devasa veri kümeleri ve onları tanımlayan karmaşık mimarilerle ayrılmaz bir şekilde bağlantılıdır. Bu eğitim verilerine veya modelin yapısı ve ağırlıklandırması hakkındaki ayrıntılı bilgilere erişim kısıtlandığında, modelin kodunun bir kısmının kullanıma sunulup sunulmadığına bakılmaksızın ‘açık kaynak’ olma iddiası boş geliyor. Bu tutarsızlık, açık kaynak felsefesinin kalbine vuruyor, erişilebilirlik yanılsaması yaratırken bağımsız inceleme ve kopyalama için en hayati unsurları gizliyor.

Bilimsel YZ’de Gerçek Açıklığın Zorunluluğu

YZ’de, özellikle bilimsel alanda, gerçek açıklığı sürdürmenin taşıdığı riskler daha yüksek olamazdı. Bilim, sonuçları bağımsız olarak doğrulama, metodolojileri anlama ve önceki çalışmalar üzerine inşa etme yeteneğiyle gelişir. Araçların kendileri – giderek daha sofistike hale gelen YZ modelleri – kara kutulara dönüştüğünde, bu temel süreç tehlikeye girer. İç işleyişi, eğitim verisi yanlılıkları veya potansiyel başarısızlık modları şeffaf olmayan YZ sistemlerine güvenmek, araştırmaya kabul edilemez düzeyde bir belirsizlik getirir. Bir bilim insanı, bir YZ’nin çıktısını şekillendiren faktörler bilinmiyorsa veya doğrulanamıyorsa, bu çıktıya dayanarak nasıl güvenle sonuçlara varabilir? Topluluk, bağımsız olarak denetlenemeyen veya kopyalanamayan tescilli sistemler tarafından üretilen bulgulara nasıl güvenebilir?

Açık kaynaklı yazılımın bilimdeki tarihsel başarısı, keskin bir karşıtlık ve net bir ölçüt sunmaktadır. Geleneksel açık kaynak projelerine içkin olan şeffaflık, güveni besledi ve sağlam hakem değerlendirmesini mümkün kıldı. Araştırmacılar algoritmaları inceleyebilir, sınırlamalarını anlayabilir ve belirli ihtiyaçlar için uyarlayabilirdi. Bu işbirlikçi ekosistem, biyoenformatikten astrofiziğe kadar çeşitli alanlarda ilerlemeyi hızlandırdı. YZ’nin bilimsel keşfi devrimleştirme potansiyeli muazzamdır; karmaşık veri kümelerini analiz etmeyi, hipotezler üretmeyi ve karmaşık süreçleri benzeri görülmemiş ölçeklerde simüle etmeyi vaat ediyor. Ancak, bu potansiyeli gerçekleştirmek, her zaman bilimsel ilerlemenin temelini oluşturan aynı şeffaflık ve tekrarlanabilirlik ilkelerini sürdürmeye bağlıdır. ‘Açık’ gibi görünenler de dahil olmak üzere kapalı, tescilli YZ sistemlerine doğru bir kayma, araştırma topluluğunu bölme, işbirliğini engelleme ve nihayetinde anlama ve doğrulamaya engeller dikerek keşif hızını yavaşlatma tehdidi oluşturuyor. Bilimsel çaba, yalnızca güçlü değil, aynı zamanda şeffaf ve güvenilir araçlar gerektirir.

Veri Muamması: YZ’nin Şeffaflık Zorluğu

YZ’deki ‘açık kaynak’ tartışmasının merkezinde kritik eğitim verisi sorunu yatmaktadır. Öncelikle koduyla tanımlanan geleneksel yazılımların aksine, büyük dil modelleri (LLM’ler) ve diğer temel YZ sistemleri, geliştirilmeleri sırasında içlerine aldıkları devasa veri kümeleri tarafından temelden şekillendirilir. Bu verilerin özellikleri, yanlılıkları ve kaynağı, modelin davranışını, yeteneklerini ve potansiyel sınırlamalarını derinden etkiler. Bu nedenle, YZ’de gerçek açıklık, bu verilerle ilgili olarak model ağırlıklarını veya çıkarım kodunu yayınlamanın çok ötesine geçen bir şeffaflık düzeyi gerektirir.

Şu anda ‘açık kaynak’ şemsiyesi altında pazarlanan birçok model, bu cephede göze çarpar şekilde yetersiz kalmaktadır. Meta’nın Llama serisi, Microsoft’un Phi-2’si veya Mistral AI’nin Mixtral’ı gibi önde gelen örnekleri düşünün. Bu şirketler belirli bileşenleri yayınlayarak geliştiricilerin modelleri çalıştırmasına veya ince ayar yapmasına izin verirken, genellikle temel eğitim verileri hakkında önemli kısıtlamalar getirir veya yetersiz ayrıntı sağlarlar. İlgili veri kümeleri devasa, tescilli, web’den çok az kürasyonla kazınmış veya lisans kısıtlamalarına tabi olabilir, bu da tam kamuya açıklanmasını zor veya imkansız hale getirir. Ancak, aşağıdakiler hakkında kapsamlı bilgi olmadan:

  • Veri Kaynakları: Bilgi nereden geldi? Ağırlıklı olarak metin mi, resim mi, kod mu? Hangi web sitelerinden, kitaplardan veya veritabanlarından?
  • Veri Kürasyonu: Veriler nasıl filtrelendi, temizlendi ve işlendi? Bilgiyi dahil etmek veya hariç tutmak için hangi kriterler kullanıldı?
  • Veri Özellikleri: Veri içindeki bilinen yanlılıklar nelerdir (örneğin, demografik, kültürel, dilsel)? Hangi zaman dilimini kapsıyor?
  • Ön İşleme Adımları: Eğitimden önce verilere hangi dönüşümler uygulandı?

…bağımsız araştırmacıların modelin davranışını tam olarak anlaması, gelişimini kopyalaması veya potansiyel yanlılıklarını ve başarısızlık noktalarını eleştirel olarak değerlendirmesi son derece zorlaşır. Bu veri şeffaflığı eksikliği, mevcut birçok ‘açık kaynak’ YZ sürümünün, yazılım dünyasında kurulan gerçek açıklığın ruhuna, hatta harfine uymamasının birincil nedenidir. Buna karşılık, Allen Institute for AI’nin OLMo modeli veya LLM360’ın CrystalCoder’ı gibi topluluk odaklı çabalar gibi girişimler, verileri ve eğitim metodolojileri konusunda daha fazla şeffaflık sağlamak için daha bilinçli çabalar sarf ederek, geleneksel açık kaynak değerleriyle daha uyumlu daha yüksek bir standart belirlemiştir.

‘Openwashing’: Stratejik Etiketleme mi Yoksa Düzenleyici Kaçamak mı?

İlkelerini tam olarak benimsemeyen kuruluşlar tarafından ‘açık kaynak’ etiketinin sahiplenilmesi, ‘openwashing’ (açık kaynak aklaması) konusundaki endişeleri artırdı. Bu terim, ilgili şeffaflık ve erişilebilirlik düzeyine bağlı kalmadan, açıklığın olumlu çağrışımlarını halkla ilişkiler faydaları veya stratejik avantaj için kullanma uygulamasını tanımlar. Şirketler neden buna girişebilir? Birkaç faktör rol oynayabilir. ‘Açık kaynak’ markası, geliştiriciler ve müşteriler için çekici olabilecek topluluğa ve paylaşılan ilerlemeye bağlılığı düşündüren önemli bir iyi niyet taşır.

Ayrıca, Nature ve diğer gözlemciler tarafındanbelirtildiği gibi, düzenleyici ortamlar istemeden bu tür davranışları teşvik edebilir. Avrupa Birliği’nin 2024’te sonuçlandırılan dönüm noktası niteliğindeki YZ Yasası, yüksek riskli ve genel amaçlı YZ sistemlerine daha katı gereklilikler getiren hükümler içermektedir. Ancak, açık kaynak lisansları altında yayınlanan YZ modelleri için potansiyel muafiyetler veya daha hafif gereklilikler de içerir. Bu, şirketlerin modellerini stratejik olarak ‘açık kaynak’ olarak etiketleyebilecekleri potansiyel bir boşluk yaratır – eğitim verileri gibi kilit bileşenler kısıtlı kalsa bile – özellikle düzenleyici engelleri aşmak ve daha sıkı uyum yükümlülüklerinden kaçınmak için.

Bu potansiyel düzenleyici arbitraj derinden endişe vericidir. Eğer ‘openwashing’, güçlü YZ sistemlerinin güvenlik, adalet ve hesap verebilirliği sağlamayı amaçlayan incelemeyi atlamasına izin verirse, düzenlemenin amacını baltalar. Ayrıca bilim camiasını tehlikeli bir duruma sokar. Araştırmacılar, tamamen kapalı ticari tekliflere kıyasla erişilebilirlikleri nedeniyle bu sözde ‘açık’ sistemlere yönelebilirler, ancak kendilerini metodolojileri şeffaf olmayan ve doğrulanamayan araçlara bağımlı bulabilirler. Bu bağımlılık, bilimsel bütünlüğü tehlikeye atma, araştırmanın tekrarlanabilir, tarafsız ve sağlam, anlaşılabilir bir temel üzerine inşa edilmesini sağlamayı zorlaştırma riski taşır. Tanıdık bir etiketin cazibesi, gerçek bilimsel araştırmayı engelleyen altta yatan kısıtlamaları maskeleyebilir.

YZ Çağı İçin Açıklığı Yeniden Tanımlamak: OSAID Çerçevesi

Geleneksel açık kaynak tanımlarının YZ’nin ortaya çıkardığı benzersiz zorluklar için yetersizliğini fark eden, açık kaynak ilkelerinin uzun süredir koruyucusu olan Open Source Initiative (OSI), önemli bir küresel çabaya girişti. Amaçları, yapay zeka için özel olarak tasarlanmış açık ve sağlam bir tanım oluşturmaktır: Open Source AI Definition (OSAID 1.0). Bu girişim, YZ bağlamında ‘açık’ kelimesinin anlamını geri kazanma ve şeffaflık ve hesap verebilirlik için net standartlar belirleme yolunda hayati bir adımı temsil etmektedir.

Önerilen OSAID çerçevesindeki kilit bir yenilik, ‘veri bilgisi’ kavramıdır. Devasa eğitim veri kümelerinin tam olarak yayınlanmasının gizlilik endişeleri, telif hakkı kısıtlamaları veya sırf ölçek nedeniyle genellikle pratik olmayabileceğini veya yasal olarak yasaklanabileceğini kabul eden OSAID, veriler hakkında kapsamlı açıklama yapılmasını zorunlu kılmaya odaklanır. Bu, geliştiricilerin aşağıdakilerle ilgili ayrıntılı bilgi sağlama gereksinimlerini içerir:

  1. Kaynaklar ve Kompozisyon: Eğitim verilerinin kökenlerini açıkça belirleme.
  2. Özellikler: Veri içindeki bilinen özellikleri, sınırlamaları ve potansiyel yanlılıkları belgeleme.
  3. Hazırlık Yöntemleri: Verileri eğitim için temizleme, filtreleme ve hazırlama süreçlerini açıklama.

Ham veriler paylaşılamasa bile, bu meta verileri sağlamak, araştırmacıların ve denetçilerin YZ modelini şekillendiren faktörler hakkında kritik bilgiler edinmelerini sağlar. Potansiyel yanlılıkların daha iyi anlaşılmasını kolaylaştırır, daha bilinçli risk değerlendirmeleri yapılmasını sağlar ve kopyalama veya karşılaştırmalı çalışmalar denemek için bir temel sağlar.

Veri bilgisinin ötesinde, OSI’nin çabası, Open Future gibi kuruluşların savunuculuğuyla birlikte, daha geniş bir ‘veri müşterekleri’ (data-commons) modeline doğru bir kaymayı teşvik etmektedir. Bu, YZ eğitimi için gerekli veri kümelerinin daha açık ve eşitlikçi bir şekilde kürate edildiği ve kullanıma sunulduğu, özellikle araştırma topluluğu içinde YZ geliştirme için daha şeffaf ve işbirlikçi bir ekosistemi besleyen bir gelecek öngörmektedir. OSAID tanımı, YZ sistemlerinin değerlendirilebileceği net bir ölçüt sağlamayı, yüzeysel etiketlerin ötesine geçerek açıklığa gerçek bağlılığı değerlendirmeyi amaçlamaktadır.

Kolektif Bir Sorumluluk: Gerçek YZ Şeffaflığını Sağlamak

YZ’de gerçek açıklığı sağlama zorluğu yalnızca tanımlarla çözülemez; birden fazla paydaştan ortak eylem gerektirir. Hem geliştiriciler hem de sofistike YZ araçlarının birincil kullanıcıları olarak bilim camiası önemli bir sorumluluk taşımaktadır. Araştırmacılar, OSAID 1.0 gibi girişimlerle aktif olarak ilgilenmeli, ilkelerini anlamalı ve benimsenmelerini savunmalıdır. Kullanmayı düşündükleri YZ modellerinin ‘açıklık’ iddialarını eleştirel olarak değerlendirmeli, görünüşte uygun ancak şeffaf olmayan sistemlerin cazibesine direnmek gerekse bile, eğitim verileri ve metodolojileri konusunda daha fazla şeffaflık sunanları önceliklendirmelidirler. Yayınlarda, konferanslarda ve kurumsal tartışmalarda doğrulanabilir, tekrarlanabilir YZ araçlarına duyulan ihtiyacı dile getirmek esastır.

Kamu finansman kuruluşları ve hükümet organlarının da oynaması gereken kritik bir rol vardır. Hibe gereklilikleri ve tedarik politikaları aracılığıyla önemli bir etkiye sahiptirler. Fonlarıyla üretilen araştırma verileri için zaten açık lisanslamayı zorunlu kılan ABD Ulusal Sağlık Enstitüleri (NIH) gibi kurumlar değerli bir emsal teşkil etmektedir. Benzer şekilde, İtalya’nın kamu idaresi organlarının açık kaynaklı yazılımlara öncelik verme zorunluluğu gibi örnekler, politikanın benimsemeyi nasıl yönlendirebileceğini göstermektedir. Bu ilkeler YZ alanına genişletilebilir ve genişletilmelidir. Hükümetler ve finansman kuruluşları şunları göz önünde bulundurmalıdır:

  • Kamu tarafından finanse edilen YZ araştırma ve geliştirmesi için sağlam Açık Kaynak YZ standartlarına (OSAID gibi) uyumu zorunlu kılmak.
  • Araştırma odaklı YZ modellerini eğitmek için uygun, gerçekten açık, yüksek kaliteli veri kümelerinin – bir ‘veri müşterekleri’ – oluşturulmasına yatırım yapmak.
  • AB YZ Yasası gibi düzenlemelerin, ‘openwashing’i önleyecek ve lisans iddialarına bakılmaksızın tüm güçlü YZ sistemlerini sorumlu tutacak şekilde uygulanmasını sağlamak.

Nihayetinde, araştırmada YZ’nin geleceğini korumak birleşik bir cephe gerektirir. Bilim insanları şeffaflık talep etmeli, kurumlar gerçek açıklığı önceliklendiren politikalar uygulamalı ve düzenleyiciler ‘açık kaynak’ etiketinin uygun bir kaçış yolu değil, hesap verebilirliğe anlamlı bir bağlılığı ifade etmesini sağlamalıdır. Bu kolektif çabalar olmadan, YZ’nin bilimsel keşif için muazzam potansiyeli, kapalı, tescilli sistemlerin hakim olduğu bir manzara tarafından tehlikeye atılma riski taşır ve bilimsel ilerlemenin işbirlikçi ve doğrulanabilir doğasını temelden baltalar. Gelecekteki araştırmaların bütünlüğü tehlikededir.