Etik Veri Kaynağı Oluşturmanın Zorlu Görevi
Bu etik yapay zeka vahasına giden yol kolay olmadı. Araştırmacıların da kabul ettiği gibi, asıl darboğaz hesaplama gücü değil, insan emeğiydi. Sekiz terabaytı aşan geniş bir veri kümesi olan Common Pile v0.1’i oluşturma süreci, yapay zeka eğitimi için uygun hale getirmek amacıyla titiz manuelCleaning ve yeniden biçimlendirme gerektirdi. Veri kümesini bozabilecek herhangi bir hataya karşı arama yaparak neredeyse sonsuz sayıda dijital bilgi yığınını elediğinizi hayal edin.
Ancak asıl zorluk, telif hakkı durumunun titizlikle kontrol edilmesinde yatıyordu. İnternetin kaotik alanında, yaygın yanlış lisanslama norm haline gelmiş ve telif hakkı doğrulaması bir Sisifos görevine dönüşmüştür.
WaPo‘ya konuşan çalışmanın ortak yazarı Stella Biderman, "Bu, elinizdeki kaynakları ölçeklendirebileceğiniz bir şey değil" dedi. "Otomatik araçlar kullanıyoruz ancak tüm işlerimiz günün sonunda manuel olarak not edildi ve insanlar tarafından kontrol edildi. Ve bu gerçekten çok zor."
Telif hakkı sorunları için terabaytlarca veriyi eleme süreci kolay değil. Araştırmacılar sürece daha fazla bilgisayar çipi ekleyip bir çözüm umamazlardı. Bunun yerine, tüm verileri manuel olarak doğrulamaları ve not almaları gerekiyordu.
Zorlukların Üstesinden Gelmek: Etik Bir Yapay Zekanın Doğuşu
Korkutucu engellere rağmen Biderman ve özverili ekibi sebat etti. Common Pile’ı oluşturma konusundaki zorlu görev tamamlandıktan sonra, potansiyelini yedi milyar parametreli Büyük Dil Modelini (LLM) eğitmek için ortaya çıkardılar. Ortaya çıkan yapay zeka, Meta’nın Llama 1 ve Llama 2 7B gibi sektör kriterlerine karşı kendi başına durmakla kalmadı, aynı zamanda temiz bir etik vicdanla da yaptı.
Ancak yapay zeka araştırma ortamı, hızla giden bir mermi kadar hızlı bir şekilde gelişir. Meta’nın Llama 1 ve Llama 2 ailesini birkaç yıl önce yayınladığını, yapay zeka dünyasında göreli bir sonsuzluk olduğunu unutmamak önemlidir.
Kısıtlı kaynaklara sahip, zayıf, kararlı bir ekibin karşılaştırılabilir sonuçlar elde edebilmesi, onların dehasının bir kanıtıdır. Özellikle ilham verici bir bulgu, daha önce gözden kaçırılan Kongre Kütüphanesinde 130.000’den fazla İngilizce kitap hazinesiydi.
Yapay Zeka ve Telif Hakkının Belirsiz Suları
Telif hakkı, yapay zeka çağında dikenli bir etik ve yasal sorun olmaya devam ediyor. OpenAI ve Google gibi sektör devleri, haber makalelerinden kişisel sosyal medya gönderilerine kadar gözlerine kestirdikleri her şeyi yiyerek geniş veri kümeleri topladılar. Bu uygulama her yönden eleştiri aldı. Yazarlar, yapay zeka modellerini eğitmek için telif hakkıyla korunan kitapların yasadışı kullanımını iddia ederek davalar bile açtı.
Teknoloji sektörü, yapay zeka geliştirmenin verilere sınırsız erişim olmadan "imkansız" olacağını savunarak bu tür uygulamaların adil kullanım oluşturduğunu iddia ediyor. Bu son araştırma, Silikon Vadisi anlatısına acı bir tepki veriyor.
Bu başarı önemli bir adımı işaret etse de, tüm etik hususları ortadan kaldırmaz. İnsan işçilerin yerini alma potansiyeli olan büyük dil modelleri, işin geleceği hakkında hala temel sorular ortaya çıkarıyor. Dahası, kamu malı eserlerin kullanılması herkesi, özellikle de yaratıcı katkıları şu anda yapay zeka tarafından kusulan kişileri memnun etmeyebilir.
Yapay zeka firmalarının veri kullanımı için izin istemek veya tazminat ödemek zorunda kaldığı varsayımsal bir gelecekte bile, telif hakkı sahipleri yapay zeka eğitimine izin verme konusunda hala gereksiz baskıyla karşı karşıya kalabilir. Yapay zeka modellerini eğitirken kullanılabilecek muazzam kaynaklar, çoğu telif hakkı sahibinin büyük yapay zeka firmalarının verileri kullanmalarına izin verme baskısına karşı koyamayacağı anlamına gelir.
Yapay Zekada Şeffaflık ve Hesap Verebilirliğe Doğru
Ancak Biderman pragmatik olmaya devam ediyor. OpenAI gibi şirketlerin aniden etik veri kaynaklarına yöneleceği yanılsamasına kapılmıyor. Bunun yerine, çalışmasının veri kullanımında daha fazla şeffaflığı teşvik edeceğini umuyor. Hangi yapay zeka ürünlerini eğitmek için hangi veri kümeleri kullanıldı? Bu soruya cevap bilmek, yapay zekanın geleceği için önemli sonuçlar doğurabilir.
WaPo‘ya "Kısmi şeffaflık bile çok fazla sosyal değere ve orta derecede bilimsel değere sahip" dedi.
Şu anda belirli bir yapay zekayı eğitmek için kullanılan kesin veri kümeleri yakından korunan sırlardır. Bir yapay zeka modelini kopyalamanın tek yolu, mevcut yapay zeka modelinin tam olarak nasıl oluşturulduğunun söylenmesi veya yapay zeka modelinin tersine mühendisliğidir, bu da çok fazla zaman ve çaba gerektirebilir.
Yapay Zeka Geliştirmede Paradigma Kayması
Bu araştırmanın etkileri, yapay zeka etiği alanının çok ötesine uzanıyor. Yapay zekanın nasıl geliştirilebileceğinde temel bir değişimi ifade ediyor ve etik hususların ve teknolojik ilerlemenin birbirinden ayrı olması gerekmediğini gösteriyor. Şeffaflığa, sorumlu veri kaynağına ve insan gözetimine öncelik vererek, yapay zekanın insanlığa hizmet ettiği, diğer yönde değil, bir gelecek kurabiliriz.
Etik Endişeleri ve Toplumsal Etkileri Ele Alma
Teknoloji sektörünün etik veri kullanımının aşılmaz bir engel olduğu argümanı artık kesin olarak çürütüldü. Bu projenin başarısı, sağlam bir etik temel üzerine yapay zeka modelleri inşa etmenin fizibilitesinin altını çiziyor. Ancak yapay zeka geliştirmenin etik boyutları telif hakkı sorunlarının ötesine geçiyor. İşten çıkarma ve algoritmik önyargı dahil olmak üzere yapay zekanın sosyo-ekonomik etkileri, dikkatli bir değerlendirme gerektiriyor.
Yapay zeka modellerini etkileyen etik hususlar sadece kaynak bulmanın ötesine geçiyor. Verilerin yapay zeka modellerinin nüfusun herhangi bir bölümüne karşı veya lehine önyargılı olmasına neden olmadığından da emin olmalıyız.
Şeffaflığı ve Hesap Verebilirliği Teşvik Etme
Güveni artırmak ve sorumlu yeniliği sağlamak için yapay zeka endüstrisi şeffaflığı ve hesap verebilirliği benimsemelidir. Şirketler, modellerini eğitmek için kullanılan veri kaynakları ve önyargıyı azaltmak için kullanılan metodolojiler konusunda açık olmalıdır. Bağımsız denetimler ve dış gözetim, hesap verebilirliği daha da artırabilir ve etik ihlalleri önleyebilir.
Yapay zeka şeffaflığı, veri kümelerinin yapay zeka modelinde önyargıyı önlemek için yeterince geniş bir dağılım içerdiğini doğrulamak için uygulanabilir. Yapay zeka hesap verebilirliği, potansiyel etik ihlalleri kontrol etmek için dış denetimlerle uygulanabilir.
İşbirliği ve Açık Kaynak Çözümleri
Etik kaynaklı yapay zeka geliştirme, işbirliği ve açık kaynak çözümleri gerektirir. Veri kümelerini, metodolojileri ve en iyi uygulamaları paylaşarak, araştırmacılar ve geliştiriciler ilerlemeyi hızlandırabilir ve etik yapay zeka geliştirmenin zorluklarını topluca ele alabilir. Açık kaynak girişimleri aynı zamanda daha küçük kuruluşların ve bireylerin de yapay zeka devrimine katılmasına olanak tanıyabilir ve bu teknolojinin faydalarının daha adil bir şekilde paylaşılmasını sağlayabilir.
Daha Parlak Bir Gelecek Vaadi
Tümüyle etik kaynaklı verilerle eğitilmiş bir yapay zeka modelinin oluşturulması, sorumlu ve faydalı yapay zeka arayışında bir dönüm noktasını temsil ediyor. Bu çığır açan başarı, etik yapay zeka geliştirmenin mümkün olduğunu kanıtlamakla kalmıyor, aynı zamanda başkalarının izleyebileceği bir yol haritası da sunuyor. Şeffaflığı, işbirliğini ve etik ilkelere bağlılığı benimseyerek, insan değerlerini korurken ve daha adil ve hakkaniyetli bir geleceği teşvik ederken yapay zekanın tüm potansiyelini ortaya çıkarabiliriz.