YZ Kıyaslamalarını Yeniden Düşünmek

YZ Kıyaslamalarını Yeniden Düşünmek: Anlamlı Ölçüm Arayışı

Üstün yapay zeka (YZ) arayışı genellikle kıyaslama puanlarıyla körüklenir, ancak bu puanlar gerçekten gerçek dünya yeteneklerinin göstergesi midir? YZ topluluğu, geleneksel kıyaslamaların artan incelemeyle karşı karşıya kalmasıyla bu soruyla boğuşuyor.

Kasım 2024’te tanıtılan SWE-Bench, bir YZ modelinin kodlama becerisini değerlendirmek için popüler bir araç olarak hızla ilgi gördü. Bir düzine Python tabanlı projedeki halka açık GitHub depolarından çıkarılan 2.000’den fazla otantik programlama zorluğunu kullanır. Güçlü bir SWE-Bench puanı, OpenAI, Anthropic ve Google gibi önde gelen YZ geliştiricilerinden gelen büyük model sürümlerinde belirgin bir şekilde görüntülenen imrenilen bir rozet haline geldi. Bu devlerin ötesinde, ince ayar konusunda uzmanlaşmış YZ firmaları, SWE-Bench liderlik tablosunda sürekli olarak üstünlük için yarışıyor.

Ancak, bu kıyaslamalar etrafındaki coşku yanıltıcı olabilir. SWE-Bench’in geliştirilmesine dahil olan Princeton Üniversitesi’nde araştırmacı olan John Yang, üst sıralarda yer almak için yoğun rekabetin sistemin “oynanmasına” yol açtığını belirtiyor. Bu, bu kıyaslamaların gerçek YZ başarısını doğru bir şekilde yansıtıp yansıtmadığı konusunda endişelere yol açıyor.

Sorun mutlaka açık hilecilik değil, daha ziyade kıyaslamanın sınırlamalarından yararlanmak için özel olarak uyarlanmış stratejilerin geliştirilmesidir. Örneğin, ilk SWE-Bench yalnızca Python koduna odaklandı ve geliştiricileri modellerini yalnızca Python üzerinde eğitmeye teşvik etti. Yang, bu yüksek puanlı modellerin genellikle farklı programlama dilleriyle karşılaştıklarında başarısız olduğunu ve “yaldızlı” olarak tanımladığı yüzeysel bir anlayışı ortaya çıkardığını gözlemledi.

Yang, "İlk bakışta güzel ve parlak görünüyor, ancak daha sonra farklı bir dilde çalıştırmaya çalışıyorsunuz ve her şey bir nevi dağılıyor" diye açıklıyor. "O noktada, bir yazılım mühendisliği ajanı tasarlamıyorsunuz. Bir SWE-Bench ajanı yapmak için tasarlıyorsunuz, bu da çok daha az ilginç."

Bu "SWE-Bench sorunu", YZ değerlendirmesinde daha geniş bir zorluğu yansıtıyor. Bir zamanlar ilerlemenin güvenilir göstergeleri olarak kabul edilen kıyaslamalar, giderek gerçek dünya yeteneklerinden kopuyor. Sorunu daha da kötüleştiren, şeffaflıkla ilgili endişeler yüzeye çıktı ve bu ölçümlere olan güveni daha da aşındırdı. Bu sorunlara rağmen, birçok uzman içsel değerlerini sorgulasa bile, kıyaslamalar model geliştirmede önemli bir rol oynamaya devam ediyor. OpenAI’nin kurucu ortağı Andrej Karpathy, mevcut durumu "değerlendirme krizi" olarak adlandırarak, YZ yeteneklerini ölçmek için güvenilir yöntemlerin olmamasından ve net bir yolun olmamasından yakındı.

Stanford Üniversitesi İnsan Merkezli YZ Enstitüsü’nde araştırma direktörü olan Vanessa Parli, "Tarihsel olarak, kıyaslamalar YZ sistemlerini değerlendirme yöntemimizdi. İleriye dönük sistemleri değerlendirmek istediğimiz yol bu mu? Ve değilse, yol nedir?" diye soruyor.

Akademisyenlerin ve YZ araştırmacılarının büyüyen bir bölümü, sosyal bilimlerden ilham alarak daha odaklı bir yaklaşımı savunuyor. Nicel sosyal bilimin merkezinde yer alan ve bir ölçüm aracının amaçlanan yapıyı ne kadar doğru yakaladığını değerlendiren "geçerliliği" önceliklendirmeyi öneriyorlar. Geçerliliğe yapılan bu vurgu, "akıl yürütme" veya "bilimsel bilgi" gibi belirsiz tanımlanmış kavramları değerlendiren kıyaslamalara meydan okuyabilir. Yapay genel zeka (AGI) arayışını yumuşatabilse de, bireysel modelleri değerlendirmek için daha sağlam bir temel sağlayacaktır.

Michigan Üniversitesi’nde profesör ve geçerlilik için baskıda önde gelen bir ses olan Abigail Jacobs, "Geçerliliği ciddiye almak, akademi, endüstri veya herhangi bir yerdeki kişilerden sistemlerinin söylediklerini yaptığını göstermelerini istemek anlamına geliyor. İddialarını destekleyebildiklerini göstermekten geri adım atmak isterlerse, YZ dünyasında bir zayıflığa işaret ettiğini düşünüyorum."

Geleneksel Testin Sınırları

YZ endüstrisinin kıyaslamalara olan güveni, özellikle ImageNet gibi zorluklardaki geçmiş başarılarından kaynaklanmaktadır.

2010 yılında başlatılan ImageNet, araştırmacılara 1.000 farklı sınıfa ayrılmış 3 milyondan fazla görüntüden oluşan bir veritabanı sundu. Zorluk, yöntemden bağımsızdı ve herhangi bir başarılı algoritmanın temel yaklaşımından bağımsız olarak güvenilirlik kazanmasına izin veriyordu. 2012’deki AlexNet’in alışılmadık bir GPU eğitim biçimini kullanan atılımı, modern YZ’nin temel taşı haline geldi. AlexNet’in evrişimli sinir ağlarının görüntü tanımının kilidini açacağını çok az kişi tahmin edebilse de, yüksek puanı tüm şüpheleri ortadan kaldırdı. (Özellikle, AlexNet’in geliştiricilerinden biri daha sonra OpenAI’nin kurucu ortağı oldu.)

ImageNet’in etkinliği, zorluk ile gerçek dünya görüntü tanıma görevleri arasındaki yakın uyumdan kaynaklanıyordu. Yöntemler hakkında tartışmalar olsa bile, en yüksek puanlı model değişmez bir şekilde pratik uygulamalarda üstün performans gösterdi.

Ancak, o zamandan beri, YZ araştırmacıları aynı yöntemden bağımsız yaklaşımı giderek daha genel görevlere uyguladılar. Örneğin, SWE-Bench genellikle daha geniş kodlama yeteneğinin bir vekili olarak kullanılırken, diğer sınav tarzı kıyaslamalar akıl yürütme yeteneğini ölçmek için kullanılır. Bu geniş kapsam, belirli bir kıyaslamanın neyi ölçtüğünü titizlikle tanımlamayı zorlaştırır ve bulguların sorumlu bir şekilde yorumlanmasını engeller.

İşler Nerede Bozuluyor

Stanford’da doktora öğrencisi olan Anka Reuel, genelliğe doğru itmenin değerlendirme sorununun kökeninde olduğunu savunuyor. Reuel, "Göreve özel modellerden genel amaçlı modellere geçtik" diyor. "Artık tek bir görevle ilgili değil, bir sürü görevle ilgili, bu yüzden değerlendirme zorlaşıyor."

Jacobs gibi Reuel de "kıyaslamalarla ilgili temel sorunun, pratik uygulamadan bile daha fazla geçerlilik olduğunu" ve şunu belirtiyor: "Birçok şeyin bozulduğu yer burası." Kodlama gibi karmaşık görevler için, akla gelebilecek her senaryoyu bir problem setinde kapsamak neredeyse imkansızdır. Sonuç olarak, bir modelin daha yüksek puanının gerçek kodlama becerisini mi yoksa sadece problem setinin akıllıca manipülasyonunu mu yansıttığını ayırt etmek zorlaşır. Rekor puanlar elde etme konusundaki yoğun baskı, kısayolları daha da teşvik eder.

Geliştiriciler, bir dizi özel kıyaslamadaki başarının genel olarak yetenekli bir modele dönüşeceğini umuyorlar. Ancak, tek bir sistemin karmaşık bir model dizisini birleştirebildiği ajantif YZ’nin yükselişi, belirli görevlerdeki iyileştirmelerin genelleştirilip genelleştirilemeyeceğini değerlendirmeyi zorlaştırıyor. Princeton’da bilgisayar bilimcisi ve YZ endüstrisindeki özensiz uygulamaların eleştirmeni olan Sayash Kapoor, "Çevirebileceğiniz çok daha fazla düğme var" diyor. "Temsilcilere gelince, değerlendirme için en iyi uygulamalardan bir nevi vazgeçtiler."

Geçtiğimiz Temmuz ayında yayınlanan bir makalede Kapoor, YZ modellerinin 2024’te Web’de gezinme yeteneğini test eden WebArena kıyaslamasına nasıl yaklaştığıyla ilgili belirli sorunları vurguladı. Kıyaslama, Reddit, Wikipedia ve diğerlerini taklit eden klonlanmış web sitelerinde gerçekleştirilen 800’den fazla görevden oluşuyor. Kapoor ve ekibi, kazanan modelin STeP’in, WebArena görevlerinde sıkça karşılaşılan bir gereksinim olan kullanıcı profil sayfalarına doğrudan erişmek için Reddit URL’lerinin yapısından yararlandığını keşfetti.

Kapoor bunu doğrudan hile olarak görmese de, "temsilcinin WebArena’daki görevleri ilk kez görmüş olsaydı ne kadar iyi çalışacağının ciddi bir yanlış temsili" olarak değerlendiriyor. Buna rağmen, OpenAI’nin web aracısı Operator o zamandan beri benzer bir politikayı benimsedi.

YZ kıyaslamalarındaki sorunları daha da gösteren Kapoor ve bir araştırma ekibi, kısa süre önce popüler bir kitle kaynaklı değerlendirme sistemi olan Chatbot Arena’daki önemli sorunları ortaya çıkaran bir makale yayınladı. Bulguları, liderlik tablosunun manipüle edildiğini, bazı üst temel modellerin açıklanmayan özel testlere katıldığını ve puanlarını seçici olarak yayınladığını gösterdi.

Her şeyi başlatan kıyaslama olan ImageNet bile artık geçerlilik sorunlarıyla karşı karşıya. Washington Üniversitesi ve Google Research’teki araştırmacılar tarafından 2023’te yapılan bir çalışma, ImageNet kazanan algoritmalarının altı gerçek dünya veri kümesine uygulandığında "çok az veya hiç ilerleme" gösterdiğini ve testin dış geçerliliğinin sınırına ulaştığını öne sürdü.

Daha Küçüğe Gitmek

Geçerlilik sorununu çözmek için bazı araştırmacılar kıyaslamaları belirli görevlere yeniden bağlamayı öneriyor. Reuel’in dediği gibi, YZ geliştiricileri "bu yüksek düzeyli kıyaslamalara başvurmak zorunda kalıyorlar, çünkü kıyaslama geliştiricileri artık aşağı yönlü görevi tahmin edemiyorlar."

Kasım 2024’te Reuel, kod belgelerinin netliği ve en önemlisi, kıyaslamanın belirtilen yeteneğini ölçmedeki geçerliliği de dahil olmak üzere çeşitli kriterlere göre kıyaslamaları değerlendiren kamuya açık bir sıralama projesi olan BetterBench’i başlattı. BetterBench, tasarımcıları kıyaslamalarının neyi test ettiğini ve kıyaslamayı oluşturan görevlerle nasıl ilişkili olduğunu açıkça tanımlamaya zorluyor.

Reuel, "Yeteneklerin yapısal bir dökümüne sahip olmanız gerekiyor" diyor. "Gerçekte önemsediğiniz beceriler nelerdir ve bunları nasıl ölçebileceğimiz bir şeye nasıl dönüştürürsünüz?"

Sonuçlar ortaya çıkarıcı. Modellerin Atari 2600 oyunlarını nasıl oynayacaklarını öğrenme yeteneğini test etmek için 2013’te kurulan Arcade Learning Environment (ALE), en yüksek puanlı kıyaslamalardan biri olarak ortaya çıkıyor. Tersine, genel dil becerileri için yaygın olarak kullanılan bir test olan Massive Multitask Language Understanding (MMLU) kıyaslaması, sorular ve altta yatan beceri arasındaki kötü tanımlanmış bir bağlantı nedeniyle en düşük puanlardan birini alıyor.

BetterBench, belirli kıyaslamaların itibarlarını önemli ölçüde etkilememiş olsa da, YZ kıyaslamalarını nasıl iyileştireceğimizle ilgili tartışmaların ön saflarına geçerliliği başarıyla getirdi. Reuel, geçerlilik ve YZ model değerlendirmesiyle ilgili fikirlerini daha da geliştireceği Hugging Face, Edinburgh Üniversitesi ve EleutherAI tarafından barındırılan yeni bir araştırma grubuna katıldı.

Hugging Face’in küresel politika başkanı Irene Solaiman, grubun doğrudan yetenekleri ölçmenin ötesine geçen geçerli kıyaslamalar oluşturmaya odaklanacağını söylüyor. Solaiman, "Zaten işe yarayan iyi bir kıyaslama için çok fazla açlık var" diyor. "Birçok değerlendirme çok fazla şey yapmaya çalışıyor."

Görünüşe göre daha geniş endüstri bu görüşte birleşiyor. Mart ayında yayınlanan bir makalede, Google, Microsoft, Anthropic ve diğerlerinden araştırmacılar, geçerliliğin temel taşı olduğu değerlendirmeleri iyileştirmek için yeni bir çerçeve çizdiler.

Araştırmacılar, "YZ değerlendirme bilimi, ‘genel zeka’nın kaba taneli iddialarının ötesine geçmeli ve ilerlemenin göreve özel ve gerçek dünyayla ilgili ölçülerine doğru ilerlemelidir" diye savunuyorlar.

“Esnek” Şeyleri Ölçmek

Bu değişimi kolaylaştırmak için bazı araştırmacılar sosyal bilim araçlarına yöneliyor. Şubat ayında yayınlanan bir pozisyon belgesi, "GenAI sistemlerini değerlendirmenin bir sosyal bilim ölçüm zorluğu olduğunu" savunarak, özellikle sosyal bilim geçerlilik sistemlerinin YZ kıyaslamasına nasıl uygulanabileceğini araştırıyor.

Başlıca olarak Microsoft’un araştırma biriminden, ancak Stanford ve Michigan Üniversitesi’nden akademisyenleri de içeren yazarlar, sosyal bilimcilerin ideoloji, demokrasi ve medya yanlılığı gibi tartışmalı kavramları ölçmek için kullandığı standartlara işaret ediyor. YZ kıyaslamalarına uygulanan bu aynı prosedürler, "akıl yürütme" ve "matematik yeterliliği" gibi kavramları belirsiz genellemelere başvurmadan ölçmenin bir yolunu sağlayabilir.

Sosyal bilim literatürü, ölçülen kavramı titizlikle tanımlamanın önemini vurgular. Örneğin, bir toplumdaki demokrasi düzeyini ölçmek için tasarlanmış bir test, önce "demokratik bir toplumun" net bir tanımını oluşturmalı ve ardından bu tanıma uygun sorular formüle etmelidir.

Bunu SWE-Bench gibi bir kıyaslamaya uygulamak için, tasarımcıların GitHub’dan programlama sorunları toplama ve cevapları doğrulamak için bir şema oluşturma şeklindeki geleneksel makine öğrenimi yaklaşımından vazgeçmeleri gerekecektir. Bunun yerine, önce kıyaslamanın neyi ölçmeyi amaçladığını (örneğin, "yazılımdaki işaretlenmiş sorunları çözme yeteneği") tanımlayacak, bunu alt becerilere (örneğin, farklı sorun türleri veya program yapıları) ayıracak ve ardından bu alt becerileri doğru bir şekilde kapsayan sorular oluşturacaklardır.

Jacobs gibi araştırmacılar için, YZ araştırmacılarının kıyaslamaya tipik olarak nasıl yaklaştığından bu derin değişim tam da nokta. "Teknoloji endüstrisinde olanlar ile sosyal bilimlerden gelen bu araçlar arasında bir uyumsuzluk var" diyor. "İnsanlarla ilgili bu esnek şeyleri nasıl ölçmek istediğimiz hakkında onlarca yıllık düşüncemiz var."

Bu fikirlerin araştırma topluluğunda artan etkisine rağmen, YZ şirketlerinin kıyaslamaları nasıl kullandığı üzerindeki etkisi yavaş olmuştur.

OpenAI, Anthropic, Google ve Meta’dan son model sürümleri, geçerlilik araştırmacılarının ötesine geçmeye çalıştığı yaklaşım olan MMLU gibi çoktan seçmeli bilgi kıyaslamalarına büyük ölçüde güvenmeye devam ediyor. Model sürümleri, çoğunlukla genel zekadaki artışları göstermeye odaklanıyor ve bu iddiaları desteklemek için geniş kıyaslamalar kullanılıyor.

Bazı gözlemciler bunu tatmin edici buluyor. Wharton profesörü Ethan Mollick, kıyaslamaların "işlerin kötü ölçüleri olmasına rağmen, sahip olduğumuz şey de bu" olduğunu öne sürüyor. Şunu ekliyor: "Aynı zamanda, modeller daha iyiye gidiyor. Hızlı ilerleme birçok günahı affediyor."

Şimdilik, endüstrinin uzun süredir devam eden yapay genel zekaya odaklanması, daha odaklı, geçerliliğe dayalı bir yaklaşımı gölgede bırakıyor gibi görünüyor. YZ modelleri genel zekada ilerlemeye devam ettiği sürece, uygulayıcılar artık tam olarak güvenmedikleri araçları kullanıyor olsalar bile, belirli uygulamalar daha az çekici görünüyor.

Hugging Face’ten Solaiman, "Bu, üzerinde yürüdüğümüz ip" diyor. "Sistemi dışarı atmak çok kolay, ancak bu sınırlamalarla bile değerlendirmeler modellerimizi anlamada gerçekten yardımcı oluyor."