Turing Testini ChatGPT Alt Edebilir mi? Son Bulgular
ChatGPT’nin Turing Testi’ni başarıyla geçme düşüncesi, giderek kaçınılmaz bir sonuç olarak algılanmaktadır. Hatta bazı araştırmacılar, bu başarıyı zaten elde ettiğine inanmaktadır.
ChatGPT’nin örneklediği sohbet robotlarının evrimi, zeka, doğallık ve insan benzeri niteliklerde dikkat çekici bir artışı göstermektedir. Bu ilerleme, bu AI sohbet robotlarının temelini oluşturan büyük dil modellerinin (LLM’ler) mimarlarının insanlar olduğu düşünüldüğünde mantıklıdır. Bu araçlar "akıl yürütme" yeteneklerini geliştirdikçe ve insan konuşmasını daha büyük bir hassasiyetle taklit ettikçe, kritik bir soru ortaya çıkıyor: Turing Testi’ni geçecek kadar gelişmişler mi?
Turing Testi, onlarca yıldır makine zekasının değerlendirilmesinde önemli bir kıstas olmuştur. Şu anda araştırmacılar, ChatGPT gibi LLM’leri bu titiz değerlendirmeye tabi tutmaktadır. Başarılı bir sonuç, AI geliştirme alanında anıtsal bir kilometre taşını temsil edecektir.
Peki, ChatGPT Turing Testi’ni geçebilir mi? Bazı araştırmacılar, geçebileceğini doğrulamaktadır. Ancak, sonuçlar yorumlamaya açık kalmaktadır. Turing Testi, net bir ikili sonuç sunmamaktadır, bu da bulguları biraz belirsizleştirmektedir. Dahası, ChatGPT Turing Testi’ni geçse bile, bir LLM’de bulunan "insan benzeri" niteliklerin kesin bir göstergesi olmayabilir.
Detaylara inelim.
Turing Testini Anlamak
Turing Testi’nin özü oldukça basittir.
Bilgisayar biliminde öncü bir figür olan İngiliz matematikçi Alan Turing tarafından tasarlanan ve başlangıçta Taklit Oyunu olarak bilinen bu test, makine zekası için bir turnusol görevi görmektedir. Turing Testi, bir insan değerlendiricinin hem bir insanla hem de bir makineyle, hangisinin hangisi olduğunu bilmeden konuşmalar yapmasını içerir. Eğer değerlendirici makineyi insandan ayırt edemezse, makinenin Turing Testi’ni geçtiği kabul edilir. Bir araştırma ortamında, bu test çeşitli değerlendiricilerle birden çok kez gerçekleştirilir.
Bu testin, bir LLM’nin bir insanla aynı zeka seviyesine sahip olup olmadığını kesin olarak belirlemediğini anlamak çok önemlidir. Bunun yerine, LLM’nin bir insanı ikna edici bir şekilde taklit etme yeteneğini değerlendirir.
LLM’lerin Düşünme Süreci
LLM’ler,doğaları gereği fiziksel bir beyne, bilince veya dünya hakkında kapsamlı bir anlayışa sahip değildir. Öz farkındalıktan yoksundurlar ve gerçek görüş veya inançları yoktur.
Bu modeller, kitaplar, çevrimiçi makaleler, belgeler ve transkriptler dahil olmak üzere çok çeşitli bilgi kaynaklarını kapsayan geniş veri kümeleri üzerinde eğitilmiştir. Bir kullanıcı metinsel girdi sağladığında, AI modeli girdinin arkasındaki en olası anlamı ve niyeti belirlemek için "akıl yürütme" yeteneklerini kullanır. Daha sonra model, bu yoruma dayanarak bir yanıt oluşturur.
LLM’ler özünde, gelişmiş kelime tahmin motorları olarak işlev görür. Kapsamlı eğitim verilerinden yararlanarak, kelime dağarcıklarından yararlanarak yanıtın ilk "token"ı (tipik olarak tek bir kelime) için olasılıkları hesaplarlar. Bu yinelemeli süreç, eksiksiz bir yanıt formüle edilene kadar devam eder. Bu açıklama basitleştirilmiş olsa da, LLM’lerin dünya hakkında gerçek bir anlayıştan ziyade istatistiksel olasılıklara dayalı olarak nasıl yanıtlar ürettiğinin özünü yakalar.
Bu nedenle, LLM’lerin geleneksel anlamda "düşündüğünü" öne sürmek doğru değildir.
Ampirik Kanıt: ChatGPT ve Turing Testi
Çok sayıda çalışma, ChatGPT’nin Turing Testi’ndeki performansını araştırmış ve birçoğu olumlu sonuçlar vermiştir. Bu, bazı bilgisayar bilimcilerinin GPT-4 ve GPT-4.5 gibi LLM’lerin artık Turing Testi eşiğini aştığını iddia etmesine yol açmıştır.
Bu değerlendirmelerin çoğu, ChatGPT etkileşimlerinin çoğunu destekleyen OpenAI’nin GPT-4 modeline odaklanmaktadır. UC San Diego tarafından yapılan bir çalışma, insan değerlendiricilerinin GPT-4’ü bir insandan ayırt etmekte sıklıkla zorlandığını ortaya koymuştur. Bu çalışmada, GPT-4 vakaların %54’ünde bir insan olarak yanlış tanımlanmıştır. Ancak, bu performans hala gerçek insanların gerisinde kalmıştır; gerçek insanlar vakaların %67’sinde doğru bir şekilde insan olarak tanımlanmıştır.
GPT-4.5’in yayınlanmasının ardından, UC San Diego araştırmacıları çalışmayı tekrarlamıştır. Bu sefer, LLM vakaların %73’ünde insan olarak tanımlanmış ve gerçek insanların performansını aşmıştır. Çalışma ayrıca Meta’nın LLaMa-3.1-405B’sinin de testi geçebildiğini göstermiştir.
UC San Diego’dan bağımsız olarak yapılan benzer çalışmalar da GPT’ye geçer notlar vermiştir. Reading Üniversitesi tarafından 2024’te yapılan bir çalışma, GPT-4’ün lisans dersleri için eve götürülen değerlendirmelere yanıtlar üretmesini içermiştir. Not verenler deneyden habersizdi ve 33 gönderiden sadece birini işaretledi. ChatGPT, kalan 32 giriş için ortalamanın üzerinde notlar aldı.
Bu çalışmalar kesin mi? Tamamen değil. Bazı eleştirmenler, bu araştırma bulgularının göründüğünden daha az etkileyici olduğunu savunmaktadır. Bu şüphecilik, ChatGPT’nin Turing Testi’ni geçtiğini kesin olarak ilan etmemizi engellemektedir.
Bununla birlikte, GPT-4 gibi önceki nesil LLM’lerin Turing Testi’ni bazen geçmesine rağmen, LLM’ler ilerlemeye devam ettikçe başarılı sonuçların giderek yaygınlaştığı açıktır. GPT-4.5 gibi son teknoloji modellerin ortaya çıkmasıyla, modellerin Turing Testi’ni tutarlı bir şekilde geçebileceği bir noktaya hızla yaklaşıyoruz.
OpenAI, insan ve AI’yi ayırt etmenin imkansız hale geldiği bir gelecek öngörmektedir. Bu vizyon, OpenAI CEO’su Sam Altman’ın The Orb olarak bilinen bir göz küresi tarama cihazını içeren bir insan doğrulama projesine yaptığı yatırımda yansıtılmaktadır.
ChatGPT’nin Öz Değerlendirmesi
Turing Testi’ni geçip geçemeyeceği sorulduğunda, ChatGPT zaten tartışılan çekincelerle birlikte olumlu yanıt vermiştir. "ChatGPT Turing Testi’ni geçebilir mi?" sorusu sorulduğunda, AI sohbet robotu (4o modelini kullanarak), "ChatGPT bazı senaryolarda Turing Testi’ni geçebilir, ancak güvenilir veya evrensel olarak değil" demiştir. Sohbet robotu, "Sıradan koşullarda ortalama bir kullanıcıyla Turing Testi’ni geçebilir, ancak kararlı ve düşünceli bir sorgulayıcı neredeyse her zaman onu maskeleyebilir" sonucuna varmıştır.
Turing Testinin Sınırları
Bazı bilgisayar bilimcileri artık Turing Testi’ni eski ve LLM’leri değerlendirmede sınırlı bir değere sahip olarak görmektedir. Amerikalı psikolog, bilişsel bilimci, yazar ve AI yorumcusu Gary Marcus, bu bakış açısını kısa süre önce bir blog gönderisinde özetlemiş ve "benim (ve birçoklarının) yıllardır söylediği gibi, Turing Testi zekanın değil, insan saflığının bir testidir" demiştir.
Turing Testi’nin gerçek zekadan ziyade zeka algısına odaklandığını da unutmamak önemlidir. Bu ayrım çok önemlidir. ChatGPT 4o gibi bir model, sadece insan konuşmasını taklit ederek testi geçebilir. Dahası, bir LLM’nin testteki başarısı, tartışma konusuna ve değerlendiriciye bağlı olacaktır. ChatGPT, gündelik konuşmada başarılı olabilir, ancak gerçek duygusal zeka gerektiren etkileşimlerde zorlanabilir. Dahası, modern AI sistemleri, özellikle de ajan AI dünyasına doğru ilerlerken, basit sohbetin ötesindeki uygulamalar için giderek daha fazla kullanılmaktadır.
Bu, Turing Testi’nin tamamen alakasız olduğunu öne sürmek değildir. Önemli bir tarihi kıstas olmaya devam etmektedir ve LLM’lerin onu geçebilmesi dikkat çekicidir. Ancak, Turing Testi, makine zekasının nihai ölçüsü değildir.
Turing Testinin Ötesinde: Daha İyi Bir Kriter Arayışı
Turing Testi, tarihsel olarak önemli olmasına rağmen, gerçek yapay zekanın yetersiz bir ölçüsü olarak giderek daha fazla görülmektedir. İnsan konuşmasını taklit etmeye odaklanması, problem çözme, yaratıcılık ve uyarlanabilirlik gibi zekanın önemli yönlerini göz ardı etmektedir. Testin aldatmaya dayanması da, AI sistemlerini gerçek zeka geliştirmek yerine insan benzeri nitelikler sergilemeye teşvik ettiği için etik kaygılar uyandırmaktadır.
Yeni Ölçütlere Duyulan İhtiyaç
AI teknolojisi ilerledikçe, daha kapsamlı ve ilgili kriterlere duyulan ihtiyaç giderek daha belirgin hale gelmektedir. Bu yeni ölçütler, Turing Testi’nin eksikliklerini gidermeli ve AI yeteneklerinin daha doğru bir değerlendirmesini sağlamalıdır. Gelecekteki kriterler için bazı potansiyel yönler şunlardır:
- Gerçek dünya problem çözümü: AI sistemlerinin sürdürülebilir bir enerji şebekesi tasarlamak veya bir hastalığa çare geliştirmek gibi karmaşık gerçek dünya problemlerini çözmesini gerektiren testler.
- Yaratıcı görevler: Bir AI’nın bir roman yazmak, müzik bestelemek veya sanat eseri yaratmak gibi özgün ve yaratıcı içerik üretme yeteneğini değerlendiren değerlendirmeler.
- Uyarlanabilirlik ve öğrenme: Bir AI’nın yeni deneyimlerden öğrenme ve değişen ortamlara uyum sağlama kapasitesini ölçen ölçütler.
- Etik hususlar: Bir AI’nın etik kararlar alma ve önyargılardan kaçınma yeteneğini değerlendiren değerlendirmeler.
Ortaya Çıkan Kriterlere Örnekler
Turing Testi’nin sınırlamalarını gidermek için birkaç yeni kriter ortaya çıkmaktadır. Bunlar şunları içerir:
- Winograd Şema Zorluğu: Bu test, bir AI’nın cümlelerdeki belirsiz zamirleri anlama yeteneğine odaklanır.
- AI2 Akıl Yürütme Zorluğu: Bu kriter, bir AI’nın karmaşık metinlere dayanarak akıl yürütme ve soruları yanıtlama yeteneğini değerlendirir.
- Sağduyu Akıl Yürütme Zorluğu: Bu test, bir AI’nın sağduyu bilgisini anlama ve çıkarımlar yapma yeteneğini değerlendirir.
AI Değerlendirmesinin Geleceği
AI değerlendirmesinin geleceği, zekanın belirli yönlerini değerlendirmek için tasarlanmış farklı kriterlerin bir kombinasyonunu içerecektir. Bu kriterler, AI teknolojisindeki hızlı ilerlemelere ayak uydurmak için sürekli olarak gelişmelidir. Dahası, AI kriterlerinin geliştirilmesi ve değerlendirilmesine araştırmacılar, politika yapıcılar ve halk dahil olmak üzere çeşitli paydaşların dahil edilmesi çok önemlidir.
Taklidin Ötesine Geçmek
Sonuç olarak, AI araştırmasının amacı, yalnızca akıllı değil, aynı zamanda insanlık için de faydalı olan sistemler geliştirmek olmalıdır. Bu, insan benzeri taklit arayışının ötesine geçmeyi ve gerçek dünya problemlerini çözebilen, yaratıcılığı artırabilen ve etik karar vermeyi teşvik edebilen AI sistemleri geliştirmeye odaklanmayı gerektirir. Yeni kriterleri benimseyerek ve bu daha geniş hedeflere odaklanarak, AI’nin tüm potansiyelini ortaya çıkarabilir ve AI ve insanların daha iyi bir dünya yaratmak için birlikte çalıştığı bir gelecek yaratabiliriz.