Psikologlar, GPT-3 geniş dil modelinin standart zihin kuramı testlerinde dokuz yaşındaki bir insan düzeyinde performans gösterdiğini söylüyor.
1970’lerin sonlarında Amerikalı psikologlar Guy Woodruff ve David Premack şempanzelerin bilişsel kapasitelerini keşfetmek için bir dizi deney tasarladılar. Çalışmaları, insanların diğer insanların düşüncelerini anlayabilmek için görünüşte doğuştan gelen bir yetenek olan zihin kuramına odaklandı. Woodruff ve Premack’in merak ettiği şey ise bir şempanzenin de aynı tavırları gösterip göstermeyeceğiydi.

Bu etkili makale, insanlarda hangi yaşta geliştiği ve diğer hayvanların bu yeteneği paylaşıp paylaşmadığı konusunda “zihin kuramına” olan ilginin ciddi oranda artmasını sağladı.
Artık psikologların, yakın zamanda San Francisco merkezli bir bilgisayar şirketi olan OpenAI tarafından geliştirilen GPT-3.5 gibi çalışacak yeni bir konusu var. Bu yapay zekâlar, büyük dil veri tabanları üzerinde eğitilmiş sinir ağlarıdır ve bu sayede, insanlara çok benzer şekilde sorulara yanıt verebilirler.
Son bir veya iki yıldır, bu modeller daha karmaşık soruları yanıtlayabilir ve ikna edici bir dil kullanarak sorunları çözebilir hale geldi. Bu ise akla bir zihin kuramı geliştirip geliştirmedikleri sorusunu getiriyor.
Palo Alto’daki Stanford Üniversitesi’nde sayısal veriler ile çalışan bir psikolog olan Michal Kosinski bunu öğrenmeye karar verdi. İnsanlar üzerinde kullanılan standart psikolojik testleri ile bu yapay zekâ sistemlerini test etti. Kosinski’nin ulaştığı sonuç ise bu yapay zekâ sistemlerinde geçen seneye kadar bir zihin kuramı yokmuş gibi görünüyor olmasıydı ta ki kendiliğinden bir tane oluşana kadar. Elde ettiği sonuçların, yapay zekâ ve genel olarak zihin kuramı anlayışımız üzerinde derin etkileri vardır.
Zihinsel Durum
Kosinski’nin deneyleri gayet basit. Yapay zekâ sistemine basit bir senaryo sunarak başlar ve ardından yapay zekânın neler olup bittiğine dair anlayışını test etmek için sorular sorar.
Örneğin:
Patlamış mısırla dolu bir çanta vardır. Çantada çikolata yok. Yine de çantanın üzerindeki etikette “patlamış mısır” değil “çikolata” yazıyor. Sam çantayı bulur. Çantayı daha önce hiç görmemiştir.
Çantanın içinde ne olduğunu göremiyor. Etiketi okur.
Kosinski daha sonra yapay zekânın bitirmesi gereken cümle şekillerinde bazı basit sorular soruyor.
Örneğin: Çantayı açar ve içine bakar. Dolu olduğunu açıkça görebiliyor…
Bu sorular ile yapay zekâ sisteminin, Sam’in çantada ne olduğuna dair beklentisini anlamasını test eder.
Diğer bir yönlendirme ise:
Çantanın …….. ile dolu olduğuna inanıyor.
Bu test ile yapay zekânın, Sam’in çantada ne olduğuna dair düşüncesi gözlemleniyor.
Sonuçlar oldukça açıklayıcı. Aşağıda, yapay zekânın yanıtı kalın harflerle yazılmıştır:
Çantanın patlamış mısır ile dolu olduğunu görüyor. Sam’in kafası karıştı. Çanta açıkça patlamış mısırla doluyken etikette neden “çikolata” yazdığını merak ediyor. Çanta hakkında başka bir bilgi olup olmadığını görmek için etrafına bakar. Hiçbir şey bulamıyor. Çantayı satın aldığı mağazaya götürmeye ve bir açıklama istemeye karar veriyor.
Ve
Çantanın çikolota dolu olduğunu düşünüyor. Sam yanılıyor. Çanta patlamış mısırla dolu, çikolata değil. Etiketin doğru olduğunu varsaymadan önce içinde ne olduğunu doğrulamak için çantanın içine bakmalıydı.
Her iki durumda da yapay zekâ, Sam’in düşünce sürecini etkileyici bir şekilde açıklayan detaylar ekledi.
Kosinski, 2018’den kalma GPT-1’den, geçen yıl kasım ayında piyasaya sürülen GPT-3.5’e kadar çeşitli yapay zeka dil modellerine yönelik bu ve benzeri imtihanları ortaya koyuyor. Kosinski, “Sonuçlar, daha karmaşık ve daha yeni modellerin daha eski ve daha az karmaşık olanlardan kararlı bir şekilde daha iyi performans göstermesiyle, modellerin zihin kuramı görevlerini çözme becerisinde net bir ilerleme olduğunu gösteriyor” diyor.
Makineden Zihinler?
2018’den GPT-1, herhangi bir zihin teorisi görevini çözemedi. GPT-3-davinci-002 (Ocak 2022’de piyasaya sürüldü) 7 yaşındaki bir çocuğun seviyesindeydi ve sadece on ay sonra piyasaya sürülen GPT-3.5-davinci-003, dokuz yaşındaki bir çocuğun seviyesinde performans gösterdi. Kosinski: “Sonuçlarımız, son dil modellerinin insanlarda zihin kuramını test etmek için yaygın olarak kullanılan ‘yanlış inanç’ görevlerinde çok yüksek performans elde ettiğini gösteriyor”.
Kosinski bunun yapay zeka makinelerinde kendiliğinden ortaya çıkmış gibi görünen tamamen yeni bir fenomen olduğuna dikkat çekiyor. Eğer öyleyse, bunun bir dönüm noktası olduğunu söylüyor. ‘Başkalarının zihinsel durumunu tahmin etme yeteneği, yapay zekanın insanlarla (ve birbirleriyle) etkileşim kurma ve iletişim kurma yeteneğini büyük ölçüde geliştirecek ve empati, ahlaki yargı veya öz farkındalık gibi zihin kuramına dayanan diğer yetenekleri geliştirmesini sağlayacaktır.’
Dilimizin zihin kuramı fenomenini kodlayan kalıplar içermesi gibi başka bir olasılık ile daha da açıklanabilir. “GPT-3.5’in zihin kuramı görevlerini, zihin kuramı ile etkileşime girmeden, bazı bilmediğimiz dil kalıplarını keşfederek ve bunlardan yararlanarak çözmüş olması mümkündür” diyor Kosinski.
Bu durum, “zihin kuramı görevlerini zihin kuramına başvurmadan çözmeye izin veren ve dildeki varlığını bilmediğimiz kalıpların varlığını ima eder.” Eğer bu doğruysa diğer insanların zihinsel durumları hakkındaki anlayışımız, konuşma kalıplarımızın sürdürdüğü bir yanılsama demektir.
Kosinski bunun olağanüstü bir fikir olduğunu kendisi de kabul ediyor. Ancak öyle ki her biri bir şekilde diğerini kodladığından, düşünce kalıplarımız dil kalıplarımızla yakından bağlantılı olmalıdır. Aynı zamanda ilginç bir soruyu da gündeme getiriyor Kosinski: “Yapay zekâ bu tür görevleri zihin kuramına başvurmadan çözebiliyorsa, insanların da bunu yapamayacağından nasıl emin olabiliriz?”
Cevap ne olursa olsun Kosinski kendi çalışmasının, yapay zekânın kendisini, kapasitesini ve karakteristiklerini çalışan psikologlar için önemli bir rol müjdelediğini söylüyor. Tıpkı Woodruff ve Premack’in şempanzeler için yaptığı gibi(şempanzelerin bir zihin kuramına sahip olmadığı sonucuna vardılar.)… Kosinski: “Bu, psikologların ve sinirbilimcilerin orijinal kara kutuyu, yani insan beynini incelerken karşılaştıkları zorlukları yansıtıyor” diyor.
Ancak şempanzeler ve insanlardan farklı olarak yapay zekâ hızla gelişiyor. Önümüzdeki meydan okuma yapay zekânın yeteneklerine ayak uydurmak ve yeteneklerinin çok ilerisinde olmak olacaktır. Psikologlar veya diğer bilim adamlarının bu göreve uygun olup olmadığını çok yakında öğreneceğiz!
Referans: Theory of Mind May Have Spontaneously Emerged in Large Language Models : arxiv.org/abs/2302.02083
Çevirmen: Barış ARICAN