GPT-4 gerçekten ‘zeki’ mi, yoksa kalıpları mı tekrar ediyor?

Yeni bir araştırma, GPT-4 gibi yapay zeka modellerinin insan zihni gibi esnek ve derinlemesine düşünemediğini ortaya koyuyor.

Yapay zeka, özellikle gelişmiş dil modelleri olan GPT-4 gibi sistemler, bazı akıl yürütme testlerinde başarılı sonuçlar veriyor. Ancak bu modeller gerçekten düşünme ve kavramsal anlama yeteneğine sahip mi, yoksa sadece öğrendikleri kalıpları tekrar mı ediyor? Yeni bir araştırma, GPT modellerinin bazı benzetme testlerinde başarılı olsa da, soruların yapısı değiştirildiğinde zorlandığını ortaya koyuyor. Bu durum, yapay zekanın insan zihni gibi esnek ve derinlemesine düşünebilme yeteneğine sahip olmadığını gösteriyor.  

Araştırmanın baş yazarı Dr. Martha Lewis (Institute of Logic)

İnsanlar dünyayı anlamak için sık sık benzetmeler yapar. Benzetme, farklı iki şey arasındaki benzerlikleri fark ederek aralarında ilişki kurma yeteneğidir. Örneğin, bir fincan kahvenin içinde bulunduğu kap olduğu gibi, çorbanın da bir kase içinde bulunması gerekir. Bu düşünme biçimi, sadece kelimeler arasında değil, aynı zamanda sayılar, hikayeler ve görseller arasında da kullanılabilir. İnsanlar benzetmeler sayesinde daha önce karşılaşmadıkları durumları bile anlayabilir ve buna göre mantıklı kararlar alabilir.  

Yapay zeka modelleri, büyük miktarda veriyle eğitildikleri için pek çok testte başarılı görünebilir. Ancak bu başarının nedeni, kavramları anlayarak doğru sonucu bulmaları değil, geçmişte gördükleri örüntüleri (desenleri) tekrar etmeleridir. Bu durumu incelemek için dil ve yapay zeka uzmanları Martha Lewis ve Melanie Mitchell, GPT-4’ün ne kadar esnek ve sağlam bir şekilde benzetme yapabildiğini test etti. Araştırmalarında hem insanların hem de GPT modellerinin çeşitli benzetme testlerinde nasıl performans gösterdiğini karşılaştırdılar.  

Araştırmada üç farklı test kullanıldı. Birinci testte, harf dizileri verilerek bir örüntüyü tamamlamaları istendi. İkinci testte, belirli kurallara göre düzenlenmiş sayı dizilerinde eksik olan sayıyı bulmaları beklendi. Üçüncü testte ise, bir hikâye ile en çok benzerlik gösteren başka bir hikâyeyi seçmeleri gerekiyordu. Bir sistemin gerçekten benzetme yapabilmesi için, bu testlerde ufak değişiklikler yapıldığında da aynı başarıyı göstermesi beklenir. Ancak araştırmada yapay zekanın, testlerde yapılan küçük değişiklikler karşısında büyük hatalar yaptığı görüldü.  

İnsanlar, testlerde ufak değişiklikler olduğunda bile yüksek başarı oranını korurken, yapay zekanın performansı düştü. Sayı dizileri testinde, eksik olan sayının yeri değiştirildiğinde GPT-4’ün doğruluk oranı belirgin bir şekilde düştü. İnsanlar ise bu değişiklikten etkilenmedi ve doğru cevabı bulmaya devam etti. Hikaye benzetmeleri testinde, GPT-4 sıklıkla kendisine sunulan ilk seçeneği doğru olarak kabul etti. İnsanlar ise seçeneklerin sıralanışından etkilenmedi ve en mantıklı olan hikayeyi seçti. Ayrıca, bir hikayede kullanılan kelimeler değiştirildiğinde, GPT-4 doğru cevabı bulmakta daha fazla zorlandı. Bu durum, yapay zekanın kelimelerin anlamlarını derinlemesine kavramaktan çok, yüzeysel benzerliklere dayalı kararlar verdiğini gösteriyor.  

Daha basit benzetme testlerinde insanlar değişikliklere rağmen aynı başarıyı gösterirken, yapay zeka genellikle hata yaptı. Ancak çok daha karmaşık benzetmelerde hem insanlar hem de yapay zeka zorlandı. Bu durum, bazı akıl yürütme süreçlerinin insanlar için bile zorlayıcı olabileceğini gösteriyor.  

Bu araştırma, GPT-4 gibi büyük dil modellerinin insan düşünme yeteneğiyle aynı seviyede olmadığını ortaya koyuyor. Yapay zeka etkileyici sonuçlar verebilir, ancak bu sistemlerin gerçekten anladığını söylemek mümkün değil. Araştırmacılar, yapay zekanın değişen koşullara karşı insanlardan daha zayıf bir şekilde uyum sağladığını ve daha çok gördüğü kalıpları takip ettiğini belirtiyor.  

Bu bulgular, yapay zekanın eğitim, hukuk ve sağlık gibi kritik alanlarda dikkatli kullanılması gerektiğini gösteriyor. Yapay zeka güçlü bir yardımcı olabilir, ancak henüz insan aklının yerine geçebilecek bir seviyeye ulaşmış değil.
Kaynak: University of Amsterdam