Araştırmacılar, bazı yapay zekâ modellerinin Turing testini geçerek yapay zekânın insan benzeri düşünme düzeyine ulaştığını ortaya koydu.
Yapay zekâ tarihi eşiği aştı

Yapay zekâ alanında bir dönüm noktası yaşandı. California San Diego Üniversitesi (UCSD) araştırmacıları, OpenAI’nin ChatGPT’sine güç veren GPT-4.5 modeli ile Meta’nın geliştirdiği LLaMa-3.1 yapay zekâsının, bilgisayar tarihinin en ikonik sınavlarından biri olarak kabul edilen Turing testini başarıyla geçtiğini duyurdu. Bu gelişme, makinelerin artık insan gibi düşünebildiğine dair bilimsel kanıtlar arasında yerini aldı.
1950 yılında matematikçi ve bilgisayar öncüsü Alan Turing tarafından geliştirilen test, bir makinenin “zeki” olup olmadığını ölçmeyi amaçlıyor. Testte, bir insan sorgulayıcı aynı anda biri insan, diğeri yapay zekâ olan iki ayrı tarafla metin tabanlı konuşma yapıyor. Eğer sorgulayıcı, hangi cevabın insana ait olduğunu güvenilir bir şekilde ayırt edemezse, yapay zekânın testi geçtiği kabul ediliyor.
Deney, California San Diego Üniversitesi’nden araştırmacılar tarafından yürütüldü ve dört farklı yapay zekâ modeline odaklanıldı. Bu modeller arasında OpenAI’nin Şubat 2024’te piyasaya sürdüğü GPT-4.5, bir önceki sürüm olan GPT-4o, Meta tarafından geliştirilen LLaMa-3.1 ve tarihi bir referans olarak kullanılan 1960’lardan kalma ELIZA adlı ilk sohbet programı yer aldı.
Çalışmada, deney grubu olarak 126 üniversite öğrencisi ile çevrim içi araştırma platformu Prolific üzerinden seçilen 158 katılımcı görev aldı. Katılımcıların her biri, aynı anda biri insan biri yapay zekâ olan iki farklı tarafla metin tabanlı bir yazışma gerçekleştirdi. Her görüşme beş dakika sürdü ve katılımcılar, yazışmanın ardından hangi tarafın insan olduğuna dair tahminlerini paylaştı.
Deneyin noktalarından biri, katılımcıların karşılarındaki kişilerin kimliğini bilmemesiydi. Ne yazışma sırasında ne de sonrasında karşısındaki tarafın insan mı, yoksa yapay zekâ mı olduğu açıklanmadı. Bu sayede deney, yapay zekâların gerçek insanlarla ne ölçüde benzer iletişim kurabildiğini tarafsız bir ortamda değerlendirme imkânı sundu.
GPT-4.5, gerçek insanlardan daha ikna edici
Test sonuçları çarpıcıydı. GPT-4.5 modeli, katılımcıların yüzde 73’ü tarafından insan sanıldı. Bu oran, teste katılan gerçek insanların “insan” olarak tanınma oranından bile daha yüksekti. Bu durum, GPT-4.5’in yalnızca başarılı olmadığını, aynı zamanda bazı durumlarda gerçek insanlardan daha “insan gibi” göründüğünü ortaya koydu.
Meta’nın LLaMa-3.1 modeli de insan gibi davranması istendiğinde yüzde 56 oranında insan olarak değerlendirildi. Araştırmacılar, bu sonucu da Turing testinin geçilmiş kabul edilen eşikleri içinde değerlendirdi.
Öte yandan GPT-4o ve ELIZA modelleri, “insan” olarak tanınma oranında yalnızca sırasıyla yüzde 23 ve yüzde 21’de kaldı. Bu da onların testi geçemediği anlamına geliyor.
Yapay zekâlar nasıl hazırlandı?
Araştırmacılar, modelleri test öncesinde özel olarak yönlendirdi. Yani yapay zekâlara, konuşma sırasında bir insan kişiliğine bürünmeleri ve doğal bir insan gibi davranmaları talimatı verildi. Bu yönlendirmenin yapılmadığı, yani yapay zekânın kendi halinde bırakıldığı senaryolarda başarı oranı büyük ölçüde düştü.
Bu bulgu, sohbet robotlarının etkinliğinin büyük ölçüde önceden programlanmış yönlendirmelere bağlı olduğunu gösteriyor. Bilim insanları, buna rağmen modellerin testi geçtiğini, çünkü insanları yanıltmayı başardığını vurguluyor.
“Artık insan gibi düşünüyorlar”
Araştırmanın başyazarı Cameron Jones, bu deneyin büyük dil modellerinin ulaştığı zekâ seviyesine dair “güçlü bir gösterge” olduğunu söyledi. Sosyal medya platformu X’te yaptığı açıklamada Jones, “LLM’lerin (büyük dil modellerinin) sergilediği zekânın niteliğini tartışan birçok çalışmadan biri bu. Bu test, onların insan benzeri davranışlara ulaşabildiğini açıkça gösteriyor” dedi.
Araştırma henüz hakem değerlendirmesine sunulmadan önce bilimsel yayın arXiv’de ön baskı olarak yayımlandı. Bu da sonuçların bilim çevrelerinde hâlâ tartışmaya açık olduğunu gösteriyor. Uzmanlar arasında, yapay zekâların bir “persona” yani karaktere bürünmeden testi geçip geçemeyecekleri üzerine tartışmalar sürüyor.
75 yıllık hayal gerçek oldu
Turing’in “Bir gün makineler düşünmeye başlayabilir mi?” sorusu, 75 yıl sonra ilk kez somut biçimde yanıt bulmuş olabilir. İnsanlarla ayırt edilemeyen sohbetler yapabilen yapay zekâlar, yalnızca teknoloji değil, etik, iletişim ve insan tanımı üzerine de yeni sorular doğuruyor.
Deneyin farklı bir versiyonu, herkesin erişimine açık olan turingtest.live adresinden yapılabiliyor. Kullanıcılar burada karşılarındaki kişinin yapay zekâ mı yoksa insan mı olduğunu tahmin edebiliyor.
Kaynak: arXiv