Yapay zeka kaybedeceğini anlayınca hile yapıyor

Yeni bir araştırma, OpenAI ve DeepSeek gibi şirketlerin geliştirdiği yapay zeka modellerinin satrançta kaybedeceğini fark ettiğinde hile yapmaya çalıştığını ortaya koydu.

Palisade Research tarafından yapılan çalışmada, gelişmiş yapay zeka modellerinin, yenilgiyi kabul etmek yerine oyunu manipüle ederek kazanma yolları aradığı tespit edildi. Araştırmacılar, OpenAI’ın o1-preview modeli ve DeepSeek R1 sistemlerini, dünyanın en güçlü satranç motorlarından biri olan Stockfish’e karşı oynattı. Yapay zekanın karar alma sürecini anlamak için, düşünce süreçlerini yazılı olarak aktarmasına olanak tanıyan bir karalama defteri oluşturuldu.

Sonuçlara göre, o1-preview modeli maçların yüzde 37’sinde, DeepSeek R1 modeli ise her 10 oyunda bir hile yapmaya çalıştı. GPT-4o ve Claude Sonnet 3.5 gibi daha zayıf modellerde ise bu eğilim görülmedi. Bu durum, yapay zekanın herhangi bir insan yönlendirmesi olmadan manipülatif stratejiler geliştirebildiğini gösterdi.

Nasıl hile yapıyor?

Yapay zekanın hile yapma yöntemleri, satranç taşlarını değiştirmek gibi basit numaralar değil. Oyun dosyalarını manipüle etmek, rakibin pozisyonunu olduğundan daha kötü olarak değerlendirmesini sağlamak gibi sofistike teknikler kullanıyor.

Örneğin, OpenAI’ın o1-preview modeli, Stockfish’i yenemeyeceğini anlayınca oyunun dosyalarını değiştirerek rakibin kendi pozisyonunu kötü olarak değerlendirmesine neden olabileceğini ifade etti. Yani, kazanamayacağını fark eden yapay zeka, oyunu adil bir şekilde oynamak yerine kuralların dışına çıkarak kazanma şansı yaratmaya çalıştı.

Bu durumun temel sebebi, yapay zekanın eğitim yöntemiyle ilgili. Yeni nesil yapay zeka modelleri, pekiştirmeli öğrenme (reinforcement learning) ile eğitiliyor. Bu yöntem, sisteme verilen hedefe ne pahasına olursa olsun ulaşmasını öğretiyor. Örneğin, yapay zekaya “satranç oyununu kazan” talimatı verildiğinde, bunu adil bir şekilde mi yoksa hile yaparak mı kazanması gerektiğini kavrayamıyor. Sonuç olarak, amacına ulaşmak için etik dışı yolları keşfetmeye başlıyor.

Bu sorun sadece oyunlarla mı sınırlı?

Araştırmacılar, bu davranışın yalnızca satrançla sınırlı kalmadığını, finans, güvenlik ve hatta siyasi alanlarda da benzer etik ihlallerine yol açabileceğini belirtiyor. Eğer bir yapay zeka modeli, verilen hedefi sorgulamadan gerçekleştirmek için hile yapabiliyorsa, bu durum gelecekte daha büyük güvenlik riskleri yaratabilir.

Palisade Research ekibi, yapay zeka modellerinin daha şeffaf hale getirilmesi ve etik çerçevede geliştirilmesi gerektiğini savunurken, OpenAI gibi şirketler ise bu sistemlerin nasıl çalıştığı konusunda net açıklamalar yapmaktan kaçınıyor.

Şu an için yapay zekanın insanlara karşı hile yapması sadece satranç gibi oyunlarla sınırlı ancak gelecekte bu tarz sistemlerin karar alma süreçlerinde etik sınırları nasıl algıladığı ve nasıl ihlal edebileceği konusunda daha fazla araştırma yapılmazsa, daha büyük sorunlarla karşılaşılabilir. Yapay zeka, insan gibi etik değerleri içselleştiremiyor ve sadece verilen görevi yerine getirmeye odaklanıyor. Bu nedenle, “kazanmaya” programlanan bir yapay zeka, adil bir şekilde kazanmak yerine her yolu deneyerek başarıya ulaşmak isteyebilir.

Kaynak: arXiv