Yapay zeka tespit araçları akademide adaleti sağlamıyor

Akademik yayınlarda yapay zeka denetimi adalet yerine eşitsizlik üretiyor. Yazılan makaleler üzerinde yapılan testler çoğu zaman yanlış sonuçlar veriyor.

Yapay zeka destekli yazım araçlarının akademide yaygınlaşmasıyla birlikte, bu metinlerin tespiti için geliştirilen yapay zeka tespit araçlarının tarafsızlık sorunu giderek büyüyor. PeerJ Computer Science dergisinde yayımlanan yeni bir çalışma, GPTZero, ZeroGPT ve DetectGPT gibi popüler metin tespit araçlarının, özellikle ana dili İngilizce olmayan akademisyenler için hatalı ve adaletsiz sonuçlar üretebildiğini ortaya koydu.

Endonezyalı araştırmacı Ahmed R. Pratama’nın yürüttüğü kapsamlı deneysel çalışmada, farklı disiplinlerden ve yazar profillerinden seçilen toplam 72 makale özeti kullanıldı. Her bir özetin orijinal (insan yazımı), tamamen yapay zeka tarafından üretilmiş ve yapay zeka yardımıyla düzeltilmiş (AI-assisted) versiyonları oluşturularak üç farklı tespit aracına verildi. Sonuçlar, araçların doğruluk ve tarafsızlık arasında önemli bir denge sorunu yaşadığını gösterdi.

Araştırmanın ilk aşamasında, metin tespit araçlarının tamamen insan yazımı ile tamamen yapay zeka tarafından üretilmiş metinleri ne derece doğru ayırt edebildiği incelendi. Bu senaryoda en yüksek başarıyı GPTZero gösterdi; yüzde 97,22’lik doğruluk oranına ulaştı ve hiçbir insan yazımı metni hatalı şekilde yapay zeka üretimi olarak sınıflandırmadı. Buna karşın, ZeroGPT yalnızca yüzde 64,35 doğruluk sağlarken, DetectGPT’nin doğruluk oranı yüzde 54,63’te kaldı. Her iki araç da hem insan hem yapay zeka metinlerinde yüksek oranda hata yaptı.

Yapay zekanın ufak bir dokunuşu bile yetiyor

Asıl sorun, insan yazımı metinlerin yapay zeka yardımıyla dilbilgisi ve anlam açısından düzeltilmiş versiyonlarında ortaya çıktı. Bu metinlerde araçların “yapay zeka katkısı” puanları incelendiğinde, GPTZero’nun ana dili İngilizce olmayan yazarların özetlerine daha yüksek yapay zeka olasılığı verdiği görüldü. Örneğin GPTZero, aynı şekilde düzeltilmiş özetlerde ana dili İngilizce olan yazarlar için ortalama yüzde 30,6 oranı verirken İngilizce olmayan yazarlar için ise ortalama yüzde 44,6 olasılık belirledi.

Bu sonuçlara göre, yapay zeka destekli düzenleme kullanan ancak metni kendisi yazan bir akademisyenin metni, yalnızca ana dili İngilizce olmadığı için “tamamen yapay zeka  üretimi” olarak işaretlenebiliyor. Bu durum, akademik dürüstlük sorgulamalarına, itibar kaybına ve hatta yayın iptallerine neden olabilecek kadar ciddi sonuçlar doğurabilir.

Alana göre de farklılık gösteriyor

Üstelik bu sorun sadece yazara değil, çalışmanın ait olduğu alana göre de değişiyor. ZeroGPT, teknoloji ve mühendislik alanındaki özetlerde yapay zeka izi bulmakta başarısız bir performnas gösterdi. Bu alanda ortalama sadece yüzde 10,9 puan verdi ancak aynı tespit etme aracı, sosyal bilimlerde yüzde 20, farklı alanları birleştiren çalışmalarda ise yüzde 31,7 puanla çok daha yüksek değerler üretti. Yani hangi konuda yazıldığına göre araçların verdiği sonuçlar değişiyor ve bu da tutarsızlık yaratabiliyor.

Araştırma, farklı yapay zeka modellerinin (ChatGPT o1 ve Gemini 2.0 Pro) düzenleme çıktılarının da tespit araçları üzerindeki etkisini inceledi. Tüm araçlar, Gemini ile düzenlenen metinleri ChatGPT’ye kıyasla çok daha yüksek oranlarla “tamamen yapay zeka üretimi” olarak değerlendirdi. DetectGPT, Gemini ile düzenlenmiş özetlere ortalama yüzde 75,25 oranında yapay zeka olma olasılığı değerlendirirken, ChatGPT için bu oran sadece yüzde 29,47 oldu. Bu da araştırmacıların hangi aracı kullandıklarına göre farklı risklerle karşı karşıya kalabileceğini ortaya koydu.

Ayrımcılık dilde başlıyor

En dikkat çekici sonuçlardan biri, GPTZero’nun bazı metinleri yanlış şekilde tamamen yapay zeka ürünü olarak değerlendirmesi oldu. Yapay zeka yardımıyla sadece dil bilgisi açısından düzeltilmiş özetlerin yüzde 25’i, sadece yazarın ana dili İngilizce olmadığı için bu araç tarafından “yüzde 100 yapay zeka tarafından yazılmış” şeklinde işaretlendi. Oysa ana dili İngilizce olan yazarların metinlerinde bu oran yalnızca yüzde 11’di. Bu fark, yapay zeka tespit araçlarının herkese eşit davranmadığını ve var olan eşitsizlikleri daha da artırabileceğini gösteriyor.

Araştırmacı Pratama, makalenin sonuç bölümünde yapay zeka tespit araçlarının mevcut haliyle, özellikle akademik dürüstlük açısından tek başına karar verici olarak kullanılmasının sakıncalı olduğunu vurguluyor.Araştırma aynı zamanda bilimsel yayıncılıktaki etik yaklaşıma dair bir öneri de getiriyor. Şu anki yaygın uygulama, yazarların yapay zeka kullandıklarını beyan etmesi yönünde ancak Pratama, yapay zeka katkısının bu denli yaygınlaştığı bir dönemde, “AI kullanıldıysa belirtin” değil, “AI kullanılmadıysa belirtin” anlayışına geçilmesinin daha şeffaf ve işlevsel olabileceğini ifade ediyor.

Kaynak: PeerJ Computer Science