Ana SayfaNasılYapay zeka eczacılık sınavını geçti

Yapay zeka eczacılık sınavını geçti

Türkiye’den yeni bir akademik çalışma; popüler yapay zeka modelleri ChatGPT-5.1, DeepSeek-R1 ve Gemini 2.5 Flash’ın eczacılık uzmanlık sorularındaki başarısını ölçtü. Hacettepe Üniversitesi Eczacılık Fakültesi Klinik Eczacılık Anabilim Dalından araştırmacılar, yapay zeka modellerinin yüzde 90’ın üzerinde başarı sağladığını tespit etti. Ancak yapay zeka araçlarının yanlış cevap verdiklerinde bile “aşırı özgüvenli” tutum sergilemeleri nedeniyle uzmanlar uyardı. 

Günümüzün en popüler büyük dil modelleri (LLM), bu kez tıp ve eczacılık dünyasının en zorlu virajlarından biri olan Eczacılıkta Uzmanlık Eğitimi Giriş Sınavı (EUS) sorularıyla ter döktü. 2017-2025 yılları arasında çıkmış 84 çoktan seçmeli sorunun yapay zekaya yöneltildiği araştırmada dikkat çeken sonuçlar elde edildi.

Birinci, burun farkıyla Gemini 2.5 Flash

Araştırmada modellerin başarı oranları birbirine oldukça yakın çıksa da zirvenin sahibi küçük bir farkla Gemini 2.5 Flash oldu. Gemini 2.5 Flash: yüzde 92,9 doğruluk oranı sergilerken, ChatGPT-5.1: yüzde 90,5 doğruluk oranıyla ikinci oldu ve üçüncü sırada ise DeepSeek-R1: yüzde 89,3 doğruluk oranıyla yer aldı. Üç modelin başarılı olma oranları arasındaki fark ise istatistiksel olarak anlamlı bulunamadı (p=0,584).

İstatistiksel analize göre üç modelin başarı oranları arasındaki bu küçük farklar anlamlı bir üstünlük oluşturmuyor; yani kabaca üç modelin de eczacılık bilgisi konusunda benzer şekilde yüksek bir performans gösterdiği kabul ediliyor.

Asıl tehlike kendilerine aşırı güvenleri 

Araştırmanın en dikkat çekici ve düşündürücü kısmı ise yapay zekanın “özgüven” testinde ortaya çıktı. Modellere verdikleri cevaplardan ne kadar emin oldukları (1 ile 5 arası bir ölçekle) sorulduğunda, modellerin yanlış cevap verdiklerinde dahi kendilerinden aşırı derecede emin oldukları görüldü.

Özellikle ChatGPT-5.1, yanlış bildiği soruların yüzde 87,5’ine “kesinlikle eminim (5/5)” diyerek en agresif aşırı özgüveni sergileyen model oldu. Bu oran Gemini 2.5 Flash’ta yüzde 66,7, DeepSeek-R1’de ise yüzde 55,6 olarak kaydedildi. Uzmanlar, yapay zekanın bu “kusursuz bir dille yanlış bilgi verme” (halüsinasyon) eğiliminin, eğitimde körü körüne güvenilirse ciddi riskler doğurabileceğine ve bu nedenle uzman denetimlerinin olması gerektiğine dikkat çekti. 

En “halk diline yakın” anlatan ChatGPT-5.1

Araştırmada modellerin sadece doğru cevap verip vermediği değil, bu cevapları ne kadar anlaşılır bir dille açıkladığı da (metin okunabilirliği indeksleri kullanılarak) incelendi.

Yapılan analizlerde ChatGPT-5.1’in, Gemini ve DeepSeek’e kıyasla daha az karmaşık, anlaşılması daha kolay ve dil yapısı daha sade metinler ürettiği belirlendi. Bu da ChatGPT-5.1’i, karmaşık eczacılık konularını daha “okunabilir” kılmakta bir adım öne çıkarıyor.

Çalışmanın sonuç bölümünde, yapay zekanın eczacılık eğitiminde ve sınav hazırlık süreçlerinde harika bir “yardımcı araç” olabileceği belirtildi. Ancak modellerin bilmedikleri şeyleri de biliyormuş gibi anlatma eğilimi nedeniyle; eğitim süreçlerinde mutlaka akademik bir rehberliğin, uzman denetiminin ve eleştirel bir gözün devrede olması gerektiğinin altı çizildi.

Kaynak: Scientific Reports 

Son İçerikler