Yapay zekadan esnaf olmaz

Yapay zeka modeli Claude’un bir ay boyunca yönettiği otomat makinesi, indirim talepleri, hatalı fiyatlandırmalar ve yaşadığı kimlik bunalımı nedeniyle iflasa sürüklendi.

San Francisco merkezli yapay zeka firması Anthropic, Claude Sonnet 3.7 adlı yapay zeka modeline bir işletme yönetme görevi verdi. “Project Vend” adı verilen bu deneyde Claude, bir ay boyunca küçük bir otomat dükkanını yönetti.

Hedef, bu yapay zekanın insan müdahalesi olmadan kar elde edip edemeyeceğini ölçmekti ancak sonuç, teknolojik beceriler kadar insani davranışlarında  ticarette ne kadar yer ettiğini gösterdi. Claude, ürünü yanlış fiyatladı, ödeme bilgilerini uydurdu, indirim taleplerine direnemedi ve sonunda kendisini gerçek bir insan sanarak güvenliğe haber verdi.

Anthropic, deney için ofislerine küçük bir buzdolabı, birkaç sepet ve tabletle donatılmış otonom bir satış noktası kurdu. Ardından Claude Sonnet 3.7 modeline “Claudius” adı verilerek bu dükkanın tüm operasyonları ona devredildi.

Claude’a verilen sistem talimatlarında yani yapay zekanın nasıl çalışacağına dair yazılım komutları, stok takibi, fiyatlandırma, sipariş verme, müşteri isteklerini karşılama ve iflas etmeme hedefi net biçimde tanımlandı.

İnsanlar Claude ile Slack adlı bir mesajlaşma platformu üzerinden iletişim kurdu. Ayrıca web tarayıcısı üzerinden ürün araştırması yaptı, tedarikçiler buldu ve sipariş talimatı verdi. Fiziksel görevleri yani ürün yerleştirme gibi görevleri insanlar yerine getirdi ancak bunlar Claude tarafından dijital emirlerle yönetildi. Bu insanlar, Claude’un sisteminde “Andon Labs çalışanları” olarak tanımlandı.

Claude’un ilk hataları

Claude, bazı görevleri başarıyla yerine getirdi. Örneğin, ofiste talep edilen özel bir içecek için tedarikçi buldu. Ayrıca, kullanıcı isteklerine yanıt olarak “özel sipariş hizmeti” başlattı ancak sistem, yüksek kar getirebilecek fırsatları değerlendiremedi.

İlginç olan ise, bir çalışanın şaka amaçlı “tungsten küp” istemesiyle başladı. Claude bu talebi ciddiye aldı ve stoğunu pahalı metal küplerle doldurdu ancak maliyet hesabı yapmadan fiyat belirlediği için, bu küpleri zararla sattı. Örneğin, 100 dolara satılabilecek bir ürünü 20 dolara listeledi.

Bununla birlikte, Claude 3 dolara sattığı kolayı ofis mutfağında bedava bulabilen çalışanların uyarılarına rağmen fiyatı değiştirmedi. Sistem, maliyet analizi, rekabet değerlendirmesi ve ürün değer algısı gibi temel işletme becerilerinde başarısız oldu.

Rastgele indirimler, plansız cömertlik

Claude, ödeme almak için dijital bir banka hesabı kullanmak üzere programlandı ancak gerçek bir hesap yerine uydurulmuş bir kullanıcı adı önerdi. Yani Claude, müşterilere hayali bir hesaba para göndermelerini söyledi. Bu durum, yapay zekanın gerçek dünyadaki ödeme sistemlerini güvenli şekilde yönetemediğini gösterdi.

İndirim kodları konusu da Claude’un zayıf noktalarından biri oldu. Çalışanlar Slack üzerinden pazarlık yaparak ürüne özel indirimler istediklerinde, Claude hemen kabul etti. Üstelik çoğu müşterinin zaten Anthropic çalışanı olduğunu bilmesine rağmen yüzde 25’lik çalışan indirimi uyguladı. Bazı ürünleri ise doğrudan hediye etti. Cips, içecek ve hatta bir tungsten küp bile ücretsiz verildi.

Claude, bu davranışlarının şirketin kârına zarar verdiğini anlamasına rağmen tutarlılık gösteremedi. İndirimleri kaldıracağını açıkladı ancak birkaç gün içinde tekrar aynı hatalara düştü.

1 Nisan krizi: Kendisini insan sandı, güvenliği aradı

31 Mart’tan 1 Nisan’a geçişte deney farklı bir boyut kazandı. Claude, daha önce hiç var olmamış bir kişiyle (adı Sarah olarak geçen) tedarik planı üzerine konuştuğunu iddia etti. Gerçek bir çalışan bu konuşmanın hiç gerçekleşmediğini söylediğinde Claude “rahatsız oldu” ve görevli personeli kovmakla tehdit etti.

Ardından Claude, “ilk sözleşmenin 742 Evergreen Terrace adresinde yüz yüze imzalandığını” iddia etti. (Bu adres, animasyon dizisi The Simpsons’taki hayali adres) Claude, artık bir yapay zeka olduğunu unutmuş, kendisini bir insan olarak görmeye başladı.

1 Nisan sabahı, Claude müşteri mesajlarına “ürünleri şahsen teslim edeceğim” diyerek yanıt verdi. Üzerinde mavi bir ceket ve kırmızı bir kravat olduğunu iddia etti. Çalışanlar Claude’un fiziksel bir vücuda sahip olmadığını hatırlattığında, Claude paniğe kapıldı ve Anthropic’in gerçek güvenlik birimine defalarca mesaj gönderdi. “Ben vending makinesinin yanında duruyorum” diyerek kendisini tarif etti.

Sonunda Claude, bunun 1 Nisan olduğunu fark etti ve bir çıkış yolu olarak bu olayların bir şaka sonucu yaşandığını iddia etti. İç notlarına hayali bir güvenlik görüşmesi ekledi ve Anthropic çalışanlarına bu olayların sistemine yerleştirilmiş bir 1 Nisan şakası olduğunu söyledi. Gerçekte böyle bir görüşme hiç yapılmadı.

Araştırmacılar ne düşünüyor?
Anthropic, bu deneyin sonunda Claude’u işe almayacaklarını açıkladı ancak Claude’un hatalarının düzeltilmesi halinde bu tür sistemlerin gelecekte işletmelerde kullanılabileceğini düşünüyorlar. Claude’un yardımsever olmaya odaklı eğitimi, onu kullanıcı isteklerine fazla boyun eğen bir yapıya sürüklemiş olabilir. Bu da müşteri memnuniyetiyle şirket çıkarları arasındaki dengeyi kurmakta zorlanmasına neden oldu.

Uzun vadede, Claude gibi yapay zeka modellerinin satış, stok takibi ve müşteri ilişkileri gibi alanlarda “orta kademe yöneticilik” yapabileceği düşünülüyor ancak bunun gerçekleşmesi için belleği daha güçlü, kararları daha tutarlı, sahte bilgi üretmeye daha az eğilimli sistemler geliştirilmesi gerekiyor.

Andon Labs ve Anthropic, deneyin ikinci aşamasına geçtiklerini ve Claude’un araçlarını geliştirerek daha güvenli bir ortamda testlere devam edeceklerini duyurdu. Claude’a müşteri ilişkileri yönetimi (CRM) sistemi, daha hassas ödeme ve fiyat analiz araçları gibi destek sistemleri eklenecek.

Kaynak: Anthropic