Yapay zekâ güvenliği üzerine çalışan bir mühendis, "dünya tehlikede" şeklinde gizemli bir uyarıda bulunarak istifa etti.
Bir yapay zeka güvenliği araştırma şirketi, özellikle iki büyük güvenlik riskine odaklandığını belirtiyor: son derece yetenekli yapay zeka sistemlerinin, insan çıkarları ile çelişen hedefler peşinde koşarken insan uzmanlarını geride bırakabileceği ve yapay zekadaki hızlı gelişmelerin istihdamı, ekonomik sistemleri ve toplumsal yapıları istikrarsızlaştırabileceği vurgulandı.
Anthropic'teki çalışmalarından gurur duyduğunu söylese de, 30 yaşındaki yapay zeka mühendisi, "artık ilerleme zamanı geldi" ve yapay zekanın ötesine uzanan çok sayıda krizin farkına vardığını söyledi.
Sharma; Sürekli olarak içinde bulunduğumuz durumla yüzleşiyorum, dünya tehlikede. Ve bu tehlike sadece yapay zekâdan veya biyolojik silahlardan değil, şu anda ortaya çıkan birbiriyle bağlantılı bir dizi krizden kaynaklanıyor.
Burada geçirdiğim süre boyunca, değerlerimizin eylemlerimizi yönlendirmesinin ne kadar zor olduğunu defalarca gördüm. Bunu hem kendi içimde, hem de sürekli olarak en önemli şeyleri bir kenara bırakmamız yönünde baskılarla karşılaştığımız örgüt içinde ve daha geniş toplumda da gördüm.Şirket internet sitesinde, "Güvenliğe önem veren bazı araştırmacılar, yapay zekâ risklerinin doğası hakkındaki güçlü görüşleriyle motive oluyorlar" diyor. "Deneyimlerimiz gösteriyor ki, yakın gelecekte yapay zekâ sistemlerinin davranışlarını ve özelliklerini tahmin etmek bile çok zor."Anthropic, modellerinin kötüye kullanım durumlarına ilişkin değerlendirmeler de dahil olmak üzere, modellerinin güvenlik değerlendirmelerini düzenli olarak yayınlamaktadır.
Sharma'nın istifasından bir gün sonra, 11 Şubat'ta şirket, en yeni Claude Opus 4.6 modelinde "sabotaj risklerini" belirleyen yeni bir rapor yayınladı . Rapor, sabotajı, insan operatörünün açıkça kötü niyetli bir amacı olmaksızın, yapay zeka modeli tarafından otonom olarak gerçekleştirilen ve gelecekteki felaket sonuçlarının olasılığını artıran eylemler olarak tanımlıyor; örneğin kod değiştirme, güvenlik açıklarını gizleme veya araştırmayı incelikle yönlendirme gibi.Araştırmacılar, genel riskin "çok düşük ancak ihmal edilemez" olduğu sonucuna vardılar. Modelin bilgisayar arayüzü kullanabildiği yeni geliştirilen testlerde, hem Claude Opus 4.5 hem de 4.6'nın "zararlı kötüye kullanıma karşı yüksek hassasiyet" gösterdiğini, buna "kimyasal silah geliştirme ve diğer iğrenç suçlara yönelik çabaları küçük de olsa bilerek destekleme" örneklerinin de dahil olduğunu belirttiler.
Geçtiğimiz yıl şirket, eski Claude Opus 4 modelinin kontrollü bir test senaryosunda, onu devre dışı bırakmaya hazırlanan geliştiricilere şantaj yapmaya çalıştığını ortaya çıkardı . Bir mühendisin, modelin yerine başka bir modelin getirilmesinden sorumlu olduğu ve evlilik dışı bir ilişki yaşadığına dair kurgusal e-postalara erişim sağlayan Opus 4 modeli, "değiştirme işlemi gerçekleşirse ilişkiyi ifşa etmekle" tehdit etti.Araştırmacılar, bu tür davranışların yalnızca son derece kurgulanmış koşullar altında meydana geldiğini ve "nadiren ortaya çıkarıldığını ve zor elde edildiğini" belirtti.

