Stable Diffusion şeklinde suni zekâ destekli popüler görüntü oluşturma modellerinin çocuğa yönelik istismar içeren fotoğraflarla eğitildiği aktarılıyor.
Stanford İnternet Gözlemevi tarafından gerçekleştirilen araştırmaya nazaran, bu görüntüler suni zekâ sistemleriyle ‘cinsel içerikli sanal çocuk imajları’ üretilmesine yol açmış olabilir. Ek olarak toplumsal medyada yer edinen çocuk fotoğraflarının fena amaçlı kullanımına zemin hazırlayabilir. Araştırmanın basına yansıması arkasından kullanılan veri setine geçici olarak erişim durduruldu.
Rapor, Stability AI tarafınca kullanılan verilerle ilgili pek oldukça suali bununla beraber getiriyor. Stanford araştırmacıları tarafınca yazılan raporda yasa dışı içeriklerin silinmesinin son aşama zor olacağı vurgulanıyor. Rapordan öne çıkan başlıklara beraber bakalım.
Bu hafta yayınlanan araştırmaya göre popüler suni zekâ (YZ) görüntü üreticilerin temelinde binlerce çocuğa yönelik cinsel istismar görüntüsü saklı. Stanford İnternet Gözlemevi, Stable Diffusion şeklinde önde gelen modelleri eğitmek için kullanılan veritabanı LAION’da çocuk cinsel istismarı şüphesi taşıyan 3.200’den fazla görüntü tespit etti.
Stanford Üniversitesi merkezli seyretme grubu, yasa dışı materyalleri belirlemek ve orijinal fotoğraf bağlantılarını kolluk kuvvetlerine bildirmek için Kanada Çocuk Koruma Merkezi ve öteki istismarla savaşım eden sivil cemiyet örgütleriyle birlikte hareket etti.
Binden fazla görüntüde çocuğa yönelik cinsel istismar unsuru olduğu teyit edildi. Araştırmacılar, değerlendirmelerinin Eylül ayından itibaren milyarlarca görüntü kümesinin yalnızca minik bir dilimine odaklandığı göz önüne alındığında, gerçek hacmin muhtemelen oldukça daha yüksek olduğu mevzusunda uyarıyor ve ekliyor:
2023’ün sonlarındayız fakat bir LAION-5B veri setine haiz olmanın binlerce yasa dışı görüntü anlamına geldiğini görüyoruz.
Kâr amacı gütmeyen LAION yapmış olduğu açıklamada “Yasa dışı içeriğe karşı sıfır hoşgörü politikasına haiz olduklarını ve önlem amacıyla veri setlerini geçici olarak kaldırdıklarını duyurdu. Görüntüler LAION’un ortalama 5,8 milyar görüntüden oluşan veri tabanının yalnız bir kısmını oluştursa da, Stanford ekibi bu görüntülerin YZ araçlarının zararı olan çıktılar üretmesine yol açabileceğini söylüyor.
Araştırmacılar bu görüntülerin YZ sistemlerinin gerçekçi ve müstehcen sanal çocuk görüntüleri üretmesini ve gerçek evlatların toplumsal medyada yer edinen fotoğraflarını çıplak hâle dönüştürmesini kolaylaştırdığını vurguluyor.
Verileri geriye dönük olarak temizlemeye çalışmak zor, bu yüzden Stanford İnternet Gözlemevi daha sert önlemler alınması çağrısında bulunuyor. Raporu kaleme alan Stanford İnternet Gözlemevi’nin baş teknoloji uzmanı David Thiel, “Yasal platformlar, istismar görüntüleri üretmek için kullanılıyorlarsa ve bu tarz şeyleri engelleyecek hiçbir güvenlik önlemi yoksa bu sürümleri indirmeyi durdurabilir” diyor.
Thiel, bunun düzeltilmesi kolay bir problem olmadığını ve alanın oldukça rekabetçi olması sebebiyle birçok üretken YZ projesinin ‘hızla piyasaya sürüldüğünü’ ve yaygın olarak erişilebilir hâle getirildiğini ifade ediyor. Ek olarak “İnternet çapında bir veri kümesinin tamamını alıp modelleri eğitmek için kullanmak, olsa olsa bir araştırma operasyonuyla sınırı olan kalması ihtiyaç duyulan bir şey ve dikkatli olunmadan açık kaynaklı kullanıma sunulmaması gerekiyor” diye ekliyor.
Önde gelen LAION kullanıcılarından biri de Stable Diffusion modelinin geliştiricisi olan Londra merkezli startup Stability AI. Stanford raporuna nazaran, Stable Diffusion’ın yeni sürümleri zararı olan içerik oluşturmayı oldukça daha zor bir hâle getirmiş olsa da, geçen yıl piyasaya sürülen eski bir sürüm hâlâ değişik uygulama ve araçlarda kullanılıyor. Ve ‘müstehcen görüntüler oluşturmak için’ en popüler model’ olmaya devam ediyor.
Kanada’nın online cinsel istismar suç duyurusu hattını yöneten Kanada Çocuk Koruma Merkezi’nin data teknolojileri direktörü Lloyd Richardson, “Bunu geri alamayız. Bu model birçok insanoğlunun elindeki cihazlarda kullanılıyor” diyor.
Stability AI ve OpenAI ne dedi?
Stability AI Çarşamba günü yapmış olduğu açıklamada, Stable Diffusion’ın yalnızca filtrelenmiş sürümü barındırdığını ve “Stable Diffusion’ın geliştirilmesini üstlendiğinden bu yana kötüye kullanım riskini azaltmak için proaktif adımlar attığını” söylemiş oldu.
Şirket tarafınca meydana getirilen açıklamada, “Bu filtreler güvenli olmayan içeriğin modellere ulaşmasını engelliyor. Bu içinde ne olduğu modele ulaşmadan ilkin kaldırarak güvenli olmayan içerik üretmesini önlemeye destek olabiliriz” denildi.
Stanford raporunda LAION geliştiricilerinin ‘reşit olmayan müstehcen içinde ne olduğu’ filtrelemek için bazı girişimlerde bulunduğunu kabul etti ve şöyleki devam etti: “Daha ilkin çocuk güvenliği uzmanlarına danışmış olsalardı daha iyi bir iş çıkarabilirlerdi.”
LAION’un verilerinin bir çok başka bir kaynaktan, açık web ortamından devamlı olarak veri toplayan Common Crawl’dan geliyor, Fakat Common Crawl’ın yönetici direktörü Rich Skrenta, LAION’un bu tarz şeyleri kullanmadan ilkin tarayıp filtrelemekle ‘yükümlü’ bulunduğunu söylüyor. Şu demek oluyor ki hepimiz topu birbirine atıyor.
Rapora nazaran Stable Diffusion 1.5, LAION-5B üstüne inşa edilen en popüler model fakat LAION veri kümeleri üstünde eğitilen tek model değil. Birçok metin-görüntü oluşturma aracı LAION veri tabanından besleniyor fakat bu alanda oldukça azca şeffaflık olduğundan, hangi kilit oyuncuların kendi modellerini aynı veriler üstünde eğittiğini bilmek zor. Forbes’a göre Midjourney de aynı veri setini, kısaca LAION-5B’yi kullanıyor. (Midjourney nasının yorum talebine cevap vermedi.)
ChatGPT’nin üreticisi OpenAI, LAION’u kullanmadığını ve reşit olmayanlar da dahil cinsel içerik istemlerini reddetmek için modellerinde ince ayar yaptığını deklare etti. Firmanın sözcüsü Hannah Wong, OpenAI’ın 5B de dahil olmak suretiyle hiçbir LAION veri seti üstünde eğitim vermediğini söylemiş oldu.
Google Imagen adlı modelini LAION veri setini temel alarak oluşturdu sadece veri tabanında meydana getirilen bir denetimin ‘pornografik görüntüler, ırkçı hakaretler ve zararı olan toplumsal stereotipler’ de dahil olmak suretiyle çeşitli uygunsuz içinde ne olduğu ortaya çıkarması arkasından 2022’de kamuya açmama sonucu verdi.
LAION, Alman araştırmacı ve öğretmen Christoph Schuhmann’ın fikriydi ve Schuhmann bu senenin başlarında böylesine devasa bir görsel veri tabanını halka açık hâle getirme sebeplerinden birinin YZ’nin bir avuç kuvvetli şirket tarafınca denetim edilmesini önlemek bulunduğunu söylemişti.