Suni zekâ girişimi OpenAI, ses klonlamak amacıyla geliştirdiği modeli görücüye çıkardı. San Francisco merkezli şirket ‘orijinaline fazlaca benzeyen naturel bir konuşma’ oluşturmak için metin ve ses örneği kullanan yeni modelin bir ön izlemesini paylaştı.
Popüler söyleşi robotu ChatGPT ve görüntü üretici DALL-E peşinden OpenAI tarafınca geliştirilen son suni zekâ modelinin adı: Voice Engine.
Voice Engine, kullananların 15 saniyelik örnek yükleyerek sesin bileşik bir kopyasını oluşturmasına olanak tanıyor. Sadece halka açık bir kullanım zamanı hemen hemen yok, model şu anda yalnız 10 geliştiricinin kullanımına açık.
Erişime haiz firmalar içinde eğitim teknolojisi şirketi Age of Learning, görsel hikâye anlatımı platformu HeyGen, sıhhat yazılımı üreticisi Dimagi, YZ kontakt uygulaması Livox ve sıhhat sistemi Lifespan içeriyor.
Bazı toplumsal medya kullanıcıları (ses taklidi yada deepfake’lerle meydana gelen dolandırıcılık dahil olmak suretiyle) kötüye kullanım potansiyeline dikkat çekerek tepki gösterdi.
OpenAI just launched Voice Engine,
It uses text input and a single 15-second audio sample to generate natural-sounding speech that closely resembles the original speaker.
Reference and Generated audio is very close and hard to differentiate.
More details in ? pic.twitter.com/tJRrCO2WZP
— AshutoshShrivastava (@ai_for_success) March 29, 2024
Yukarıdaki videoda referans ses ve klonlanmış sesi dinleyebilirsiniz.
TechCrunch’a konuşan OpenAI ürün ekibinden Jeff Harris, “Minik bir ses örneği ile metni alıyoruz ve orijinal konuşmacıyla eşleşen gerçekçi bir konuşma üretiyoruz” diyor.
Aslına bakarsak bu yeni bir teknoloji değil. ElevenLabs’tan Replica Studios’a, Papercup’tan Respeecher’a kadar bir takım girişim senelerdir ses klonlama ürünleri sunuyor. Amazon, Google ve Microsoft şeklinde büyük teknoloji şirketleri de o şekilde, ki bu sonuncusu OpenAI’ın mühim yatırımcılarından biri. Sadece Harris, OpenAI aracının fazlaca daha yüksek kaliteli bir netice verdiğini öne sürüyor.
OpenAI, Voice Engine’i 2022’nin sonlarında geliştirmeye başladığını ve modelin ‘lisanslı ve kamuya açık verilerin bir karışımı’ üstünde eğitildiğini belirtti. Ek olarak kötüye kullanım potansiyeli sebebiyle yazılımın daha geniş bir sürümünü şimdilik beklettiğini deklare etti. Şirket imzasız blog yazısında bazı riskleri kabul ediyor ve bu mevzuya ilişkin şu şekilde diyor:
“İnsanların seslerine benzeyen konuşmalar üretmenin ciddi riskler taşıdığının farkındayız ve bu riskler bilhassa de bir seçim sürecinde en üst seviyeye çıkıyor. Bileşik sesin kötüye kullanılma potansiyeli sebebiyle daha kapsamlı bir sürüm için davranışlarında ölçülü ve bilgili bir yaklaşım benimsiyoruz. Bileşik seslerin görevli bir halde kullanılması ve toplumun bu yeni işlevlere iyi mi uyum sağlayabileceği mevzusunda bir diyalog başlatmayı umuyoruz. Minik ölçekli testlerin sonuçlarına dayanarak, bu değişen teknolojinin geniş ölçekte kullanılıp kullanılmayacağı ve iyi mi kullanılacağı mevzusunda daha bilgili bir karara varacağız.”
OpenAI’ın aracı tutulursa seslendirme sanatçıları ne meydana getirecek?
Sanat dünyası bir süredir üretken suni zekâ tehdidiyle boğuşuyor. Günümüzde giderek daha çok seslendirme sanatçısından sesinin telif hakkını devretmesi isteniyor. Böylece müşteriler suni zekâ kullanarak bileşik versiyonlar üretebiliyor. Pek fazlaca kişiye nazaran (bilhassa rahat seslendirme işleri söz mevzusu olduğunda) sektör YZ karşısında yok olma riskiyle karşı karşıya.
Bazı YZ ses platformları bir denge kurmaya çalışıyor. Mesela Replica Studios geçtiğimiz yıl, medya sanatçıları sendikası üyelerinin ses kopyalarını oluşturmak ve lisanslamak için SAG-AFTRA ile (tartışmalı) bir antak kalma imzaladı. Kurumlar (video oyunları da dahil olmak suretiyle) bileşik seslerin kullanımına ilişkin şartları görüşme ederken, sanatçıların rızasını almak için adil ve etik şartlar ve koşullar oluşturulduğunu korumak için çaba sarfediyor.
Ayrıca ElevenLabs, kullananların bir ses oluşturmasına, doğrulamasına ve her insana açık olarak paylaşmasına olanak tanıyan bileşik sesler için bir pazaryerine ev sahipliği yapıyor. Başkaları bir sesi kullandığında orijinal ses sahibi (1.000 karakter başına) ücret alıyor.
TechCrunch’a göre OpenAI (en azından kısa vadede) bu tür pazaryerleri kurmayacak. Kullanıcıya sesi klonlanan kişiden ‘açık rıza’ almasını, sesin YZ tarafınca üretildiğini belirten ‘net izahat’ yapmasını; reşit olmayan, ölmüş ve siyasal figürlerin sesini kullanmamasını koşul koşacak.
Harris, “Bunun dublaj sektörüyle iyi mi kesişeceği yakından seyrettiğimiz ve hakkaten öğrenmek istediğimiz bir mevzu. Bence bir seslendirme sanatçısı olarak menzilinizi genişletmek için pek fazlaca fırsat olacak. Sadece hepsi, insanoğlu bu teknolojiyi hakkaten kullandığında ve onu birazcık kurcaladığında öğreneceğimiz şeyler” diyor.
Bileşik ses üstüne etik tartışmalar ve deepfake
Ses klonlama uygulamaları ses sanatçılarının geçim kaynağını tehdit etmenin ötesinde suiistimal de edilebilir (ki edilmiştir).
Örneğin, komplocu içerikleriyle malum forum 4chan, Emma Watson şeklinde ünlüleri öykünmek eden fena niyetli mesajlar paylaşmak için ElevenLabs’ın platformunu kullandı. The Verge’den James Vincent YZ araçlarını kullanarak sertlik içeren tehditlerden, ırkçı ve transfobik ifadelere kadar pek fazlaca örnek üretti. Vice’ta muhabir olan Joseph Cox, bir bankanın kimlik doğrulama sistemini kandırmaya kafi gelecek kadar ikna edici bir ses klonu oluşturduğunu belgeledi.
Art niyetli kişilerin ses klonlama yöntemiyle insanları dolandırabileceğine, seçim sürecini etkileyebileceğine, dezenformasyon aracı olarak kullanabileceğine dair korkular var. Ve bunlar temelsiz değil.
When millions of older adults are defrauded out of billions of dollars by these deepfake voices, will @OpenAI be ready for the tsunami of litigation that follows?
— Geoffrey Miller (@primalpoly) March 29, 2024
OpenAI ise deepfake’ler mevzusunda daha çok eğitim ve YZ içeriğini takip sistemlerinin geliştirilmesi dahil olmak suretiyle, bu şeklinde araçlarla ilgili riskleri sınırlayabileceğini düşündüğü bir takım adım öneriyor. Sadece YZ tarafınca üretilen içinde ne olduğu tespit etmenin ve etiketlemenin bir yolunu bulmak teknoloji endüstrisi için hakkaten zor bir iş. Filigran şeklinde tavsiye edilen çözümlerin kolayca aşılabildiği kanıtlanmış durumda.
New Mexico Üniversitesi’nde psikoloji doçenti olan Geoffrey Miller, X platformunda OpenAI paylaşımına cevap vererek, modelin dolandırıcılar tarafınca ihtimaller içinde kötüye kullanımı mevzusunda firmanın ne yapacağını sordu:
“Milyonlarca yaşlı insan bu deepfake sesler tarafınca milyarlarca dolar dolandırıldığında, OpenAI bunu takip eden dava tsunamisine hazır olacak mı?”
OpenAI (hemen hemen) bu soruya cevap vermedi.
Voice Engine tarafınca oluşturulan ve kamuoyu ile paylaşılan daha çok örneği burada bulabilirsiniz. Güncel gelişmeler için X/Twitter hesabımızı takip etmeyi ihmal etmeyin.
TechCrunch ve CNBC haberinden derlendi. Ek kaynak: OpenAI blog