DÜNYA

Microsoft’tan İnsan Seslerini Öykünmek Edebilen Suni Zekâ

Microsoft, yeni suni zekâ modeli VALL-E’yi tanıttı. Sistem, yalnızca üç saniyelik örneklerden yola çıkarak bir insanoğlunun sesini öykünmek edebiliyor.

Son zamanlarda suni zekânın ciddi oranda geliştiğini ve popülerlik kazandığını biliyoruz. Midjourney, DALL-E benzer biçimde metinlerden görsel oluşturan sistemlerden ne sorarsak soralım cevap veren ChatGPT benzer biçimde modeller tüm dünyada ses getirmişti. Şimdi ise Microsoft’tan yepyeni bir suni zekâ hamlesi geldi.

ABD’li teknoloji devi, metinden ses oluşturabilen suni zekâ modeli ‘VALLE’yi tanıttı. Suni zekâ mevzusunda çığır açabilecek sistemin, insan seslerini oldukça kolay bir halde öykünmek edebildiği ifade edildi.  Doğal bu biçim bir teknoloji bazı endişeleri de bununla beraber getirdi.

Yalnızca 3 saniyelik bir örneği kullanarak sesleri öykünmek edebiliyor

Ars Technica’nın bildirdiğine  gore VALL-E, yalnızca üç saniyelik bir ses örneğini kulanarak bir insanoğlunun sesini öykünmek edebiliyor. Hatta yapabildiklerinin bununla sınırı olan kalmadığı, suni zekânın konuşmacının duygusuna gore çıkan ses tonuyla eşleşen neticeleri bile çıkarabiliyor.

Microsoft, bir dil modeli olan VALL-E’nin Meta’nın Ekim 2022’de tanıttığı ‘EnCodec’ adı verilen teknolojiden yararlandığını aktarıyor. Model, normalde gördüğümüz benzer sistemlerin aksine metinden ve seslerden faydalanarak sonuçlar çıkarıyor. Temel olarak, bir kişinin nasıl ses çıkardığını çözümleme ediyor, EnCodec yardımıyla bu bilgiyi ayrı bileşenlere bölüyor ve eğitim verilerini eşleştiriyor. Bunun sonucunda da örnekteki ses öykünmek edilerek değişik cümleler ortaya çıkarılıyor.

Suni zekâya ilişkin paylaşılan bir yazı de araştırmacıların VALL-E’yi, 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce dilindeki ses kayıtları ile eğittiğini aktarıyor. Sistemin iyi bir netice çıkarması için de örneklerdeki sesin, eğitim verilerindeki bir sese yakın olması gerektiği söyleniyor.

İLGİLİ HABER

Binlerce Senelik Mumyalar, Suni Zeka ile Canlandırıldı

Microsoft, VALL-E’den çıkan bazı örnekleri GitHub üstünden gösterildi. Örnekler incelendiğinde, suni zekânın bazı yerlerde robot sesiyle karşımıza çıkmış olduğu görülse de bazılarında ise şaşırtıcı derecede gerçekçi olduğu görülüyor. Ek olarak örneklerde VALL-E’nin konuşmacının tonunu koruduğu; hatta ortama gore netice çıkardığı da görülebiliyor. Mesela, aslolan konuşmacı yankı icra eden bir yerden konuşuyorsa, sistem de buna gore ses üretiyor.

Bu biçim bir değişen teknolojinin riskleri de yok değil

Doğal ki bu biçim bir teknoloji birazcık kaygı verici. Fena amaçlı kişiler, bir insanoğlunun söylemediği bir şeyi söylemiş benzer biçimde göstermesini sağlayabilir, onların kimliğine bürünebilir ve dolandırıcılık benzer biçimde olayların artmasına neden olabilir. Son zamanlarda iyice popülerleşen deepfake’in barındırdığı riskler benzer biçimde düşünebilirsiniz. Microsoft, risklerden dolayı kodu açık kaynaklı yapmamayı seçse de benzer teknolojilerin bu riskleri bununla beraber getirebileceğini söyleyebiliriz.

İLGİLİ HABER

Suni Zekâ ChatGPT, Öğrencilerin Eğitimine Zarar Verdiği Nedeni öne sürülerek Okullarda Yasaklanmaya Başladı

Kaynak :
https://arstechnica.com/information-technology/2023/01/microsofts-new-ai-can-simulate-anyones-voice-with-3-seconds-of-audio/



İlgili Makaleler

Bir yanıt yazın

E-posta adresiniz yayınlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir

Başa dön tuşu
Kapalı

Please allow ads on our site

Looks like you're using an ad blocker. We rely on advertising to help fund our site.