Yeni Microsoft AI Teknolojisi, Sesimizi Simüle Edebilir
Teknoloji devi, 3 saniyelik bir insan konuşması ile herkesin sesini simule edebilen yeni bir metinden konuşmaya (text-to-speech) yapay zeka teknolojisi VALL-E‘yi tanıttı.
Microsoft, hayatımızı biraz daha kolaylaştırmak için bir yapay zeka geliştiriyor. Yakın zamanda yayınladıkları bir blog yazısında yeni projelerini duyurdular: Vall-E.
Microsoft araştırmacıları makalelerinde “Deney sonuçları, VALL-E’nin konuşma doğallığı ve konuşmacı benzerliği açısından son teknoloji TTS sisteminden önemli ölçüde daha iyi performans gösterdiğini gösteriyor” diyor.
Bir “nöral codec dil modeli” olan VALL-E, bir konuşmacının yalnızca 3 saniyelik ses kaydını kullanıyor. Bu yapay zeka teknolojisi, 7.000’den fazla benzersiz konuşmacı ile 60.000 saatlik İngilizce konuşma ile eğitilmiştir. Tüm bu veriler, konuşulan İngilizce sesleri toplayan Meta’nın sahip olduğu ses kitaplığı Libri-Light’tan alınmıştır. Ayrıca Vall-E, konuşmacının duygusal tonunu ve akustik ortamını taklit edebiliyor.
VALL-E’den Nasıl Faydalanabiliriz?
Şimdilik VALL-E, metni yalnızca seçilen seste konuşmaya dönüştürebilir. Yeni içerik oluşturamaz. Bununla birlikte VALL-E’nin konuşma düzenleme ve ses içeriği oluşturma açısından çeşitli faydalar sağlayabileceği söyleniyor.
Stephen Hawking’in, klasik motor nöron hastalığından (ALS) muzdaripken çalışmalarına devam etmek için bir metin okuma üreteci kullanması örneği, dünyaya bu teknolojiden elde edilebilecek en büyük faydalardan birini gösterdi.
VALL-E, simültane tercümelerde veya vefat etmiş sevdiklerimizin sesini oluşturmak için kullanılabilir.
VALL-E ile sesli kitap oluşturmak çok daha kolay ve hızlı olabilir. Yazılı herhangi bir metin mesajı için kısa sürede ses oluşturulabilir.
Tüm bu kullanımlar ve daha fazlası için Microsoft’un VALL-E’yi genel kullanıma açmasını beklememiz gerekiyor. Microsoft, yeni yapay zekanın ne zaman kamu tüketimine sunulacağını ise henüz söylemedi.
Yapay zeka dört bir yanımızı sarmış durumda ve giderek daha da iyi olmaya devam edecek.
VALL-E ve Riskler
Yapay zeka teknolojilerinin güvenli ve etik bir şekilde nasıl kullanılacağı sorusu bugünlerde, her zamankinden daha sık sorulurken, insanlar ChatGPT, Lensa AI veya VALL-E gibi yeni kullanıma sunulan sistemlerle ilgili etik kaygılarını dile getiriyor.
ChatGPT gibi metin oluşturma ve dil çevirisi gibi doğal dil görevlerini işleyebilen bir sohbet botunu ev ödevleri için kullanarak intihal yapan öğrenciler hakkında tartışmalar başlattı. Aynı zamanda, sıradan fotoğrafları sanatsal görüntülere dönüştürmek için algoritmalar kullanan bir uygulama olan Lensa AI, diğer sanatçıların eserlerini kullanarak yapılan sanatsal üretimle ilgili etik sorulara yol açtı. Benzer şekilde VALL-E, sahte ses tanımlama veya belirli bir konuşmacının kimliğine bürünme gibi kullanıcıları suç sayabilecek, potansiyel kötüye kullanım risklerine sahip.
İnsanların seslerini rızaları olmadan taklit etmek, sosyal zarara yol açabilecek fitne ve aldatmayı körükleyebilir. Peki, siz bu konuda ne düşünüyorsunuz?