Microsoft, Saniyeler İçerisinde Herhangi Bir İnsanın Sesini Taklit Edebilen Yapay Zekâsı VALL-Eyi Tanıttı

Son zamanlarda yapay zekânın ciddi oranda geliştiğini ve popülerlik kazandığını biliyoruz. Midjourney, DALL-E gibi metinlerden görsel oluşturan sistemler ve ne sorarsak soralım yanıt veren ChatGPT gibi modeller tüm dünyada ses getirmişti. Şimdi ise Microsoft’tan yepyeni bir yapay zekâ hamlesi geldi.

12.01.2023 08:45:22 tarihinde yayınlandı.

Son zamanlarda yapay zekânın ciddi oranda geliştiğini ve popülerlik kazandığını biliyoruz. Midjourney, DALL-E gibi metinlerden görsel oluşturan sistemler ve ne sorarsak soralım yanıt veren ChatGPT gibi modeller tüm dünyada ses getirmişti. Şimdi ise Microsoft’tan yepyeni bir yapay zekâ hamlesi geldi.

ABD’li teknoloji devi, metinden ses oluşturabilen yapay zekâ modeli ‘VALL-E’yi tanıttı. Yapay zekâ konusunda çığır açabilecek sistemin, insan seslerini oldukça kolay bir şekilde taklit edebildiği ifade edildi.  Tabii bu tarz bir teknoloji bazı endişeleri de beraberinde getirdi.

Ars Technica’nın bildirdiğine  göre VALL-E, yalnızca üç saniyelik bir ses örneğini kulanarak bir insanın sesini taklit edebiliyor. Hatta yapabildiklerinin bununla sınırlı kalmadığı, yapay zekânın konuşmacının duygusuna göre çıkan ses tonuyla eşleşen sonuçları bile çıkarabildiği söyleniyor.

Microsoft, bir dil modeli olan VALL-E’nin Meta’nın Ekim 2022’de tanıttığı ‘EnCodec’ ismi verilen teknolojiden yararlandığını aktarıyor. Model, normalde gördüğümüz benzer sistemlerin aksine metinden ve seslerden faydalanarak sonuçlar çıkarıyor. Temel olarak, bir kişinin nasıl ses çıkardığını analiz ediyor, EnCodec sayesinde bu bilgiyi ayrı bileşenlere bölüyor ve eğitim verilerini eşleştiriyor. Bunun sonucunda da örnekteki ses taklit edilerek farklı cümleler ortaya çıkarılıyor.

Yapay zekâya ilişkin paylaşılan bir makale de araştırmacıların VALL-E’yi, 7.000’den fazla konuşmacıdan 60.000 saatlik İngilizce dilindeki ses kayıtları ile eğittiğini aktarıyor. Sistemin iyi bir sonuç çıkarması için de örneklerdeki sesin, eğitim verilerindeki bir sese yakın olması gerektiği söyleniyor.

İLGİLİ HABER Binlerce Yıllık Mumyalar, Yapay Zeka ile Canlandırıldı

Microsoft, VALL-E’den çıkan bazı örnekleri GitHub üzerinden yayınlandı. Örnekler incelendiğinde, yapay zekânın bazı yerlerde robot sesiyle karşımıza çıktığı görülse de bazılarında ise şaşırtıcı derecede gerçekçi olduğu görülüyor. Ayrıca örneklerde VALL-E’nin konuşmacının tonunu koruduğu; hatta ortama göre sonuç çıkardığı da görülebiliyor. Örneğin, asıl konuşmacı yankı yapan bir yerden konuşuyorsa, sistem de buna göre ses üretiyor.

Tabii ki bu tarz bir teknoloji biraz endişe verici. Kötü amaçlı kişiler, bir insanın söylemediği bir şeyi söylemiş gibi göstermesini sağlayabilir, onların kimliğine bürünebilir ve dolandırıcılık gibi olayların artmasına neden olabilir. Son zamanlarda iyice popülerleşen deepfake’in barındırdığı riskler gibi düşünebilirsiniz. Microsoft, risklerden dolayı kodu açık kaynaklı yapmamayı seçse de benzer teknolojilerin bu riskleri beraberinde getirebileceğini söyleyebiliriz.

İLGİLİ HABER Yapay Zekâ ChatGPT, Öğrencilerin Eğitimine Zarar Verdiği Gerekçesiyle Okullarda Yasaklanmaya Başladı


Kaynak webtekno.com

 

Xiaomi’nin Çift Ön Kameralı Telefonu Civi 2’nin Özellikleri Belli Oldu: Dynamic Island’la Birlikte Gelebilir

Eylül ayında tanıtılan iPhone 14 ailesiyle birlikte tanıtılan Dynamic Island, aslında yıllardır Samsung’ta olan “kısa bildirim” özelliğinin daha detaylı bir versiyonu olarak karşımıza çıkmıştı. Bu özellik tanıtılır tanıtılmaz ilk önce MIUI için bir temada daha sonra da 3. parti bir uygulama olarak karşımıza çıkmıştı.