Investigation of deep neural models for supervised emotional speech synthesis with limited data
Sınırlı veri ile denetimli duygusal konuşma sentezi için derin sinir modellerinin incelenmesi
- Tez No: 895645
- Danışmanlar: DOÇ. DR. CENK DEMİROĞLU
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Özyeğin Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 104
Özet
İnsan konuşması, konuşmacının kimliği, duyguları ve farklı konuşma stilleri gibi yalnızca kelimelerin ötesinde birçok bilgiyi ileten, zengin bir şekilde ifade edici bir ortam olarak hizmet eder. Günümüzün Derin Öğrenme ile güçlendirilmiş Metin-Konuşma (TTS) modelleri, doğallık ve anlaşılabilirlik açısından neredeyse insan benzeri konuşmalar üretecek kadar ilerlemiştir. Ancak, insan konuşmasının ifadesiyle kıyaslandığında ifade edici konuşma sentezi alanında hâlâ kat edilecek önemli bir yol bulunmaktadır. Çeşitli duygusal durumlarda konuşma üretebilen denetimli duygusal TTS modelleri (ETTS), öncelikle birden fazla duygu ile anotasyonlanmış eğitim verilerine dayanır. Bu tür veri setlerinin oluşturulması önemli zorluklar teşkil eder, bu da sınırlı kullanılabilirlik ve genellikle daha küçük boyutlarla sonuçlanır. Bu tezde, denetimli ETTS yaklaşımlarının duygu ifadesini geliştirmeyi amaçlayan çeşitli derin sinir modellerinin araştırılmasına dalıyoruz. Araştırmamızda incelenen modeller arasında ses dönüştürme modelleri, duygu sınıflandırıcılar ve adversarial eğitim ayırt edicileri yer almaktadır. İki genişletilmiş ETTS modeli öneriyoruz: ilki, ETTS modeline duygusal bir ses dönüştürücü entegre ederken, ikincisi, her biri bir duygu sınıflandırıcı ve bir ayırt edici içeren iki ensemble'ı ETTS mimarisine dahil eder. İlk modelde, iki farklı ses dönüştürme modelini inceliyoruz: MaskCycleGAN ve Seq2Seq ses dönüştürücüler. İkinci modelde, ensemble'lara giriş olarak iki tür duygu ifadesiyle ilgili özellik kullanılmaktadır: perde özellikleri ve bir varyasyonel otokodlayıcı tarafından oluşturulan duygu gömmeleri. Uygulanan bileşenlerin uygulanabilirliğini ve her bir önerilen modelin genel performansını değerlendirmek için birkaç değerlendirme testi gerçekleştirdik. Deneylerimiz, önerilen modellerin baz model üzerinde önemli iyileştirmeler sağladığını ortaya koydu.
Özet (Çeviri)
Human speech serves as a richly expressive medium, conveying a multitude of information beyond mere words, including the speaker's identity, emotions, and different speaking styles. Today's Text-to-Speech (TTS) models, powered by deep learning, have advanced to the point of producing speech that is almost human-like in its naturalness and intelligibility. Nevertheless, there remains considerable ground to cover in the field of expressive speech synthesis when compared to the expressiveness of human speech. Supervised emotional TTS models (ETTS), capable of generating speech across various emotional states, primarily depend on training data annotated with multiple emotions. The creation of such datasets poses significant challenges, resulting in limited availability and typically smaller sizes. In this thesis, we delve into the investigation of various deep neural models aimed at improving the emotion expressivity of supervised ETTS approaches. The models explored in our research include voice conversion models, emotion classifiers, and adversarial training discriminators. We propose two extended ETTS models: the first combines an emotional voice converter into the ETTS model, while the second incorporates two ensembles, each comprising an emotion classifier and a discriminator, into the ETTS architecture. Within the first model, we examine two distinct voice conversion models: MaskCycleGAN and Seq2Seq voice converters. In the second model, two types of emotion expressivity-related features are employed as input to the ensembles: pitch features and emotion embeddings generated by a variational autoencoder. We conducted several evaluation tests to assess the feasibility of the applied components and the overall performance of each proposed model. Our experiments revealed significant improvements by the proposed models over the baseline model.
Benzer Tezler
- Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models
Üç boyutlu yüz modellerinden elde edilen geometri görüntüleri kullanılan derin öğrenme tabanlı üç boyutlu yüz ifadelerini tanıma
NEŞE GÜNEŞ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
- Kablosuz haberleşme için uçtan uca otokodlayıcı tasarımı
End to end autoencoder design for wireless communication
MUSTAFA BAYRAM AYAZ
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ERTUĞRUL ÇELEBİ
- Using deep learning based classification algorithm to detect faults in turbine engines
Türbin motorlarındaki hataları tespit etmek için derin öğrenme tabanlı sınıflandırma algoritması kullanımı
ALİ AL-TAİE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiBilişim Teknolojileri Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN NURİ UÇAN
- Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
- A Turkish broadcast news speech database for investigation of the effect of deep neural network and long short term memory hyperparameters on speech recognition based systems
Başlık çevirisi yok
SERHAT OK
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEKERİYA TÜFEKCİ