Investigation of deep neural models for supervised emotional speech synthesis with limited data

Sınırlı veri ile denetimli duygusal konuşma sentezi için derin sinir modellerinin incelenmesi

PDF İndir

Tez No: 895645
Yazar: HUDA MOHAMMED MOHAMMED BARAKAT
Danışmanlar: DOÇ. DR. CENK DEMİROĞLU
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Özyeğin Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 104

Özet

İnsan konuşması, konuşmacının kimliği, duyguları ve farklı konuşma stilleri gibi yalnızca kelimelerin ötesinde birçok bilgiyi ileten, zengin bir şekilde ifade edici bir ortam olarak hizmet eder. Günümüzün Derin Öğrenme ile güçlendirilmiş Metin-Konuşma (TTS) modelleri, doğallık ve anlaşılabilirlik açısından neredeyse insan benzeri konuşmalar üretecek kadar ilerlemiştir. Ancak, insan konuşmasının ifadesiyle kıyaslandığında ifade edici konuşma sentezi alanında hâlâ kat edilecek önemli bir yol bulunmaktadır. Çeşitli duygusal durumlarda konuşma üretebilen denetimli duygusal TTS modelleri (ETTS), öncelikle birden fazla duygu ile anotasyonlanmış eğitim verilerine dayanır. Bu tür veri setlerinin oluşturulması önemli zorluklar teşkil eder, bu da sınırlı kullanılabilirlik ve genellikle daha küçük boyutlarla sonuçlanır. Bu tezde, denetimli ETTS yaklaşımlarının duygu ifadesini geliştirmeyi amaçlayan çeşitli derin sinir modellerinin araştırılmasına dalıyoruz. Araştırmamızda incelenen modeller arasında ses dönüştürme modelleri, duygu sınıflandırıcılar ve adversarial eğitim ayırt edicileri yer almaktadır. İki genişletilmiş ETTS modeli öneriyoruz: ilki, ETTS modeline duygusal bir ses dönüştürücü entegre ederken, ikincisi, her biri bir duygu sınıflandırıcı ve bir ayırt edici içeren iki ensemble'ı ETTS mimarisine dahil eder. İlk modelde, iki farklı ses dönüştürme modelini inceliyoruz: MaskCycleGAN ve Seq2Seq ses dönüştürücüler. İkinci modelde, ensemble'lara giriş olarak iki tür duygu ifadesiyle ilgili özellik kullanılmaktadır: perde özellikleri ve bir varyasyonel otokodlayıcı tarafından oluşturulan duygu gömmeleri. Uygulanan bileşenlerin uygulanabilirliğini ve her bir önerilen modelin genel performansını değerlendirmek için birkaç değerlendirme testi gerçekleştirdik. Deneylerimiz, önerilen modellerin baz model üzerinde önemli iyileştirmeler sağladığını ortaya koydu.

Özet (Çeviri)

Human speech serves as a richly expressive medium, conveying a multitude of information beyond mere words, including the speaker's identity, emotions, and different speaking styles. Today's Text-to-Speech (TTS) models, powered by deep learning, have advanced to the point of producing speech that is almost human-like in its naturalness and intelligibility. Nevertheless, there remains considerable ground to cover in the field of expressive speech synthesis when compared to the expressiveness of human speech. Supervised emotional TTS models (ETTS), capable of generating speech across various emotional states, primarily depend on training data annotated with multiple emotions. The creation of such datasets poses significant challenges, resulting in limited availability and typically smaller sizes. In this thesis, we delve into the investigation of various deep neural models aimed at improving the emotion expressivity of supervised ETTS approaches. The models explored in our research include voice conversion models, emotion classifiers, and adversarial training discriminators. We propose two extended ETTS models: the first combines an emotional voice converter into the ETTS model, while the second incorporates two ensembles, each comprising an emotion classifier and a discriminator, into the ETTS architecture. Within the first model, we examine two distinct voice conversion models: MaskCycleGAN and Seq2Seq voice converters. In the second model, two types of emotion expressivity-related features are employed as input to the ensembles: pitch features and emotion embeddings generated by a variational autoencoder. We conducted several evaluation tests to assess the feasibility of the applied components and the overall performance of each proposed model. Our experiments revealed significant improvements by the proposed models over the baseline model.

Benzer Tezler

Tez No
581887
Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models
Üç boyutlu yüz modellerinden elde edilen geometri görüntüleri kullanılan derin öğrenme tabanlı üç boyutlu yüz ifadelerini tanıma
NEŞE GÜNEŞ
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ULUĞ BAYAZIT
Tez No
841479
Kablosuz haberleşme için uçtan uca otokodlayıcı tasarımı
End to end autoencoder design for wireless communication
MUSTAFA BAYRAM AYAZ
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ERTUĞRUL ÇELEBİ
Tez No
799863
Using deep learning based classification algorithm to detect faults in turbine engines
Türbin motorlarındaki hataları tespit etmek için derin öğrenme tabanlı sınıflandırma algoritması kullanımı
ALİ AL-TAİE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Altınbaş Üniversitesi
Bilişim Teknolojileri Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN NURİ UÇAN
Tez No
847190
Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
Tez No
655438
A Turkish broadcast news speech database for investigation of the effect of deep neural network and long short term memory hyperparameters on speech recognition based systems
Başlık çevirisi yok
SERHAT OK
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Çukurova Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEKERİYA TÜFEKCİ

Geri Dön