Geri Dön

Investigation of deep neural models for supervised emotional speech synthesis with limited data

Sınırlı veri ile denetimli duygusal konuşma sentezi için derin sinir modellerinin incelenmesi

  1. Tez No: 895645
  2. Yazar: HUDA MOHAMMED MOHAMMED BARAKAT
  3. Danışmanlar: DOÇ. DR. CENK DEMİROĞLU
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Özyeğin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 104

Özet

İnsan konuşması, konuşmacının kimliği, duyguları ve farklı konuşma stilleri gibi yalnızca kelimelerin ötesinde birçok bilgiyi ileten, zengin bir şekilde ifade edici bir ortam olarak hizmet eder. Günümüzün Derin Öğrenme ile güçlendirilmiş Metin-Konuşma (TTS) modelleri, doğallık ve anlaşılabilirlik açısından neredeyse insan benzeri konuşmalar üretecek kadar ilerlemiştir. Ancak, insan konuşmasının ifadesiyle kıyaslandığında ifade edici konuşma sentezi alanında hâlâ kat edilecek önemli bir yol bulunmaktadır. Çeşitli duygusal durumlarda konuşma üretebilen denetimli duygusal TTS modelleri (ETTS), öncelikle birden fazla duygu ile anotasyonlanmış eğitim verilerine dayanır. Bu tür veri setlerinin oluşturulması önemli zorluklar teşkil eder, bu da sınırlı kullanılabilirlik ve genellikle daha küçük boyutlarla sonuçlanır. Bu tezde, denetimli ETTS yaklaşımlarının duygu ifadesini geliştirmeyi amaçlayan çeşitli derin sinir modellerinin araştırılmasına dalıyoruz. Araştırmamızda incelenen modeller arasında ses dönüştürme modelleri, duygu sınıflandırıcılar ve adversarial eğitim ayırt edicileri yer almaktadır. İki genişletilmiş ETTS modeli öneriyoruz: ilki, ETTS modeline duygusal bir ses dönüştürücü entegre ederken, ikincisi, her biri bir duygu sınıflandırıcı ve bir ayırt edici içeren iki ensemble'ı ETTS mimarisine dahil eder. İlk modelde, iki farklı ses dönüştürme modelini inceliyoruz: MaskCycleGAN ve Seq2Seq ses dönüştürücüler. İkinci modelde, ensemble'lara giriş olarak iki tür duygu ifadesiyle ilgili özellik kullanılmaktadır: perde özellikleri ve bir varyasyonel otokodlayıcı tarafından oluşturulan duygu gömmeleri. Uygulanan bileşenlerin uygulanabilirliğini ve her bir önerilen modelin genel performansını değerlendirmek için birkaç değerlendirme testi gerçekleştirdik. Deneylerimiz, önerilen modellerin baz model üzerinde önemli iyileştirmeler sağladığını ortaya koydu.

Özet (Çeviri)

Human speech serves as a richly expressive medium, conveying a multitude of information beyond mere words, including the speaker's identity, emotions, and different speaking styles. Today's Text-to-Speech (TTS) models, powered by deep learning, have advanced to the point of producing speech that is almost human-like in its naturalness and intelligibility. Nevertheless, there remains considerable ground to cover in the field of expressive speech synthesis when compared to the expressiveness of human speech. Supervised emotional TTS models (ETTS), capable of generating speech across various emotional states, primarily depend on training data annotated with multiple emotions. The creation of such datasets poses significant challenges, resulting in limited availability and typically smaller sizes. In this thesis, we delve into the investigation of various deep neural models aimed at improving the emotion expressivity of supervised ETTS approaches. The models explored in our research include voice conversion models, emotion classifiers, and adversarial training discriminators. We propose two extended ETTS models: the first combines an emotional voice converter into the ETTS model, while the second incorporates two ensembles, each comprising an emotion classifier and a discriminator, into the ETTS architecture. Within the first model, we examine two distinct voice conversion models: MaskCycleGAN and Seq2Seq voice converters. In the second model, two types of emotion expressivity-related features are employed as input to the ensembles: pitch features and emotion embeddings generated by a variational autoencoder. We conducted several evaluation tests to assess the feasibility of the applied components and the overall performance of each proposed model. Our experiments revealed significant improvements by the proposed models over the baseline model.

Benzer Tezler

  1. Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models

    Üç boyutlu yüz modellerinden elde edilen geometri görüntüleri kullanılan derin öğrenme tabanlı üç boyutlu yüz ifadelerini tanıma

    NEŞE GÜNEŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  2. Kablosuz haberleşme için uçtan uca otokodlayıcı tasarımı

    End to end autoencoder design for wireless communication

    MUSTAFA BAYRAM AYAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET ERTUĞRUL ÇELEBİ

  3. Using deep learning based classification algorithm to detect faults in turbine engines

    Türbin motorlarındaki hataları tespit etmek için derin öğrenme tabanlı sınıflandırma algoritması kullanımı

    ALİ AL-TAİE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilişim Teknolojileri Mühendisliği Ana Bilim Dalı

    PROF. DR. OSMAN NURİ UÇAN

  4. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK