Geri Dön

Speaker adaptation with deep learning for text-to-speech synthesis systems

Metinden konuşma sentezi sistemleri için derin öğrenme ile konuşmacı uyarlama

  1. Tez No: 721336
  2. Yazar: ERAY EREN
  3. Danışmanlar: DOÇ. DR. CENK DEMİROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Özyeğin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 82

Özet

Tacotron gibi son zamanlarda çıkan harften-spektrograma dönüşüm sistemleriyle gizyazar-gizçözer temelli sinir ağı mimarilarini kullanan uçtan-uca (uu) ses sentezi sistemleri popüler hale geldi. Bu diziden-diziye sistemler, metin işleyen önyüze gerek duymadan mel-spektrogramları üretebilse de; yüklü miktarda, iyi yoğrulmuş, yüksek sinyal-gürültü oranlı ve minimum düzeyde kusurlu etiketli ses verisine ihtiyaç duymaktadır. Bu veri ihtiyacı bilhassa düşük kaynağa sahip diller için uçtan-uca sistemleri inşa etmeyi zor duruma getirmektedir. Dahası, uu sistemlerin birçoğu düşük hafıza ve CPU kaynaklarına sahip sistemler için tasarlanmamıştır. Biz bu çalışmada, geleneksel derin sinir ağı tarafından üretilen konuşma özniteliklerini iyileştiren postfiltrelerin bu sinir ağlarıyla beraber kullanımlarının akustik modellemeye olan etkisini araştırdık. Önerilen sistemler görece gürültülü Wall Street Journal (WSJ) verisiyle eğitilip görülmemiş konuşmacılar için test edildi. İnce postfiltre katmanı minimum veri ile hedef konuşmacının testi için uyarlandı. Birkaç farklı postfiltre mimarisini araştırdık ve bunları taraflı ve tarafsız testlerle karşılaştırdık. Tam-bağlı ve transformer temelli mimariler taraflı testlerde en iyi sonucu verdi. Transformer temelli mimari tarafsız testlerde en iyi sonucu verdi. Ayrıca, diğer mimarilerden hem eğitimde hem de tahminde daha hızlıydı.

Özet (Çeviri)

End-to-end (e2e) speech synthesis systems have become popular with the recent introduction of letter-to-spectrogram conversion systems, such as Tacotron, that use encoder-decoder-based neural architectures. Even though those sequence-to-sequence systems can produce mel-spectrograms from the letters without a text processing frontend, they require substantial amounts of well-massaged, labelled audio data that have high SNR and minimum amounts of artifacts. These data requirements make it difficult to build end-to-end systems from scratch especially for low-resource languages. Moreover, most of the e2e systems are not designed for devices with tiny memory and cpu resources. Here, we investigate using a traditional deep neural network (DNN) for acoustic modelling together with a postfilter that improves the speech features produced by the network. The proposed architectures were trained with the relatively noisy, multi-speaker, Wall Street Journal (WSJ) database and tested with unseen speakers. The thin postfilter layer was adapted with minimal data to the target speaker for testing. We investigated several postfilter architectures and compared them with both objective and subjective tests. Fully-connected and transformer-based architectures performed the best in subjective tests. The transformer-based architecture performed the best in objective tests. Moreover, it was faster than the other architectures both in training and inference speeds.

Benzer Tezler

  1. Speaker adapted speech synthesis with deep neural networks

    Derin yapay sinir ağları kullanan konuşma sentezi sistemlerinde konuşmacıya uyarlama

    MİRAÇ GÖKSU ÖZTÜRK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

    DOÇ. DR. CENK DEMİROĞLU

  2. Significance of intercultural competence development for study-abroad students: Preparing Turkish international sojourners to undertake graduate programs in English L1 countries

    Yurt dışına giden öğrencilerin kültürlerarası yeteneklerinin gelişiminin önemi: Lisansüstü öğrenim görmek üzere anadili İngilizce olan ülkelere giden Türk üğrencilerinin hazırlanması

    FARUK KURAL

    Doktora

    İngilizce

    İngilizce

    2015

    Eğitim ve ÖğretimYeditepe Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    PROF. DR. YASEMİN BAYYURT

  3. Domain adaptation for speech-driven affective facial features synthesis

    Başlık çevirisi yok

    RIZWAN SADIQ

    Doktora

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Prof. Dr. ENGİN ERZİN

  4. Speaker adaptation with minimal data in statistical speech synthesis systems

    İstatistiksel ses sentezi sistemlerinde çok az veri ile konuşmacıya uyarlanma yöntemleri

    AMİR MOHAMMADİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CENK DEMİROĞLU

  5. Using eigenvoices and nearest-neighbours in HMM-based cross-lingual speaker adaptation with limited data

    Sınırlı veriyle HMM tabanlı çapraz-dil konuşmacı uyarlamasında özses ve en yakın komşu kullanımı

    SEYYED SAEED SARFJOO

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CENK DEMİROĞLU