Geri Dön

Speaker adaptation with minimal data in statistical speech synthesis systems

İstatistiksel ses sentezi sistemlerinde çok az veri ile konuşmacıya uyarlanma yöntemleri

  1. Tez No: 371123
  2. Yazar: AMİR MOHAMMADİ
  3. Danışmanlar: YRD. DOÇ. DR. CENK DEMİROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Özyeğin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 60

Özet

İstatistiksel ses sentezi (İSS) sistemleri birkaç dakikalık uyarlama verisi kullanarak hedef konuşmacının sesine uyarlama yapabilme yeteneğine sahiptir. Uyarlama için gereken konuşma sürelerini daha da aşağıya, birkaç saniyeye, düşürmek için geliştirilen uyarlama algoritmaları, teknolojinin tüketici elektroniği gibi gerçek hayattaki uygulamalarda yaygınlaşmasında önemli etkiye sahip olabilir. Bu tarz hızlı uyarlamayı başarmanın geleneksel yöntemi özses tekniğidir ki konuşma tanımada iyi çalışmaktadır fakat istatistiksel ses sentezinde algısal artifeksler ürettiği bilinmektedir. Burada, hem temel özses uyarlama algoritmasının kalite problemini giderebilecek hem de asgari veri kullanarak konuşmacı uyarlamayı sağlayacak üç yöntem önerdik. Birinci yöntemimiz uyarlama algoritmasını, artifeksleri azaltmak için konuşmacı uzayında realistik doğrultularda hareket ettirmek amacıyla sınırlamak için önerdiğimiz Bayes özses yaklaşımının kullanımına dayanan yöntemdir. İkinci metodumuz ise hedef konuşmacıya yakın, önceden eğitilmiş referans konuşmacıları bulmaya ve o referans konuşmacı modellerini ikinci bir özses uyarlama iterasyonunda kullanmaya dayanır. Her iki teknik de nesnel testlerde temel özses metodundan önemli ölçüde daha iyi sonuçlar verdi. Benzer şekilde, her ikisi de temel özses metoduyla kıyaslandığında öznel testlerde ses kalitesini arttırdı. Üçüncü metodda, önerilen özses metodu ile son teknoloji doğrusal regresyon tekniğinin ardışık kullanımının uyarım özniteliklerinin uyarlanmasını geliştirdiği görüldü.

Özet (Çeviri)

Statistical speech synthesis (SSS) systems have the ability to adapt to a target speaker with a couple of minutes of adaptation data. Developing adaptation algorithms to further reduce the number of adaptation utterances to a few seconds of data can have substantial effect on the deployment of the technology in real life applications such as consumer electronics devices. The traditional way to achieve such rapid adaptation is the eigenvoice technique which works well in speech recognition but known to generate perceptual artifacts in statistical speech synthesis. Here, we propose three methods to both alleviate the quality problems of the baseline eigenvoice adaptation algorithm while allowing speaker adaptation with minimal data. Our first method is based on using a Bayesian eigenvoice approach for constraining the adaptation algorithm to move in realistic directions in the speaker space to reduce artifacts. Our second method is based on finding pre-trained reference speakers that are close to the target speaker and utilizing only those reference speaker models in a second eigenvoice adaptation iteration. Both techniques performed significantly better than the baseline eigenvoice method in the objective tests. Similarly, they both improved the speech quality in subjective tests compared to the baseline eigenvoice method. In the third method, tandem use of the proposed eigenvoice method with a state-of-the-art linear regression based adaptation technique is found to improve adaptation of excitation features.

Benzer Tezler

  1. Speaker adaptation with deep learning for text-to-speech synthesis systems

    Metinden konuşma sentezi sistemleri için derin öğrenme ile konuşmacı uyarlama

    ERAY EREN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CENK DEMİROĞLU

  2. Using eigenvoices and nearest-neighbours in HMM-based cross-lingual speaker adaptation with limited data

    Sınırlı veriyle HMM tabanlı çapraz-dil konuşmacı uyarlamasında özses ve en yakın komşu kullanımı

    SEYYED SAEED SARFJOO

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. CENK DEMİROĞLU

  3. Speaker adapted speech synthesis with deep neural networks

    Derin yapay sinir ağları kullanan konuşma sentezi sistemlerinde konuşmacıya uyarlama

    MİRAÇ GÖKSU ÖZTÜRK

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

    DOÇ. DR. CENK DEMİROĞLU

  4. Effects of data duration, model size and session variability on speaker verification performance

    Veri süresi, model büyüklüğü ve oturum değişkenliğinin konuşmacı doğrulama başarımına etkisi

    ERİNÇ DİKİCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik ve Elektronik Mühendisliği Bölümü

    YRD. DOÇ. MURAT SARAÇLAR

  5. Automatic speech recognition system adaptation for spoken lecture processing

    Sözlü ders anlatımlarının işlenmesi için otomatik konuşma tanıma sisteminin uyarlanması

    ENVER FAKHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. MURAT SARAÇLAR

    DR. ÖĞR. ÜYESİ EBRU ARISOY SARAÇLAR