Speaker adapted speech synthesis with deep neural networks
Derin yapay sinir ağları kullanan konuşma sentezi sistemlerinde konuşmacıya uyarlama
- Tez No: 540508
- Danışmanlar: DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN, DOÇ. DR. CENK DEMİROĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2018
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 99
Özet
Metinden-konuşma (TTS) sistemleri, 1970'lerden beri yardımcı bir teknoloji olmuştur. Ticari kullanım on yıllar önce başlamış olmasına rağmen, sentetik konuşma kalitesi hala kayıtlı konuşma kadar iyi değildir. Bu çalışmanın odaklandığı konular- dan biri, TTS sistemlerinde konuşmacı uyarlamasıdır. Konuşmacı uyarlaması, belirli bir TTS modelini, sesi arzu edilen bir konuşmacının ses karakteristiği ile sentezleye- cek şekilde değiştirmektir. Bu çalışmada, transfer öğrenme yöntemlerini içeren derin sinir ağı (DNN) tabanlı yeni konuşmacı uyarlama teknikleri sunulmuştur. Kümelenme yöntemlerini kullanarak çok boyutlu konuşmacı temsil vektörlerini birkaç boyutlu vek- törlerle değiştirdik. Nesnel sonuçlar, parametrelerin sayısında önemli bir düşüşe ek olarak, başlangıç performansına göre uyarlamada belirgin iyileşme olduğunu göstermek- tedir. Bu çalışmanın ikinci yönü, DNN tabanlı post filtreleme yöntemleri üzerinde gerçekleştirilen konuşmacı uyarlamasıdır. Öznel sonuçlar, postfiltre uyarlanmasının, sentetik konuşmanın istenen konuşmacının sesine benzerliğini arttırdığını, ancak kalite- de önemli bir iyileşmenin gözlenmediğini göstermektedir. Bu çalışmada önerilen teknik- ler, DNN mimarisinin ve konuşmacı temsil vektörlerinin seçiminden bağımsızdır, bu nedenle, ileride konuşma tanıma gibi ilgili alanların deneyleri için genişletilebilir ve kullanılabilir.
Özet (Çeviri)
Text-to-speech (TTS) systems have been an assisting technology since the 1970s. Although commercial use has begun decades ago, synthetic speech quality is still not as good as recorded speech. One particular subject of this field focused by this study is the speaker adaptation in TTS systems. Speaker adaptation is the task of modifying a given TTS model such that the modified model synthesizes speech samples with the voice characteristic of a desired speaker. In this study, deep neural network (DNN) based novel speaker adaptation techniques incorporating transfer learning methods are presented. We replaced the high dimensional speaker embeddings with few dimensional vectors using clustering methods. Objective results indicate significant improvement to the adaptation performance compared to baseline techniques in addition to a significant drop in the number of parameters. The second aspect of this study is the speaker adaptation performed on DNN-based postfiltering methods. The subjective results show that the adaptation of postfiltering increases the similarity of synthetic speech to the desired speaker's voice although no significant improvement in quality is observed. The techniques proposed in this study are independent of the choice of the DNN architecture and speaker embedding, thus, can be extended and used for experiments of relevant fields such as speech recognition in the future.
Benzer Tezler
- Speaker adaptation with deep learning for text-to-speech synthesis systems
Metinden konuşma sentezi sistemleri için derin öğrenme ile konuşmacı uyarlama
ERAY EREN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. CENK DEMİROĞLU
- Using eigenvoices and nearest-neighbours in HMM-based cross-lingual speaker adaptation with limited data
Sınırlı veriyle HMM tabanlı çapraz-dil konuşmacı uyarlamasında özses ve en yakın komşu kullanımı
SEYYED SAEED SARFJOO
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. CENK DEMİROĞLU
- Türkçe ve Türk kültürü ders kitaplarının edimbilim açısından ı̇ncelenmesi
An analysis of pragmatic content in Turkish and Turkish culture textbooks
ZEKİYE DURMUŞKAYA
Yüksek Lisans
Türkçe
2023
DilbilimYıldız Teknik ÜniversitesiTürkçe ve Sosyal Bilimler Eğitimi Ana Bilim Dalı
PROF. DR. ALİ FUAT ARICI
DOÇ. DR. YUSUF GÜNAYDIN
- Cross-linguistic and cross-subject investigation of speech acts of refusals
Söz edimlerinden ret ifadelerinin diller arası ve kişiler arası araştırması
ŞEYDA SELEN ÇİMEN
Yüksek Lisans
İngilizce
2009
DilbilimMuğla Üniversitesiİngiliz Dili Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. ŞEVKİ KÖMÜR
- Deep neural network (DNN) based multilingual speaker age estimation
Derin sinir ağı (DSA) tabanlı çok dilli konuşmacı yaş tahmini
MOHAMMED MUNTAZ OSMAN
Doktora
İngilizce
2021
Elektrik ve Elektronik MühendisliğiKocaeli ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. OSMAN BÜYÜK