Geri Dön

A hybrid statistical/unit-selection text-to-speech synthesis system for morphologically rich languages

Morfolojik olarak zengin diller için melez istatistiksel/birim seçmeli metinden konuşma sentezleme sistemi

  1. Tez No: 335571
  2. Yazar: EKREM GÜNER
  3. Danışmanlar: YRD. DOÇ. DR. CENK DEMİROĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Dilbilim, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Linguistics, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: Özyeğin Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Eğitimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Metinden Konuşma Sentezleme (MKS) alanında en yaygın kullanılan iki teknik, Birim Seçmeli MKS (BMKS) ve Saklı Markov Modeli tabanlı MKS (SMKS) teknikleridir. MKS sistemleri son dönemlerde kullanılan en dominant teknik olarak ortaya çıkarken, SMKS sistemleri de gün geçtikçe artan popülaritesi ile öne çıkmaktadır. Her iki sistemin de kendine özgü avantaj ve dezavantajları bulunmaktadır. BMKS sistemleri çok başarılı olmalarına rağmen, dinleyicileri rahatsız eden ani süreksizlikler içermektedirler. SMKS sistemleri ise birim seçme algoritmasının ortaya çıkardığı bu hatalardan yoksundurlar. BMKS sistemleri, kullanılan ses veritabanının büyüklüğüyle orantılı olarak yüksek kalitede ses üretebilmektedir. SMKS sistemleri ise çok küçük bir saklama alanı kullandıklarından, daha yaygın olarak gömülü uygulamalarda tercih edilmektedir. Bu tez çalışmasında, morfolojik olarak zengin diller için, SMKS sistemini temel alan ve veri kullanımını yine makul seviyede tutarak kalitesini arttırmayı hedefleyen bir melez istatistiksel/birim seçmeli MKS sistemi önerilmiştir. Öncelikle, iki sistemin karşılaştırması yapıldıktan sonra, önerilen melez sistemin ana fikri verilmiştir. Daha sonra melez sistem, geliştirilen temel SMKS sistemi ile birlikte ayrıntılı olarak anlatılmıştır. Temel ve melez sistemin performanslarının ölçülmesi için de, subjektif ve objektif testler gerçekleştirilmiştir. Temel sistemin anlaşılabilirlik ve kalite puanlarının, literatürde İngilizce dili için yapılan çalışmalarda rapor edilen değerlerle benzer olduğu görülmüştür. AB tercih testlerinde ise, dinleyicilerin önerilen melez sistemi temel sisteme tercih ettikleri görülmüştür.

Özet (Çeviri)

Two most prominent examples of Text-to-Speech (TTS) systems are Unit Selection based TTS (UTTS) and the Hidden Markov Model (HMM) based TTS (HTTS). UTTS has been the dominant approach of the last decade while HTTS has been increasingly getting more attention from the TTS research community. Both systems have distinct pros and cons. Despite its success, UTTS has some disadvantages such as the sudden discontinuities in speech which cause distraction whereas HTTS lacks of those artifacts. However, UTTS systems offer high quality speech given a huge unit database where the storage is not a problem. On the other hand, the small memory footprint requirement of HTTS systems makes them attractive for embedded devices. Here, a novel hybrid statistical/unit selection TTS system for morphologically rich languages is proposed. The proposed hybrid system aims at improving the quality of the baseline HTTS system while keeping the memory footprint small. First, the motivation of the proposed hybrid system is given after the comparison of both systems. Then the proposed hybrid system is presented along with the details of the baseline HTTS system. In order to assess the performances of proposed and baseline systems, the subjective and objective tests are conducted. Intelligibility and quality scores of the baseline system are comparable to the MOS scores of English reported in the Blizzard Challenge tests. Results of the AB preference tests revealed the listeners' preference for the hybrid system over the baseline system.

Benzer Tezler

  1. Hybridization of probabilistic graphical models and metaheuristics for handling dynamism and uncertainty

    Değişimin ve belirsizliğin ele alınması için olasılıksal çizgesel biçelerin ve sezgi-üstlerinin melezleştirilmesi

    GÖNÜL ULUDAĞ

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞE ŞİMA UYAR

  2. İmalat sistemlerinin tasarlanması ve öncelik kurallarının belirlenmesinde yapay sinir ağlarının kullanılması

    Başlık çevirisi yok

    TARIK ÇAKAR

    Doktora

    Türkçe

    Türkçe

    1997

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. AYHAN TORAMAN

  3. Taşıtlarda iç gürültü değerlendirmesi

    Interior noise assessment in vehicles

    MESUT ERTUĞRUL

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. İSMAİL AHMET GÜNEY

  4. Hybrid probabilistic timing analysis with extreme value theory and copulas

    Uç değer teoremi ve kopula ile hibrid olasılıksal zamanlama analizi

    LEVENT BEKDEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CÜNEYT FEHMİ BAZLAMAÇCI

  5. Muş Devlet Hastanesi hasta radyolojik görüntü sayılarının, bir zaman serisi olarak derin öğrenme yöntemleri kullanılarak gelecek tahminlerinin yapılması

    Making future predictions of Muş State Hospital patient radiological image numbers as a time series by using deep learning Methods

    ERKAN YALDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMuş Alparslan Üniversitesi

    Nükleer Enerji ve Enerji Sistemleri Ana Bilim Dalı

    DOÇ. DR. ZEYDİN PALA