Geri Dön

Modeling phoneme durations and fundamental frequency contours in Turkish speech

Türkçe konuşmada sesbirim sürelerinin ve temel frekans eğrimlerinin modellenmesi

  1. Tez No: 167371
  2. Yazar: ÖZLEM ÖZTÜRK
  3. Danışmanlar: DOÇ.DR. TOLGA ÇİLOĞLU
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Ezgi, entonasyon, süre modelleme, perde eğrisi modelleme, derlem, sınıflandırma ve bağlanım ağaçlan. vn, Duration modeling, fundamental frequency contour modeling, speech database, prosody, intonation, classification and regression trees
  7. Yıl: 2005
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Bölümü
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 221

Özet

oz TÜRKÇE KONUŞMADA SESBİRİM SÜRELERİNİN VE TEMEL FREKANS EĞRİLERİNİN MODELLENMESİ Öztürk, Özlem Doktora, Elektrik Elektronik Mühendisliği Bölümü Tez Yöneticisi: Doç. Dr. Tolga Çiloğlu Ekim 2005, 202 sayfa Ezgi, konuşmanın süre, vurgu, genlik ve diğer akustik özelliklerinden oluşan, konuşmacının fiziksel ve duygusal durumuna bağlı olarak değişiklikler gösteren nitelikleridir. Sesbirim süreleri ve perde eğrileri, ezginin en önemli bileşenlerinden ikisi olarak kabul edilmektedir. Bu tezde, sesbirim süreleri ve perde eğrileri Türkçe konuşma için modellenmiştir. Birçok ezgi modelleme yöntemi bulunmaktadır. Yapılan son çalışmalarda çoğunlukla derlem-tabanlı yöntemler kullanılmaktadır. Bu çalışma, ezgi öznitelikleri ile perde eğrisi ve sesbirim süreleri arasındaki ilişkiyi meydana çıkarmak için sınıflandırma ve bağlanım (classification and regression) ağaçlan kullanarak derlem-tabanlı çalışmaları içermektedir. Bu çerçevede, istenilen ezgisel ve sesbirimsel içerikte bir derlem kaydedilmiş ve işaretlenmiştir. Dilbilimsel çalışmalar ve yazın araştırmaları doğrultusunda ezgi öznitelikleri derlenmiştir. Karşılıklı bilgi (mutual information) ve bilgi kazancı (information gain) gibi istatistiksel ölçütler kullanılarak, ezgi özniteliklerinin ezgi ile olan ilgileri belirlenmiştir. Perde eğrisi ve sesbirim süresi modelleme çalışmaları bağımsız problemler olarak ele alınmıştır. Sesbirim süreleri bağlanım ağaçlan kullanılarak ileri seçme (forward selection) vıyöntemi ile oluşturulmuş ezgi özniteliklerinden öngörülmüştür. Sesbirim süreleri başarımı artırmak için nicemlenmiştir. Süre aralıklarının ayrı ayrı ele alınabilmesi için iki aşamalı süre modelleme yöntemi öne sürülmüştür. Ortalama karesel hatanın düşürülmesi için öngörülen süreler üzerinde ölçekleme ve öteleme yapılmıştır. Perde eğrisi modelleme iki ayrı çatı altında incelenmiştir. Birinde hece perde eğrileri için vektör nicemleme kullanılarak kod defteri oluşturulmuştur. Hece kodları tümce perdesi öngörümünde kullanılmıştır. Ayrıca, iki farklı sınıflandırma yöntemi kullanılarak hece kodlarının vurgulu ve vurgusuz alt kümeleri belirlenmiş; bu bilgi kullanılarak perde vurgusu öngörülmüştür. Bu bölümde elde edilen deneyimler diğer yaklaşım için başlangıç olmuştur. Algısal önemi olan ya da perde vurgusu alan hecelerin belirlenmesi için bir algoritma geliştirilmiştir. Perde vurgusu alan hecelerin perde eğimleri öngörülmüştür. Süre ve eğim öngörüleri kullanılarak tümce perdeleri elde edilmiştir. Sesbirim süreleri ve perde eğrisi modelleme başarından nicel olarak değerlendirilmiştir. Sayısal değerlendirmeler mutlak hata, etkin hata ve ilinti gibi istatistiksel ölçütlerle gerçekleştirilmiştir. Ayrık işaret kestirimlerinde ise kappa katsayıları ve doğru kestirim oranlan kullanılmıştır.

Özet (Çeviri)

ABSTRACT MODELING PHONEME DURATIONS AND FUNDAMENTAL FREQUENCY CONTOURS IN TURKISH SPEECH Öztürk, Özlem Ph.D., Department of Electrical and Electronics Engineering Supervisor: Assoc. Prof. Dr. Tolga Çiloğlu October 2005, 202 pages The term prosody refers to characteristics of speech such as intonation, timing, loudness, and other acoustical properties imposed by physical, intentional and emotional state of the speaker. Phone durations and fundamental frequency contours are considered as two of the most prominent aspects of prosody. Modeling phone durations and fundamental frequency contours in Turkish speech are studied in this thesis. Various methods exist for building prosody models. State-of-the-art is dominated by corpus-based methods. This study introduces corpus-based approaches using classification and regression trees to discover the relationships between prosodic attributes and phone durations or fundamental frequency contours. In this context, a speech corpus, designed to have specific phonetic and prosodic content has been recorded and annotated. A set of prosodic attributes are compiled. The elements of the set are determined based on linguistic studies and literature surveys. The relevances of prosodic attributes are investigated by statistical measures such as mutual information and information gain. Fundamental frequency contour and phone duration modeling are handled as independent problems. Phone durations are predicted by using regression trees where the IVset of prosodic attributes is formed by forward selection. Quantization of phone durations is studied to improve prediction quality. A two-stage duration prediction process is proposed for handling specific ranges of phone duration values. Scaling and shifting of predicted durations are proposed to minimize mean squared error. Fundamental frequency contour modeling is studied under two different frameworks. One of them generates a codebook of syllable-fundamental-frequency-contours by vector quantization. The codewords are used to predict sentence fundamental frequency contours. Pitch accent prediction by two different clustering of codewords into accented and not-accented subsets is also considered in this framework. Based on the experience, the other approach is initiated. An algorithm has been developed to identify syllables having perceptual prominence or pitch accents. The slope of fundamental frequency contours are then predicted for the syllables identified as accented. Pitch contours of sentences are predicted using the duration information and estimated slope values. Performance of the phone duration and fundamental frequency contour models are evaluated quantitatively using statistical measures such as mean absolute error, root mean squared error, correlation and by kappa coefficients, and by correct classification rate in case of discrete symbol prediction.

Benzer Tezler

  1. Türkçe ağızların tanınmasında derin öğrenme tekniğinin kullanılması

    Identification of Turkish dialects using deep learning techniques

    GÜLTEKİN IŞIK

    Doktora

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HARUN ARTUNER

  2. Keyword spotting using hidden markov models

    Saklı markov modelleri kullanılarak anahtar kelime yakalama

    ŞEVKET DURAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2001

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. LEVENT M. ARSLAN

  3. Duration analysis and modelling for Turkish text-to-speech synthesis

    Türkçe ses sentezi için süre analizi ve modelleme

    ÖMER ŞAYLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. LEVENT M. ARSLAN

  4. Phoneme class based adaptation for mismatch acoustic modeling of distant noisy speech

    Uzak gürültülü konuşmanın uyumsuz akustik modellenmesi için fonem sınıfı tabanlı uyarlama

    SEÇKİN ULUSKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Elektrik ve Elektronik MühendisliğiThe University of Texas at Dallas

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. JOHN H. L. HANSEN

  5. Türkçe otomatik konuşma tanıma ve işaret diline çevirme

    Automatic speech recognition and sign language translation for Turkish

    BURAK TOMBALOĞLU

    Doktora

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik MühendisliğiBaşkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HAMİT ERDEM