Modeling phoneme durations and fundamental frequency contours in Turkish speech
Türkçe konuşmada sesbirim sürelerinin ve temel frekans eğrimlerinin modellenmesi
- Tez No: 167371
- Danışmanlar: DOÇ.DR. TOLGA ÇİLOĞLU
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Ezgi, entonasyon, süre modelleme, perde eğrisi modelleme, derlem, sınıflandırma ve bağlanım ağaçlan. vn, Duration modeling, fundamental frequency contour modeling, speech database, prosody, intonation, classification and regression trees
- Yıl: 2005
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Bölümü
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 221
Özet
oz TÜRKÇE KONUŞMADA SESBİRİM SÜRELERİNİN VE TEMEL FREKANS EĞRİLERİNİN MODELLENMESİ Öztürk, Özlem Doktora, Elektrik Elektronik Mühendisliği Bölümü Tez Yöneticisi: Doç. Dr. Tolga Çiloğlu Ekim 2005, 202 sayfa Ezgi, konuşmanın süre, vurgu, genlik ve diğer akustik özelliklerinden oluşan, konuşmacının fiziksel ve duygusal durumuna bağlı olarak değişiklikler gösteren nitelikleridir. Sesbirim süreleri ve perde eğrileri, ezginin en önemli bileşenlerinden ikisi olarak kabul edilmektedir. Bu tezde, sesbirim süreleri ve perde eğrileri Türkçe konuşma için modellenmiştir. Birçok ezgi modelleme yöntemi bulunmaktadır. Yapılan son çalışmalarda çoğunlukla derlem-tabanlı yöntemler kullanılmaktadır. Bu çalışma, ezgi öznitelikleri ile perde eğrisi ve sesbirim süreleri arasındaki ilişkiyi meydana çıkarmak için sınıflandırma ve bağlanım (classification and regression) ağaçlan kullanarak derlem-tabanlı çalışmaları içermektedir. Bu çerçevede, istenilen ezgisel ve sesbirimsel içerikte bir derlem kaydedilmiş ve işaretlenmiştir. Dilbilimsel çalışmalar ve yazın araştırmaları doğrultusunda ezgi öznitelikleri derlenmiştir. Karşılıklı bilgi (mutual information) ve bilgi kazancı (information gain) gibi istatistiksel ölçütler kullanılarak, ezgi özniteliklerinin ezgi ile olan ilgileri belirlenmiştir. Perde eğrisi ve sesbirim süresi modelleme çalışmaları bağımsız problemler olarak ele alınmıştır. Sesbirim süreleri bağlanım ağaçlan kullanılarak ileri seçme (forward selection) vıyöntemi ile oluşturulmuş ezgi özniteliklerinden öngörülmüştür. Sesbirim süreleri başarımı artırmak için nicemlenmiştir. Süre aralıklarının ayrı ayrı ele alınabilmesi için iki aşamalı süre modelleme yöntemi öne sürülmüştür. Ortalama karesel hatanın düşürülmesi için öngörülen süreler üzerinde ölçekleme ve öteleme yapılmıştır. Perde eğrisi modelleme iki ayrı çatı altında incelenmiştir. Birinde hece perde eğrileri için vektör nicemleme kullanılarak kod defteri oluşturulmuştur. Hece kodları tümce perdesi öngörümünde kullanılmıştır. Ayrıca, iki farklı sınıflandırma yöntemi kullanılarak hece kodlarının vurgulu ve vurgusuz alt kümeleri belirlenmiş; bu bilgi kullanılarak perde vurgusu öngörülmüştür. Bu bölümde elde edilen deneyimler diğer yaklaşım için başlangıç olmuştur. Algısal önemi olan ya da perde vurgusu alan hecelerin belirlenmesi için bir algoritma geliştirilmiştir. Perde vurgusu alan hecelerin perde eğimleri öngörülmüştür. Süre ve eğim öngörüleri kullanılarak tümce perdeleri elde edilmiştir. Sesbirim süreleri ve perde eğrisi modelleme başarından nicel olarak değerlendirilmiştir. Sayısal değerlendirmeler mutlak hata, etkin hata ve ilinti gibi istatistiksel ölçütlerle gerçekleştirilmiştir. Ayrık işaret kestirimlerinde ise kappa katsayıları ve doğru kestirim oranlan kullanılmıştır.
Özet (Çeviri)
ABSTRACT MODELING PHONEME DURATIONS AND FUNDAMENTAL FREQUENCY CONTOURS IN TURKISH SPEECH Öztürk, Özlem Ph.D., Department of Electrical and Electronics Engineering Supervisor: Assoc. Prof. Dr. Tolga Çiloğlu October 2005, 202 pages The term prosody refers to characteristics of speech such as intonation, timing, loudness, and other acoustical properties imposed by physical, intentional and emotional state of the speaker. Phone durations and fundamental frequency contours are considered as two of the most prominent aspects of prosody. Modeling phone durations and fundamental frequency contours in Turkish speech are studied in this thesis. Various methods exist for building prosody models. State-of-the-art is dominated by corpus-based methods. This study introduces corpus-based approaches using classification and regression trees to discover the relationships between prosodic attributes and phone durations or fundamental frequency contours. In this context, a speech corpus, designed to have specific phonetic and prosodic content has been recorded and annotated. A set of prosodic attributes are compiled. The elements of the set are determined based on linguistic studies and literature surveys. The relevances of prosodic attributes are investigated by statistical measures such as mutual information and information gain. Fundamental frequency contour and phone duration modeling are handled as independent problems. Phone durations are predicted by using regression trees where the IVset of prosodic attributes is formed by forward selection. Quantization of phone durations is studied to improve prediction quality. A two-stage duration prediction process is proposed for handling specific ranges of phone duration values. Scaling and shifting of predicted durations are proposed to minimize mean squared error. Fundamental frequency contour modeling is studied under two different frameworks. One of them generates a codebook of syllable-fundamental-frequency-contours by vector quantization. The codewords are used to predict sentence fundamental frequency contours. Pitch accent prediction by two different clustering of codewords into accented and not-accented subsets is also considered in this framework. Based on the experience, the other approach is initiated. An algorithm has been developed to identify syllables having perceptual prominence or pitch accents. The slope of fundamental frequency contours are then predicted for the syllables identified as accented. Pitch contours of sentences are predicted using the duration information and estimated slope values. Performance of the phone duration and fundamental frequency contour models are evaluated quantitatively using statistical measures such as mean absolute error, root mean squared error, correlation and by kappa coefficients, and by correct classification rate in case of discrete symbol prediction.
Benzer Tezler
- Türkçe ağızların tanınmasında derin öğrenme tekniğinin kullanılması
Identification of Turkish dialects using deep learning techniques
GÜLTEKİN IŞIK
Doktora
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HARUN ARTUNER
- Keyword spotting using hidden markov models
Saklı markov modelleri kullanılarak anahtar kelime yakalama
ŞEVKET DURAN
Yüksek Lisans
İngilizce
2001
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
DOÇ. DR. LEVENT M. ARSLAN
- Duration analysis and modelling for Turkish text-to-speech synthesis
Türkçe ses sentezi için süre analizi ve modelleme
ÖMER ŞAYLİ
Yüksek Lisans
İngilizce
2002
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. LEVENT M. ARSLAN
- Phoneme class based adaptation for mismatch acoustic modeling of distant noisy speech
Uzak gürültülü konuşmanın uyumsuz akustik modellenmesi için fonem sınıfı tabanlı uyarlama
SEÇKİN ULUSKAN
Yüksek Lisans
İngilizce
2012
Elektrik ve Elektronik MühendisliğiThe University of Texas at DallasElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. JOHN H. L. HANSEN
- Türkçe otomatik konuşma tanıma ve işaret diline çevirme
Automatic speech recognition and sign language translation for Turkish
BURAK TOMBALOĞLU
Doktora
Türkçe
2021
Elektrik ve Elektronik MühendisliğiBaşkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HAMİT ERDEM