Türkçe konuşma için optimum temel tanım fonksiyonlarının belirlenmesinde yeni bir yaklaşım
A new approach in the determination of optimum signature base functions for Turkish speech
- Tez No: 121195
- Danışmanlar: PROF.DR. B. SIDDIK YARMAN, PROF.DR. OSMAN TONYALI
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2002
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 130
Özet
ÖZET TÜRKÇE KONUŞMA İÇİN OPTİMUM TEMEL TANIM FONKSİYONLARININ BELİRLENMESİNDE YENİ BİR YAKLAŞIM Konuşma işaretlerinin iletilmesi ve depolanması modern iletişim sistemlerinde çok geniş bir alan içerisinde kullanılmaktadır. Bir konuşma işaretinin yeniden oluşturulması için gerekli olan bilgi miktarının azaltılması sayısal konuşma işaretlerinin iletilmesini ve depolanmasını sağlayan sistemlerin kapasitesini belirgin bir biçimde arttırmaktadır. Konuşma işaretlerinin gösterimi veya sıkıştırılması konusunda yapılan geliştirmeler özellikle, konuşma işaretlerinin iletimi ve depolanması için gerekli bilgi miktarım en aza indiren ve konuşma işaretlerinin yüksek kalitede yeniden oluşturulmasını sağlayan yeni algoritmalar üzerinde yoğunlaşmıştır. Bu tezde, konuşma işaretlerinin modellenmesine veya yeniden oluşturulmasına yönelik yeni bir yöntem sunulmuştur. Geliştirilen yöntemin en belirgin özelliği, herhangi bir konuşma işaretinin, konuşmacıdan ve söz konusu konuşma işaretinden bağımsız olarak aynı dildeki veya başka bir dildeki konuşma işaretinden üretilebilmesidir. Ayrıca, yeniden oluşturma sırasında duyma kalitesine bağlı olarak yüksek bir sıkıştırma oram elde edilebilmektedir. Geliştirilen yöntemde ses ya da konuşma işaretlerinin yeniden oluşturulmasında kullanılmak üzere yine ses ve konuşma işaretlerinden yararlanarak elde edilen iki vektör VIIIkümesi oluşturulmaktadır. Bu iki vektör kümesi, Önceden Tanımlı Fonksiyon Bankaları adı ile tanımlanmaktadırlar. Herhangi bir konuşmacıya ilişkin herhangi bir dildeki konuşma işareti yine herhangi bir konuşma işareti için oluşturulmuş olan Önceden Tanımlı Fonksiyon Bankaları'nda yeralan vektörlerin kullanılması ile yeniden oluşturulmaktadır. Konuşma işaretleri tam olarak durağan değildirler. Bu nedenle, konuşma işaretleri gerek Önceden Tanımlı Fonksiyon Bankaları oluşturulurken gerekse yeniden oluşturulacak olan özgün konuşma işaretine ilişkin bazı değişkenlerin elde edilmesi sırasında durağan kabul edilebilecekleri uygun ve eşit uzunluktaki çerçevelere bölünmektedirler. Başka bir deyişle bu çalışmada konuşma işaretleri,“i'' çerçeve indisi ve Xi(t) herhangi bir çerçeve olmak üzere; Xi{t) « Cw, (0vi (0 biçiminde modellenmişlerdir. Bu modelde vi(t) Ses Fonksiyonu, wi(t) Ağırlık Fonksiyonu olarak tanımlanmış ve C, Çerçeve Ölçekleme Katsayısı olarak adlandırılmıştır. Bu tezde geliştirilen yöntemde, V = {vk(t)} ve W = {wr(t)} kümeleri, herhangi bir konuşma işaretini betimlemek için kullanılacak olan Önceden Tanımlı Fonksiyon Bankaları'nı oluşturmaktadır. Önceden Tanımlı Fonksiyon Bankaları' nın {vk(f)}, {wr(0} çiftleri olarak adlandırılan en iyi (optimum) biçimleri En Küçük Kareler (Least Mean Square) anlamında oluşturulmaktadırlar. Yeniden oluşturma sırasında herbir çerçevenin oluşturulmasında kullanılan Önceden Tanımlı Fonsiyon Bankalar'ndaki ses ve ağırlık vektörlerinin indisleri ve uygun biçimde hesaplanacak olan bir çerçeve ölçekleme katsayısı çerçeveyi tamamen belirli duruma getirmiş olacaktır. Böylece, konuşma işaretinin her bir çerçevesi, Önceden Tanımlı Fonksiyon Bankaları'nın ”k“ ve ”r" indisleri ve bir çerçeve ölçekleme katsayısı terimleri cinsinden açıklanmaktadır. Önceden Tanımlı Fonksiyon Bankaları her bir haberleşme IXnoktasında içerilmekte ve iletim bandında oldukça tasarruf elde edilmektedir. İleride gösterileceği üzere yeni yöntem belirgin bir veri sıkıştırması ve ses kalitesi sağlamaktadır. Ayrıca yöntemin başarımının yeniden oluşturmanın konuşma işaretine ve konuşmacıya bağımlı olmaksızın yapılmasından elde edildiği düşünüldüğünde yöntemin bir kişiye ya da bir dile ilişkin Temel Tanım Bankalarının elde edilmesinde kullanılabileceği açıkça görülmektedir. X
Özet (Çeviri)
SUMMARY A NEW APPROACH IN THE DETERMINATION OF OPTIMUM SIGNATURE BASE FUNCTIONS FOR TURKISH SPEECH The transmission and storage of speech are widespread in modern communications systems. Reducing the amount of information required to faithfully reproduce a speech signal can significantly increase the capacity of digital speech transmission and storage systems. The field of speech representation or compression is dedicated to finding new, more efficient ways of reducing transmission or storage rates for speech while maintaining high quality in the reconstructed signal. In this thesis, a new method to model speech signals by means of“Predefined Functional Bases”is presented. The most significant properly of this method is to generate any speech signal independent from any person or any speech signal. Furthermore, the new method provides substantial compression ratio with respect to hearing quality. In the method two vector sets are constructed in order to reconstruct of speech signals. These vector sets are called Predefined Functional Banks-PFB. xc yükseköğretim kurumj MKDMAlflASYON MEBKE£İ XIThe speech signals for any person or any language are reconstructed by using Predefined Functional Banks. Speech signals are not exactly stationary. Therefore, in this work, on a frame basis, speech signals (Xt(t)) are modeled by the form of Jj^wCjWj^v^f). In this model, v,(t) is defined as Voice Function, wt(t) is referred to as Weight Function and Ct is called the Frame-Scaling Coefficient (FSC). It has been demonstrated that the sets V = {vk(t)} and W = {wr(t)} constitute“Predefined Functional Bases or Banks (PFB)”to describe any speech signal. Almost optimum forms of (PFB), namely {v*(/)}, {wr(f)} pairs are generated in the Least Mean Square sense (LMS). Thus, speech signal for each frame is described in terms of the two indices“k”and V" of PFB and the frame-scaling coefficient C;. The PFB are stored in each communication node and considerable amount of saving in the transmission band will be obtained. It has been shown that the new modeling method provides significant data compression and speech quality. This method can be extended to obtain Personalized Predefined Signature Functional Banks. XII
Benzer Tezler
- Türkçede ayrık konuşma tanımı
Başlık çevirisi yok
ERCAN ÖLÇER
Yüksek Lisans
Türkçe
1993
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiPROF. DR. EŞREF ADALI
- A continuous speech recognition system for Turkish language based on triphone model
Üçlü ses modelli Türkçe sürekli konuşma tanıma sistemi
FATMA PATLAR
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Kültür ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ERTUĞRUL SAATÇİ
- Turkish morphological disambiguation using multiple conditional random fields
Çoklu koşullu rassal alanlar kullanarak Türkçe biçimbilimsel belirsizlik giderme
RAZIEH EHSANI
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
YRD. DOÇ. GÜLŞEN ERYİĞİT
- Avrupa Topluluğu'nda ulaştırma sektöründe yaşanan sıkıntılar ve üçüncü dünya ülkelerinin uyum sorunları, Türkiye örneği
Başlık çevirisi yok
ÖMER CAN KURTULDU
Yüksek Lisans
Türkçe
1994
Ulaşımİstanbul ÜniversitesiAvrupa Topluluğunun Ekonomik Yapısı Ana Bilim Dalı
PROF. DR. GÜLTEN KAZGAN
- Mobil haberleşme sistemlerinde konuşma kodlama
Başlık çevirisi yok
TÜRKER BİRSEN
Yüksek Lisans
Türkçe
1996
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiPROF.DR. GÜNSEL DURUSOY