Vowel recognition in neural networks
Başlık çevirisi mevcut değil.
- Tez No: 46457
- Danışmanlar: DOÇ.DR. BÜLENT ÖRENCİK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 1995
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Belirtilmemiş.
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 124
Özet
ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek viiSUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. viÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek viiSUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. viÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek viiSUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. viÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii
Özet (Çeviri)
SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi
Benzer Tezler
- Yapay sinir ağı ile sesli-sessiz harflerin tespiti ve hece ölçüsünde ses-metin senkronizasyonu
Identification of vowel-non vowel letter with artificial neural network and sound-text synchronization at syllable level
HALİL İBRAHİM BAYAT
Yüksek Lisans
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTokat Gaziosmanpaşa ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MÜRSEL ÖNDER
- Türk dili için konuşma üretme
Başlık çevirisi yok
NİHAL ALICI
Yüksek Lisans
Türkçe
1998
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. EŞREF ADALI
- Yapay sinir ağları kullanılarak Türkçe'deki sesli harflerin tanınması
Başlık çevirisi yok
SEYDİ VAKKAS ÜSTÜN
Yüksek Lisans
Türkçe
1997
Elektrik ve Elektronik MühendisliğiYıldız Teknik ÜniversitesiElektrik Mühendisliği Ana Bilim Dalı
PROF. DR. HALİT PASTACI
- Derin öğrenme kullanarak konuşma bölütlerinin tespiti için optimal özellik parametre kümesi belirleme
Determining optimal feature parameter set for detection of speech segments using deep learning
ÖZLEM BATUR DİNLER
Doktora
Türkçe
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN AYDIN
- Sınıf içi ve sınıflar arası dağılımlardan elde edilen ölçütlerin birleştirilerek fonem tanımada kullanılması
Combining criteria obtained from within and between class scatters for phoneme recognition
MEHMET KOÇ
Yüksek Lisans
Türkçe
2006
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. RİFAT EDİZKAN