Geri Dön

Vowel recognition in neural networks

Başlık çevirisi mevcut değil.

  1. Tez No: 46457
  2. Yazar: HAKAN GÜCÜMOĞLU
  3. Danışmanlar: DOÇ.DR. BÜLENT ÖRENCİK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 1995
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Belirtilmemiş.
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 124

Özet

ÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek viiSUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. viÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek viiSUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. viÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek viiSUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. viÖZET Bu tezin amacı konuşma işaretlerinin incelenmesi ve mevcut tanıma yöntemleri hakkında bilgi vermek ve bunların içinde son günlerde en popüler olan yapay nöral ağlarını kullanarak Türkçe sesli harflerin tanınmasına dayalı bir uygulama yapmaktır. Konuşmanın tanınması modüler bir yapıya sahip olduğundan diğer tanıma yöntemleri ile nöral ağları arasında bir değerlendirme yapmayı mümkün kılmaktadır. Problem genellikle işaretin işlenmesi, işaretin belirgin özelliklerinin çıkartılması, örü karşılaştırılması ve dilin modellenmesi safhalarından oluşur. Dilin modellenmesi kelimeler ve cümle arasında bağıntı kurulmasıdır. Tezde bu kısım göz önüne alınmamıştır. Bu tez 5 bölümden oluşmaktadır. Her bir bölümde yukarıda sözü edilen konuların içine girilmiştir. Bölüm 2 de konuşma teknolojisine bir giriş yapılmış ve insanların ses üretme mekanizması incelenmiştir. Her insanın kendine has bir ses karakteristiği vardır. Bu karakteristikler doğrudan insanın fizyolojik yapısıyla ilgilidir. Yaş, cinsiyet, ses tellerinin yapısı ve ağırlığı, burun ve ağız boşlukları dil, diş ve dudaklar konuşmanın üretilmesi işleminde önemli bir rol oynar. Konuşma işaretinin içinde ses birimi dediğimiz bilgiler kodludur. Bu ses birimleri yukarıda saydığımız ses üretim sistemindeki biyolojik nesnelerin hareketi ile değişir. Ses birimleri ses bölgesinin uyarılmasıyla elde edilir. Ses bölgesi ses tellerinden başlar ve dudaklarda biter. Bu ses bölgesi zamanla değişen bir süzgeç olarak modellenir. Bu süzgecin bir transfer fonksiyonu vardır. Bu transfer fonsiyonunun rezonans frekanslarına konuşma literatüründe formant denilir. Genellikle ses birimlerindeki ilk üç formant! elde ederek ses birimini tanımak mümkündür. Fakat bu formantlar kişiden kişiye değişir, yani sabit olmayıp belirli bir alan içinde hareket ederler. Bu tezde ses birimlerinin formantlannın çıkarılması yerine tam bir spektrumu alınmış ve buna göre inceleme yapılmıştır. Yine bölüm 2 de özellikle ticari alanda çok kullanılan iki yöntemden bahsedilir. Bunlar şablon karşılaştırma ile saklı Markovv modelleridir.Sayısal işarete çevrilen sözcüğün baş ve son kısımları bulunur. Böylece sözcük etraftan gelen gürültülerden ve sessizlik bölgelerinden ayrılır. Bunun için değişik algoritmalar vardır. Genellikle sıfır-geçişler ve enerji seviyeleri kullanılır. Daha sonra sözcük farklı merkezleri olan band geçiren süzgeçlerden geçirilir. Her bir süzgeç çıkışı belli aralıklarla örneklenerek vii

Özet (Çeviri)

SUMMARY This work describes an artificial neural network that recognizes vowels in Turkish when a letter is uttered into a microphone.Vowel training samples are obtained from samples of male-speech. it is used a time- dependent Fourier spectrum to extract features from the speech waveforms. An anti-alias low-pass filter pre-filtered the speech signals. These signals are then digitized to 8 bits with a 11025Hz sampling frequency via sound blaster card installed to PC. A Hamming window divided the digitized speech signal into 256 sample segments. The fast Fourier transform algorithm gave 256 complex coefficient for each of the 256 windowed sample segments. The frepuency range is divided from 200Hz to 5kHz into 16 regions. The range 200Hz to 3kHz is divided into 12 equal regions but 3kHz to 5kHz is divided four equal regions. Six Fourier coefficients represented each region in the range 200Hz to 3kHz. Thirteen Fourier coefficients represented each region in the range 3kHz to 5kHz. Average power spectra is calculated över each region to form a 16 dimensional pattem vector. 16 dimensional phoneme pattem is produced by repeatedly sliding the Hamming window by 128 samples. These pattem vector are presented to ali the neuron in Self-Oganizing Map. This map uses a 70 neuron net, 7 rows of 10 neurons organized in a hexagonal pattem. Each neuron has a 16-value weight vector, m(t) = m-ı, m2,...,mıe. The traing process starts with the weights of the neurons being set to arbitrary, randomly selected values. Given the first training vector x(0), the first task is to find the neuron with the best matching weight. This done by calculating the vector difference between the input an each of the weights. Euclidean distance is used to measure the difference of two vectors. The winning neuron.c, is found for which the Euclidean distance from the first input vector is a minimum. Self-Organizing Map is time depended in two ways. The neigbourhood of the winning neuron is made to shrink with time. Second, the amount by which the weights in the neigbourhood are changed is made to decrease with time. vi

Benzer Tezler

  1. Yapay sinir ağı ile sesli-sessiz harflerin tespiti ve hece ölçüsünde ses-metin senkronizasyonu

    Identification of vowel-non vowel letter with artificial neural network and sound-text synchronization at syllable level

    HALİL İBRAHİM BAYAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTokat Gaziosmanpaşa Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MÜRSEL ÖNDER

  2. Türk dili için konuşma üretme

    Başlık çevirisi yok

    NİHAL ALICI

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. EŞREF ADALI

  3. Yapay sinir ağları kullanılarak Türkçe'deki sesli harflerin tanınması

    Başlık çevirisi yok

    SEYDİ VAKKAS ÜSTÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    1997

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. HALİT PASTACI

  4. Derin öğrenme kullanarak konuşma bölütlerinin tespiti için optimal özellik parametre kümesi belirleme

    Determining optimal feature parameter set for detection of speech segments using deep learning

    ÖZLEM BATUR DİNLER

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NİZAMETTİN AYDIN

  5. Sınıf içi ve sınıflar arası dağılımlardan elde edilen ölçütlerin birleştirilerek fonem tanımada kullanılması

    Combining criteria obtained from within and between class scatters for phoneme recognition

    MEHMET KOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Y.DOÇ.DR. RİFAT EDİZKAN