Örüntü tanıma yöntemleri kullanarak konuşmacı bağımlı ayrışık sözcük tanıma
Speaker dependent isolated word recognition using pattern recognition techniques
- Tez No: 397033
- Danışmanlar: DOÇ. DR. ÖZGÜL SALOR DURNA
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 103
Özet
Bu tez çalışması kapsamında, sesli komut uygulamalarına yönelik, örüntü tanıma tekniklerine dayalı bir ayrışık sözcük tanıma sistemi geliştirilmiştir. Mevcut konuşma tanıma algoritmalarından farklı olarak, geliştirilen yazılımın, kumanda gibi cihazların üzerinde çalışabilecek hızlı ve basit bir yapıda olması hedeflendiğinden dolayı, örüntü tanıma teknikleri kullanılarak konuşmacı bağımlı, metne dayalı, ayrışık sözcük tanıma için bir yazılım geliştirilmiş ve bu yazılımın başarıyla çalıştığı gösterilmiştir. Konuşma tanımadaki hız problemine çözüm aranan bu süreçte, öznitelik olarak Mel Frekans Kepstral Katsayıları (Mel Frequency Cepstral Coefficients - MFCC) kullanılmıştır. Bu öznitelikler, Ana Bileşen Çözümleme (Principle Component Analysis - PCA), Tekil Değer Ayrıştırma (Singular Value Decomposition – SVD) ve Lineer Diskriminant Analizi (Linear Discriminant Analysis - LDA) yöntemleri ile dönüştürülmüş ve dönüştürülmüş öznitelikler Öklid, Manhattan ve Chebyshev uzaklık belirleme yöntemleriyle değerlendirilerek, ayrışık sözcük tanıma gerçekleştirilmiştir. Konuşma tanımanın pek çok uygulaması için çok yaygın olarak ve başarıyla kullanılan bir yöntem olan Saklı Markov Modelleri (Hidden Markov Models - HMM) ile önerilen yöntemler ayrışık sözcük tanıma başarımı ve hız açısından karşılaştırılmıştır. Herhangi bir bilgisayar uygulaması için kullanılabilecek dokuz komut sözcük anahtar sözcükler olarak belirlenmiş ve bu sözcüklerin tanınması ile bu kümenin dışındaki sözcüklerin belirlenmesi, 13'ü kadın 7'si erkek 20 geniş yaş dağılımına sahip konuşmacı kullanılarak, yüksek bir başarı ile sağlanmıştır. LDA kullanılarak ve Öklid uzaklık belirleme yöntemi ile en yüksek tanıma başarımı elde edilmiş ve bu başarımın sadece dokuz sözcük ile %97,22 olduğu gösterilmiştir. Üç liste dışı sözcüğün tanınması dahil edildiğinde ise en yüksek başarım LDA ve Manhattan uzaklık ölçütü ile %90,00 olarak elde edilmiştir. Hız olarak karşılaştırıldığında HMM yöntemi ile sözcük tanıma yaklaşık 36 milisaniye sürerken, önerilen yöntemle bu süre 0,5 - 0,6 milisaniye olmuştur. Herhangi bir konuşmacının sisteme dahil edilebilmesi için bir ara yüz oluşturulmuş ve bu ara yüz ile üç kez okuma ile eğitim yapılabilmekte ve yeni konuşmacı için sistem çalışmaya başlamaktadır.
Özet (Çeviri)
In this thesis work, an isolated word recognition system based on pattern recognition techniques has been developed for speech-command applications. Different from the common speech recognition algorithms, a speaker-dependent and text-dependent isolated word recognition software based on pattern recognition techniques has been developed, since the target is to obtain a fast and simple software to work with simple devices such as remote controls. The developed isolated word recognition system has been shown to operate successfully. Mel Frequency Cepstral Coefficients (MFCC) are used as features, where the ultimate aim is to obtain a fast isolated word recognizer. These features have been transformed with Principle Component Analysis (PCA), Singular Value Decomposition (SVD) and Linear Discriminant Analysis (LDA) methods separately and the transformed features have been evaluated by Euclidean, Manhattan and Chebyshev distance measures to perform the isolated word recognition task. The proposed methods are compared with a baseline system using Hidden Markov Models (HMM), which are commonly and successfully used for many speech recognition applications, in terms of recognition performance and speed. Nine command words that can be used in any software application, have been defined as keywords and recognition these words and three other out-of-vocabulary words have been recognized with high performance based on a speaker set of 20, 13 women and 7 men, with a highly distributed age range. The highest recognition performance has been obtained using LDA and Euclidean distance measures and this success has been shown to be 97,22% with only the nine words. When the three out-of-vocabulary words are included, the highest performance has been obtained as 90.00% with the LDA and Manhattan distance measure. In terms of computational complexity, word recognition takes 36 miliseconds with HMM method, while it takes 0,5 - 0,6 miliseconds with the proposed algorithm. An interface to make the system operate for a new speaker has been developed, which requires three successive recordings of the vocabulary for training, and the system starts to work with the new speaker with the help of the developed interface.
Benzer Tezler
- Improving the performance of speaker identification systems by classifier combination techniques
Konuşmacı tanıma sistemlerinin başarımının sınıflandırıcı birleştirme yöntemleri ile iyileştirilmesi
HAKAN ALTINÇAY
Doktora
İngilizce
2000
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
- El yazısı karakterlerden karakter ve yazıcı tanıma
Character and writer recognition from handwritten characters
ÖNDER KIRLI
Yüksek Lisans
Türkçe
2006
Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. BİLGİNER GÜLMEZOĞLU
- PC ortamında sesli komutları tanıma
Speech recognition of orders on PC
SERKAN DOĞAN
Yüksek Lisans
Türkçe
1999
Elektrik ve Elektronik MühendisliğiMarmara ÜniversitesiElektronik Ana Bilim Dalı
YRD. DOÇ. DR. YILMAZ ÇAMURCU
- Kütle spektrometresi verilerinin analiziyle prostat ve yumurtalık kanserlerinin belirlenmesi
Prostate and ovarian cancer identification by analyzing mass spectrometry data
VEDAT TAŞKIN
Yüksek Lisans
Türkçe
2013
Biyoistatistikİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. TAMER ÖLMEZ
- Türkçe sesler ile konuşmacı kimliğinin doğrulanması/belirlenmesi
Verification/identification of speaker identity with turkish voices
HAVVA ÇELİKTAŞ
Yüksek Lisans
Türkçe
2019
Elektrik ve Elektronik MühendisliğiBursa Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. CEMAL HANİLÇİ