Geri Dön

Örüntü tanıma yöntemleri kullanarak konuşmacı bağımlı ayrışık sözcük tanıma

Speaker dependent isolated word recognition using pattern recognition techniques

  1. Tez No: 397033
  2. Yazar: BETÜL KESKİN
  3. Danışmanlar: DOÇ. DR. ÖZGÜL SALOR DURNA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 103

Özet

Bu tez çalışması kapsamında, sesli komut uygulamalarına yönelik, örüntü tanıma tekniklerine dayalı bir ayrışık sözcük tanıma sistemi geliştirilmiştir. Mevcut konuşma tanıma algoritmalarından farklı olarak, geliştirilen yazılımın, kumanda gibi cihazların üzerinde çalışabilecek hızlı ve basit bir yapıda olması hedeflendiğinden dolayı, örüntü tanıma teknikleri kullanılarak konuşmacı bağımlı, metne dayalı, ayrışık sözcük tanıma için bir yazılım geliştirilmiş ve bu yazılımın başarıyla çalıştığı gösterilmiştir. Konuşma tanımadaki hız problemine çözüm aranan bu süreçte, öznitelik olarak Mel Frekans Kepstral Katsayıları (Mel Frequency Cepstral Coefficients - MFCC) kullanılmıştır. Bu öznitelikler, Ana Bileşen Çözümleme (Principle Component Analysis - PCA), Tekil Değer Ayrıştırma (Singular Value Decomposition – SVD) ve Lineer Diskriminant Analizi (Linear Discriminant Analysis - LDA) yöntemleri ile dönüştürülmüş ve dönüştürülmüş öznitelikler Öklid, Manhattan ve Chebyshev uzaklık belirleme yöntemleriyle değerlendirilerek, ayrışık sözcük tanıma gerçekleştirilmiştir. Konuşma tanımanın pek çok uygulaması için çok yaygın olarak ve başarıyla kullanılan bir yöntem olan Saklı Markov Modelleri (Hidden Markov Models - HMM) ile önerilen yöntemler ayrışık sözcük tanıma başarımı ve hız açısından karşılaştırılmıştır. Herhangi bir bilgisayar uygulaması için kullanılabilecek dokuz komut sözcük anahtar sözcükler olarak belirlenmiş ve bu sözcüklerin tanınması ile bu kümenin dışındaki sözcüklerin belirlenmesi, 13'ü kadın 7'si erkek 20 geniş yaş dağılımına sahip konuşmacı kullanılarak, yüksek bir başarı ile sağlanmıştır. LDA kullanılarak ve Öklid uzaklık belirleme yöntemi ile en yüksek tanıma başarımı elde edilmiş ve bu başarımın sadece dokuz sözcük ile %97,22 olduğu gösterilmiştir. Üç liste dışı sözcüğün tanınması dahil edildiğinde ise en yüksek başarım LDA ve Manhattan uzaklık ölçütü ile %90,00 olarak elde edilmiştir. Hız olarak karşılaştırıldığında HMM yöntemi ile sözcük tanıma yaklaşık 36 milisaniye sürerken, önerilen yöntemle bu süre 0,5 - 0,6 milisaniye olmuştur. Herhangi bir konuşmacının sisteme dahil edilebilmesi için bir ara yüz oluşturulmuş ve bu ara yüz ile üç kez okuma ile eğitim yapılabilmekte ve yeni konuşmacı için sistem çalışmaya başlamaktadır.

Özet (Çeviri)

In this thesis work, an isolated word recognition system based on pattern recognition techniques has been developed for speech-command applications. Different from the common speech recognition algorithms, a speaker-dependent and text-dependent isolated word recognition software based on pattern recognition techniques has been developed, since the target is to obtain a fast and simple software to work with simple devices such as remote controls. The developed isolated word recognition system has been shown to operate successfully. Mel Frequency Cepstral Coefficients (MFCC) are used as features, where the ultimate aim is to obtain a fast isolated word recognizer. These features have been transformed with Principle Component Analysis (PCA), Singular Value Decomposition (SVD) and Linear Discriminant Analysis (LDA) methods separately and the transformed features have been evaluated by Euclidean, Manhattan and Chebyshev distance measures to perform the isolated word recognition task. The proposed methods are compared with a baseline system using Hidden Markov Models (HMM), which are commonly and successfully used for many speech recognition applications, in terms of recognition performance and speed. Nine command words that can be used in any software application, have been defined as keywords and recognition these words and three other out-of-vocabulary words have been recognized with high performance based on a speaker set of 20, 13 women and 7 men, with a highly distributed age range. The highest recognition performance has been obtained using LDA and Euclidean distance measures and this success has been shown to be 97,22% with only the nine words. When the three out-of-vocabulary words are included, the highest performance has been obtained as 90.00% with the LDA and Manhattan distance measure. In terms of computational complexity, word recognition takes 36 miliseconds with HMM method, while it takes 0,5 - 0,6 miliseconds with the proposed algorithm. An interface to make the system operate for a new speaker has been developed, which requires three successive recordings of the vocabulary for training, and the system starts to work with the new speaker with the help of the developed interface.

Benzer Tezler

  1. Improving the performance of speaker identification systems by classifier combination techniques

    Konuşmacı tanıma sistemlerinin başarımının sınıflandırıcı birleştirme yöntemleri ile iyileştirilmesi

    HAKAN ALTINÇAY

    Doktora

    İngilizce

    İngilizce

    2000

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

  2. El yazısı karakterlerden karakter ve yazıcı tanıma

    Character and writer recognition from handwritten characters

    ÖNDER KIRLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2006

    Elektrik ve Elektronik MühendisliğiEskişehir Osmangazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BİLGİNER GÜLMEZOĞLU

  3. PC ortamında sesli komutları tanıma

    Speech recognition of orders on PC

    SERKAN DOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Elektrik ve Elektronik MühendisliğiMarmara Üniversitesi

    Elektronik Ana Bilim Dalı

    YRD. DOÇ. DR. YILMAZ ÇAMURCU

  4. Kütle spektrometresi verilerinin analiziyle prostat ve yumurtalık kanserlerinin belirlenmesi

    Prostate and ovarian cancer identification by analyzing mass spectrometry data

    VEDAT TAŞKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Biyoistatistikİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. TAMER ÖLMEZ

  5. Türkçe sesler ile konuşmacı kimliğinin doğrulanması/belirlenmesi

    Verification/identification of speaker identity with turkish voices

    HAVVA ÇELİKTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik MühendisliğiBursa Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEMAL HANİLÇİ