Geri Dön

Örüntü tanıma yöntemleri kullanarak konuşmacı bağımlı ayrışık sözcük tanıma

Speaker dependent isolated word recognition using pattern recognition techniques

  1. Tez No: 397033
  2. Yazar: BETÜL KESKİN
  3. Danışmanlar: DOÇ. DR. ÖZGÜL SALOR DURNA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 103

Özet

Bu tez çalışması kapsamında, sesli komut uygulamalarına yönelik, örüntü tanıma tekniklerine dayalı bir ayrışık sözcük tanıma sistemi geliştirilmiştir. Mevcut konuşma tanıma algoritmalarından farklı olarak, geliştirilen yazılımın, kumanda gibi cihazların üzerinde çalışabilecek hızlı ve basit bir yapıda olması hedeflendiğinden dolayı, örüntü tanıma teknikleri kullanılarak konuşmacı bağımlı, metne dayalı, ayrışık sözcük tanıma için bir yazılım geliştirilmiş ve bu yazılımın başarıyla çalıştığı gösterilmiştir. Konuşma tanımadaki hız problemine çözüm aranan bu süreçte, öznitelik olarak Mel Frekans Kepstral Katsayıları (Mel Frequency Cepstral Coefficients - MFCC) kullanılmıştır. Bu öznitelikler, Ana Bileşen Çözümleme (Principle Component Analysis - PCA), Tekil Değer Ayrıştırma (Singular Value Decomposition – SVD) ve Lineer Diskriminant Analizi (Linear Discriminant Analysis - LDA) yöntemleri ile dönüştürülmüş ve dönüştürülmüş öznitelikler Öklid, Manhattan ve Chebyshev uzaklık belirleme yöntemleriyle değerlendirilerek, ayrışık sözcük tanıma gerçekleştirilmiştir. Konuşma tanımanın pek çok uygulaması için çok yaygın olarak ve başarıyla kullanılan bir yöntem olan Saklı Markov Modelleri (Hidden Markov Models - HMM) ile önerilen yöntemler ayrışık sözcük tanıma başarımı ve hız açısından karşılaştırılmıştır. Herhangi bir bilgisayar uygulaması için kullanılabilecek dokuz komut sözcük anahtar sözcükler olarak belirlenmiş ve bu sözcüklerin tanınması ile bu kümenin dışındaki sözcüklerin belirlenmesi, 13'ü kadın 7'si erkek 20 geniş yaş dağılımına sahip konuşmacı kullanılarak, yüksek bir başarı ile sağlanmıştır. LDA kullanılarak ve Öklid uzaklık belirleme yöntemi ile en yüksek tanıma başarımı elde edilmiş ve bu başarımın sadece dokuz sözcük ile %97,22 olduğu gösterilmiştir. Üç liste dışı sözcüğün tanınması dahil edildiğinde ise en yüksek başarım LDA ve Manhattan uzaklık ölçütü ile %90,00 olarak elde edilmiştir. Hız olarak karşılaştırıldığında HMM yöntemi ile sözcük tanıma yaklaşık 36 milisaniye sürerken, önerilen yöntemle bu süre 0,5 - 0,6 milisaniye olmuştur. Herhangi bir konuşmacının sisteme dahil edilebilmesi için bir ara yüz oluşturulmuş ve bu ara yüz ile üç kez okuma ile eğitim yapılabilmekte ve yeni konuşmacı için sistem çalışmaya başlamaktadır.

Özet (Çeviri)

In this thesis work, an isolated word recognition system based on pattern recognition techniques has been developed for speech-command applications. Different from the common speech recognition algorithms, a speaker-dependent and text-dependent isolated word recognition software based on pattern recognition techniques has been developed, since the target is to obtain a fast and simple software to work with simple devices such as remote controls. The developed isolated word recognition system has been shown to operate successfully. Mel Frequency Cepstral Coefficients (MFCC) are used as features, where the ultimate aim is to obtain a fast isolated word recognizer. These features have been transformed with Principle Component Analysis (PCA), Singular Value Decomposition (SVD) and Linear Discriminant Analysis (LDA) methods separately and the transformed features have been evaluated by Euclidean, Manhattan and Chebyshev distance measures to perform the isolated word recognition task. The proposed methods are compared with a baseline system using Hidden Markov Models (HMM), which are commonly and successfully used for many speech recognition applications, in terms of recognition performance and speed. Nine command words that can be used in any software application, have been defined as keywords and recognition these words and three other out-of-vocabulary words have been recognized with high performance based on a speaker set of 20, 13 women and 7 men, with a highly distributed age range. The highest recognition performance has been obtained using LDA and Euclidean distance measures and this success has been shown to be 97,22% with only the nine words. When the three out-of-vocabulary words are included, the highest performance has been obtained as 90.00% with the LDA and Manhattan distance measure. In terms of computational complexity, word recognition takes 36 miliseconds with HMM method, while it takes 0,5 - 0,6 miliseconds with the proposed algorithm. An interface to make the system operate for a new speaker has been developed, which requires three successive recordings of the vocabulary for training, and the system starts to work with the new speaker with the help of the developed interface.

Benzer Tezler

  1. İleri istatistiksel yöntemler kullanarak rüzgârdan üretilen elektriksel gücün tahmini

    Wind-electric power forecast using advanced statistical methods

    SERKAN BUHAN

    Doktora

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik MühendisliğiHacettepe Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. IŞIK ÇADIRCI

  2. İnternet servis ve kaynakları üzerinden işlenmiş veri sağlayan bir platform geliştirilmesi

    Developing a platform that supplies processed information from internet resources and services

    NİCAT SÜLEYMANOV

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

  3. Çoklu yeniden ayarlabilir çok girişli çok çıkışlı sistemlerde dizayn ve performans analizi

    Multi reconfigurable multiple input multiple output(mimo):Design and performance analysis

    EKİM KURTULMAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik MühendisliğiTOBB Ekonomi ve Teknoloji Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İSRAFİL BAHÇECİ

  4. Spatio-temporal structuration of art and cultural events mediated urban experience in Beyoglu

    Beyoğlu'nda sanat ve kültür etkinlikleri aracılığı ile şekillenen kentsel deneyimin zaman-mekânsal yapılanışı

    GÜZİN YELİZ KAHYA

    Doktora

    İngilizce

    İngilizce

    2015

    Şehircilik ve Bölge PlanlamaOrta Doğu Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    DOÇ. DR. ANLI ATAÖV DEMİRKAN

  5. Vision-based detection and distance estimation of micro unmanned aerial vehicles

    Mikro insansız hava araçlarının bilgisayarlı görme tabanlı algılanması ve mesafe kestirimi

    FATİH GÖKÇE

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖKTÜRK ÜÇOLUK