Geri Dön

Konuşmacı ve konuşma tabanlı kaskad biyometrik kontrol sistemi tasarımı

Cascaded biometric control system based on speaker and speech recognition

  1. Tez No: 507202
  2. Yazar: ROAYA SALHALDEN ABDALRAHMAN
  3. Danışmanlar: YRD. DOÇ. DR. NİHAN KAHRAMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyomühendislik, Biyoteknoloji, Elektrik ve Elektronik Mühendisliği, Bioengineering, Biotechnology, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: konuşmacı tanıma, mel frekansı cepstral katsayıları, pitch periyot, Speaker recognition, mel frecquency cepstral cofficients, pitch period
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektronik Bilim Dalı
  13. Sayfa Sayısı: 75

Özet

Bu tezde biyometrik tanımlama sistemlerinden konuşmacı tanıma ve ardından konuşma tanıma ile kontrol edilebilen bir system için gerekli yazılım önerilmiştir. Çalışmanın ilk aşamasında metin bağımsız konuşmacı tanıma işlemi gerçekleştirilmiş, daha sonrasında ise belirlenen kullanıcıya ait şifre kelimenin tanınması ile birleştirilerek hibrid bir ses tanıma işlemi ortaya konmuştur. Böylece konuşmacı ve konuşma tanıma yöntemlerini birlikte kullanan bir ses biyometrik sistemi sunulmaktadır. Bu basamaklı yöntem, Yanlış Pozitif Oranını (FAR) azaltır ve biyometrik tanıma sisteminin güvenliğini artırır. Mel ölçek süzgeç dizisi enerjilerinin kepstral gösteriminin (MFCC), konuşmacı tanıma için istenen öznitelik katkısını sağladığı bilindiğinden, çalışmanın ilk aşamasında bu yöntem kullanılmıştır; ancak MFCC'nin gürültüye eğilimli davranışı yüzünden hızlı bir gürültü bastırma yaklaşımı, yani gürültü kapısı, bu noktada kullanılmaktadır. Sinyalin gürültü oranının (SNR) konuşmanın bölümlenmemiş kısımlarında daha yüksek olması nedeniyle, konuşma sinyalinin bu kısımları kısa zaman enerjisi kullanılarak tespit edilir ve kesilir. Bir karenin kısa süreli enerjisi önceden tanımlanmış bir eşikten düşükse, gürültü olarak kabul edilir ve bu bölüm kaldırılır. Elde edilen MFCC değerleri biyometrik şablon olarak kullanılır. Hedef sisteme yeni giriş geldiğinde kullanılan yöntem ise şablon olarak kaydedilen MFCC'ler ile test verisinin MFCC değerleri arasındaki Euclidian mesafe metriğinin hesaplanması ve belirli bir eşik değerinden büyük olup olmamasına dayanmaktadır. Ses tanıma aşaması ise otokorelasyon ve gelişmiş sinyal işlemeden elde edilen minimum saha frekansına göre yapılır. Tez çalışmasında, kaskad ses tanıma yöntemi için MATLAB tabanlı bir yazılım sunulmuştur. Böylece ses tanıma özelliğini doğruluk, güvenlik ve penetrasyon zorluğu açısından daha iyi tanımladığı gösterilmiştir. Çalışmada elde edilen verilere göre, tanımlama sisteminin verimliliği yaklaşık % 91,2 olarak elde edilmiştir.

Özet (Çeviri)

In this thesis, a hybrid software is proposed for a system that can be controlled by speaker recognition and then speech recognition in biometric identification systems. In the first phase of the study, text-independent speaker recognition was performed, after that it is combined with the recognition of the password of the defined user, and a hybrid voice recognition process is revealed. Therefore a voice biometric system that uses speech and speech recognition methods together is presented. This concatenated method reduces the False Positive Rate (FAR) and increases the safety of the biometric recognition system. Mel Frequency Cepstral Coefficient (MFCC) method is used in the first phase of the study, as it is known that it provides the desired attribute contribution for speaker recognition; however, due to the noise-prone behavior of the MFCC, a fast noise suppression approach, the noise gate is used at this point. Since the signal to noise ratio (SNR) is higher in the unpartitioned portions of the speech, these portions of the speech signal are detected using short time energy and interrupted. If the short-term energy of a square is lower than a pre-defined threshold, it is considered noise and this section is removed. The MFCC values obtained are used as biometric templates. The method used when new entry into the target system is based on whether the Euclidian distance metric between the MFCC values of the test data and the MFCCs recorded as templates is greater than a certain threshold value. The voice recognition phase is based on the minimum field frequency obtained from autocorrelation and advanced signal processing. In this thesis study, MATLAB-based software for cascade voice recognition method is presented. Thus, it has been shown that voice recognition is better defined in terms of accuracy, security and penetration difficulty. According to the data obtained in the study, the efficiency of the identification system was approximately 91.2%.

Benzer Tezler

  1. Voice recognition system with score level fusion methods and embedded system design

    Skor seviyesi füzyon metotları ile ses tanıma sistemi ve gömülü sistem tasarımı

    CİHAN AKIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. MÜRVET KIRCI

  2. Yazılım tabanlı söz sentezleyici tasarımı

    Software based speech synthesiser

    ÖMER ESKİDERE

    Yüksek Lisans

    Türkçe

    Türkçe

    2000

    Elektrik ve Elektronik MühendisliğiUludağ Üniversitesi

    Elektronik Ana Bilim Dalı

    DR. FİGEN ERTAŞ

  3. Discrimination analysis of lip motion features for multimodal speaker identification and speech-reading

    Çok-kipli konuşmacı ve konuşma tanıma uygulamaları için dudak devinim öz niteliklerinde ayırıcı analiz

    HASAN ERTAN ÇETİNGÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2005

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT TEKALP

    YRD. DOÇ. DR. ENGİN ERZİN

  4. Design of speaker diarization with speaker embeddings

    Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı

    MUHAMMET MESUT TORUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilim ve TeknolojiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET SERBES

    DOÇ. DR. GÖKHAN BİLGİN

  5. CNN-based text-independent automatic speaker identification

    Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama

    MANDANA FASOUNAKI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKHAN İNCE