Geri Dön

Konuşmacı tanımada map uyarlamalı sınıflandırıcılar

Map adapted classifiers for speaker recognition

  1. Tez No: 343145
  2. Yazar: CEMAL HANİLÇİ
  3. Danışmanlar: YRD. DOÇ. FİGEN ERTAŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: Uludağ Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik Mühendisliği Bölümü
  12. Bilim Dalı: Elektronik Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 120

Özet

Konuşmacı tanıma, üzerinde uzun zamandır çalışılan ancak henüz arzu edilen başarım oranlarına erişilememiş zorlayıcı bir örüntü tanıma uygulamasıdır. Güvenlik sistemleri, adli uygulamalar, telefon bankacılığı ve erişim kontrolü gibi birçok alanda kullanılan konuşmacı tanıma sistemlerinin başarımı, veri miktarı, kayıtlardaki gürültü, kayıtlar arasındaki oturum farklılıkları, kullanılan öznitelik vektörleri ve sınıflandırıcı algoritmalar gibi birçok bileşenden kolayca etkilenmektedir. Bu tezde bu bileşenlerin metinden bağımsız konuşmacı tanıma performansına etkileri, güncel ve başarılı sınıflandırma yöntemleri kullanılarak incelenmiştir. Sınıflandırıcı algoritmalar olarak Gauss karşım modeli (GMM), vektör nicemleme (VQ), en büyük ardıl olasılık (MAP) tabanlı (genel arkaplan modeli-UBM) GMM ve VQ (GMM-UBM ve VQ-UBM), Destek Vektör Makineleri (SVM) ve GMM süpervektör (GMM-SV) yöntemleri kullanılmıştır. UBM yönteminin konuşmacı tanımaya etkisi öncelikli olarak incelenmiş olup GMM, VQ, GMM-UBM ve VQ-UBM yöntemleri karşılaştırılmıştır. Konuşmacı tanımada eğitim ve test veri miktarlarının performansa etkileri detaylı olarak incelenmiş olup, GMM-UBM, VQ-UBM, SVM ve GMM-SV yöntemlerinin karşılaştırılması yapılmıştır. En çok kullanılan konuşmacıyı karakterize eden öznitelik vektörlerinden olan Mel-frekansı kepstrum katsayılarının (MFCC) toplamsal gürültü durumunda konuşmacı tanıma performansı incelenmiş olup, toplamsal gürültü nedeniyle tanıma başarımında meydana gelen düşüşü iyileştirmek amacı ile öznitelik çıkarımında değişik yaklaşımlar önerilmiştir. Ayrıca diğer bir popüler öznitelik çıkarma yöntemi olan doğrusal öngörü kepstrum katsayıları (LPCC) ile doğrusal öngörü neticesinde ortaya çıkan hata işaretinin konuşmacının kimliği ile ilgili bilgi içerip içermediği incelenmiştir. Oturum farklılıklarından dolayı skor ve öznitelik seviyesinde meydana gelen negatif etkileri azaltmak amacıyla sırası ile test normalizasyonu (TNorm) ve NAP yöntemleri önerilmiştir. Öznitelik vektör boyutunu azaltarak konuşmacı tanıma performansını iyileştirmek amacı ile temel bileşen analizi (PCA) tabanlı bir öneri sunulmuştur.

Özet (Çeviri)

Speaker recognition is a difficult pattern recognition task which has been focused for decades and the performance is not at the desired levels yet. Speaker recognition, which is used in security systems, forensic application, telephone banking and access control, and its performance depend on various parameters such as data duration, additive noise, session variability, features and modeling technique. In this thesis, the effects of these parameters on text-independent speaker recognition performance are analyzed by utilizing the most recent speaker modeling techniques. Gaussian mixture models (GMM), vector quantization (VQ), maximum a \emph{posteriori} (MAP) adapted GMM and VQ (also known as universal background model - UBM) (GMM-UBM and VQ-UBM), support vector machines (SVM) and GMM supervector (GMM-SV) are the classification techniques used. First, the effect of MAP adaptation on the speaker recognition performance is analyzed and GMM, VQ, GMM-UBM and VQ-UBM methods are compared in terms of recognition accuracy. The effect of training and test data duration on the recognition performance are investigated and the performance comparison of the four modeling algorithm is considered. Mel-frequency cepstral coefficients (MFCC), the most popular feature extraction method, which parameterizes the speaker characteristics is analyzed for the speaker recognition under additive noise contamination and different approaches are proposed against the performance degradation due to additive noise. Another well-known feature extraction method, linear prediction cepstral coefficients (LPCC) are compared with the features extracted from the linear prediction residual error signal. It is shown that residual error contains information about the speaker which is commonly not thought so. To reduce the effect of the channel variability test normalization (TNorm) and nuisance attribute projection (NAP) methods are proposed for the VQ-UBM and SVM based speaker recognition on the score and feature levels, respectively. Finally, local principal component analysis (PCA) based method is proposed for VQ-UBM based speaker recognition which yields better recognition accuracy than the baseline method by reducing the feature dimension.

Benzer Tezler

  1. Phoneme class based adaptation for mismatch acoustic modeling of distant noisy speech

    Uzak gürültülü konuşmanın uyumsuz akustik modellenmesi için fonem sınıfı tabanlı uyarlama

    SEÇKİN ULUSKAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Elektrik ve Elektronik MühendisliğiThe University of Texas at Dallas

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. JOHN H. L. HANSEN

  2. Grafik programlama kullanarak kepstrum analizi ve yapay sinir ağı ile konuşmacı tanıma

    Speaker identification with cepstrum analysis and artificial neural network using graphical programming

    ORHAN ÖZHAN

    Doktora

    Türkçe

    Türkçe

    1999

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. HALİT PASTACI

  3. Application of biometrics to secure access using word recognition by neural networks

    Yapay sinir ağlarıyla kelime tanıma kullanılarak güvenli erişimde biyometri uygulaması

    MUHİTTİN İZGİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Elektrik ve Elektronik MühendisliğiFatih Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ORHAN ÖZHAN

  4. Bir türkçe fonem kümeleme sistemi tasarımı ve gerçekleştirimi

    The Design and implementation of a Turkish speech phoneme clustering systems

    HARUN ARTUNER

    Doktora

    Türkçe

    Türkçe

    1994

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ SAATÇİ

  5. Konuşmacı tanımada ses çözümleme yöntemleri ve adli olaylarda kullanılması

    Speaker voice identification and recognition techniques in criminal cases

    LEVENT BAYRAM

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Adli TıpAnkara Üniversitesi

    Disiplinlerarası Adli Tıp Ana Bilim Dalı

    PROF. DR. İCLAL ERGENÇ