Geri Dön

Effects of root cepstral coefficients on speaker recognition performance over telephone channels

Kök kepstral katsayılarının telefon hatları üzerinde konuşmacı tanıma performansına etkisi

  1. Tez No: 129408
  2. Yazar: MUSTAFA SELVİ
  3. Danışmanlar: PROF. DR. FİKRET GÜRGEN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2002
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Sistem ve Kontrol Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 57

Özet

ÖZET KÖK KEPSTRAL KATSAYILARININ TELEFON HATLARI ÜZERİNDE KONUŞMACI TANIMA PERFORMANSINA ETKİSİ Bu tezde, telefon kanalları üzerinden gürbüz konuşmacı tanıma sistemleri için değişik özellik vektörlerinin deneysel değerlendirmesi yapılmakta ve kök kepstral katsayılarının gürültülü ortamlardaki konuşmacı tanıma sistemlerinde özellik vektör seti olarak kullanımı önerilmektedir. Amaç tüm işlem ve sınıflandırma adımları değişmeden sadece kullanılan özellik vektörünü değiştirerek, vektör setleri arasında kontrollü bir karşılaştırma yapabilmektir. Değerlendirilen özellik vektör setleri; mel-frekansı kepstral katsayıları (MFCC), geniş-bant mel-frekansı kepstral katsayıları, kök kepstral katsayıları (RCC), ve geniş-bant kök kepstral katsayıları (WRCC)'dir. Veritabanı olarak TUBİTAK- UEKAE (Ulusal Elektronik ve Kriptoloji Araştırma Enstitüsü) tarafından telefon hatları üzerinden toplanan Türkçe ses veritabanı olan TURTEL kullanılmıştır. Konuşmacılar 32 elemanlı gauss karışım modelleri (GMM) ile modellenmiştir. Modeller oluşturulurken 93 konuşmacı (56 bay, 37 bayan) tarafından söylenen ortalama 30 sn uzunluğunda ses kayıtları kullanılmıştır. Test için ise, 2-3 sn uzunluğunda kaydedilmiş cümleler kullanılmaktadır. Ayrıca, gerçek ortamlarda karşılaşılabilecek toplamsal gürültüyü simüle edebilmek için test verilerine 20dB, 15dB, ve lOdB SNR seviyelerinde araba gürültüsü ilave edilmiştir. Deneyler hem temiz hem de gürültülü telefon konuşmaları ile yapılmıştır. Sonuçta; temiz veriler kullanıldığında MFCC ve WMFCC özellik vektör setlerinin her ikisi ile de yüzde 95.6 gibi gayet iyi bir tanıma oram elde edilmiştir. Fakat, verilere gürültü eklendiğinde performansları önemli ölçüde düşmüştür. Diğer taraftan, temiz veriler kullanıldığında RCC ve WRCC özellik vektörleriyle ulaşılan konuşmacı tanıma oranları sırasıyla yüzde 93.5 ve yüzde 94.6 olmuştur. Bu oranlar MFCC ve WMFCC katsayılarıyla elde edilen oranlardan iyi olamasa da, gürültülü veriler ile yapılan deneylerde RCC ve WRCC vektörleri kullanılarak çok daha iyi sonuçlar alınmıştır. Değişik gürültü oranları ile elde edilen sonuçlar ayrıntılı olarak raporda sunulmuştur.

Özet (Çeviri)

IV ABSTRACT EFFECTS OF ROOT CEPTRAL COEFFICIENTS ON SPEAKER RECOGNITION PERFORMANCE OVER TELEPHONE CHANNELS In this thesis, we experimentally evaluated four different types of feature vectors for their noise robustness and proposed RCC coefficients for feature parameters of a speaker recognition system especially in noisy environments. We believe that this is the first time RCC parameters have been used for speaker recognition and this work will be a reference for a further study. The experiments were made using the TURTEL database, a Turkish telephone- speech database collected by TUBITAK-UEKAE (National Research Institute of Electronics and Cryptology) over telephone channels. The goal is to keep all processing and classification steps constant and to vary only the features parameters to allow a controlled comparison. The evaluated feature vector sets are Mel Frequency Cepstral Coefficients (MFCC), Wide-band Mel Frequency Cepstral Coefficients (WMFCC), Root Cepstral Coefficients (RCC), and Wide-band Root Cepstral Coefficients (WRCC). Speakers were modeled using 32-component GMMs (Gaussian Mixture Model). The training data were approximately 30 seconds speech spoken by 93 speakers (56 male, 37 female). After modeling, the system was tested for each speaker with 2-3 seconds recorded sentences. To simulate environmental additive noise, the test data was also degraded with 20dB, 15dB, and lOdB SNR car noise. Then the tests were repeated with the degraded telephone-speech. It has been observed that MFCC and WMFCC feature sets both performed the same recognition accuracy of 95.6 per cent with clean data. In spite of good recognition rates with clean speech, the performances of MFCC and WMFCC sharply decreased with car noise-degraded recordings. On the other hand, with RCC and WRCC feature parameters we achieved 93.5 per cent and 94.6 per cent recognition rates respectively using clean speech. Although these rates are lower than that of MFCC and WMFCC, the results for RCC and WRCC were much better with noisy telephone data.

Benzer Tezler

  1. Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks

    Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz

    AHMET KEMAL YETKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  2. Kök kanal perforasyonu tamir materyallerinin fiber postlar ile rezin simanlar arasında oluşan bağlanma dayanımına etkileri

    Effects of root canal perforation repair materials on bond strength between fiber posts and resin cements

    OĞUZ TAVŞAN

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2019

    Diş Hekimliğiİnönü Üniversitesi

    Endodonti Ana Bilim Dalı

    DOÇ. DR. NESLİHAN ŞİMŞEK

  3. Biberde yüksek sıcaklık stresi altında potasyum sülfatın kökten ve yapraktan uygulamalarının verim ve kalite üzerine etkileri

    Effects of root and foli̇ar appli̇cati̇on of potassi̇um sulfate onyi̇eld and quali̇ty under hi̇gh temperature stress i̇n pepper

    LALE ERSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    ZiraatŞırnak Üniversitesi

    Bahçe Bitkileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YELDEREM AKHOUNDNEJAD

  4. Effects of root mycorrhizal colonization and varied phosphorous supply on cadmium accumulation in rice plants

    Çeltik bitkisinde kök mikorizal kolonizasyonu ve farklı fosfor uygulamalarının kadmiyum birikimi üzerine etkileri

    İDİL ERTEM

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyomühendislikSabancı Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı

    PROF. DR. LEVENT ÖZTÜRK

    PROF. DR. İSMAİL ÇAKMAK

  5. Kök bölgesi sınırlamasının biber bitkisinin gelişimi ve verimine etkileri

    Effects of root zone restriction on growth and yield of pepper plant (Capsicum annuum L.)

    SAKİNE BOLAT

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    ZiraatSüleyman Demirel Üniversitesi

    Tarımsal Yapılar ve Sulama Ana Bilim Dalı

    DOÇ. DR. AHMET ERTEK