Effects of root cepstral coefficients on speaker recognition performance over telephone channels
Kök kepstral katsayılarının telefon hatları üzerinde konuşmacı tanıma performansına etkisi
- Tez No: 129408
- Danışmanlar: PROF. DR. FİKRET GÜRGEN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2002
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Sistem ve Kontrol Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 57
Özet
ÖZET KÖK KEPSTRAL KATSAYILARININ TELEFON HATLARI ÜZERİNDE KONUŞMACI TANIMA PERFORMANSINA ETKİSİ Bu tezde, telefon kanalları üzerinden gürbüz konuşmacı tanıma sistemleri için değişik özellik vektörlerinin deneysel değerlendirmesi yapılmakta ve kök kepstral katsayılarının gürültülü ortamlardaki konuşmacı tanıma sistemlerinde özellik vektör seti olarak kullanımı önerilmektedir. Amaç tüm işlem ve sınıflandırma adımları değişmeden sadece kullanılan özellik vektörünü değiştirerek, vektör setleri arasında kontrollü bir karşılaştırma yapabilmektir. Değerlendirilen özellik vektör setleri; mel-frekansı kepstral katsayıları (MFCC), geniş-bant mel-frekansı kepstral katsayıları, kök kepstral katsayıları (RCC), ve geniş-bant kök kepstral katsayıları (WRCC)'dir. Veritabanı olarak TUBİTAK- UEKAE (Ulusal Elektronik ve Kriptoloji Araştırma Enstitüsü) tarafından telefon hatları üzerinden toplanan Türkçe ses veritabanı olan TURTEL kullanılmıştır. Konuşmacılar 32 elemanlı gauss karışım modelleri (GMM) ile modellenmiştir. Modeller oluşturulurken 93 konuşmacı (56 bay, 37 bayan) tarafından söylenen ortalama 30 sn uzunluğunda ses kayıtları kullanılmıştır. Test için ise, 2-3 sn uzunluğunda kaydedilmiş cümleler kullanılmaktadır. Ayrıca, gerçek ortamlarda karşılaşılabilecek toplamsal gürültüyü simüle edebilmek için test verilerine 20dB, 15dB, ve lOdB SNR seviyelerinde araba gürültüsü ilave edilmiştir. Deneyler hem temiz hem de gürültülü telefon konuşmaları ile yapılmıştır. Sonuçta; temiz veriler kullanıldığında MFCC ve WMFCC özellik vektör setlerinin her ikisi ile de yüzde 95.6 gibi gayet iyi bir tanıma oram elde edilmiştir. Fakat, verilere gürültü eklendiğinde performansları önemli ölçüde düşmüştür. Diğer taraftan, temiz veriler kullanıldığında RCC ve WRCC özellik vektörleriyle ulaşılan konuşmacı tanıma oranları sırasıyla yüzde 93.5 ve yüzde 94.6 olmuştur. Bu oranlar MFCC ve WMFCC katsayılarıyla elde edilen oranlardan iyi olamasa da, gürültülü veriler ile yapılan deneylerde RCC ve WRCC vektörleri kullanılarak çok daha iyi sonuçlar alınmıştır. Değişik gürültü oranları ile elde edilen sonuçlar ayrıntılı olarak raporda sunulmuştur.
Özet (Çeviri)
IV ABSTRACT EFFECTS OF ROOT CEPTRAL COEFFICIENTS ON SPEAKER RECOGNITION PERFORMANCE OVER TELEPHONE CHANNELS In this thesis, we experimentally evaluated four different types of feature vectors for their noise robustness and proposed RCC coefficients for feature parameters of a speaker recognition system especially in noisy environments. We believe that this is the first time RCC parameters have been used for speaker recognition and this work will be a reference for a further study. The experiments were made using the TURTEL database, a Turkish telephone- speech database collected by TUBITAK-UEKAE (National Research Institute of Electronics and Cryptology) over telephone channels. The goal is to keep all processing and classification steps constant and to vary only the features parameters to allow a controlled comparison. The evaluated feature vector sets are Mel Frequency Cepstral Coefficients (MFCC), Wide-band Mel Frequency Cepstral Coefficients (WMFCC), Root Cepstral Coefficients (RCC), and Wide-band Root Cepstral Coefficients (WRCC). Speakers were modeled using 32-component GMMs (Gaussian Mixture Model). The training data were approximately 30 seconds speech spoken by 93 speakers (56 male, 37 female). After modeling, the system was tested for each speaker with 2-3 seconds recorded sentences. To simulate environmental additive noise, the test data was also degraded with 20dB, 15dB, and lOdB SNR car noise. Then the tests were repeated with the degraded telephone-speech. It has been observed that MFCC and WMFCC feature sets both performed the same recognition accuracy of 95.6 per cent with clean data. In spite of good recognition rates with clean speech, the performances of MFCC and WMFCC sharply decreased with car noise-degraded recordings. On the other hand, with RCC and WRCC feature parameters we achieved 93.5 per cent and 94.6 per cent recognition rates respectively using clean speech. Although these rates are lower than that of MFCC and WMFCC, the results for RCC and WRCC were much better with noisy telephone data.
Benzer Tezler
- Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks
Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz
AHMET KEMAL YETKİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Kök kanal perforasyonu tamir materyallerinin fiber postlar ile rezin simanlar arasında oluşan bağlanma dayanımına etkileri
Effects of root canal perforation repair materials on bond strength between fiber posts and resin cements
OĞUZ TAVŞAN
Diş Hekimliği Uzmanlık
Türkçe
2019
Diş Hekimliğiİnönü ÜniversitesiEndodonti Ana Bilim Dalı
DOÇ. DR. NESLİHAN ŞİMŞEK
- Biberde yüksek sıcaklık stresi altında potasyum sülfatın kökten ve yapraktan uygulamalarının verim ve kalite üzerine etkileri
Effects of root and foli̇ar appli̇cati̇on of potassi̇um sulfate onyi̇eld and quali̇ty under hi̇gh temperature stress i̇n pepper
LALE ERSOY
Yüksek Lisans
Türkçe
2021
ZiraatŞırnak ÜniversitesiBahçe Bitkileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YELDEREM AKHOUNDNEJAD
- Effects of root mycorrhizal colonization and varied phosphorous supply on cadmium accumulation in rice plants
Çeltik bitkisinde kök mikorizal kolonizasyonu ve farklı fosfor uygulamalarının kadmiyum birikimi üzerine etkileri
İDİL ERTEM
Yüksek Lisans
İngilizce
2022
BiyomühendislikSabancı ÜniversitesiMoleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı
PROF. DR. LEVENT ÖZTÜRK
PROF. DR. İSMAİL ÇAKMAK
- Kök bölgesi sınırlamasının biber bitkisinin gelişimi ve verimine etkileri
Effects of root zone restriction on growth and yield of pepper plant (Capsicum annuum L.)
SAKİNE BOLAT
Yüksek Lisans
Türkçe
2014
ZiraatSüleyman Demirel ÜniversitesiTarımsal Yapılar ve Sulama Ana Bilim Dalı
DOÇ. DR. AHMET ERTEK