Voice activity detection with stochastic resonance
Stokastik rezonans ile ses aktivite algilama
- Tez No: 842409
- Danışmanlar: PROF. DR. PRAMOD K. VARSHNEY
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2010
- Dil: Türkçe
- Üniversite: Syracuse University
- Enstitü: Yurtdışı Enstitü
- Ana Bilim Dalı: Elektrik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 61
Özet
Son zamanlarda stokastik rezonans yöntemlerinin, belirli suboptimal sinyal işleme sistemlerinin performansını artırdığı gösterilmiştir. Bu tezde, stokastik rezonansı konuşma sinyali işlemeye uygulanmıştır. Özellikle, suboptimal bir ses aktivite dedektörünün performansını değiştirmeden iyileştirmek için bir yöntem sunulmuştur. Deneylerde, referans dedektör olarak Sohn ve Sung'un ses aktivite dedektörünü kullanılmıştır. Bu dedektör, konuşma ve gürültü sinyallerinin birbirinden bağımsız olan Gaussian rastgele süreçler olduğu ve her sürecin Discrete Fourier Transform (DFT) katsayılarının asimptotik olarak bağımsız Gaussian rastgele değişkenler olduğu varsayımları altında Generalized Likelihood Ratio Test (GLRT) yöntemini kullanarak tasarlanmıştır. Ancak, son çalışmalar, temiz konuşma ve gürültü sinyallerinin DFT katsayılarını daha doğru bir şekilde Laplace ve Gamma dağılımlarıyla temsil ettiğini göstermiştir. Bu nedenle, Sohn ve Sung'un ses aktivite dedektörü, temel tasarım varsayımları nedeniyle suboptimaldir ve iyileştirilebilir. Bu çalışmada, dedektörün giriş sinyali, bir SR filtresi olarak kullanılan bistabil SR sistemini kullanarak ön işlemden geçirilir. Optimum SR filtre parametreleri, eğilim katsayısı kullanılarak elde edilir. İlgi çekici sinyalin yüksek karmaşıklığı nedeniyle, katsayıların iteratif bir şekilde bulunmasıdır. Farklı giriş sinyalleri ve eğitim veri setleri üzerinde gerçekleştirilen deneyler, giriş sinyalinin dağılımı hakkında yeterli bilgiye sahipse, eğer sadece giriş sinyalinin %20'si eğitim verisi olarak kullanılıyorsa bile, optimum parametreleri elde etmenin mümkün olduğunu göstermiştir. Sistemin SR filtresinden önce ve sonra dedektör performansı, Receiver Operating Curves (ROC) kullanılarak karşılaştırılır. ROC'lerden, yöntemimizin daha düşük yanlış alarm oranları için %17.5'e kadar ve daha yüksek yanlış alarm oranları için %4.5'e kadar dedektör performansını iyileştirdiği gözlemlenmiştir. Simülasyon sonuçlarına dayanarak, yöntemimizin suboptimal ses aktivite dedektörünün performansını iyileştirmek için etkili bir yöntem olduğu sonucuna varılmıştır.
Özet (Çeviri)
Stochastic resonance methods have recently been shown to improve the performance of certain suboptimal signal processing systems. In this thesis, we apply stochastic resonance to speech signal processing. In particular, we present a method to improve detection performance of a suboptimal voice activity detector without changing it. In our experiments, we use Sohn and Sung's voice activity detector as our reference detector. This detector was designed by using the Generalized Likelihood Ratio Test (GLRT) method under the assumptions that speech and noise signals are Gaussian random processes that are independent of each other and the Discrete Fourier Transform (DFT) coefficients of each process are asymptotically independent Gaussian random variables. However, recent studies have shown that Laplacian and Gamma distributions more accurately represent DFT coefficients of clean speech and noise signals. Therefore, Sohn and Sung's voice activity detector is suboptimal because of its underlying design assumptions and can be improved. In this study, in order to improve detection performance, the input signal of the detector is preprocessed using the bistable SR system used as an SR filter. Optimum SR filter parameters are obtained by using the deflection coefficient. Due to the high complexity of the signal of interest, the coefficients are found in an iterative manner. Experiments conducted on different input signals and training data sets showed that it is possible to get optimum parameters, even when only 20% of the input signal is used as training data, if it has enough information about the distribution of input signal. The detector performance of the system before and after the SR filter is compared using the Receiver Operating Curves (ROC). From the ROCs, we observe that our method improved detection performance up to 17.5% for lower false alarm rates and up to 4.5% for higher false alarm rates. Based on the simulation results, our method is an efficient method to improve detection performance of suboptimal voice activity detector.
Benzer Tezler
- Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması
Implementation of a D-vector based speaker diarization system using hybrid voice activity detection
YUNUS KORKMAZ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYTUĞ BOYACI
- Detection of signals and voice activity in nonstationary noise
Durağan olmayan gürültülü ortamda işaret ve konuşma aktivitesi tespiti
HAMZA ÖZER
Yüksek Lisans
İngilizce
1998
Elektrik ve Elektronik MühendisliğiBaşkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHUN TANYER
- Ampirik kip ayrıştırması yöntemi ile uyarlanır eşikleme tabanlı konuşma iyileştirme ve sesli etkinlik algılama
Speech enhancement and voice activity detection based on adaptive thresholding using empirical mode decomposition
ÖZKAN ARSLAN
Doktora
Türkçe
2018
Elektrik ve Elektronik MühendisliğiEge ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERKAN ZEKİ ENGİN
- Noise robust speech recognition using parallel model compensation and voice activity detection methods
PMT ve ses aktivitesi tespiti metodları kullanarak gürültüye dayanıklı konuşma tanıma
SERHAT HIZLISOY
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEKERİYA TÜFEKCİ
- Design of speaker diarization with speaker embeddings
Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı
MUHAMMET MESUT TORUK
Yüksek Lisans
İngilizce
2020
Bilim ve TeknolojiYıldız Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET SERBES
DOÇ. DR. GÖKHAN BİLGİN