Geri Dön

Voice activity detection with stochastic resonance

Stokastik rezonans ile ses aktivite algilama

  1. Tez No: 842409
  2. Yazar: İLKER ÖZÇELİK
  3. Danışmanlar: PROF. DR. PRAMOD K. VARSHNEY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2010
  8. Dil: Türkçe
  9. Üniversite: Syracuse University
  10. Enstitü: Yurtdışı Enstitü
  11. Ana Bilim Dalı: Elektrik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Son zamanlarda stokastik rezonans yöntemlerinin, belirli suboptimal sinyal işleme sistemlerinin performansını artırdığı gösterilmiştir. Bu tezde, stokastik rezonansı konuşma sinyali işlemeye uygulanmıştır. Özellikle, suboptimal bir ses aktivite dedektörünün performansını değiştirmeden iyileştirmek için bir yöntem sunulmuştur. Deneylerde, referans dedektör olarak Sohn ve Sung'un ses aktivite dedektörünü kullanılmıştır. Bu dedektör, konuşma ve gürültü sinyallerinin birbirinden bağımsız olan Gaussian rastgele süreçler olduğu ve her sürecin Discrete Fourier Transform (DFT) katsayılarının asimptotik olarak bağımsız Gaussian rastgele değişkenler olduğu varsayımları altında Generalized Likelihood Ratio Test (GLRT) yöntemini kullanarak tasarlanmıştır. Ancak, son çalışmalar, temiz konuşma ve gürültü sinyallerinin DFT katsayılarını daha doğru bir şekilde Laplace ve Gamma dağılımlarıyla temsil ettiğini göstermiştir. Bu nedenle, Sohn ve Sung'un ses aktivite dedektörü, temel tasarım varsayımları nedeniyle suboptimaldir ve iyileştirilebilir. Bu çalışmada, dedektörün giriş sinyali, bir SR filtresi olarak kullanılan bistabil SR sistemini kullanarak ön işlemden geçirilir. Optimum SR filtre parametreleri, eğilim katsayısı kullanılarak elde edilir. İlgi çekici sinyalin yüksek karmaşıklığı nedeniyle, katsayıların iteratif bir şekilde bulunmasıdır. Farklı giriş sinyalleri ve eğitim veri setleri üzerinde gerçekleştirilen deneyler, giriş sinyalinin dağılımı hakkında yeterli bilgiye sahipse, eğer sadece giriş sinyalinin %20'si eğitim verisi olarak kullanılıyorsa bile, optimum parametreleri elde etmenin mümkün olduğunu göstermiştir. Sistemin SR filtresinden önce ve sonra dedektör performansı, Receiver Operating Curves (ROC) kullanılarak karşılaştırılır. ROC'lerden, yöntemimizin daha düşük yanlış alarm oranları için %17.5'e kadar ve daha yüksek yanlış alarm oranları için %4.5'e kadar dedektör performansını iyileştirdiği gözlemlenmiştir. Simülasyon sonuçlarına dayanarak, yöntemimizin suboptimal ses aktivite dedektörünün performansını iyileştirmek için etkili bir yöntem olduğu sonucuna varılmıştır.

Özet (Çeviri)

Stochastic resonance methods have recently been shown to improve the performance of certain suboptimal signal processing systems. In this thesis, we apply stochastic resonance to speech signal processing. In particular, we present a method to improve detection performance of a suboptimal voice activity detector without changing it. In our experiments, we use Sohn and Sung's voice activity detector as our reference detector. This detector was designed by using the Generalized Likelihood Ratio Test (GLRT) method under the assumptions that speech and noise signals are Gaussian random processes that are independent of each other and the Discrete Fourier Transform (DFT) coefficients of each process are asymptotically independent Gaussian random variables. However, recent studies have shown that Laplacian and Gamma distributions more accurately represent DFT coefficients of clean speech and noise signals. Therefore, Sohn and Sung's voice activity detector is suboptimal because of its underlying design assumptions and can be improved. In this study, in order to improve detection performance, the input signal of the detector is preprocessed using the bistable SR system used as an SR filter. Optimum SR filter parameters are obtained by using the deflection coefficient. Due to the high complexity of the signal of interest, the coefficients are found in an iterative manner. Experiments conducted on different input signals and training data sets showed that it is possible to get optimum parameters, even when only 20% of the input signal is used as training data, if it has enough information about the distribution of input signal. The detector performance of the system before and after the SR filter is compared using the Receiver Operating Curves (ROC). From the ROCs, we observe that our method improved detection performance up to 17.5% for lower false alarm rates and up to 4.5% for higher false alarm rates. Based on the simulation results, our method is an efficient method to improve detection performance of suboptimal voice activity detector.

Benzer Tezler

  1. Hibrit konuşma aktivite tespiti kullanılarak D-vektör tabanlı bir konuşmacı diyarizasyon sisteminin tasarlanması

    Implementation of a D-vector based speaker diarization system using hybrid voice activity detection

    YUNUS KORKMAZ

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYTUĞ BOYACI

  2. Detection of signals and voice activity in nonstationary noise

    Durağan olmayan gürültülü ortamda işaret ve konuşma aktivitesi tespiti

    HAMZA ÖZER

    Yüksek Lisans

    İngilizce

    İngilizce

    1998

    Elektrik ve Elektronik MühendisliğiBaşkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHUN TANYER

  3. Ampirik kip ayrıştırması yöntemi ile uyarlanır eşikleme tabanlı konuşma iyileştirme ve sesli etkinlik algılama

    Speech enhancement and voice activity detection based on adaptive thresholding using empirical mode decomposition

    ÖZKAN ARSLAN

    Doktora

    Türkçe

    Türkçe

    2018

    Elektrik ve Elektronik MühendisliğiEge Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ERKAN ZEKİ ENGİN

  4. Noise robust speech recognition using parallel model compensation and voice activity detection methods

    PMT ve ses aktivitesi tespiti metodları kullanarak gürültüye dayanıklı konuşma tanıma

    SERHAT HIZLISOY

    Yüksek Lisans

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZEKERİYA TÜFEKCİ

  5. Design of speaker diarization with speaker embeddings

    Konuşmacı katıştırmaları ile konuşmacı günlükleme tasarımı

    MUHAMMET MESUT TORUK

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilim ve TeknolojiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET SERBES

    DOÇ. DR. GÖKHAN BİLGİN