Geri Dön

Single-channel speech-music separation for robust ASR with mixture of NMF models

Gürbüz konuşma tanıma için NOMA karışım modelleriyle tek-kanalda konuşma-müzik ayrıştırma

  1. Tez No: 371831
  2. Yazar: CEMİL DEMİR
  3. Danışmanlar: DOÇ. DR. MURAT SARAÇLAR, DOÇ. DR. ALİ TAYLAN CEMGİL
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2014
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 186

Özet

Bu çalışmada otomatik konuşma tanıma (OKT) için tek kanalda konuşma-müzik ayrıştırma problemini inceledik. Çalışmanın motivasyonu, tanıma hatalarını arttıran arka-plan müziğinin etkisini azaltarak konuşma tanıma başarımını arttırmaktır. Bu çalışmada tek kanalda konuşma-müzik ayrıştırma metodu olarak Negatif Olmayan Matris Ayrıştırma (NOMA) karışımı modeli tabanlı bir yöntem tanımlanmıştır. Arka-plan müziklerini içeren bir katalog verildiği ve müziğin katalogdaki bir cıngıl tarafından üretildiği varsayımı altında karma konuşma ve müzik spektogramları için bir üretici model önerilmiştir. Önerilen yöntemde konuşma sinyali karma sinyalden yarı güdümlü biçimde kestirilen bir NOMA modeli ile temsil edilmektedir. Bu yöntem sırası ile Kullback-Leibler (KL) ve Itakura-Saito (IS) ıraksay ölçütlerine karşılık düşen Poisson ve karmaşık Gauss gözlem modelleri ile test edilmiştir. Deneylerimize göre önerilen karışım modeli hem konuşma-müzik ayrıştırma hem de konuşma tanıma testlerinde standart NOMA modellerinden daha iyi sonuçlar vermektedir. Daha sonra, önerilen NOMA karışım tabanlı yöntemin ayrıştırma başarımını iyileştirmek için önerilen olasılık\-sal model ve yöntem konuşma sinyali hakkındaki önsel bilgiyi kullanacak şekilde geliştiril\-miştir. Son olarak, konuşma-müzik ayrıştırma için NOMA tabanlı kelime altı konuşma modellerinin kullanılması önerilmiştir. Bu stratejinin genel bir konuşma modeline kıyasla daha iyi bir konuşma tanıma başarımı sağladığı gösterilmiştir.

Özet (Çeviri)

In this dissertation, we analyze the single-channel speech-music separation problem for automatic speech recognition (ASR). The motivation of the study is to increase the performance of the ASR systems by decreasing the effect of background music. We describe a single-channel speech-music separation method based on a mixture of non-negative matrix factorization (NMF) model. Given a catalog of background music material, we propose a generative model for the superposed speech and music spectrograms. The background music signal is assumed to be generated by a jingle in the catalog and it is modeled by a scaled conditional mixture model representing the jingle. The speech signal is modeled by an NMF model that is estimated in a semi-supervised manner from the mixed signal. The approach is tested with Poisson and complex Gaussian observation models that correspond respectively to Kullback-Leibler (KL) and Itakura-Saito (IS) divergence measures. Our experiments show that the proposed mixture model outperforms a standard NMF method both in speech-music separation and automatic speech recognition (ASR) tasks. Moreover, we extend the mixture of NMF based single-channel speech-music separation method such that it incorporates prior speech information to enhance the separation performance of the method. Finally, we propose to use sub-word NMF-based speech models for the separation of speech and music signals. By applying such a strategy, it is demonstrated that the recognition accuracy can be improved as compared to using a general speech model.

Benzer Tezler

  1. Ego noise estimation for robot audition

    Başlık çevirisi yok

    GÖKHAN İNCE

    Doktora

    İngilizce

    İngilizce

    2011

    Makine MühendisliğiTokyo Institute of Technology

    PROF. JUNİCHİ IMURA

  2. Perceptual audio source separation by subspace learning

    Altuzay öğrenme ile algısal ses kaynak ayrıştırma

    SERAP KIRBIZ

    Doktora

    İngilizce

    İngilizce

    2013

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL

  3. Emotion aware artificial intelligence for cognitive systems

    Bilişsel sistemler için duygu farkındalıklı yapay zeka

    DEĞER AYATA

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

    PROF. DR. MUSTAFA ERSEL KAMAŞAK

  4. Tek kanallı toplamsal gürültülü konuşma sinyali iyileştirme

    Single channel speech enhancement in the presence of additive noise

    SERKAN CECELİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Elektrik ve Elektronik MühendisliğiGazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. M. CENGİZ TAPLAMACIOĞLU

  5. Speech enhancement using adaptive wiener filtering of spectrograms

    Spektromlar üzerinde uyumlu wiener filtre uygulanması ile konuşma temizlenmesi

    MURAT TOKER

    Yüksek Lisans

    İngilizce

    İngilizce

    2001

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. METE SEVERCAN