Single-channel speech-music separation for robust ASR with mixture of NMF models
Gürbüz konuşma tanıma için NOMA karışım modelleriyle tek-kanalda konuşma-müzik ayrıştırma
- Tez No: 371831
- Danışmanlar: DOÇ. DR. MURAT SARAÇLAR, DOÇ. DR. ALİ TAYLAN CEMGİL
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 186
Özet
Bu çalışmada otomatik konuşma tanıma (OKT) için tek kanalda konuşma-müzik ayrıştırma problemini inceledik. Çalışmanın motivasyonu, tanıma hatalarını arttıran arka-plan müziğinin etkisini azaltarak konuşma tanıma başarımını arttırmaktır. Bu çalışmada tek kanalda konuşma-müzik ayrıştırma metodu olarak Negatif Olmayan Matris Ayrıştırma (NOMA) karışımı modeli tabanlı bir yöntem tanımlanmıştır. Arka-plan müziklerini içeren bir katalog verildiği ve müziğin katalogdaki bir cıngıl tarafından üretildiği varsayımı altında karma konuşma ve müzik spektogramları için bir üretici model önerilmiştir. Önerilen yöntemde konuşma sinyali karma sinyalden yarı güdümlü biçimde kestirilen bir NOMA modeli ile temsil edilmektedir. Bu yöntem sırası ile Kullback-Leibler (KL) ve Itakura-Saito (IS) ıraksay ölçütlerine karşılık düşen Poisson ve karmaşık Gauss gözlem modelleri ile test edilmiştir. Deneylerimize göre önerilen karışım modeli hem konuşma-müzik ayrıştırma hem de konuşma tanıma testlerinde standart NOMA modellerinden daha iyi sonuçlar vermektedir. Daha sonra, önerilen NOMA karışım tabanlı yöntemin ayrıştırma başarımını iyileştirmek için önerilen olasılık\-sal model ve yöntem konuşma sinyali hakkındaki önsel bilgiyi kullanacak şekilde geliştiril\-miştir. Son olarak, konuşma-müzik ayrıştırma için NOMA tabanlı kelime altı konuşma modellerinin kullanılması önerilmiştir. Bu stratejinin genel bir konuşma modeline kıyasla daha iyi bir konuşma tanıma başarımı sağladığı gösterilmiştir.
Özet (Çeviri)
In this dissertation, we analyze the single-channel speech-music separation problem for automatic speech recognition (ASR). The motivation of the study is to increase the performance of the ASR systems by decreasing the effect of background music. We describe a single-channel speech-music separation method based on a mixture of non-negative matrix factorization (NMF) model. Given a catalog of background music material, we propose a generative model for the superposed speech and music spectrograms. The background music signal is assumed to be generated by a jingle in the catalog and it is modeled by a scaled conditional mixture model representing the jingle. The speech signal is modeled by an NMF model that is estimated in a semi-supervised manner from the mixed signal. The approach is tested with Poisson and complex Gaussian observation models that correspond respectively to Kullback-Leibler (KL) and Itakura-Saito (IS) divergence measures. Our experiments show that the proposed mixture model outperforms a standard NMF method both in speech-music separation and automatic speech recognition (ASR) tasks. Moreover, we extend the mixture of NMF based single-channel speech-music separation method such that it incorporates prior speech information to enhance the separation performance of the method. Finally, we propose to use sub-word NMF-based speech models for the separation of speech and music signals. By applying such a strategy, it is demonstrated that the recognition accuracy can be improved as compared to using a general speech model.
Benzer Tezler
- Perceptual audio source separation by subspace learning
Altuzay öğrenme ile algısal ses kaynak ayrıştırma
SERAP KIRBIZ
Doktora
İngilizce
2013
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL
- Emotion aware artificial intelligence for cognitive systems
Bilişsel sistemler için duygu farkındalıklı yapay zeka
DEĞER AYATA
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
PROF. DR. MUSTAFA ERSEL KAMAŞAK
- Tek kanallı toplamsal gürültülü konuşma sinyali iyileştirme
Single channel speech enhancement in the presence of additive noise
SERKAN CECELİOĞLU
Yüksek Lisans
Türkçe
2010
Elektrik ve Elektronik MühendisliğiGazi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. M. CENGİZ TAPLAMACIOĞLU
- Speech enhancement using adaptive wiener filtering of spectrograms
Spektromlar üzerinde uyumlu wiener filtre uygulanması ile konuşma temizlenmesi
MURAT TOKER
Yüksek Lisans
İngilizce
2001
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. METE SEVERCAN