Geri Dön

Incorporating prior information in nonnegative matrix factorization for audio source separation

Ses kaynağı ayrımı için negatif olmayan matris ayrıştırma'ya önsel bilgilerin dahil edilmesi

  1. Tez No: 389485
  2. Yazar: EMAD MOUNIR GRAIS GIRGIS
  3. Danışmanlar: YRD. DOÇ. DR. HAKAN ERDOĞAN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 162

Özet

Bu çalışmada tek bir kayıttan ses kaynaklarının ayrımı problemine çözüm önerilerinde bulunuyoruz. Ses kaynakları konuşma, müzik veya başka ses sinyalleri olabilir. Karışmış sinyal içerisindeki özgün sinyal kaynaklarının eğitim verilerinin elimizde mevcut olduğunu varsayıyoruz. Eğitim verileri her kaynak için örnek model kurmak amacıyla kullanılır. Genellikle bu modeller spektral uzayda büyüklük veya güç değerlerini açıklayan taban vektör kümeleridir. Temelde, önerilen algoritma karışmış sinyalin spektrogramının karışmış sinyal içinde bulunan bütün kaynak sinyallerin taban eğitim modelleriyle ayrıştırılmasına dayanır. Kaynak sinyallerin taban modellerini eğitmek için Negatif Olmayan Matris Ayrıştırma (NOMA) metodu kullanılır. Daha sonra NOMA, karışmış sinyal spektrogramını, bu sinyal içinde bulunan bütün kaynak sinyallerin eğitilmiş taban vektörlerinin ağırlıklı doğrusal katışımı olarak ayrıştırmakta kullanılır. Karışmış sinyali ayrıştırdıktan sonra kaynak sinyali tekrar inşa etmek için spektral maskeler oluşturulur. Bu tezde, NOMA ayrıştırma sonuçlarına, kaynak sinyalleriyle bağlantılı daha çok kısıt ve önsel bilgi dahil ederek, kaynak ayrıştırmada NOMA'nın performansını arttırıyoruz. NOMA ayrıştırmasındaki ağırlıklar kaynak sinyallerin doğasına bağlı bazı önsel kısıtları sağlamak için teşvik edilmiştir. Kullandığımız önsel bilgi modelleri Gauss karışımı ya da saklı Markov modelleridir. Temelde bu önsel modeller her kaynağın tabanlarının sahip olacakları geçerli ağırlık dizilerini ifade ederler. Bu önsel modeller NOMA maliyet fonksiyonuna log-olabilirlik ya da minimum ortalama karesel hata (MOKH) kestirimi kullanılarak dahil edilmiştir.Önsel bilgiler ardıl işlemler sırasında da dahil edilmiştir. Düzgünlük önsel bilgisi basit bir ardıl düzgünleştirme ile dahil edilmiştir. Ayrıca, daha iyi ayrıştırma sağlamak için MOKH kestirimi kullanarak ardıl iyileştirme metodu da tanıtılmıştır.Bu tezde aynı zamanda taban modelleri için NOMA eğitimini de iyileştiriyoruz. Yeterli eğitim verisi mevcut olmayan durumlarda karışmış sinyaldeki kaynaklara daha uygun tabanlar bulmak amacıyla iki farklı uyarlama metodu sunuyoruz. Diğer bir katkı olarak, kaynak sinyaller için daha ayırt edici modeller öğrenerek kaynak eğitim yordamlarını da geliştiriyoruz. Başka bir bölümde, modellerimizin çevresel etkileri daha iyi öğrenmesi için, komşu spektral verileri birleştirdikten sonra onlardan taban vektörleri eğitiyor ve böylece komşu çerçeveler arasındaki bilgileri doğrudan modellemiş oluyoruz. Deneysel sonuçlar önerilen metotların kaynak ayrıştırma uygulamalarında NOMA'nın performansını arttırdığını göstermiştir.

Özet (Çeviri)

In this work, we propose solutions to the problem of audio source separation from a single recording. The audio source signals can be speech, music or any other audio signals. We assume training data for the individual source signals that are present in the mixed signal are available. The training data are used to build a representative model for each source. In most cases, these models are sets of basis vectors in magnitude or power spectral domain. The proposed algorithms basically depend on decomposing the spectrogram of the mixed signal with the trained basis models for all observed sources in the mixed signal. Nonnegative matrix factorization (NMF) is used to train the basis models for the source signals. NMF is then used to decompose the mixed signal spectrogram as a weighted linear combination of the trained basis vectors for each observed source in the mixed signal. After decomposing the mixed signal, spectral masks are built and used to reconstruct the source signals. In this thesis, we improve the performance of NMF for source separation by incorporating more constraints and prior information related to the source signals to the NMF decomposition results. The NMF decomposition weights are encouraged to satisfy some prior information that are related to the nature of the source signals. The priors are modeled using Gaussian mixture models or hidden Markov models. These priors basically represent valid weight combination sequences that the basis vectors can receive for a certain type of source signal. The prior models are incorporated with the NMF cost function using either log-likelihood or minimum mean squared error estimation (MMSE). We also incorporate prior information during post processing. We incorporate the smoothness prior on the NMF solutions by using simple post smoothing. We also introduce post enhancement using MMSE estimation to obtain better separation for the source signals.In this thesis, we also improve the NMF training for the basis models. In cases when enough training data are not available, we introduce two different adaptation methods for the trained basis to better fit the sources in the mixed signal. We also improve the training procedures for the sources by learning more discriminative dictionaries for the source signals. In addition, to consider a larger context in the models, we concatenate neighboring spectra together and train basis sets from them instead of a single frame which makes it possible to directly model the relation between consequent spectral frames. Experimental results show that the proposed approaches improve the performance of using NMF in source separation applications.

Benzer Tezler

  1. Perceptual audio source separation by subspace learning

    Altuzay öğrenme ile algısal ses kaynak ayrıştırma

    SERAP KIRBIZ

    Doktora

    İngilizce

    İngilizce

    2013

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGE GÜNSEL

  2. Yere nüfuz eden radarlarda öğrenme tabanlı yeni kargaşa giderme yöntemleri

    New learning-based clutter removal methods in ground penetrating radar

    EYYUP TEMLİOĞLU

    Doktora

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. IŞIN ERER

  3. Düzenlileştirme yöntemlerinin bilgisayarlı tomografi görüntülerine uygulanması

    Application of regularization methods to computed tomography images

    CANSU ALKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKaradeniz Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEKİR DİZDAROĞLU

  4. Cooperative localization using probabilistic inference

    Olasılıksal çıkarsama kullanarak işbirlikli konumlandırma

    BERK ERCİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAkdeniz Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜSEYİN GÖKHAN AKÇAY

  5. Aircraft reliability prediction using bayesian networks that combine fault data and design specifications

    Hata verisi ve tasarım değerlerini birleştiren bayes ağları ile hava aracı güvenilirlik tahmini

    FARUK UMUT KÜÇÜKER

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Endüstri ve Endüstri MühendisliğiHacettepe Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BARBAROS YET