Bayesian source modelling for single-channel audio separation

Ses sinyallerinin tek kanaldan ayrıştırılmasında Bayesçi modeller

PDF İndir

Tez No: 255869
Yazar: ONUR DİKMEN
Danışmanlar: PROF. DR. LALE AKARUN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: Boğaziçi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 111

Özet

Kaynak ayrıştırma veya gürültü temizleme gibi ses işleme problemlerinde ses sinyallerinin fiziksel özelliklerini yansıtabilecek modellere ihtiyaç vardır. Bayesçi yaklaşımda, bu, gerçekçi önsel dağılımlar tanımlamayarak gerçekleştirilebilir. Biz, bu tezde, ses sinyallerinin zaman-frekans bölgesi gösterimlerindeki yerel ilintileri içerecek iki model geliştirdik: Gamma Markov zincirleri (GMZ) ve Gamma Markov rasgele alanları (GMRA). Önerdiğimiz ses modellerinde, zaman-frekans katsayılarının değişintileri bu yapılar kullanılarak birbirlerine bağlı olarak modellenirken, katsayılar bu değişintilere koşullu olarak, bağımsız Gauss dağılımlarından gelmektedir. GMZ ve GMRA modellerinin kullanım alanı, ses kaynaklarının değişintilerinin modellenmesiyle sınırlı değildir. Değişkenler arasında bağımlılık olan herhangi bir problemde, mesela Poisson serilerinde, de kullanılabilirler. Bunu göstermek için, negatif olmayan matris ayrıştırma (NOMA) kullanarak tek kanaldan kaynak ayrıştırma probleminde, frekans şablonları ve uyarma vektörlerindeki bağımlılığı modellemek için GMZ'leri kullandık.GMZ'ler ile değişinti değişkenlerinin sadece zaman ya da frekans ekseni boyunca olan bağımlılıklarını modelleyebiliriz. GMRA'lar ise değişkenlerin tüm komşularına bağımlı olduğu düzgelenmemiş bir dağılım tanımladıkları için iki yöndeki bağımlılıkları da içerebilir. İki model de değişinti değişkenleri arasında pozitif ilinti olacak şekilde tanımlanmıştır. Böylece, sinyalin enerjisi hem zaman hem de frekans ekseni boyunca yavaşça değişmektedir. Değişkenler arasındaki ilintinin büyüklüğü ise modelin hiper parametreleri ile belirlenmektedir.Bu tezde, GMZ ve GMRA temelli ses modellerimizi gürültü temizleme ve tek kanaldan kaynak ayrıştırma problemlerinde kullandık. Ayrıca bir öğrenme kümesine ihtiyaç duymadan, sadece gözlemlenen sinyalin varlığında, kestirim ve eniyileme içiçe gerçekleştirilerek tonal ve vurmalı ses kaynakları birbirlerinden ayrılmaktadır. Bu iki modelle, hem gürültü temizleme, hem de kaynak ayrıştırma problemlerinde başarılı sonuçlar elde ettik. GMRA'lara dayalı olan modelle geri çatılan sinyaller hem biraz daha başarılı, hem de daha doğaldır.Önerdiğimiz üçüncü bir modelle de Gamma ve GMZ önsel dağılımları kullanarak, NOMA ile tek kanaldan kaynak ayrıştırma yaptık. Burada da hiper parametreler kestirim sırasında eniyilenmekte ve kullanıcının hemen hemen hiçbir kritik karar vermesine gerek kalmamaktadır. Bu modelle elde edilen sonuçlar önceki iki modelle elde edilenlerden daha başarılıdır. Ayrıca, bu modelde kestirim ve eniyileme daha hızlı bir şekilde yapılabilmektedir. Buna rağmen, bu model sadece kaynak ayrıştırma problemi için önerildiğinden, önceki iki model gibi genel uygulanabilirliği yoktur.

Özet (Çeviri)

In many audio processing tasks, such as source separation, denoising or compression, it is crucial to construct realistic and flexible modelsto capture the physical properties of audio signals. This can be accomplished in the Bayesian framework through the use of appropriate prior distributions. In this thesis, we describe two prior models, Gamma Markov chains (GMCs) and Gamma Markov random fields (GMRFs) to model the sparsity and the local dependency of the energies of time-frequency expansion coefficients. We build two audio models where the variances of source coefficients are modelled with GMCs and GMRFs, and the source coefficients are Gaussian conditioned on the variances. The application area of these models are not limited to variance modelling of audio sources. They can be used in other problems where there is dependency between variables, such as the Poisson observation models. In single-channel source separation using non-negative matrix factorisation (NMF), we make use of GMCs to model the dependencies in frequency templates and excitation vectors.A GMC model defines a prior distribution for the variance variables such that they are correlated along the time or frequency axis, while a GMRF model describes a non-normalised joint distribution in which each variance variable is dependent on all the adjoining variance variables. In our audio models, the actual source coefficients are independent conditional on the variances and distributed as zero-mean Gaussians. Our construction ensures a positive coupling between the variance variables, so that signal energy changes smoothly over both axes to capture the temporal and/or spectral continuity. The coupling strength is controlled by a set of hyperparameters.We tested our audio models that are based on GMC and GMRF models in denoising and single-channel source separation problems where all the hyperparameters are jointly estimated given only audio data. Both models provided promising results, but the reconstructed signals by the GMRF model were slightly better and more natural sounding.Our third model makes use of Gamma and GMC prior distributions in an NMF setting for single-channel source separation. The hyperparameters are again optimised during the inference phase and the model needs almost no other design decisions. This model performs substantially better than the previous two models. In addition, it is less demanding in terms of computational power. However, it is designed only for source separation, i.e., it is not a general audio model as the previous two models.

Benzer Tezler

Tez No
350583
Perceptual audio source separation by subspace learning
Altuzay öğrenme ile algısal ses kaynak ayrıştırma
SERAP KIRBIZ
Doktora
İngilizce
2013
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL
Tez No
496318
Trijenerasyon sistemlerinin modellenmesine yönelik yeni bir yaklaşım: Bir üniversite uygulaması
A new approach for the modelling of trigeneration system: A university applications
KEZBAN BULUT
Doktora
Türkçe
2016
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÜLGÜN KAYAKUTLU
Tez No
398128
Kurumsal kredilerin geri ödenmeme olasılığının tahminine yönelik Bayes ağı temelli bir erken uyarı modeli
A Bayesian network based early warning model that estimates the probability of non-performing corporate credits
YASEMİN BAŞ
Yüksek Lisans
Türkçe
2015
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. UMUT ASAN
Tez No
418991
Elektronik kartların saha verilerine dayalı güvenilirlik analizi
Reliability analysis of electronic boards based on field data
SALİH VEHBİ CÖMERT
Yüksek Lisans
Türkçe
2015
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MUSTAFA ALTUN
Tez No
736649
Design optimization of an s-shaped subsonic intake using Bayesian approach and Bezier curves
Bayes yaklaşımı ve Bezier eğrileri kullanarak s-şekilli ses-altı hava-alığının tasarım optimizasyonu
METE ATASOY
Yüksek Lisans
İngilizce
2022
Havacılık ve Uzay Mühendisliği Orta Doğu Teknik Üniversitesi
Havacılık ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. YUSUF ÖZYÖRÜK

Geri Dön