Perceptual audio source separation by subspace learning
Altuzay öğrenme ile algısal ses kaynak ayrıştırma
- Tez No: 350583
- Danışmanlar: PROF. DR. BİLGE GÜNSEL
- Tez Türü: Doktora
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Telekomünikasyon Mühendisliği Bilim Dalı
- Sayfa Sayısı: 157
Özet
Birden fazla kaynaktan oluşan tek bir gözlem işaretinin mevcut olduğu kaynak ayrıştırma problemine, tek-kanaldan kaynak ayrıştırma problemi denilmektedir. Bu tür problemlerde amaç, karışımı oluşturan kaynakların tek tek elde edilmesidir. Pratikte, tek bir ses kaydında birden fazla kaynağın aynı anda etkin olması çok sık rastlanan bir durumdur. Böyle bir durumda, insan, ters akustik bir koşul içinde dikkatini tek bir kaynağa odaklayabilme yeteneğine sahiptir. Ancak, tek bir gözlemden birden fazla kaynağın otomatik olarak kestirilmesi problemi, ?eksik tanımlanmış? ve kötü-konumlanmış bir problem olup, araştırmacıları uğraştırmaya devam etmektedir. Bu tür ?eksik tanımlanmış? problemlerde mevcut olan bilgi, kaynakları elde etmek için yeterli olmadığından, problemin çözümü kaynaklarla ilgili uygun varsayımlar yapılmasına dayanmaktadır. Bu tez çalışmasında, tek bir gözlem işaretindenkarışımı oluşturan ses kaynaklarını ayrıştırmak için bir çerçeve sağlayan Negatif Olmayan Matris Ayrıştırma (NOMA) ve Negatif Olmayan Tensör Ayrıştırma (NOTA) yöntemlerine dayalı modeller ve algoritmalar geliştirilmektedir. NOMA ve NOTA, negatif olmayan verinin yaklaşık olarak ayrıştırılmasına olanak sağlayan parçalara-dayalı bir boyut düşürme tekniği olduğu için tercih edilmektedir. İlk olarak, polifonik müzik karışımlarından müzik aletlerini ayrıştırmak için algısalolarak ağırlıklandırılmış Negatif Olmayan Çarpan 2-B Ters Evrişim (AA-NOÇ2BTE) ve algısal olarak ağırlıklandırılmış Öbeklenmiş Negatif Olmayan Matris Ayrıştırma (AA-ÖNOMA) önermekteyiz. Önerdiğimiz yöntemler, insan algısını kaynakayrıştırma probleminde kullanarak, ayrıştırılan kaynak işaretlerinin algısal kalitesini artırmayı hede ? emektedir. NOMA ve NOÇ2BTE yöntemlerinin, ß?ıraksayının özel halleri olan Kullback-Leibler (KL) ve Itakura-Saito (IS) ıraksayları ile ölçülen maliyet fonksiyonlarını ağırlıklandırmaktayız. Ağırlık matrisi, ITU-R BS. 1387 önerisinde tanımlanan Ses Kalitesinin Algısal Değerlendirilmesi (SKAD) modeline dayalı olarak hesaplanmakta olup, her zaman-frekans bileşenine bir seslilik duyumsama değeri atamaktadır. Böylelikle, ıraksayın her bir teriminin maliyet fonksiyonuna katkısı algısal olarak önemli/önemsiz bileşenler için yüksek/düşük ağırlık katsayıları kullanılarak artırılmaktadır/azaltılmaktadır. Algısal olarak ağırlıklandırılmış AA-NOÇ2BTE ve AA-ÖNOMA yöntemleri, ayrıştırılan kaynakların insan algısına göre kalitesini artıran gözükapalı kaynak ayrıştırma yöntemleri olarak önerilmektedir. İkinci olarak, müzik ya da konuşma işaretlerinden oluşan karışımları, kaynaklarına ayırmak için uyarlamalı zaman-frekans çözünürlüğüne dayalı bir kaynak ayrıştırma yöntemi önermekteyiz. Bilimsel yazında, NOMA tabanlı ses kaynak ayrıştırma yöntemleri Kısa Zamanlı Fourier Dönüşümüne (KZFD) dayalı sabit zaman-frekans çözünürlüğünde çalışmaktadır. Tek bir konuşma ya da müzik kaydının farklıkısımlarında geçiş bölümleri ve durağan bölümler bulunmaktadır ve bu bölümler uygun çerçeveler seçilerek incelenmelidirler. Bilinmektedir ki, geçiş kısımları ve vurmalı çalgılar kısa pencereler kullanılarak, durağan işaretler ise uzun pencerelerkullanılarak analiz edilmelidir. Eğer, işaret sabit zaman-frekans çözünürlüğü kullanılarak incelenirse, zaman ya da frekansta yayılma oluşmakta ve kaynak ayrıştırma başarımı yetersiz olmaktadır. Sabit zaman-frekans çözünürlüğüne dayalıanaliz kullanımına bağlı olarak oluşan yayılmayı en küçüklemek için, ayrıştırmayı birden fazla çözünürlükte gerçekleştirmeyi önermekteyiz. Önerilen yöntem, ayrıştırma öncesinde kaynak bazlarını eğitim kümesinden öğrenmekte olduğundan eğiticili biryaklaşımdır. Ayrıştırma, tensörün her bir katmanı farklı zaman-frekans çözünürlüğünde aynı karışım işaretini temsil etmek üzere Negatif Olmayan Tensör Ayrıştırma (NOTA) yöntemi ile gerçekleştirilmektedir. Her bir çözünürlükte ayrıştırılan kaynak işaretleri, büyükçe enerji sıkıştırma ilkesi yöntemine dayalı olarak uyarlamalı bir şekilde birleştirilmektedir. Önerilen eğiticili çok çözünürlüklü ayrıştırma yöntemi,farklı zaman-frekans çözünürlüklerinden kestirilen kaynak işaretlerinin seyrekliklerini hesaplayarak, seyrekliklerine göre farklı çözünürlük sonuçlarını birleştirmektedir.Bu yönteme Çok Çözünürlüklü NOTA (ÇÇ-NOTA) yöntemi ismi verilmektedir. ÇÇ-NOTA yöntemi, zaman ve frekansta yayılımı en küçükleyerek, kaynakların ayrılabilirliğini artırmaktadır.Üçüncü olarak, NOMA tabanlı ayrıştırma problemlerinde ortaya çıkan öbekleme sorununu incelemekteyiz. Bilinmektedir ki, ayrıştırma düzeyi (rank) artırıldıkça, NOMA yönteminin temsil etme gücü artmaktadır. Eğer düzey, kaynak sayısından büyük seçilirse elde edilen bazların sıralanışının rastgele olduğu görülmektedir. Bu sebeple, elde edilen bazların kaynaklara öbeklenmesi gerekmektedir. Bu tez çalışmasında, müzik kaynak ayrıştırma problemlerindeki öbekleme problemi iki farklı yöntem kullanılarak ortadan kaldırılmaktadır. İlk gözükapalı öbekleme yöntemi, bir müzik aleti tarafından çalınan bir notanın tınısının, perdenin tüm eriminde sabit olduğu varsayımına dayanmaktadır. AA-NOÇ2BTE yöntemi kullanıldığında, her bir müzik aleti için bir baz vektörü elde edilmektedir. Bu baz vektörü, frekansta ötelenerek aynı müzik aleti tarafından çalınan diğer notaların bazları yaklaşık olarak elde edilmektedir. Bu varsayım, sadece giriş işaretinin log-frekans genlik spektrogramı kullanılarak temsil edildiği durumlarda geçerli olmaktadır. Önerilen AA-NOÇ2BTE yöntemi, birmüzik aletinin farklı notalar çalması durumunda, zamansal yapıyı ve perde değişimini yakalayabilmektedir. İkinci öbekleme yaklaşımında ise, NOMA yönteminin temsil etme gücünü artırmak için 13 gibi yüksek bir düzey seçilmekte ve algısal olarak güçlendirilmiş NOMA kullanılarak kaynakların bazları elde edilmektedir. Elde edilen bazlar, ikinci bir adımda NOÇ2BTE kullanılarak, eğer farklı perdede aynı tınıya sahiplerse aynı kaynağa öbeklenmektedirler.Dördüncü olarak, ayrıştırma yöntemine önsel bilginin eklenmesi üzerinde durulmaktadır. Kaynaklar hakkında mevcut olan önsel bilgi, ayrıştırma yöntemine istatistiksel yaklaşımlarla eklenebilmektedir. Önerdiğimiz Bayesçi Negatif Olmayan MatrisÇarpan Ters Evrişimi (BNOMÇTE) yaklaşımında, Negatif Olmayan Matris Çarpan Ters Evrişimi (NOMÇTE) yönteminin orijinal negatif olmayan güncelleme formülleri, veri artımı aracılığıyla koşullu Poisson modelinin En Büyük Olabilirlik Kestirimi (EBOK) için beklentiyi en büyükleyen bir algoritma kullanılarak elde edilmektedir. Önerilen BNOMÇTE yaklaşımı, NOMÇTE yönteminin kolay uygulanabilirlik ve tekdüze yakınsaması gibi çekici özelliklerini korurken, ayrıştırma algoritmasına mevcut olan önsel bilginin eklenmesiyle geliştirilebilecek daha kuvvetli modeller için öncülük yapmaktadır. ÇÇ-NOTA yaklaşımında da, kaynaklar hakkında var olan önsel bilgi eğiticili bir şekilde kaynak ayrıştırma yöntemine eklenmektedir. Bunun için, ÇÇ-NOTA kullanılarak her kaynak için mevcut olan eğitim verisinden, kaynakların bazları öğrenilmektedir. Öğrenilen bazlar karışım işaretinin ayrıştırılması esnasında sabitlenerek, kazançlar ve bazların genlik zar ? arı çarpımsal güncelleme kuralları aracılığıyla yinelemeli olarak güncellenmektedir. Bu yaklaşım, öbekleme probleminiortadan kaldırarak yüksek-düzeyli bir ayrıştırma yapma olanağı sağlamaktadır.Genişletilmiş bir veri kümesinde, önerilen yöntemlerin geleneksel ve algısal değerlendirilmesi yapılmakta ve önerilen yöntemlerin başarımı NOMA, ÖNOMA ve NOÇ2BTE yöntemlerinin başarımıyla kıyaslanmaktadır. Önerilen modellerin, kaynakların kalitesini geleneksel ve algısal ölçütlere göre artırdığı gözlenmektedir.
Özet (Çeviri)
Single-channel audio source separation problem occurs when a single observation of the mixture of a number of sources is available. In this type of problems, the aim is to estimate the individual sources constituting the mixture. In practice, it is very common to have multiple sources being active at the same time in a single recording. In such a situation, human listener has the ability to keep the attention to a single audio source in an adverse acoustical condition. However, the problem of automatically estimating several sources from one input signal is an under-determined and ill-posed challenging problem for the researchers.Since the available information is not adequate to reconstruct the sources completely, solution of the single channel audio source separation problem relies on making appropriate assumptions about the sources. In this thesis, we develop models and algorithms that provide a framework to separate audio signals from single observation based on the subspace learning methods namely, Non-negative Matrix Factorization (NMF) and Non-negative Tensor Factorization (NTF) where the sources are not necessarily assumed as independent.First, we introduce the perceptually weighted Non-negative Matrix Factor 2-D Deconvolution (PW-NMF2D) and the perceptually weighted Clustered NMF (PW-CNMF) methods to separate musical instruments in polyphonic music mixtures. Our approaches integrate the human perception into source separation, that allow to improve the perceptual quality of the separated sources. We weight the cost functions of the NMF and NMF2D methods measured by Kullback-Leibler (KL) and Itakura-Saito (IS) divergences, which are the special cases of ß-divergence using a perceptual weighting score matrix. The weighting score matrix assigns a loudness sensation value per each time-frequency component based on the Perceptual Evaluation of Audio Quality (PEAQ) model defined in ITU-R BS. 1387. Thus, the contribution of the element-wise divergence to the cost function is increased/decreased using a high/low weighting score for the perceptually important/unimportant components. These perceptually enhanced PW-NMF2D and PW-CNMF methods constitute blind source separation methods which enhance the quality of the separated sources as perceived by humans.Second, we investigate an adaptive time-frequency resolution based sound source separation method to separate either music or speech mixtures. In the literature, the NMF based source separation algorithms work at a fixed time-frequency resolution based Short Time Fourier Transform (STFT) magnitude or power spectrogram. Both speech and music signals have stationary and transients parts in different parts of a single recording and they should be analyzed using appropriate windows. It is known that,the transients and percussives should be analyzed using a short window, whereas the stationary signals should be analyzed using long windows. If the signal is analyzed using a fixed time-frequency resolution, smearing occurs either in time or frequency resulting a poor separation of sources. In order to minimize the smearing caused by a fixed time-frequency resolution based analysis, we propose to separate the signals in several time-frequency resolutions under a supervised approach where the source bases are learned in advance from the training data. The separation is performed using Non-negative Tensor Factorization (NTF) where each layer of the tensor represents the same single channel mixture in various resolutions. The separated signals obtained from each resolution are then fused adaptively based on the maximal energy compaction principle method. This supervised multiresolution separation method estimates the sparsity of the sources obtained from different time-frequency resolutions and fuses them accordingly. This method is named as MultiResolution NTF (MR-NTF) and it increases the separability of sources by minimizing the smearing both in time and frequency.Third, we investigate the clustering problem encountered in NMF based separation problems. It is known that the representation capability of the NMF algorithms is enhanced as the rank of the factorization is increased. If the rank is selected as greater than the number of sources, the order of the bases become random. Thus, it is required to cluster the bases into the sources. In this thesis, we overcome the clustering problem encountered in musical source separation problems by using two unsupervised approaches. The first unsupervised approach is based on the assumption that the timbre of a note played by an instrument is constant for the entire range of pitch. Using PW-NMF2D method, a single basis vector is extracted for a single instrument and shifted in frequency to approximate the bases of the other notes played by the same instrument. This assumption works only if the input signal is represented using a log-frequency magnitude spectrogram. The proposed PW-NMF2D method can capture both the temporal structure and the pitch change which occurs when an instrument plays different notes. In the second approach, in order to maximize the representation capability, we first extract the NMF bases with a high rank value, i.e.13, using perceptually enhanced NMF. The extracted bases are clustered into the same source using NMF2D if they share the same timbre at a different pitch.Fourth, we focus on incorporating prior information into the separation scheme. Prior information about the sources can be integrated into the separation method using statistical methods. In our Bayesian Non-negative Matrix Factor Deconvolution approach (BNMFD), the original non-negative update equations of NMFD are obtained using an Expectation-Maximization (EM) algorithm for the Maximum Likelihood (ML) estimation of a conditionally Poisson model through data augmentation. The proposed BNMFD approach retains the attractive features of conventional NMFD such as easy implementation and monotonic convergence while opens up the way to develop more powerful models by incorporating the available prior information into the decomposition algorithm.In MR-NTF method, we also incorporate the prior information available about the sources into the separation scheme in a supervised approach. This is achieved by learning the bases of the sources from the available training data of each source by applying NMF on the training data at various time-frequency resolutions a prior to separation of the mixture. The learned source bases are fixed in the separation of the mixture signal, thus only the gains and the amplitude envelopes of the bases are updated iteratively through multiplicative update rules. This enables us to perform separation through a high-rank factorization by omitting the clustering problem.We present conventional and perceptual evaluation of the proposed approaches on an extended dataset and compare the results to either the NMF, the CNMF and the NMF2D methods. We observe that the proposed models improve the quality of the sources both in terms of the conventional and the perceptual measures.
Benzer Tezler
- Perceptual audio source culling for virtual environments
Sanal ortamlar için algısal ses kaynağı kesimi
ALİ CAN METAN
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiModelleme ve Simülasyon Ana Bilim Dalı
DOÇ. DR. HÜSEYİN HACIHABİBOĞLU
- Comparison of single channel blind dereverberation methods for speech signals
Tek kanallı ses sinyallerinin ekodan arındırma yöntemlerinin karşılaştırması
DEHA DENİZ TÜRKÖZ
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAKAN ERDOĞAN
- Automatic audio emotion detection based on perceptual features
Algısal öznitelikler kullanarak sesten otomatik duygu durum tanıma
MEHMET CENK SEZGİN
Doktora
İngilizce
2013
Mühendislik Bilimleriİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL KALYONCU
- Reliable image transmission in wireless sensor networks for smart grid applications
Akıllı şebeke uygulamaları ıçın kablosuz sensör ağlarında güvenılır görüntü aktarımı
MOSTAFA SHAMIL JASSIM
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
ÖĞR. GÖR. PINAR BÖLÜK
- The effects of captioning on text recall and cognitive load in audio- vs. video-based l2 listening: Offline and online evidence from a mobile-assisted language learning study
İkinci dilde ses ve/veya videoya dayalı dinlemede altyazıların metni hatırlama ve bilişsel yük üzerine etkileri: Mobil destekli bir dil öğrenme çalışmasından elde edilen çevrimdışı ve çevrimiçi bulgular
NUR BAŞAK KARATAŞ
Yüksek Lisans
İngilizce
2013
Eğitim ve ÖğretimBoğaziçi Üniversitesiİngilizce Öğretmenliği Ana Bilim Dalı
PROF. DR. YASEMİN BAYYURT KERESTECİOĞLU