Blind audio source separation using nonnegative tensor factorization techniques
Negatif olmayan tensör faktörizasyonu kullanılarak gözü kapalı ses kaynak ayrıştırma
- Tez No: 223924
- Danışmanlar: PROF. DR. BİLGE GÜNSEL
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2008
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 76
Özet
Bu çalışmada, kokteyl partisi problemi olarak da bilinen, gözü kapalı ses işareti ayrıştırma probleminin negatif olmayan tensor faktörizasyonu yöntemi kullanılarak nasıl çözüldüğü araştırılmıştır. Gözü kapalı kaynak ayrıştırma (BSS) problemi genel olarak, hakkında önceden bilgi sahibi olmadığımız kaynak işaretlerininin lineer karışımlarından oluşan gözlemlerden, kaynak işaretlerin kestirilmesi(ayrıştırılması) işlemidir. Burada `gözü kapalı' ibaresinin kullanılmasının sebebi, kaynak işaretleri hakkında hiçbir ön bilgiye sahip olunmamasıdır, ancak kaynak işareti hakkında zayıf varsayımlar yapılabilinir.Bugüne kadar gözü kapalı kaynak ayrıştırma probleminin çözümü için birçok yöntem önerilmiştir, bunların başında Bağımsız Bileşen Analizi (Independent Component Analysis, ICA), Tekil Değer Ayrıştırması (Singular Value Decompostion, SVD) gibi yöntemler gelmektedir. Bunların yanı sıra yeni bir yaklaşım olan Negatif Olmayan Tensör/Matris Ayrıştırması (NTF/NMF) yöntemi ise giderek araştırmacıların dikkatini çeken bir yöntem olmaya başlamıştır. Hem NMF hem de NTF temelde kaynakların ve gözlemlerin negatif olmayan değerlerle ifade edilebileceği versayımına dayanmaktadır. Aralarındaki farklılık ise, verinin(kaynak ve veya gözlem) ifade edildiği uzayın boyuttur. Buna göre; veri iki boyutla ifade edildiği taktrirde matris ayrıştrıması, ikiden fazla boyutla ifade edildiği taktirde ise tensör(çok boyutlu matris) ayrıştırması yapılmaktadır.Bu çalışmada üç farklı NTF yönteminin ses işaretleri üzerindeki ayrıştırma başarımları incelenmiştir. Bu üç yöntemde de ötelemeli olarak uygulanan ve `eğimli azalama (gradient descent)' gibi bilindik optimizasyon yöntemleri kullanılarak türetilmiş güncelleme kuralları kullanılır. Aralarındaki temel farklılık ise, optimizasyon için seçilmiş olan maliyet fonksiyonları asındaki değişikliklerden kaynaklanmaktadır. Bu yöntemler; değişimli en küçük kareler algoritması (Alternating Least Squares, ALS), ve sırasıyla alfa ve beta olarak bilinen maliyet fonksiyonları kıllanılarak oluşturulmuş alfa ve beta algoritmalarıdır. Her bir algoritmanın ayrıştırma başarımları, farklı lineer karışımlar, gürültülü karışımlar ve farklı ilk koşullar gibi bir çok test koşulu altında denenmiştir. Genel olarak varılan noktada gözlemlenmiştir ki, NTF yöntemleri kullanılarak gözü kapalı kaynak ayrıştırma probleminin çözümünde başarılı sonuçlar elde edilmiştir. Bu üç algoritma arasında yapılan karşılaştırmalar göstermiştir ki, ALS algoritması bütün koşullar altında daha yüksek başarım sergilemiştir. Belirtilmesi gereken bir diğer durum da, beta algoritmasının uygun parameteler altında koşturulduğu taktirde ALS algoritmasına yakın başarım gösterebildiğidir. Ancak işlemsel karmaşıklık açısından bakıldığı taktirde de, ALS algoritmasının diğer iki algoritmadan üstün olduğu görülmüştür.
Özet (Çeviri)
In this work, the success of Nonnegative Tensor Factorization on the solution of Blind audio source separation (ABSS) problem which is also known as `cocktail party problem? is studied. BSS in general, is the process of recovering a set of signals, which are called source signals, from a set of mixture of those signals which are called the observations. The term `blind? refers to that neither the charcteristics of the source nor the mixing process is known. i.e.: no a priori information. Not only in audio signals but also in many fields of signal processing, BSS takes place.There are several methods, proposed to solve the BSS problem such as Independent Component Analysis (ICA), Singular Value Decomposition(SVD). One of the most recently proposed approach is called Nonnegative Tensor/matrix factorization (NTF/NMF). Both NMF and NTF depends on the assumption that both the source signals that are supposed to be estimated and the mixture signals are represented by nonnegative numbers. The diffence between NMF and NTF is the dimension which is used to represent data. Meaning that, for two dimensional representation of mixture signals NMF can be used, on the other hand for more than two dimensions the tensor factorization concept must be introduced.In this very research the separation performance of the three important NTF methods are studied. All three methods depends on iterative update rules which are derived by using common optimization methods such as gradient descent. The difference among these methods is the cost functions that are used to derive the update rules. These three algotihms are; the alternating least squares (ALS) algorithm, alpha and beta algorithms which are obtained by employing gradient descent on the cost functions called ?-divergence and ß-divergence, respectively.The separation performance of the algorithms are tested under several conditions such as noisy mixtures, different initializations of the algorithms, different mixing conditions. It is observed that, in general the NTF methods yield quite promising results in BSS problem. More specifically the ALS and its regularized form perform better separation than alpha and beta algorithms. It should be noted that, the performance of the beta algorithm can be improved if the parameters of the algorithm are selected carefully. However from the computational complexity point of view, the ALS algorithm is still superior.
Benzer Tezler
- Perceptual audio source separation by subspace learning
Altuzay öğrenme ile algısal ses kaynak ayrıştırma
SERAP KIRBIZ
Doktora
İngilizce
2013
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL
- Blind audio source separation using independent component analysis and independent vector analysis methods
Bağımsız bileşen analizi ve bağımsız vektör analizi kullarak ses sinyallerinde kör kaynak ayrıştırımı
ALYAA ABDULHUSSEIN MAHDI ALRWSTIM
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Ana Bilim Dalı
Prof. Dr. NİZAMETTİN AYDIN
- Examination of independent component analysis in audio source separation
Ses kaynak ayrıştırmasında bağımsız bileşen analizi yönteminin incelenmesi
ELİF EZGİ GÜLER
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik MühendisliğiAtılım ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İBRAHİM BARAN USLU
- Time-domain blind source separation for convolutive mixtures using second-order statistics
Evrişimsel karışımlar için zaman alanında ikinci dereceden istatistiklerle gözü kapalı kaynak ayrıştırma
CEMİL DEMİR
Yüksek Lisans
İngilizce
2007
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Y.DOÇ.DR. KEREM HARMANCI
- Karışık işitsel ve görsel sinyallerin kör kaynak ayrıştırma yöntemiyle birbirlerinden ayrılması
Blind source seperation of mixed visual and audio signals
PELİN GÜVEN
Yüksek Lisans
Türkçe
2005
Elektrik ve Elektronik MühendisliğiAnadolu ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. EMİN GERMEN