Geri Dön

Comparative study on music source separation methods

Müzik kaynağı ayırma yöntemleri üzerine karşılaştırmalı çalışma

  1. Tez No: 798399
  2. Yazar: BURAK BAYSAL
  3. Danışmanlar: PROF. DR. MEHMET ÖNDER EFE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

Kör kaynak ayrıştırma problemi uzun zamandır literatürde üzerine çalışmalar yapılan bir problem alanıdır. Problem alanına dair bilinen en yaygın örnek ise“Kokteyl Parti Problemi”'dir. Problemin tanımında bir parti ortamından bahseder ve ortamın sesi kaydedilecek olunursa, kaydedilen bu ses sinyali konuşma, kahkaha ve müzik v.b ses sinyallerinin bir karışımı olacaktır. Peki bu karışım sinyalinden kaynak sinyalleri yani örneğin müziğe ait ses sinyalini çıkartmak mümkün müdür? Kör kaynak ayırma metotları, karışım sinyalinden orijinal sinyallerin mümkün olan en az kayıpla elde edilmesini amaçlar. Başlarda literatürde istatistik ve hesaplama temelli yaklaşımlar hakimdi. Bağımsız bileşen analizi metotlar ilk zamanlarda kör kaynak ayrıştırma çalışmalarında çokça kullanılmaktaydı. Matris faktorizasyonunu temel alan bu yaklaşımların ardından daha karmaşık hesaplamaları içeren Dejenere Ayrıştırma Tahmin Tekniği gibi yöntemler ortaya çıkmıştır. Son zamanlarda ise literatürde makine öğrenmesi temelli yaklaşımlar baskın hale gelmiş ve derin öğrenme metotları sinyalleri ayrıştırmada yoğun halde kullanılır olmaya başlamıştır. Bu tez çalışmasıyla kör kaynak ayırma problem alanına dair metotların kapsamlı bir karşılaştırması amaçlanmıştır. Literatürde uzun zamandır yer alan metotların yanı sıra günümüz teknolojilerinin etkin kullandığı derin öğrenme temelli modeller de karşılaştırmalı çalışmaya dahil edilmiştir. Kaynak ayrıştırmaya dair yedi farklı metot tez kapsamında çalışmaya dahil edilmiştir. Klasik metotlardan FastICA, NMF ve DUET tez kapsamında çalışırken, makine öğrenmesi temelli metotlardan da Open Unmix, Spleeter, Wave-U-Net ve Hybrid Demucs ile modelleri incelenmiştir. Kaynak ayrıştırma metotlarına dair detaylı bilgi sağladıktan sonra deneysel çalışma gerçekleştirilmiştir. Bu doğrultuda ses sinyallerinin analiz edilerek vokal, davul, bas ve diğer olmak üzere dört farklı bileşene ayrıştırılması deneyinde hangi metodun nasıl performans gösterdiği SDR metriği ile değerlendirilmiştir. Aynı zamanda mizük türlerine göre de değerlendirme yapılarak tez deney sonuçlarına eklenmiştir.

Özet (Çeviri)

Blind source separation is the concept that separates the source signals from the mixture signal.“Blind”means no prior knowledge of the source or the mixing environment. The blind source separation problem is a problem domain that has been studied in the literature for a long time. The most familiar problem example of the domain is the“Cocktail Party Problem.”Imagining the party environment and the sound of the environment is to be recorded. The recorded audio signal comprises audio signals such as speech, laughter, music, or even the footstep from the street. Is it possible to extract the source signals, i.e., the audio signal of the music, from this mixture signal? Blind source separation methods aim to obtain the original signals with the least possible loss. In the beginning, statistics and computational approaches were dominant in the literature. Independent component analysis methods were widely used in blind source separation studies in early studies. Following these approaches, which are based on matrix factorization, methods such as the Degenerate Unmixing Estimation Technique, which contains more complex calculations, have emerged. Recently, machine learning-based approaches have become dominant in the literature, and deep learning methods have begun to be utilized broadly in separating signals. This thesis aims to comprehensively compare the methods related to the problem domain of blind source separation. In addition to the techniques in the literature for a long time, deep learning-based models employed effectively by today's technologies are also included in the comparative study. Seven different methods of source separation are studied in the thesis. While the classical methods FastICA, NMF, and DUET are included within the scope of the thesis, the machine learning-based models Open Unmix, Spleeter, Wave-U-Net, and Hybrid Demucs have been examined. After providing detailed information about the source separation methods, the experimental study was carried out. The MusDB18-HQ dataset was used during the experiment. Accordingly, an experiment was performed to analyze the audio signals and separate them into four components: vocal, drum, bass, and other. The performance of which method was evaluated with the SDR metric. The evaluation was also made according to music genres and added to the results of the thesis experiment.

Benzer Tezler

  1. İran ve Azerbaycan tarlarının tarihsel gelişim süreçleri ve yapısal özelliklerinin karşılaştırılması

    Comparison of the historical development processes and structural features of Iranian and Azerbaijani tar

    BITA MALEKI

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    MüzikANKARA MÜZİK VE GÜZEL SANATLAR ÜNİVERSİTESİ

    Müzikoloji Ana Bilim Dalı

    DOÇ. DR. MİLAD SALMANİ

  2. Meşk yöntemi üzerine karşılaştırılmalı bir çalışma

    A comparati̇ve study on the meshk system

    TUĞÇE BALCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    MüzikCumhuriyet Üniversitesi

    Güzel Sanatlar Eğitimi Ana Bilim Dalı

    PROF. DR. MUSTAFA HİLMİ BULUT

  3. Direction of arrival estimation of moving targets based on real-life antenna measurements

    Hareketli hedeflerin gerçek hayat anten ölçümlerine dayalı varış yönü kestirimi

    DERYA DOYMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Elektrik ve Elektronik MühendisliğiYıldız Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. NURHAN TÜRKER TOKAN

    DOÇ. DR. SULTAN ALDIRMAZ ÇOLAK

  4. Imaging in layered media

    Tabakali ortamlarda görüntüleme

    M. LÜTFİ YARAR

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ YAPAR

  5. Orijinal kopya bir mimarlığa doğru: Mimarlıkta bir yüzer gösteren

    Towards an original-copy architecture: A floating signifier in architecture

    ZEYNEP GÜL SÖHMEN TUNAY

    Doktora

    Türkçe

    Türkçe

    2022

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. FUNDA UZ