Geri Dön

Yari denetimli öğrenme ve füzyon teknikleri ile zayif etiketli veri kümelerinde ses olayi sezimi

Sound event detection on weakly labeled datasets with semi-supervised learning and fusion techniques

  1. Tez No: 843662
  2. Yazar: YEŞİM AKAR
  3. Danışmanlar: DOÇ. DR. MUSTAFA SERT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 97

Özet

Ses Olayı Sezimi, ses sinyalleri içerisinde yer alan spesifik ses olaylarını otomatik olarak tanımlama ve sınıflandırma görevidir. Güvenlik sistemleri, otomasyon sistemleri ve ses tabanlı kullanıcı etkileşimleri gibi geniş uygulama alanlarına sahiptir. Ancak, bu modellerin çoğu uzun eğitim süreleri ve hesaplama maliyetlerini beraberinde getirmektedir. Bu tez, çoğunluğu günlük yaşamdan elde edilmiş ses kayıtlarından, ses olaylarının ve bu olayların başlangıç ve bitiş noktalarının hassas bir şekilde tespit edilebilmesi için derin öğrenme tabanlı yöntemlerin geliştirilmesini hedefler. Araştırmada, benzer çalışmalardan farklı olarak, büyük çoğunluğu zayıf etiketli ve etiketsiz seslerden oluşan veri kümeleri üzerine yoğunlaşıyoruz. Eğitim sürecini hızlandırmak için, yarı denetimli öğrenme tekniklerinden birisi olan ortalama öğretmen modelini kullanılmaktadır. Diğer yandan, dikkat mekanizmalarının, ses sinyalleri içinde belirli kısımlara odaklanarak zamansal bağlamlar ve ilişkiler üzerinden daha etkin sonuçlar almayı mümkün kılmaktadır. Bu çalışmada, öğretmen-öğrenci modelinin yanı sıra, öz dikkat ve çok başlı dikkat mekanizmalarının, ses olayı sezimindeki rolleri derinlemesine incelenmiştir. Mel- Frequency Cepstral Coefficients (MFCC), Log-Mel Spectrogram (Log-Mel), Bidirectional Encoder representation from Audio Transformers (BEATs), Audio Spectrogram Transformer (AST) ve Pretrained Audio Neural Networks (PANNs) gibi düşük ve yüksek seviyeli ses öznitelikleri kullanılarak, dikkat mekanizmalarının bireysel ve birleştirilmiş özniteliklerle olan etkileri analiz edilmiştir. Çalışmamızda, erken ve geç füzyon tekniklerini de içerecek şekilde çok başlı dikkat mekanizmasının potansiyeli, öz dikkat mekanizmasıyla karşılaştırılmış ve değerlendirilmiştir. Sonuçlarımız, bireysel öznitelikler yerine birleştirilmiş öznitelik kullanımının, özellikle dikkat mekanizmaları entegre edildiğinde, ses olayı sezim performansında belirgin bir iyileşme sağladığını ortaya koymuştur. Bununla birlikte, erken füzyon yöntemi uygulanarak özniteliklerin birleştirmesi ve çok başlı dikkat mekanizması entegrasyonu ile daha da yüksek başarım elde edilmiştir. Bu çalışma, etiketli eğitim verilerinin az olduğu senaryolarda sinir ağlarının sağlamlığını ve genelleme performansını artıracak metotlar sunmaktadır.

Özet (Çeviri)

Sound Event Detection (SED) is the task of automatically identifying and classifying specific sound events within audio signals. It has a wide range of applications including security systems, automation systems, and audio-based user interactions. However, most of these models come with long training durations and high computational costs. This thesis aims to develop deep learning-based methods for more accurately detecting sound events and their start and end points, primarily from sound recordings obtained from daily life. Unlike similar studies, our research focuses on datasets composed mostly of weakly labeled and unlabeled sounds. To accelerate the training process, we utilize the mean teacher model, which is a technique of semi supervised learning. On the other hand, attention mechanisms enable more effective results by focusing on specific parts within sound signals and through temporal contexts and relationships. In this study, alongside the teacher-student model, the roles of self-attention and multi-head attention mechanisms in sound event detection are thoroughly examined. The effects of attention mechanisms with individual and combined features have been analyzed using low and high-level audio features such as Mel-Frequency Cepstral Coefficients (MFCC), Log Mel-Spectrogram (Log-Mel), Bidirectional Encoder Representation from Audio Transformers (BEATs), Audio Spectrogram Transformer (AST), and Pretrained Audio Neural Networks (PANNs). Our work compares and evaluates the potential of the multi-head attention mechanism, including early and late fusion techniques, against the self-attention mechanism. Our results indicate that combined features with attention mechanisms compared to individual features, significantly improving detection performance. Additionally, even higher performance was achieved by combining features using the early fusion method and integrating the multi-head attention mechanism. This study offers methods to increase the robustness and generalization performance of neural networks in scenarios where labeled training data is scarce.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Decision fusion for supervised, unsupervised and semi-supervised learning

    Denetimli, denetimsiz ve yarı-denetimli öğrenme için veri füzyonu

    METE ÖZAY

    Doktora

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FATOŞ TUNAY YARMAN VURAL

  3. Information extraction from sales flyers using semi-supervised learning

    Yarı denetimli öğrenme kullanılarak satış broşürlerinden bilgi çıkarımı

    HARLINTON PALACIOS MOSQUERA

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YAKUP GENÇ

  4. Semi-supervised learning strategy for improved flash point prediction

    Parlama noktası tahminini iyileştirmek için yarı denetimli öğrenme stratejisi

    MERT SÜLÜK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞULE ÖĞÜDÜCÜ

  5. Aktif öğrenme ile alan uyarlaması

    Domain adaptation with active learning

    EREN DURGUNLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYHAN KÜÇÜKMANİSA