Yari denetimli öğrenme ve füzyon teknikleri ile zayif etiketli veri kümelerinde ses olayi sezimi
Sound event detection on weakly labeled datasets with semi-supervised learning and fusion techniques
- Tez No: 843662
- Danışmanlar: DOÇ. DR. MUSTAFA SERT
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Başkent Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 97
Özet
Ses Olayı Sezimi, ses sinyalleri içerisinde yer alan spesifik ses olaylarını otomatik olarak tanımlama ve sınıflandırma görevidir. Güvenlik sistemleri, otomasyon sistemleri ve ses tabanlı kullanıcı etkileşimleri gibi geniş uygulama alanlarına sahiptir. Ancak, bu modellerin çoğu uzun eğitim süreleri ve hesaplama maliyetlerini beraberinde getirmektedir. Bu tez, çoğunluğu günlük yaşamdan elde edilmiş ses kayıtlarından, ses olaylarının ve bu olayların başlangıç ve bitiş noktalarının hassas bir şekilde tespit edilebilmesi için derin öğrenme tabanlı yöntemlerin geliştirilmesini hedefler. Araştırmada, benzer çalışmalardan farklı olarak, büyük çoğunluğu zayıf etiketli ve etiketsiz seslerden oluşan veri kümeleri üzerine yoğunlaşıyoruz. Eğitim sürecini hızlandırmak için, yarı denetimli öğrenme tekniklerinden birisi olan ortalama öğretmen modelini kullanılmaktadır. Diğer yandan, dikkat mekanizmalarının, ses sinyalleri içinde belirli kısımlara odaklanarak zamansal bağlamlar ve ilişkiler üzerinden daha etkin sonuçlar almayı mümkün kılmaktadır. Bu çalışmada, öğretmen-öğrenci modelinin yanı sıra, öz dikkat ve çok başlı dikkat mekanizmalarının, ses olayı sezimindeki rolleri derinlemesine incelenmiştir. Mel- Frequency Cepstral Coefficients (MFCC), Log-Mel Spectrogram (Log-Mel), Bidirectional Encoder representation from Audio Transformers (BEATs), Audio Spectrogram Transformer (AST) ve Pretrained Audio Neural Networks (PANNs) gibi düşük ve yüksek seviyeli ses öznitelikleri kullanılarak, dikkat mekanizmalarının bireysel ve birleştirilmiş özniteliklerle olan etkileri analiz edilmiştir. Çalışmamızda, erken ve geç füzyon tekniklerini de içerecek şekilde çok başlı dikkat mekanizmasının potansiyeli, öz dikkat mekanizmasıyla karşılaştırılmış ve değerlendirilmiştir. Sonuçlarımız, bireysel öznitelikler yerine birleştirilmiş öznitelik kullanımının, özellikle dikkat mekanizmaları entegre edildiğinde, ses olayı sezim performansında belirgin bir iyileşme sağladığını ortaya koymuştur. Bununla birlikte, erken füzyon yöntemi uygulanarak özniteliklerin birleştirmesi ve çok başlı dikkat mekanizması entegrasyonu ile daha da yüksek başarım elde edilmiştir. Bu çalışma, etiketli eğitim verilerinin az olduğu senaryolarda sinir ağlarının sağlamlığını ve genelleme performansını artıracak metotlar sunmaktadır.
Özet (Çeviri)
Sound Event Detection (SED) is the task of automatically identifying and classifying specific sound events within audio signals. It has a wide range of applications including security systems, automation systems, and audio-based user interactions. However, most of these models come with long training durations and high computational costs. This thesis aims to develop deep learning-based methods for more accurately detecting sound events and their start and end points, primarily from sound recordings obtained from daily life. Unlike similar studies, our research focuses on datasets composed mostly of weakly labeled and unlabeled sounds. To accelerate the training process, we utilize the mean teacher model, which is a technique of semi supervised learning. On the other hand, attention mechanisms enable more effective results by focusing on specific parts within sound signals and through temporal contexts and relationships. In this study, alongside the teacher-student model, the roles of self-attention and multi-head attention mechanisms in sound event detection are thoroughly examined. The effects of attention mechanisms with individual and combined features have been analyzed using low and high-level audio features such as Mel-Frequency Cepstral Coefficients (MFCC), Log Mel-Spectrogram (Log-Mel), Bidirectional Encoder Representation from Audio Transformers (BEATs), Audio Spectrogram Transformer (AST), and Pretrained Audio Neural Networks (PANNs). Our work compares and evaluates the potential of the multi-head attention mechanism, including early and late fusion techniques, against the self-attention mechanism. Our results indicate that combined features with attention mechanisms compared to individual features, significantly improving detection performance. Additionally, even higher performance was achieved by combining features using the early fusion method and integrating the multi-head attention mechanism. This study offers methods to increase the robustness and generalization performance of neural networks in scenarios where labeled training data is scarce.
Benzer Tezler
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Decision fusion for supervised, unsupervised and semi-supervised learning
Denetimli, denetimsiz ve yarı-denetimli öğrenme için veri füzyonu
METE ÖZAY
Doktora
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATOŞ TUNAY YARMAN VURAL
- Information extraction from sales flyers using semi-supervised learning
Yarı denetimli öğrenme kullanılarak satış broşürlerinden bilgi çıkarımı
HARLINTON PALACIOS MOSQUERA
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAKUP GENÇ
- Semi-supervised learning strategy for improved flash point prediction
Parlama noktası tahminini iyileştirmek için yarı denetimli öğrenme stratejisi
MERT SÜLÜK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ
- Aktif öğrenme ile alan uyarlaması
Domain adaptation with active learning
EREN DURGUNLU
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKocaeli ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYHAN KÜÇÜKMANİSA