Hand crafted versus learned representations for audio event recognition
Ses olayları tanımı için elle çıkarılmış ve öğrenilmiş özniteliklerin karşılaştırılması
- Tez No: 810636
- Danışmanlar: PROF. DR. SİNAN KALKAN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
- Sayfa Sayısı: 86
Özet
Ses Olay Tanımı (SOT), ses sinyallerindeki olay türlerinin tanımlanması ile ilgili yapılan çalışmalar bütünüdür. SOT, ses sinyallerine dayalı olarak alınacak kararların etkili olduğu bazı uygulamalarda çok önemli bir rol oynar. Bu uygulamalar; sağlık, gözetlem ve güvenlik uygulamaları olabilir. Derin öğrenme yöntemlerinin bir problemin çözümünde en iyi çözümleri ürettiği kanıtlanmış olmasına rağmen, SOT çalışmalarında problemin çözümünde derin öğrenme kullanılmasına rağmen, hala, bir uzmanın tasarladığı algoritma çıktısı olan el yapımı öznitelikler kullanılmaktadır. Bununla ilgili olarak, bu tez çalışmasında yaygın olarak literatürde kullanılan el yapımı özniteliklerin (spectrogram, mel spectrogram, logmel spectrogram ve mel frekans sepstral katsayıları) evrişimsel otokodlayıcılar kullanılarak çıkarılmış öznitelikler ve daha önce öğrenilmiş bir ağ ile çıkarılmış öznitelikler ile karşılaştırması yapılmıştır. Bilindiği kadarıyla, bu soruyu soran ve SOT için öznitelik temsillerini bu şekilde kapsamlı bir şekilde ele alan ilk çalışmadır. Bu amaçla, el yapımı öznitleik çıkarımları için en iyi pencere ve atlama boyutu bulunmuş ve optimize edilmiş el yapımı öznitelikler otokodlayıcının çıktısı olan öznitelikler ile karşılaştırılmıştır. Kapsamlı analizlerimiz neticesinde, AudioSet veri kümesinden oluşturulmuş bir alt veri kümesinde le yapımı özniteliklerin, öğrenilmiş özniteliklerden daha iyi performans (30 AP) gösterdiği söylenebilir. Ek olarak el yapımı özniteliklerle önceden eğitilmiş ağlardan elde edilen öğrenilmiş temsiller arasında karşılaştırmalı bir analiz de gerçekleştiriyoruz. Bulgularımız, logmel spektrogramının üstün performansını sürdürdüğünü göstermektedir (8 AP). Ayrıca bahsi geçen ses özniteliklerinin birbirleri ile tamamlayıcı olup olmadığını araştırmak için farklı birleştirme yöntemleri araştırılmıştır. En iyi sonucu elde ettiğimiz el yapımı öznitelikle kıyasladığımızda erken birleştirme düzeniyle önemli geliştirmelerin elde edilebileceğini gösterilmiştir (6 AP).
Özet (Çeviri)
Audio Event Recognition (AER) pertains to identifying the types of events in audio signals. AER is essential for applications requiring decisions based on audio signals, which can be critical, for example, for health, surveillance, and security applications. Despite the proven benefits of deep learning in obtaining the best representation for solving a problem, AER studies still generally employ hand-crafted representations even when deep learning is used for solving the AER task. Intrigued by this, we investigate whether or not hand-crafted representations (i.e., spectrogram, mel spectrogram, log mel spectrogram, and mel frequency cepstral coefficients) are better than a representation learned using a Convolutional Autoencoder (CAE) or representation learned using a pre-trained network. To the best of our knowledge, our study is the first to ask this question and thoroughly compare feature representations for AER. To this end, we first find the best hop size and window size for each hand-crafted representation and compare the optimized hand-crafted representations with CAE-learned representations. Our extensive analyses on a subset of the AudioSet dataset confirm the common practice in that hand-crafted representations do perform better than learned features by a large margin (30 AP). We additionally conduct a comparative analysis between hand-crafted features and learned representations generated from pre-trained networks. Our findings indicate that the log mel spectrogram continues to exhibit superior performance (8 AP). Moreover, we investigate whether the aforementioned audio features are complementary to each other by exploring different fusion strategies. We show that significant improvements (6 AP) can be obtained with an early fusion scheme compared to the best hand-crafted feature.
Benzer Tezler
- Objective measurement of fabric softness and pilling using hand crafted features and deep learning
Manüel öznitelik çıkarımı ve derin öğrenme kullanılarak kumaş yumuşaklığı ve boncuklanma değerlerinin objektif bir şekilde ölçülmesi ve sınıflandırılması
SEYMUR MAMMADLI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiModelleme ve Simülasyon Ana Bilim Dalı
PROF. DR. AHMET OĞUZ AKYÜZ
- Self-supervised representation learning with graph neural networks for region of interest analysis in breast histopathology
Meme histopatolojisinde ilgi alanı gösterimlerinin çizgesel sinir ağları ile kendinden gözetimli öğrenimi
YİĞİT ÖZEN
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELİM AKSOY
- Optical flow-based media compression
Optik akış tabanlı medya sıkıştırma
AFSANA AHSAN JENY
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MD BAHARUL ISLAM
- Ekolojik baskılar ve tekstil yüzeylerde uygulanması
Ecological prints and their applications on textiles
MÜYESSER AYFER ÇERMİKLİ
Yüksek Lisans
Türkçe
2019
Güzel SanatlarMimar Sinan Güzel Sanatlar ÜniversitesiTekstil ve Moda Tasarımı Ana Sanat Dalı
PROF. DR. GAYE KIRLIDÖKME BELEN
- An actor-critic reinforcement learning approach for bilateral negotiation
İki taraflı müzakere için aktör-kritik pekiştirmeli öğrenme yaklaşımı
FURKAN ARSLAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ REYHAN AYDOĞAN