Geri Dön

Hand crafted versus learned representations for audio event recognition

Ses olayları tanımı için elle çıkarılmış ve öğrenilmiş özniteliklerin karşılaştırılması

  1. Tez No: 810636
  2. Yazar: SELVER EZGİ KÜÇÜKBAY
  3. Danışmanlar: PROF. DR. SİNAN KALKAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimi ve Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 86

Özet

Ses Olay Tanımı (SOT), ses sinyallerindeki olay türlerinin tanımlanması ile ilgili yapılan çalışmalar bütünüdür. SOT, ses sinyallerine dayalı olarak alınacak kararların etkili olduğu bazı uygulamalarda çok önemli bir rol oynar. Bu uygulamalar; sağlık, gözetlem ve güvenlik uygulamaları olabilir. Derin öğrenme yöntemlerinin bir problemin çözümünde en iyi çözümleri ürettiği kanıtlanmış olmasına rağmen, SOT çalışmalarında problemin çözümünde derin öğrenme kullanılmasına rağmen, hala, bir uzmanın tasarladığı algoritma çıktısı olan el yapımı öznitelikler kullanılmaktadır. Bununla ilgili olarak, bu tez çalışmasında yaygın olarak literatürde kullanılan el yapımı özniteliklerin (spectrogram, mel spectrogram, logmel spectrogram ve mel frekans sepstral katsayıları) evrişimsel otokodlayıcılar kullanılarak çıkarılmış öznitelikler ve daha önce öğrenilmiş bir ağ ile çıkarılmış öznitelikler ile karşılaştırması yapılmıştır. Bilindiği kadarıyla, bu soruyu soran ve SOT için öznitelik temsillerini bu şekilde kapsamlı bir şekilde ele alan ilk çalışmadır. Bu amaçla, el yapımı öznitleik çıkarımları için en iyi pencere ve atlama boyutu bulunmuş ve optimize edilmiş el yapımı öznitelikler otokodlayıcının çıktısı olan öznitelikler ile karşılaştırılmıştır. Kapsamlı analizlerimiz neticesinde, AudioSet veri kümesinden oluşturulmuş bir alt veri kümesinde le yapımı özniteliklerin, öğrenilmiş özniteliklerden daha iyi performans (30 AP) gösterdiği söylenebilir. Ek olarak el yapımı özniteliklerle önceden eğitilmiş ağlardan elde edilen öğrenilmiş temsiller arasında karşılaştırmalı bir analiz de gerçekleştiriyoruz. Bulgularımız, logmel spektrogramının üstün performansını sürdürdüğünü göstermektedir (8 AP). Ayrıca bahsi geçen ses özniteliklerinin birbirleri ile tamamlayıcı olup olmadığını araştırmak için farklı birleştirme yöntemleri araştırılmıştır. En iyi sonucu elde ettiğimiz el yapımı öznitelikle kıyasladığımızda erken birleştirme düzeniyle önemli geliştirmelerin elde edilebileceğini gösterilmiştir (6 AP).

Özet (Çeviri)

Audio Event Recognition (AER) pertains to identifying the types of events in audio signals. AER is essential for applications requiring decisions based on audio signals, which can be critical, for example, for health, surveillance, and security applications. Despite the proven benefits of deep learning in obtaining the best representation for solving a problem, AER studies still generally employ hand-crafted representations even when deep learning is used for solving the AER task. Intrigued by this, we investigate whether or not hand-crafted representations (i.e., spectrogram, mel spectrogram, log mel spectrogram, and mel frequency cepstral coefficients) are better than a representation learned using a Convolutional Autoencoder (CAE) or representation learned using a pre-trained network. To the best of our knowledge, our study is the first to ask this question and thoroughly compare feature representations for AER. To this end, we first find the best hop size and window size for each hand-crafted representation and compare the optimized hand-crafted representations with CAE-learned representations. Our extensive analyses on a subset of the AudioSet dataset confirm the common practice in that hand-crafted representations do perform better than learned features by a large margin (30 AP). We additionally conduct a comparative analysis between hand-crafted features and learned representations generated from pre-trained networks. Our findings indicate that the log mel spectrogram continues to exhibit superior performance (8 AP). Moreover, we investigate whether the aforementioned audio features are complementary to each other by exploring different fusion strategies. We show that significant improvements (6 AP) can be obtained with an early fusion scheme compared to the best hand-crafted feature.

Benzer Tezler

  1. Objective measurement of fabric softness and pilling using hand crafted features and deep learning

    Manüel öznitelik çıkarımı ve derin öğrenme kullanılarak kumaş yumuşaklığı ve boncuklanma değerlerinin objektif bir şekilde ölçülmesi ve sınıflandırılması

    SEYMUR MAMMADLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Modelleme ve Simülasyon Ana Bilim Dalı

    PROF. DR. AHMET OĞUZ AKYÜZ

  2. Self-supervised representation learning with graph neural networks for region of interest analysis in breast histopathology

    Meme histopatolojisinde ilgi alanı gösterimlerinin çizgesel sinir ağları ile kendinden gözetimli öğrenimi

    YİĞİT ÖZEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELİM AKSOY

  3. Optical flow-based media compression

    Optik akış tabanlı medya sıkıştırma

    AFSANA AHSAN JENY

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MD BAHARUL ISLAM

  4. Ekolojik baskılar ve tekstil yüzeylerde uygulanması

    Ecological prints and their applications on textiles

    MÜYESSER AYFER ÇERMİKLİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Güzel SanatlarMimar Sinan Güzel Sanatlar Üniversitesi

    Tekstil ve Moda Tasarımı Ana Sanat Dalı

    PROF. DR. GAYE KIRLIDÖKME BELEN

  5. An actor-critic reinforcement learning approach for bilateral negotiation

    İki taraflı müzakere için aktör-kritik pekiştirmeli öğrenme yaklaşımı

    FURKAN ARSLAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ REYHAN AYDOĞAN