Geri Dön

Audio classification with few-shot learning

Birkaç örnekli öğrenme ile ses sınıflandırma

  1. Tez No: 899921
  2. Yazar: ENES FURKAN ÇİĞDEM
  3. Danışmanlar: DOÇ. DR. HACER YALIM KELEŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 64

Özet

Bu tez, epizodik ve epizodik olmayan eğitim yöntemlerinin ne kadar iyi çalıştığını karşılaştırmak için ses alanındaki birkaç vuruşlu sınıflandırma probleminin tam bir deneysel çalışmasını yapmaktadır. Üç farklı optimizasyon algoritması epizodik olmayan yöntemle eğitilmiş ve eğitim tekniklerinin sınıflandırma performansı üzerindeki etkisi araştırılmıştır. Bu karşılaştırmalar yapılırken, performansı artırmak için basit özellik dönüşümleri kullanılmış ve bunların performans üzerindeki etkisi analiz edilmiştir. Az sayıda ses sınıflandırma görevi, sınırlı veriye sahip senaryolarda gerçekleştirilmiştir. Bu çalışmada iki farklı veri seti kullanılmıştır: Çevresel Ses Sınıflandırması - 50 ve Google Konuşma Komutları. ESC-50 çevresel konuşma dışı sesleri içerir. GSC temel sözlü emirleri kapsar. Eğitim verisi miktarının her veri seti için sınıf başına 5, 10 ve 15 örnek seçilerek kısıtlandığı üç farklı senaryo oluşturulmuştur. Epizodik olmayan deneylerde üç farklı optimizasyon modeli kullanılarak bu farklı eğitim setleriyle bir dizi kapsamlı deney gerçekleştirilmiştir: tek aşamalı hibrit kayıp optimizasyonu (SSHLO), tek aşamalı kayıp optimizasyonu (SSLO) ve iki aşamalı kayıp optimizasyonu (TSLO). Bu deneylerin sonuçları daha sonra üç optimizasyon ile epizodik eğitim arasında karşılaştırılmıştır. Araştırmamızın bulguları, önceden eğitilmiş bir modelle birlikte kullanıldığında ses alanında epizodik olmayan eğitim yaklaşımının epizodik eğitim yaklaşımından daha etkili olduğuna işaret etmektedir.Optimizasyonlar açısından, sonuçlar tek aşamalı hibrit kayıp optimizasyonunun (SSHLO) iki veri seti üzerinde en üstün optimizasyon olduğunu göstermektedir.

Özet (Çeviri)

This thesis does a full experimental study of the few-shot classification problem in the audio domain to compare how well episodic and non-episodic training methods work. Three different optimization algorithms are trained with the non-episodic method, and the effect of the training techniques on the classification performance is investigated. In making these comparisons, simple feature transformations have been employed to improve performance, and their effect on performance has been analyzed. The few-shot audio classification task has been conducted in scenarios with limited data. This study uses two distinct data sets: Environmental Sound Classification - 50 and Google Speech Commands. ESC-50 includes environmental non-speech noises. GSC encompasses basic spoken orders. Three distinct scenarios are constructed in which the amount of training data is constrained for each data set by selecting 5, 10, and 15 samples per class. A series of comprehensive experiments have been conducted with these different training sets using three different optimization models in non-episodic experiments: single-stage hybrid loss optimization (SSHLO), single-stage loss optimization (SSLO), and two-stage loss optimization (TSLO). The results of these experiments are then compared between the three optimizations and episodic training. The findings of our research point out that the non-episodic training approach is more effective than the episodic training approach in the audio domain when used with a pre-trained model. In terms of optimizations, the results demonstrate that single-stage hybrid loss optimization (SSHLO) is the most superior optimization on the two data sets.

Benzer Tezler

  1. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

  2. Multi-label multi-modal classification of movie scenes

    Film sahnelerinin çok etiketli karma model ile sınıflandırılması

    IRMAK TÜRKÖZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HALİL ALTAY GÜVENİR

  3. Analiz ve sentez seyreklik için sözlük öğrenme algoritmaları ve görüntü işlemede uygulamaları

    Dictionary learning algorithms for analysis and synthesis sparsity and applications in image processing

    ÖZDEN BAYIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ENDER METE EKŞİOĞLU

  4. Seyreklik ve sözlük öğrenme yaklaşımlarının sınıflandırma ve yüz tanımaya uygulanması

    Classification and face recognition application of sparsity and dictionary learning based methods

    BERNA AZİZOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ENDER METE EKŞİOĞLU

  5. Audio-visual affect recognition

    Yüz ifadeleri ve sesten çok-kipli duygu tanıma

    SARA ZHALEHPOUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Elektrik ve Elektronik MühendisliğiBahçeşehir Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    Assoc. Prof. Dr. ÇİĞDEM EROĞLU ERDEM