Geri Dön

Geliştirilen yeni filtrelerin ve temel frekans tespit yönteminin derin öğrenme ile konuşma duygu analizinde uygulanması

Application of novel filter banks and fundamental frequency detection method in speech emotion recognition with deep learning

  1. Tez No: 730882
  2. Yazar: CEVAHİR PARLAK
  3. Danışmanlar: DOÇ. DR. YUSUF ALTUN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Düzce Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 101

Özet

Bu tez çalışmasında konuşma duygu tanıma uygulamaları için yeni filtre bankaları ve insan sesi temel frekans tespiti için yeni bir metot önerilmektedir. Yeni filtre bankalarının konuşma duygu tanıma uygulamalarında büyük gelişmelerin önünü açması beklenmektedir. Günümüze kadar pek çok farklı filtre bankası konuşma tanıma uygulamaları için önerilmiştir. Ancak bu modeller genellikle çok fazla parametre içermekte veya karmaşık bazı matematiksel işlemlere gereksinim duymaktadırlar. MFCC (Mel Frequency Cepstral Coefficients) katsayıları Mel filtre bankalarından türetilirken DCT (Discrete Cosine Transform) uygulanmaktadır. Ayrıca MFCC katsayılarını akustik olarak yorumlamak hemen hemen imkansızdır. Mel filtre bankaları daha kolay yorumlanabilmesine rağmen çok fazla sayıda parametre içermektedir. Önerilen EFB (Emotional Filter Banks) filtre bankaları daha kolay yorumlanabildiği gibi hesaplama yönünden de daha hızlıdırlar. Bu çalışmada bu filtre bankalarını SVM-SMO (Support Vector Machine-Sequential Minimal Optimization) ve Derin Yapay Sinir Ağı modelleri ile uygulayıp MFCC ve Mel filtre bankaları ile EmoSTAR, EmoDB (Berlin Emotional Database), IEMOCAP (Interactive Emotional Dyadic Motion Capture Database) ve MELD (Multimodal EmotionLines Dataset) verisetleri üzerinde uygulayıp karşılaştıracağız. Özellik seçme ve veri türetme uygulamaları da ayrıca incelenecektir. Temel frekans tespiti için HDM (Harmonic Differences Method) metodu önerilecek olup genişbant ve darbant (telefon) konuşma için araştırılacaktır. HDM harmonikler arasındaki farkı temel alarak çalışmaktadır. Temel frekans için Hillenbrand ve Texas Sesli verisetleri ile TIMIT (Texas Instruments Massachusetts Institute of Technology) verisetinin sesli kısmının tamamı kullanılacaktır. HDM algoritması otokorelasyon, kepstrum, YIN, YAAPT (Yet Another Algorithm for Pitch Tracking), CREPE (Convolutional Representation for Pitch Estimation) ve FCN (Fully Convolutional Network) metotları ile karşılaştırılacaktır. Sonuçlar harmonikler arasındaki farkların temel frekans için iyi bir seçim olduğunu ve HDM metodunun diğerlerine göre çoğunlukla daha başarılı sonuçlar üretebildiğini göstermektedir.

Özet (Çeviri)

In this manuscript, a novel filter bank design, named EFB and a pitch determination algorithm, HDM, are proposed. The proposed filter banks are aimed to replace current state-of-the-art MFCC and Mel filter banks. We hope that EFB filters will have great impact over the speech emotion recognition applications. Today, most of the speech processing applications use Mel filters or its transformed and reduced version MFCC. There are various other filter banks proposed to imitate the human ear structure. However, these models have too many redundant frequency regions. MFCC contains fewer coefficients but computation of DCT is a setback of speed. Another disadvantage of these filters is the difficulty to interpret the MFCC values. It is very hard to gain an insight by inspecting the Mel filters or MFCC. The EFB filter banks are not only fast and easy to compute compared to the Mel and MFCC, but it also provides more insights about the underlying structure of the speech waveform. In this study, EFB filter bank is implemented on emotional speech datasets (EmoSTAR, EmoDB, IEMOCAP, MELD) with various Deep Learning Architectures and SVM-SMO classifier to compare them with MFCC and Mel filter banks. We also investigate feature selection and data augmentation methods. Prosodic features are used very extensively in speech emotion applications. For this part, we developed a novel fundamental frequency calculation method called HDM which exploits the intervals between the harmonics of vowel speech sounds. We test the HDM against some of the prominent algorithms such as autocorrelation, CREPE, YIN, YAAPT, cepstrum, and FCN on Hillenbrand Vowel dataset, Texas Vowel dataset, and vowel part of TIMIT dataset for narrowband telephony speech as well as wideband speech.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Analysis of wave propagation characteristics and design methods in two dimensional photonic bandgap structures

    İki boyutlu fotonik bant durduran yapılarda dalga analizi ve tasarım yöntemleri

    ONUR ERKAN

    Doktora

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERKAN ŞİMŞEK

  3. Improved hilbert huang transform supported by machine learning algorithms for signal analysis

    Sinyal analizi icin makine öğrenme algoritmaları ile desteklenen geliştirilmiş hilbert huang dönüşümü

    HAMİD ERİNÇ KARATOPRAK

    Doktora

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞAHİN SERHAT ŞEKER

  4. Localization of radio sources using autonomous unmanned aerial vehicles for search and rescue applications

    Arama ve kurtarma uygulamaları için otonom insansız hava araçları ile radyo kaynaklarının konumunun tespiti

    ÖMER HEREKOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ RAMAZAN YENİÇERİ

  5. The investigation of the assignment of a primary path on the implementation of a feedforward active noise control system

    İleri beslemeli bir aktif gürültü kontrolü sisteminin uygulanabilirliğinde birincil patika tayininin incelenmesi

    KADİR KAAN AYTUĞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DOÇ. DR. İLKER MURAT KOÇ