Geri Dön

Comparison of deep learning models for speech emotion recognition

Konuşma duygusu tanıma için derin öğrenme modellerinin karşılaştırılması

  1. Tez No: 894426
  2. Yazar: ÖMER ÇAĞRI DALA
  3. Danışmanlar: PROF. DR. MURAT KOYUNCU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Atılım Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 80

Özet

Bu tez, derin öğrenme modellerinin Konuşma Duygusu Tanıma (SER) problemi üzerindeki pratik uygulamalarına odaklanmaktadır. Evrişimsel Sinir Ağları (CNN'ler) ve ara katmanları birleştirerek, konuşma sinyallerinden bağlamsal farkındalık ile duygusal özelliklerin çıkarılması amaçlanır. Önerilen yaklaşım, geleneksel tekniklerle ilgili zorlukları ele alarak, konuşmadaki duygusal içeriğin etkili temsillerini otomatik olarak öğrenmeye odaklanmaktadır. Ryerson Duygusal Konuşma ve Şarkının Görsel İşitsel Veritabanı (RAVDESS), doğruluğu artırmaya yönelik tekniklere odaklanan SER probleminde kullanılır. Evrişimli Sinir Ağları (CNN'ler) gibi derin öğrenme modelleri, Karar Ağaçları, Adaboost ve Rastgele Orman gibi geleneksel makine öğrenme algoritmalarının yanısıra SER görevlerinde yaygın olarak kullanılır. Derin Öğrenme mimarisi, yerel ve küresel duygu özelliklerinin, hem zamansal hem de spektral bilgileri kompakt bir biçimde yakalayan konuşma ve log-mel spektrogramlarından otomatik öğrenilmesi ve bunları derin öğrenme modelleri için uygun giriş temsiline getirmesi şeklinde tasarlanmıştır. Bu çalışma, derin duygu özelliklerinin çıkarılması yoluyla konuşma verilerinden duyguların tanınmasını geliştirerek duygu tanıma teknolojisinde ilerleme göstermeyi amaçlamaktadır. Bu tez ile elde edilen deneysel sonuçlar, CNN modellerinin SER problemi üzerinde tatmin edici sonuçlar verdiğini göstermektedir.

Özet (Çeviri)

This thesis focuses on the practical applications of deep learning models on the Speech Emotion Recognition (SER) problem. By combining Convolutional Neural Networks (CNNs) and intermediate layers, the study aims to extract emotional features with contextual awareness from speech signals. The proposed approach automatically learns effective representations of emotional content in speech, addressing the weaknesses of traditional techniques. Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS) is used for the SER problem, focusing on techniques to improve accuracy. Deep learning models such as Convolutional Neural Networks (CNNs) are commonly used in SER tasks, alongside traditional machine learning algorithms such as Decision Trees, Adaboost, and Random Forest. Deep Learning models are designed such as local and global emotion-related features are automatically learned from speech and log-mel spectrograms which capture both temporal and spectral in formation in a compact form, making them suitable input representations for deep learning models. This study demonstrates achievable advances in emotion recognition technology by enhancing the recognition of emotions from speech data through the extraction of deep emotion features. The experimental results of this thesis show that CNN models give very satisfactory results on the SER problem.

Benzer Tezler

  1. Derin pekiştirmeli öğrenme yöntemi ile görüntü hash kodlarını oluşturma

    Generating image hash codes with deep reinforcement learning method

    ELİF AKKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiSakarya Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURHAN BARAKLI

  2. Termal görüntülere derin öğrenme tabanlı süper çözünürlük yöntemlerinin uygulanması

    Application of deep learning based super resolution in thermal images

    CANER CİVE

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  3. Konuşma sinyali ve ses telleri görüntülerinden derin öğrenme tabanlı glotal alan kestirimi

    Deep learning based estimation of glottal area from speech and vocal folds images

    YAŞAR SAİD DERDİMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiSüleyman Demirel Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TURGAY KOÇ

  4. El yazısı karakter tanıma ve resim sınıflandırmada derin öğrenme yaklaşımları

    Deep learning approaches in handwritting character recognition and image classification

    AOUDOU SALOUHOU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Sultan Mehmet Vakıf Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BERNA KİRAZ

  5. Derin öğrenme yöntemi ile optik uydu görüntülerinden gemi tespiti

    Ship detection by optical satellite images with deep learning method

    OSMAN DUMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. MESUT KARTAL