Geri Dön

Makine öğrenimi tekniklerini kullanarak konuşma duygularını tanıma

Speech emotion recognition using machine learning techniques

  1. Tez No: 823254
  2. Yazar: ÜLKÜ BAYRAKTAR
  3. Danışmanlar: DOÇ. DR. ZEYNEP HİLAL KİLİMCİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Kocaeli Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilişim Sistemleri Bilim Dalı
  13. Sayfa Sayısı: 88

Özet

Konuşma duygu tanıma, konuşma işleme alanında zorlu bir görevdir. Bu nedenle, özellik çıkarım işlemi konuşma sinyallerini göstermek ve işlemek için son derece önemlidir. Bu çalışmada, altı farklı veri kümesi kullanarak duyguların tanınması için özellik çıkarım aşaması, doğrudan ham ses dosyalarını derin sinir ağlarına besleyen bir model ve makine öğrenmesi algoritmaları üzerine çalışmalar yapılmıştır. Bu veri kümeleri şunlardır: Berlin Duygusal Konuşma Veritabanı, Ryerson Sesli-Görsel Duygusal Konuşma ve Şarkı Veritabanı, Toronto Duygusal Konuşma Veritabanı, Crowd-Sourced Duygusal Multimodal Aktörler , Surrey Sesli-Görsel İfade Edilmiş Duygu ve TESS+RAVDESS. Modeller mel-ölçekli spektrogram, mel-frekanslı spektral katsayılar gibi geleneksel özellik çıkarım teknikleri kullanılarak makine öğrenmesi algoritmaları, topluluk öğrenme yöntemleri, derin öğrenme ve hibrit derin öğrenme teknikleri ile çalıştırılmıştır. Destek vektör makinesi, karar ağacı, naif Bayes, rastgele ormanlar, makine öğrenmesi algoritmaları olarak değerlendirilirken, çoğunluk oylaması ve yığın yöntemleri topluluk öğrenme teknikleri olarak değerlendirilmiştir. Ayrıca, evrişimsel sinir ağları, uzun kısa vadeli bellek ağları ve hibrit CNN-LSTM modeli derin öğrenme teknikleri olarak değerlendirilmiş ve uygulanan her bir modelin performansı kıyaslanmıştır. Dahası, tez kapsamında kullanılan modellerin performansı çalışmanın katkısını göstermek amacıyla literatür çalışmaları ile karşılaştırılmıştır.. Transformer modelleri, gelişen teknoloji ile birlikte doğal dil işlemede büyük bir ilerleme kaydedilmesine olanak sağlayan derin öğrenme yöntemleridir. HuBert, Wav2Vec2, M-CTC-T gibi popüler dil modelleri kullanılarak çalışmamızdaki 6 farklı veri kümesi üzerinde deneyler yapılmış ve sonuçları değerlendirilmiştir. Bu çalışma, konuşma duygu tanıma alanındaki gelişmelere katkıda bulunmakta ve gelecekte bu alanda daha iyi sonuçlar elde etmek için yapılacak çalışmalara öncülük etmektedir.

Özet (Çeviri)

Recognizing emotions in speech is a challenging task in the field of speech processing. Therefore, feature extraction is of utmost importance in representing and processing speech signals. In this study, a feature extraction stage for emotion recognition is investigated, as well as deep neural network models and machine learning algorithms fed directly with raw audio files. Six different datasets were utilized for this purpose: Berlin Emotional Speech Database, Ryerson Audio-Visual Database of Emotional Speech and Song, Toronto Emotional Speech Set, Crowd-Sourced Emotional Multimodal Actors, Surrey Audio-Visual Expressed Emotion and TESS+RAVDESS. Models were trained using traditional feature extraction techniques such as mel-scale spectrogram, mel-frequency spectral coefficients, as well as machine learning algorithms, community learning methods, deep learning, and hybrid deep learning techniques. Support vector machines, decision trees, naive Bayes, random forests were evaluated as machine learning algorithms, while majority voting and ensemble methods were evaluated as community learning techniques. In addition, convolutional neural networks, long short-term memory networks, and the hybrid CNN-LSTM model were evaluated as deep learning techniques, and the performance of each applied model was compared. Furthermore, the performance of the models used in the thesis was compared with literature studies to demonstrate the contribution of the study. Transformers are deep learning algorithms that have facilitated significant progress in natural language processing with the advancement of technology. In this study, experiments were conducted on six different datasets in our work using popular language models such as HuBert, Wav2Vec2, and M-CTC-T, and their results were evaluated. This study contributes to the advancements in speech emotion recognition and paves the way for future research to achieve better results in this field.

Benzer Tezler

  1. Speech emotion recognition: Application in distance learning education

    Uzaktan eğitim uygulamalarında konuşma duygu tanıma

    DAHIRU TANKO

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Adli Bilişim Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞENGÜL DOĞAN

  2. Otomatik duygu sözlüğü çevirimi ve duygu analizinde kullanımı

    Automatic sentiment dictionary translation and using in sentiment analysis

    ALAETTİN UÇAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. HAYRİ SEVER

    DOÇ. DR. EBRU AKCAPINAR SEZER

  3. Yeni Cami'nin akustik açıdan performans değerlendirmesi

    Evaluation of the acoustical performance of the New Mosque

    EVREN YILDIRIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2003

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SEVTAP YILMAZ DEMİRKALE

  4. Backchannel prediction in human-robot interaction for engaging agents

    İnsan-robot etkileşiminde ilgi düzeyinin iyileştirilmesine yönelik arka-kanal sinyal kestirimi

    BEKİR BERKER TÜRKER

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ENGİN ERZİN

  5. Classification of abnormal respiratory sounds using deep learning techniques

    Solunum seslerinin derin öğrenme yöntemleri ile sınıflandırılması

    AHAMADI ABDALLAH IDRISSE

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. OKTAY YILDIZ