Geri Dön

Veri artırma teknikleri ile iyileştirilmiş çok modlu duygu tanıma sistemi tasarımı ve uygulaması

Design and implementation of a multimodal emotion recognition system enhanced by data augmentation techniques

  1. Tez No: 946682
  2. Yazar: EMRAH DİKBIYIK
  3. Danışmanlar: DOÇ. DR. ÖNDER DEMİR, DOÇ. DR. BUKET DOĞAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 137

Özet

İnsan-bilgisayar etkileşimi alanında, duyguların doğru bir şekilde anlaşılması ve yorumlanması her geçen gün daha fazla önem kazanmaktadır. Bu bağlamda, bu tez çalışmasında konuşma ve metin modalitelerini birlikte kullanarak duygu tanıma performansını iyileştirmeyi amaçlayan BiMER (BiModal Emotion Recognition) adı verilen iki modlu bir duygu tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Deneyler, Interactive Emotional Dyadic Motion Capture (IEMOCAP) veri seti kullanılarak, dört temel duygu sınıfı (nötr, öfkeli, üzgün ve mutlu) ile etiketlenmiş doğaçlama diyalog kayıtları üzerinde yürütülmüştür. Veri kayıtlarının sınırlı sayıda olması ve sınıf dağılımının dengesizliği sorunlarını gidermek için hem konuşma hem de metin verilerine çeşitli veri artırma teknikleri uygulanmıştır. Konuşma verileri için SpecAugment gibi yöntemlerle ek eğitim örnekleri üretilmiştir. Metin verileri için de geri çeviri ve BERT tabanlı eşanlamlı sözcük değiştirme teknikleri uygulanarak duygu sınıfları arasındaki dengesizlik giderilmeye çalışılmıştır. Bu sayede, hem konuşma hem de metinsel bilgiden faydalanılarak tek modlu yaklaşımlardan daha kapsamlı ve zengin bir duygu temsili elde edilmesi hedeflenmiştir. Veri artırma teknikleriyle dengelenmiş veri setleri kullanılarak her bir modalite için ayrı modeller eğitilmiştir. Konuşma tabanlı duygu tanıma (Speech Emotion Recognition, SER) için birden fazla derin öğrenme modeli geliştirilmiş ve değerlendirilmiştir. Bu modeller arasında en yüksek başarı, ResNet50 tabanlı ve dikkat mekanizmasına sahip bir evrişimsel-tekrarlayan sinir ağı modeli (ResNet50-CRNN+AT) ile elde edilmiştir. Metin tabanlı duygu tanıma (Text Emotion Recognition, TER) için ise önceden eğitilmiş BERT (Bidirectional Encoder Representations from Transformers) modeli, artırılmış metin verisi üzerinde ince ayar (fine-tuning) yapılarak kullanılmıştır. Ses ve metin modellerinden çıkarılan özellikler, ara düzeyde (intermediate) füzyon yöntemiyle bir araya getirilmiş ve böylece iki modlu birleşik bir sistem oluşturulmuştur. Bu ara seviye birleştirme yaklaşımı (füzyon), modelin konuşma ve metin sinyallerinden gelen tamamlayıcı bilgileri öğrenmesini sağlamıştır. Bu sayede, duygu sınıflandırmasında daha yüksek doğruluk elde edilmiştir. BiMER sistemi, IEMOCAP veri setinde %88,33 gibi yüksek bir doğruluk oranına ulaşmayı başarmıştır. Bu başarı, tek modlu modellerin sonuçlarına kıyasla önemli bir iyileşme olup iki modlu yaklaşımın etkinliğini göstermektedir. Önerilen sistemin uygulanabilirliğini göstermek amacıyla BiMER modeli, Flask web çatısı kullanılarak bir web uygulaması şeklinde entegre edilmiştir. Uygulamada, kullanıcıdan gelen ses dosyaları Google Speech-to-Text API aracılığıyla metne dönüştürülmekte ve hem ses hem de metin girdileri modele iletilerek duygu tahmini yapılmaktadır. Kullanıcı dostu bir arayüz aracılığıyla ses verilerinden duygusal durumların analiz edilmesi ve görselleştirilmesi sağlanmaktadır. Bu uygulama, önerilen yaklaşımın insan-bilgisayar etkileşimi senaryolarındaki pratik kullanım potansiyelini ortaya koymaktadır. Bütün bu bulgular, eğitim verilerinin artırılması ve tamamlayıcı modalitelerin bir arada kullanılmasının duygu tanıma performansını belirgin ölçüde iyileştirebileceğini göstermektedir. Bu durum, daha duyarlı ve etkili insan-bilgisayar etkileşim sistemlerinin geliştirilmesinde önemli bir ilerlemeye işaret etmektedir.

Özet (Çeviri)

Accurate interpretation of human emotions in human–computer interaction is increasingly important. In this study, a bimodal emotion recognition system (BiMER) is designed and implemented with the objective of improving emotion recognition performance by jointly leveraging both speech and text modalities. The experiments in this work are conducted using the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset, focusing on spontaneous improvised dialogue recordings annotated with four key emotion classes (neutral, angry, sad, and happy). To address the challenges of limited data and class imbalance in this dataset, data augmentation techniques are applied to both speech and text data. For speech data, augmentation methods such as SpecAugment are used to create additional training examples, while for text, techniques including back-translation and synonym replacement (using BERT) are applied to help balance the distribution of samples across the emotion classes. As a result, by leveraging both acoustic and textual information, the system aims to capture a more comprehensive representation of emotion than single-modality approaches. Using the augmented and balanced datasets, separate models are trained for each modality. For Speech Emotion Recognition (SER), multiple deep learning models were developed and evaluated. The best results were achieved with a ResNet50-based convolutional recurrent neural network with an attention mechanism for temporal context (ResNet50-CRNN+AT). For Text Emotion Recognition (TER), a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model is fine-tuned on the augmented textual data. The features extracted from the audio and text models are then combined using an intermediate fusion strategy, forming a unified bimodal system for emotion recognition. This intermediate fusion approach allows the model to learn complementary information from speech and text signals, leading to more accurate emotion classification. The BiMER system achieved a high accuracy of 88.33% on the IEMOCAP dataset, demonstrating a significant improvement over separate single-modality models and highlighting the effectiveness of the bimodal approach. To evaluate its practical applicability, BiMER was further deployed as a real-time web application using the Flask framework. In the deployed system, the Google Speech-to-Text API is integrated to convert user speech into text, enabling the model to analyze both audio and textual cues from live user input. The resulting application can interactively recognize and display emotional states through a user-friendly interface, illustrating the potential of the proposed approach for real-world emotion recognition in human–computer interaction. Overall, these findings underscore that augmenting training data and combining complementary modalities can significantly enhance emotion recognition, marking an important advancement in the development of more empathetic and effective human–computer interaction systems.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  3. Bridging knowledge across architectural heritage and digital fabrication technologies

    Mimari miras ile dijital fabrikasyon teknolojileri arasında bilgi köprüsü kurmak

    BEGÜM HAMZAOĞLU

    Doktora

    İngilizce

    İngilizce

    2024

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. MİNE ÖZKAR KABAKÇIOĞLU

  4. A methodology for energy optimization of buildings considering simultaneously building envelope HVAC and renewable system parameters

    Binalarda yapı kabuğu, mekanik sistemler ve yenilenebilir enerji sistemleri parametrelerinin eş zamanlı enerji optimizasyonu için bir yöntem

    MELTEM BAYRAKTAR

    Doktora

    İngilizce

    İngilizce

    2015

    Enerjiİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. AYŞE ZERRİN YILMAZ

    PROF. DR. MARCO PERINO

  5. Periferik yaymada görüntü iyileştirme teknikleri kullanarak sonuçların derin öğrenme tabanlı analizi ve sınıflandırılması

    Deep learning-based analysis and classification of peripheral blood smear results using image enhancement techniques

    OLCAY PALTA

    Doktora

    Türkçe

    Türkçe

    2025

    Elektrik ve Elektronik MühendisliğiFırat Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HANİFİ GÜLDEMİR

    DOÇ. DR. MUSA ÇIBUK