Veri artırma teknikleri ile iyileştirilmiş çok modlu duygu tanıma sistemi tasarımı ve uygulaması

Design and implementation of a multimodal emotion recognition system enhanced by data augmentation techniques

PDF İndir

Tez No: 946682
Yazar: EMRAH DİKBIYIK
Danışmanlar: DOÇ. DR. ÖNDER DEMİR, DOÇ. DR. BUKET DOĞAN
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Marmara Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Elektrik Elektronik Mühendisliği Bilim Dalı
Sayfa Sayısı: 137

Özet

İnsan-bilgisayar etkileşimi alanında, duyguların doğru bir şekilde anlaşılması ve yorumlanması her geçen gün daha fazla önem kazanmaktadır. Bu bağlamda, bu tez çalışmasında konuşma ve metin modalitelerini birlikte kullanarak duygu tanıma performansını iyileştirmeyi amaçlayan BiMER (BiModal Emotion Recognition) adı verilen iki modlu bir duygu tanıma sistemi tasarlanmış ve gerçekleştirilmiştir. Deneyler, Interactive Emotional Dyadic Motion Capture (IEMOCAP) veri seti kullanılarak, dört temel duygu sınıfı (nötr, öfkeli, üzgün ve mutlu) ile etiketlenmiş doğaçlama diyalog kayıtları üzerinde yürütülmüştür. Veri kayıtlarının sınırlı sayıda olması ve sınıf dağılımının dengesizliği sorunlarını gidermek için hem konuşma hem de metin verilerine çeşitli veri artırma teknikleri uygulanmıştır. Konuşma verileri için SpecAugment gibi yöntemlerle ek eğitim örnekleri üretilmiştir. Metin verileri için de geri çeviri ve BERT tabanlı eşanlamlı sözcük değiştirme teknikleri uygulanarak duygu sınıfları arasındaki dengesizlik giderilmeye çalışılmıştır. Bu sayede, hem konuşma hem de metinsel bilgiden faydalanılarak tek modlu yaklaşımlardan daha kapsamlı ve zengin bir duygu temsili elde edilmesi hedeflenmiştir. Veri artırma teknikleriyle dengelenmiş veri setleri kullanılarak her bir modalite için ayrı modeller eğitilmiştir. Konuşma tabanlı duygu tanıma (Speech Emotion Recognition, SER) için birden fazla derin öğrenme modeli geliştirilmiş ve değerlendirilmiştir. Bu modeller arasında en yüksek başarı, ResNet50 tabanlı ve dikkat mekanizmasına sahip bir evrişimsel-tekrarlayan sinir ağı modeli (ResNet50-CRNN+AT) ile elde edilmiştir. Metin tabanlı duygu tanıma (Text Emotion Recognition, TER) için ise önceden eğitilmiş BERT (Bidirectional Encoder Representations from Transformers) modeli, artırılmış metin verisi üzerinde ince ayar (fine-tuning) yapılarak kullanılmıştır. Ses ve metin modellerinden çıkarılan özellikler, ara düzeyde (intermediate) füzyon yöntemiyle bir araya getirilmiş ve böylece iki modlu birleşik bir sistem oluşturulmuştur. Bu ara seviye birleştirme yaklaşımı (füzyon), modelin konuşma ve metin sinyallerinden gelen tamamlayıcı bilgileri öğrenmesini sağlamıştır. Bu sayede, duygu sınıflandırmasında daha yüksek doğruluk elde edilmiştir. BiMER sistemi, IEMOCAP veri setinde %88,33 gibi yüksek bir doğruluk oranına ulaşmayı başarmıştır. Bu başarı, tek modlu modellerin sonuçlarına kıyasla önemli bir iyileşme olup iki modlu yaklaşımın etkinliğini göstermektedir. Önerilen sistemin uygulanabilirliğini göstermek amacıyla BiMER modeli, Flask web çatısı kullanılarak bir web uygulaması şeklinde entegre edilmiştir. Uygulamada, kullanıcıdan gelen ses dosyaları Google Speech-to-Text API aracılığıyla metne dönüştürülmekte ve hem ses hem de metin girdileri modele iletilerek duygu tahmini yapılmaktadır. Kullanıcı dostu bir arayüz aracılığıyla ses verilerinden duygusal durumların analiz edilmesi ve görselleştirilmesi sağlanmaktadır. Bu uygulama, önerilen yaklaşımın insan-bilgisayar etkileşimi senaryolarındaki pratik kullanım potansiyelini ortaya koymaktadır. Bütün bu bulgular, eğitim verilerinin artırılması ve tamamlayıcı modalitelerin bir arada kullanılmasının duygu tanıma performansını belirgin ölçüde iyileştirebileceğini göstermektedir. Bu durum, daha duyarlı ve etkili insan-bilgisayar etkileşim sistemlerinin geliştirilmesinde önemli bir ilerlemeye işaret etmektedir.

Özet (Çeviri)

Accurate interpretation of human emotions in human–computer interaction is increasingly important. In this study, a bimodal emotion recognition system (BiMER) is designed and implemented with the objective of improving emotion recognition performance by jointly leveraging both speech and text modalities. The experiments in this work are conducted using the Interactive Emotional Dyadic Motion Capture (IEMOCAP) dataset, focusing on spontaneous improvised dialogue recordings annotated with four key emotion classes (neutral, angry, sad, and happy). To address the challenges of limited data and class imbalance in this dataset, data augmentation techniques are applied to both speech and text data. For speech data, augmentation methods such as SpecAugment are used to create additional training examples, while for text, techniques including back-translation and synonym replacement (using BERT) are applied to help balance the distribution of samples across the emotion classes. As a result, by leveraging both acoustic and textual information, the system aims to capture a more comprehensive representation of emotion than single-modality approaches. Using the augmented and balanced datasets, separate models are trained for each modality. For Speech Emotion Recognition (SER), multiple deep learning models were developed and evaluated. The best results were achieved with a ResNet50-based convolutional recurrent neural network with an attention mechanism for temporal context (ResNet50-CRNN+AT). For Text Emotion Recognition (TER), a pre-trained Bidirectional Encoder Representations from Transformers (BERT) model is fine-tuned on the augmented textual data. The features extracted from the audio and text models are then combined using an intermediate fusion strategy, forming a unified bimodal system for emotion recognition. This intermediate fusion approach allows the model to learn complementary information from speech and text signals, leading to more accurate emotion classification. The BiMER system achieved a high accuracy of 88.33% on the IEMOCAP dataset, demonstrating a significant improvement over separate single-modality models and highlighting the effectiveness of the bimodal approach. To evaluate its practical applicability, BiMER was further deployed as a real-time web application using the Flask framework. In the deployed system, the Google Speech-to-Text API is integrated to convert user speech into text, enabling the model to analyze both audio and textual cues from live user input. The resulting application can interactively recognize and display emotional states through a user-friendly interface, illustrating the potential of the proposed approach for real-world emotion recognition in human–computer interaction. Overall, these findings underscore that augmenting training data and combining complementary modalities can significantly enhance emotion recognition, marking an important advancement in the development of more empathetic and effective human–computer interaction systems.

Benzer Tezler

Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
Tez No
879686
Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
Tez No
909024
Bridging knowledge across architectural heritage and digital fabrication technologies
Mimari miras ile dijital fabrikasyon teknolojileri arasında bilgi köprüsü kurmak
BEGÜM HAMZAOĞLU
Doktora
İngilizce
2024
Mimarlık İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
PROF. DR. MİNE ÖZKAR KABAKÇIOĞLU
Tez No
421065
A methodology for energy optimization of buildings considering simultaneously building envelope HVAC and renewable system parameters
Binalarda yapı kabuğu, mekanik sistemler ve yenilenebilir enerji sistemleri parametrelerinin eş zamanlı enerji optimizasyonu için bir yöntem
MELTEM BAYRAKTAR
Doktora
İngilizce
2015
Enerji İstanbul Teknik Üniversitesi
Mimarlık Ana Bilim Dalı
PROF. DR. AYŞE ZERRİN YILMAZ
PROF. DR. MARCO PERINO
Tez No
950202
Periferik yaymada görüntü iyileştirme teknikleri kullanarak sonuçların derin öğrenme tabanlı analizi ve sınıflandırılması
Deep learning-based analysis and classification of peripheral blood smear results using image enhancement techniques
OLCAY PALTA
Doktora
Türkçe
2025
Elektrik ve Elektronik Mühendisliği Fırat Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HANİFİ GÜLDEMİR
DOÇ. DR. MUSA ÇIBUK

Geri Dön