Geri Dön

Emotion recognition using deep learning focusing on the hand and facial expressions

El ve yüz ifadelerine odaklanan derin oğrenmeyi kullanarak duygu tanıma

  1. Tez No: 849805
  2. Yazar: HASANAIN JAWAD RADEEF
  3. Danışmanlar: YRD. DOÇ. DR. YILMAZ AR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Duygu Tanıma, Derin Öğrenme, ResNet, Mobile Net, Emotion Recognition, Deep Learning, ResNet, Mobile Net
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 92

Özet

Duygusal gösterimlerin yol açtığı davranışsal ve fizyolojik tepkileri kullanarak çeşitli duygusal durumların ölçülmesi, tanımlanması ve tanınması, duygu tanıma olarak bilinir. Tartışma yaratma ve sosyal medya da dahil olmak üzere birçok görevdeki sayısız kullanımı nedeniyle duygu tanımlama çok önemli bir alandır. Bilgisayar sistemleri ve araçlarının insan etkilerini algılayıp yorumlamasını sağlayan bir analiz ve zeka sistemi, akıllı etkileşimi tasarlarken ve sunarken uyumlu bir insan-bilgisayar ekosistemi yaratır. Son yıllarda, yüz ve el hareketleriyle ifade edilen duyguların tanınmasına yönelik sağlam sistemlerin geliştirilmesine odaklanılarak, duygusal bilgi işlem alanına olan ilginin arttığı görüldü. Çalışmamızda, derin öğrenme tekniklerini kullanarak el ve yüz duygu tanıma alanındaki son gelişmelerin kapsamlı bir incelemesini ve analizini sunuyoruz. Duygu tanıma, insan-bilgisayar etkileşiminde çok önemli bir rol oynuyor ve derin öğrenmeyi kullanarak el ve yüz duygu tanıma alanındaki gelişmelere, zorluklara ve gelecekteki potansiyel eğilimlere ilişkin fikir sağlıyor. Toplum, insan-makine etkileşimini içeren teknolojileri giderek daha fazla benimserken, doğru ve etik açıdan sağlam duygu tanıma sistemleri geliştirmek, kusursuz ve empatik arayüzler oluşturmak için gerekli hale geliyor. Araştırma ayrıca, iyi bilinen derin öğrenme tekniklerinin karşılaştırmalı bir incelemesini de içeriyor; performans göstergelerini, hesaplama etkinliğini ve dinamik yüz ifadeleriyle karşı karşıya kaldığında dayanıklılığı değerlendiriyor. Ayrıca bu araştırma, modellerin çeşitli alanlara ve veri kümelerine uygulanabilirliğini incelemektedir. Bu çalışmada, yüz ifadelerinin yedi türe ayrıldığı, yüz hareketi tanıma için yaygın olarak kullanılan iki veri tabanı olan RAF-DB ve FEER 2013 olmak üzere iki veri tabanı kullandık: öfke, tiksinme, şaşkınlık, mutluluk, korku, üzüntü ve nötr. . Bu iki veritabanındaki görüntüleri üç derin tanıma algoritması kullanarak eğittik ve test ettik ve umut verici sonuçlar gösterdik. Çalışmalarımıza temel olarak geleneksel yöntemle başlıyoruz. Daha sonra 34th ResNet (He vd., 2016), MobileNet-V3(Howard ve diğerleri2017) ve Wider ResNet50-2'nin (Zagoruyko ve Komodakis, 2016) derin öğrenme tekniklerini içeren daha karmaşık bir yönteme geçiyoruz. Görüntünün farklı bölümlerine odaklanıyoruz: bir kanal yüz için, diğeri sağ el için ve diğeri sol el için. Daha sonra, yüzden duygu tanıma konusunda daha önce yapılan benzer çalışmalardan elde edilen bazı ölçümlere dayalı farklı teknikleri gösteriyoruz. Yüz Ġfadesi Tanıma 2013 (FER2013) ve RAdboud Yüzler Veritabanı (RAF-DB) veri setleri üzerinde temel bir model oluşturuyoruz ve çeşitli veriler üzerinde CNN kullanma deneyimimize göre katman başına yeni katman ve nöron sayısını seçiyoruz. Setler. Deneme yanılma yaklaşımı ideal öğrenme oranını ve diğer güçlendirme parametrelerini belirler. ImageNet veri seti üzerinde önceden eğitilmiş ResNet50v2'yi kullanarak el pozisyonuna göre yumruk, süper, kaybeden ve zafer etiketlerini tahmin etme. %69,41'lik test doğruluğuyla Wider ResNet50-2 (Zagoruyko ve Komodakis, 2016) modeli (Zagoruyko ve Komodakis, 2016), FER2013 veri kümesinde en iyi performansı gösterir. Orijinal Wider ResNet50-2 modeli 68 milyon parametre içermesi nedeniyle diğerlerine göre oldukça karmaşık ve büyüktür. Ancak parametre sayısını 66 milyona düşürdük. ResNet 34 %68,57, Mobile Net V 3 ise %66,09 doğruluk oranına ulaştı. Daha geniş olan ResNet50-2 (Zagoruyko ve Komodakis, 2016), %87,23 ile RAF-DB'de en iyi test doğruluk puanına ulaşır. Ek olarak, boru hattımızı MTCNN yüz algılama modelini kullanarak uyguluyoruz ve nasıl performans gösterdiğini görmek ve davranışını daha iyi anlamak için gerçek dünya verilerini kullanarak test ediyoruz. Diğer algoritmalarla yaptığımız çalışmalarda kullanılan aynı iki veritabanı için daha düşük doğruluk puanları elde ettik. ResNet 34 ve MobileNet gibi, ResNet 34 %86,32, Mobile Net V 3 ise %83,44 doğruluk oranına ulaştı. Modelin verimliliğini değerlendirmek için kafa karışıklığı matrisi ve etiket başına hassasiyet, hatırlama ve F1 puanı dahil diğer önlemler kullanıldı. Ġlk olarak, model tarafından üretilen çok sayıda hatanın yanı sıra çeşitli etiketlerde her hatanın meydana gelme sıklığını gösteren karışıklık matrisine bakalım. Derecelendirme sisteminin etkinliğini arttırmanın bir yoludur. Veri setinde ikiden fazla sınıf varsa veya sınıflar arasındaki gözlem miktarında farklılıklar varsa sınıflandırma doğruluğu zorlayıcı olabilir. Karışıklık matrisi, doğruluk, hatırlama ve F1-Skorunun hesaplanması yoluyla, belki bir sınıflandırma modeliyle bağlantılı zaferler ve eksiklikler hakkında daha derin bir anlayış kazanabiliriz. Bu faktörler, sınıflandırma sisteminin genel doğruluğundan çok, sistem performansının daha ayrıntılı bir şekilde anlaşılmasını sağlamaya odaklanmıştır. Ġyimser tahminlerin doğruluğu doğrulukla ilişkilidir. Geri çağırma ise yalnızca iyi olayların belgelenmesine odaklanır ve F1 puanı hem hatırlamayı hem de kesinliği hesaba katan adil bir değerlendirme sunar. F1 skorunda, harmonik ortalama kullanılarak kesinlik ve hatırlamaya eşit ağırlık verilir. Ayrıca, optimal sonuçlarımızın RAF-DB ve FER2013 veri setlerinden elde edilen diğer güncel sonuçlarla karşılaştırmalı bir analizini gerçekleştirdik. Bu arama modeli WiderResNet50-2'nin doğruluğu, FER2013 ve RAF-DB üzerinde değerlendirildiğinde tüm alternatif arama modellerini geride bırakıyor. Bunun tersine, bazı araştırmacılar birden fazla veri kümesinin tek, daha kapsamlı bir veri kümesinde entegrasyonuna güvenirken, bizim yaklaşımımız herhangi bir birleştirme metodolojisi kullanmadan her veri kümesini ayrı ayrı kullanmaktır. Ġlk modellerle karşılaştırıldığında, her model için özelleştirme katmanlarını kullanmamız eş zamanlı olarak çıkarım için gereken süreyi artırır ve toplam model parametresi sayısını azaltır. Yukarıda belirtilenler aracılığıyla, bu araştırma, derin öğrenme tekniklerini kullanarak yüz ve el hareketlerinden duygu tanıma alanındaki ilerlemelere ve zorluklara kapsamlı bir genel bakış sunmakta ve daha etkileşimli ve güçlendirici deneyimler elde etmek için insan-makine etkileşimi tekniklerinin nasıl geliştirilebileceğinin anlaşılmasına katkıda bulunmaktadır. Ayrıca araştırma, insan-bilgisayar etkileşim sistemlerini iyileştirme potansiyeline vurgu yaparak, daha doğru ve bağlama duyarlı bir anlayış için yüz ve el hareketi tanımanın entegrasyonunu araştırıyor. Kaydedilen kayda değer ilerlemeye rağmen.

Özet (Çeviri)

Quantifying, describing, and recognizing various emotional states using behavioral and physiological reactions brought on by emotional displays is known as emotion recognition. Due to its numerous uses in many tasks, including discussion generation and social media, emotion identification is a crucial field. A system of analysis and intelligence enabling computer systems and gadgets to perceive and interpret human effects creates a harmonious human-computer ecosystem when designing and presenting intelligent interaction. In recent years, the field of affective computing has seen an increase in interest, with particular focus on developing robust systems for recognizing emotions expressed through facial and hand gestures. In our work, we provide a comprehensive review and analysis of the state-of-the-art in hand and face emotion recognition using deep learning techniques. Emotion recognition plays a pivotal role in human-computer interaction, providing insight into developments, challenges, and potential future trends in the field of hand and facial emotion recognition using deep learning. As society increasingly embraces technologies that involve human-machine interaction, developing accurate and ethically sound emotion recognition systems becomes essential to creating seamless and empathetic interfaces. The research additionally incorporates a comparative examination of well-known deep learning techniques, assessing performance indicators, computational effectiveness, and resilience when confronted with dynamic facial expressions. Moreover, this research examines the applicability of models to various domains and datasets. In this work, we used two databases: RAF-DB and FEER 2013, which are two commonly used databases for facial gesture recognition, where facial expressions are divided into seven types: anger, disgust, surprise, happiness, fear, sadness, and neutral. We trained and tested images on these two databases using three deep recognition algorithms and showed promising results. In our work, we begin with the conventional method as a foundation. Then we go to a more sophisticated method that incorporates the deep learning techniques of 34th ResNet (He et al., 2016), MobileNet- V3(Howard et al., 2017), and Wider ResNet50-2 (Zagoruyko and Komodakis, 2016). We focus on different parts of the image: one channel for the face, the other for the right hand, and the other for the left hand. Then, we demonstrate different techniques based on some metrics from similar previous work in facial emotion recognition. We create a baseline model on the Facial Expression Recognition 2013 (FER2013) and RAdboud Faces Database (RAF-DB) data sets, and we select the new number of layers and neurons per layer according to our experience in using CNN on a variety of data sets. The trial-and-error approach determines the ideal learning rate and other augmentation parameters. Predicting punch, super, loser, and victory labels based on hand position using ResNet50v2, pre-trained on the ImageNet data set. With a test accuracy of 69.41%, the Wider ResNet50-2 (Zagoruyko and Komodakis, 2016) model (Zagoruyko and Komodakis, 2016) performs best on the FER2013 dataset. The original Wider ResNet50-2 model is very complex and large compared to others because it includes 68 million parameters. However, we reduced the number of parameters to 66 million, While the ResNet 34 achieved an accuracy rate of 68.57% and the Mobile Net V 3 had a ratio of 66.09%. The wider ResNet50-2 (Zagoruyko and Komodakis, 2016) achieves the best test accuracy score on RAF-DB with 87.23%. Additionally, we implement our pipeline using the MTCNN face detection model and test it using real-world data to see how it performs and to understand its behaviour better . The confusion matrix and other measures, including per-label precision, recall, and F1 score, were used to assess the model's efficiency. First, let us look at the confusion matrix, which illustrates the multitude of errors generated by the model as well as the frequency at which each error occurs along the various labels. It's a means of enhancing the rating system's efficacy. If there are more than two classes in the data set or if there are differences in the number of observations across classes, classification accuracy may be challenging. Through the computation of the confusion matrix, accuracy, recall, and F1-Score, we might perhaps gain a deeper comprehension of the triumphs and shortcomings linked to a classification model. These factors are more focused on creating a more detailed understanding of the system's performance than they are on the classification system's overall accuracy. The accuracy of optimistic predictions is correlated with accuracy. Recall, on the other hand, focuses on documenting only good occurrences, and the F1 score offers a fair assessment that accounts for both recall and precision. In the F1 score, precision and recall are given equal weight using the harmonic mean. Furthermore, we conducted a comparative analysis of our optimal outcomes with other recent results obtained from the RAF-DB and FER2013 datasets. The accuracy of this search model, Wider-ResNet50-2, surpasses that of all alternative search models when evaluated on FER2013 and RAF-DB. Conversely, while certain researchers depend on the integration of multiple datasets into a single, more extensive dataset, our approach is to utilize each dataset in isolation, without employing any merging methodology. Compared to the initial models, our utilization of customization layers for each model simultaneously increases the time required for inference and decreases the total number of model parameters. Through the above, this research provides a comprehensive overview of the progress and challenges in the field of emotion recognition from facial and hand movements using deep learning techniques and contributes to understanding how to improve human-machine interaction techniques to achieve more interactive and empowering experiences. Furthermore, the research explores the integration of facial and hand gesture recognition for more accurate and context-aware understanding, with an emphasis on the potential for improving human-computer interaction systems. Despite the remarkable progress that has been achieved.

Benzer Tezler

  1. Deep learning based three dimensional face expression recognition using geometry images from three dimensional face models

    Üç boyutlu yüz modellerinden elde edilen geometri görüntüleri kullanılan derin öğrenme tabanlı üç boyutlu yüz ifadelerini tanıma

    NEŞE GÜNEŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ULUĞ BAYAZIT

  2. Music emotion recognition using deep neural networks

    Derin sinir ağları kullanılarak müzik duygu tanımlaması

    HAKAN PÜRE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankaya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ABDÜL KADİR GÖRÜR

  3. Derin öğrenme ile insan edimlerinin tanınması

    Human action recognition using deep learning

    TAYYİP ÖZCAN

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALPER BAŞTÜRK

  4. Audio-visual emotion recognition using deep operational networks

    Derin operasyonel ağlar ile işitsel-görsel duygu tanıma

    KAAN AKTÜRK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ SEYDİ KEÇELİ

  5. Advanced techniques and comprehensive analysis in speech emotion recognition using deep neural networks

    Derin sinir ağları kullanarak konuşma duygu tanıma üzerine gelişmiş teknikler ve kapsamlı analiz

    AHMET KEMAL YETKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE