DA4HI: A deep learning framework for facial emotion recognition in affective systems for children with hearing impairments.
DA4HI: İşitme engelli çocuklar için duyuşsal sistemlerde yüzdeki duyguların tanınması maksadıyla geliştirilen derin öğrenme modeli.
- Tez No: 849108
- Danışmanlar: PROF. DR. HATİCE KÖSE, PROF. DR. NAFİZ ARICA
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 172
Özet
Vücut duruşu ve yüz ifadeleri gibi dil ötesi (trasnlinguistik) araçlar, insan davranışlarını anlamayı kolaylaştırır. Bireylere faydalı makineler tasarlamak için, insanın psikolojik durumunun analizi ve yorumlanması zorunludur. Duygular, sosyal etkileşimlerde kullanılan yaygın bir iletişim biçimidir. Duygular, bireylerin sosyal etkileşimleri anlamalarını ve yorumlamasını sağlayan bilişsel bir yapı olarak hizmet eder ve farklı yorumlara tabi olabilir. Duygular, subjektif deneyim, fizyolojik heyecan ve davranışsal ifadeyi içeren karmaşık bir psikolojik durum olarak tanımlanabilir ve genellikle artan kalp atışları, terlemeler ve kas gerginliği gibi vücut değişiklikleri ile eşlik eder. Genellikle olaylar, durumlar veya düşünceler gibi çeşitli dış veya iç uyarıcılar tarafından tetiklenir. Literatüre göre, evrensel olarak tanınan ve yüz ifadeleri aracılığıyla ifade edilen birkaç temel duygu vardır. Bu duygular arasında mutluluk, üzüntü, öfke, korku, şaşkınlık, iğrenme ve nötr yer almaktadır. İnsanlar, insan varlığının sosyal ve teknik yönlerinde önemli bir role sahip oldukları için duygulara ilgi duymaktadır. Bu nedenle, yüzdeki duyguların incelenmesinin psikoloji, sinirbilim ve bilgisayar bilimi gibi alanlar için önemli etkileri vardır; insanlar ve bilgisayarlar arasındaki iletişimi geliştirmek için yüz ifadelerini tanımak ve yorumlamak ve yaşlılar, ASD (Otizm Spektrum Bozukluğu) olan çocuklar veya işitme engelli çocuklar gibi özel ihtiyaçları olan kişilere yardımcı olmak gibi. Yüz ifadeleri, duyguların insanlar tarafından kolayca gözlemlenmesini sağlar. Yüz ifadesi tanıma (YİT), mutluluk, üzüntü, öfke gibi genel duygusal durumların tanımlanmasıyla ilgilidir. Çeşitli yüz ifadeleriyle bağlantılı farklı kas hareketlerinin tanımlanması, yüz eylem birimi (YEB) tespitinin kullanılmasıyla elde edilebilir ve böylece yüz ifadelerinin daha kapsamlı bir şekilde incelenmesini sağlar. YİT ve YEB tespiti, duygu tanıma alanında birbiriyle ilişkili ancak ayrı iki konudur. YEB algılama süreci, çeşitli ifadelere karşılık gelen farklı yüz kas hareketlerinin veya eylemlerinin tanınmasını gerektirir.“YEB”terimi, görsel olarak ayırt edilebilen en küçük yüz hareketlerini ifade eder. Öte yandan, YEB tespiti, genel ifadeye katkıda bulunan belirli YEB'lerin incelenmesini kapsar. Özel ihtiyaçları olan ve işitme engelli çocukların duygularını ifade etme biçimleri farklı olduğundan, bu çocukların duygusal durumlarını anlamak yetişkinlere kıyasla zor olabilir. Bununla birlikte, psikolojik çalışmalar, çok sayıda çocuk-makine etkileşimi ve çocuklara yönelik sosyal robotları, çocukların duygularını bilişsel gelişimlerini değerlendirmek için en önemli ipuçlarından biri olarak kullanmaktadır. Birçok YİT ve YEB tespit sistemi yetişkin verilerine dayalı önceden eğitilmiş modeller kullanır, ancak çok azı yüz morfolojisi yetişkinlerden farklı olan çocuk verileri üzerinde eğitilmiştir. Bunun ana nedenlerinden biri, hassas oldukları için çocuklara ait veri kümelerinin az olması ve bunlara erişimin ek prosedürler gerektirmesidir. Bu nedenle, yalnızca çocuk görüntüleri üzerinde eğitilen modeller sağlam ve yeterince genel olmayabilir. Bu tez çalışmasının ana motivasyonu, sosyal olarak yardımcı bir insansı robot platformu olan Pepper'da gerçek zamanlı kullanılmak üzere işitme engelli çocukların yüz duygularını tanımak için bir model geliştirmek ve uygulamaktır. İşitme engelli çocukların doğal yüz verileri, Pepper insansı robot ve tablet tabanlı bir oyun ile etkileşimi içeren bir çalışma ile toplanmıştır. Her iki deney koşulunda da çocukların tepkileri, doğrudan görüş alanlarına yerleştirilen bir video kayıt cihazı aracılığıyla kaydedilmiştir. Videolardan kayda değer düzeyde duygusal yoğunluk gösteren kareler analiz için seçilmiştir. Elde edilen ve daha sonra uzmanlar tarafından etiketlenen ve bu tezde yalnızca test verisi olarak kullanılan görüntüler nötr, negatif ve pozitif olarak kategorize edilmiş 191 görüntüden oluşmaktadır. Ayrıca, söz konusu karelerde 18 farklı yüz eylem birimi tespit edilmiştir. Bu tez kapsamında cevap aranan sorulardan biri, duyguları tanıma sürecinin bir görüntüdeki yüz ifadelerini doğrudan tespit ederek mi yoksa önce görüntüdeki yüz eylem birimlerini tespit edip daha sonra bunları duyguları tanımak için kullanarak mı optimize edilebileceğidir. Duyguların doğrudan görüntülerden tanınmasıyla ilgili deneyi gerçekleştirmek için, önceden eğitilmiş Evrişimsel Sinir Ağı (CNN) modeli, işitme engelli çocukların yüz ifadelerinin tanıma performansını iyileştirmek için transfer öğrenme ile ince ayarlanmıştır. Bunu yapmak için, insan yüzleri yaş gruplarına göre farklı morfolojik yapılara sahip olduğundan, transfer öğrenmenin yetişkinlerden ve normal çocuklardan işitme engelli çocuklara yüz ifadesi tanıma performansına katkısı araştırılmıştır. Yetişkinler için AffectNet veri kümesi ve normal çocuklar için CAFE veri kümesi kullanılmıştır. CAFE veri kümesi, işitme engelli çocukların veri kümesinde bulunan duygusal kategorilerle uyum sağlamak için duyguları pozitif, negatif ve nötr olmak üzere üç kategoride sınıflandırmıştır. CAFE veri kümesi, işitme engelli çocukların veri kümesinde bulunan duygusal kategorilerle uyum sağlamak için duyguları pozitif, negatif ve nötr olmak üzere üç kategoride sınıflandırmıştır. Bu çalışmada, AffectNet veri kümesi üzerinde hem temel 8 duygu ( kızgın, iğrenme, hor görme, korku, mutlu, nötr, üzgün ve sürpriz) hem de 3 duygu (pozitif, negatif ve nötr) ile model eğitimin, model performansına etkisi analiz edilmiştir. Bu işlem, AffectNet veri kümesinin CAFE ve işitme engelli çocuk veri kümelerine kıyasla daha fazla sayıda görüntü içerdiği gerçeği ışığında yapılmıştır. Bu deneyler sonucunda, 8 temel duyguyu içeren yetişkin veri kümeleri kullanılarak eğitilen modele ince ayar yapılmasının işitme engelli çocukların yüz ifadesi tanıma performansına olumlu katkıda bulunduğu görülmüştür. YEB tespit yoluyla duygu tanıma deneyi için, YEB tespit performansını artırmak amacıyla, işitme engelli çocuklarla ilgili verilerin sınırlı olması nedeniyle siyam ağını kullanan zıt öğrenme tabanlı bir alan uyarlama model önerilmiştir. Bu tezde ele alınması amaçlanan araştırma sorularından biri, benzer olmayan yüz morfolojisine sahip ancak bol miktarda veriye sahip yetişkinler ile benzer yüz morfolojisine sahip ancak nispeten sınırlı veriye sahip çocuklar üzerinde alan uyarlamasının karşılaştırmalı etkinliği ile ilgilidir. Siyam Ağlarında, pozitif ve negatif çiftleri tanımlamak önemlidir. Pozitif ve negatif çiftlerin ayrımı, her bir görüntünün yalnızca bir tane etikete sahip olduğu senaryolarda nettir, ancak her bir görüntünün birden fazla etikete sahip olduğu senaryolarda ise belirsizlik artar. Zıtlık kaybına dayanan mevcut metodolojilerden faydalanmak için sınırlayıcı varsayımlar uygulamak gerekir. En basit yöntem, bir görüntü çifti aynı etiketleri paylaşıyorlarsa pozitif, aksi takdirde negatif olarak kabul etmeyi gerektirir. YEB etiketli verilerde, bir görüntü çiftinin pozitif olması için her iki görüntüde de aynı AU'ların tespit edilmesi gerekir. YEB tespitinin zorluğundan, özellikle de çocuk verilerine erişim zor olduğundan ve bu nedenle veri kıtlığı ortaya çıktığından, bu yöntem çok iyimser bir yaklaşım olur. Çünkü küçük veri kümesini daha da küçültür. Daha az katı bir strateji ise her bir görüntü çiftinin en az bir etiketi paylaşması halinde pozitif olduğu varsayımını içerir. Bu yöntem de ideal olmaktan uzaktır. Bunun yerine, YEB'lerin tespitinin çok etiketli bir sınıflandırma görevi olduğu göz önüne alındığında, karşılaştırılabilir örneklerin zıt öğrenme yaklaşımının kayıp fonksiyonu üzerindeki etkisini düzenlemeye yarayan ve $\beta$ olarak adlandırılan yeni bir yumuşatma parametresinin dahil edilmesi önerilmiştir. Bulgular, çocukların verilerinin (Child Affective Facial Expressions - CAFE) alan uyarlamasına dahil edilmesinin, yetişkin verilerinin (The Denver Intensity of Spontaneous Facial Action - DISFA) kullanımına kıyasla daha üstün performans sonuçları ürettiğini göstermektedir. Ayrıca, $\beta$ yumuşatma parametresinin benimsenmesi, tanıma başarısında kayda değer bir artışla sonuçlanmaktadır. Yukarıda bahsedilen sorgulamayla bağlantılı olarak, tezin sınırları içinde ek bir soru araştırılmıştır: Çocukların, özellikle de işitme engelli çocukların yüz ifadelerini içeren veri kümeleri sınırlı ve erişilmesi zor olduğundan, hangi yaklaşım daha üstün sonuçlar verecektir - transfer öğrenme mi yoksa alan uyarlaması mı? Bu sorgulamayı ele almak için, hem YEB hem de duygusal etiketler de dahil olmak üzere pek çok uzman tarafından dikkatlice işaretlenmiş HIC veritabanını kullandık. Alan uyarlaması çerçevesinde, siam ağı modeli, HIC veri tabanında çocukların gösterdiği YEB'lerini tanımak amacıyla, normal gelişimli çocuklardan elde edilen verileri, yani CAFE veritabanını kullanarak başarılı bir şekilde eğitilmiştir. Daha sonra, siam ağı modelinin üst kısmı YEB sınıflayıcısı olarak kullanıldı. HIC veritabanında çocukların duygusal durumlarını doğru bir şekilde tanımlamak için AU sınıflayıcısının üzerine yapay sinir ağı (ANN) modeli inşa edilmiştir. Diğer yandan, transfer öğrenme konsepti için de Pepper robot üzerinde rahatlıkla çalışabilecek EfficientNet-B0 derin öğrenme modeli kullanıldı. Bu model ilk olarak IMAGENET ve CAFE veri kümeleri kullanarak eğitildi ve daha sonra HIC veri kümesi kullanılarak daha da geliştirildi.Bu çalışmada, derin öğrenme modellerini eğitmek için pozitif, negatif ve tarafsız duygulardan oluşan HIC veritabanını kullanıyoruz. Araştırmayı sonucunda, transfer öğrenme ve alan uyarlama tekniklerini kullanarak eğitilen modellerin benzer sonuçlar verdiğini tespit ettik. HIC veritabanını duygular açısından yorumlayan uzmanlar, nötr duygusunu pozitif ya da negatif olarak sınıflandırılamayan bir duyguların bütünü olarak etiketlediler. Örneğin, şaşkınlık duygusu pozitif ya da negatif duygu olarak sınıflandırılamamaktadır. Bu nedenle, bu duygu nötr sınıfına dahil edilmiştir. Ancak, alan uyarlama tekniğinde, nötr duyguların herhangi bir YEB içermediği varsayımı ile hareket edilmiştir.Etiketleme yapan uzmanlar tarafından ise pozitif ve negatif duygular dışında kalanlar nötr olarak etiketlendiğinden ve ROBOREHAB projesi kapsamında işitme engelli çocukların yalnızca pozitif ve negatif duygularının tanınması elzem olduğundan hem transfer öğrenme hem de alan uyarlama metodlarını kullanarak sadece pozitif ve negatif duyguları tespit etmenin performansını da inceledik. Sadece pozitif ve negatif duyguları içeren HIC veritabanını kullanarak yapılan araştırmada, alan uyarlama stratejisinin transfer öğrenme ile karşılaştırıldığında çok daha üstün sonuçlar verdiği tespit edilmiştir.
Özet (Çeviri)
The study of facial emotions has important implications for fields such as psychology, neuroscience, and computer science, including the recognition and interpretation of facial expressions to improve communication between humans and computers and helping people with particular needs, such as the elderly, children with ASD (Autism Spectrum Disorder), or children with hearing impairment. Facial expressions enable facile observation of emotions by human beings. The term“AU”refers to the smallest facial movements that can be visually distinguished. Facial Expression Recognition (FER) pertains to the identification of general emotional states such as happiness, sadness, anger etc. The identification of distinct muscle movements related to various facial expressions can be achieved by using action unit (AU) detection, allowing for a more comprehensive examination of facial expressions. FER and AU detection are two interrelated yet separate issues in the field of emotion recognition. The AU detection process involves the recognition of distinct facial muscle movements or actions that correspond to various expressions. On the other hand, AU detection encompasses the examination of specific AUs that contribute to the overall expression. Due to how children with special needs and children with hearing impairments express their emotions differently, it may be challenging to comprehend the emotional states of these children compared to adults. However, psychological studies, numerous child-machine interactions, and social robots for children all use children's emotions as one of the most crucial cues for evaluating their cognitive development. Many FER and AU detection systems use pre-trained models based on adult data, but few are trained on child data, whose face morphology differs from that of adults. One of the main reasons for this is the fact that datasets for children are scarce since they are delicate, and accessing them requires additional procedures. Models that are trained only on images of children may not be robust and sufficiently general as a result. The motivation of this thesis study is to develop and implement a model for recognizing facial emotions in children with hearing impairment to be utilized on a Pepper, a socially assistive humanoid robot platform, in real-time for the“RoboRehab: Assistive Audiology Rehabilitation Robot”project (TUBITAK 118E214). The spontaneous facial data of children who have hearing impairments was gathered in a study involving an interaction with a Pepper humanoid robot and a tablet-based game. In both experimental conditions, the responses of the children were captured via a video recording device positioned in their direct line of sight. The frames from the videos that showed notable levels of emotional intensity were chosen for analysis. The resulting images, which were subsequently labeled by annotators, were categorized as neutral, negative, and positive. Also, 18 distinct action units were detected in the aforementioned frames. One of the research questions to be answered in this thesis is whether the process of recognizing emotions can be optimized by directly detecting facial expressions in an image or by first detecting the facial action units within the image and subsequently utilizing them to recognize emotions. In order to conduct the experiment related to recognizing emotions directly from the images, the pre-trained Convolutional Neural Network (CNN) model were fine-tuned by the transfer learning to improve the recognition performance of hearing-impaired children's facial expressions. For this purpose, since human faces have different morphological structures according to age groups, the contribution of transfer learning to facial expression recognition performance from typical adults and children to hearing impaired children was explored. The AffectNet dataset for adults and the CAFE dataset for typical children were used. The CAFE dataset was classified into three emotion categories, namely positive, negative and neutral, in order to align with the emotional categories present in the dataset of hearing-impaired children. The present study analyzed the impact of incorporating training with both the basic 8 emotions (namely, angry, disgust, contempt, fear, happy, neutral, sad, and surprise) and 3 emotions (positive, negative, and neutral) on the performance of a model trained on the AffectNet dataset. This was done in light of the fact that the AffectNet dataset contains a larger number of images compared to the CAFE and hearing-impaired children's datasets. As a result of these experiments, it was found that fine-tuning the trained model using adult datasets which contain eight basic emotions contributed positively to the facial expression recognition performance of hearing-impaired children. For the emotion recognition experiment through AU detection, a model was proposed that employs a contrastive learning-based domain adaptation method that uses a siamese network due to the limited availability of data on hearing-impaired children to enhance the performance of facial AU detection. One of the research questions that this thesis was supposed to answer was how effective domain adaptation is in adults with different facial shapes but lots of data compared to children with similar facial shapes but not as much data.. In Siamese networks, it is important to identify positive and negative pairs. The distinction of positive and negative pairs is unambiguous in scenarios where mutually exclusive labels are employed, but it becomes increasingly uncertain when non-mutually exclusive labels are assigned to each image. In order to benefit from current methodologies that rely on contrastive loss, it is necessary to impose limiting assumptions. The straightforward method entails considering a pair of images as positive if they share identical labels and negative otherwise. For AU labeled data, the same AUs must be detected in both images for an image pair to be positive. So, this is not a very optimistic approach, especially since children's data is difficult to access and therefore data scarcity arises, and facial AU detection is a challenging problem. It further reduces the small dataset. A less strict strategy involves assuming that each image pair is positive if they share at least one label. This method is also far from ideal. Instead, given that the detection of facial AUs constitutes a multi-label classification task, the incorporation of a novel smoothing parameter, denoted as $\beta$, which serves to modulate the impact of comparable samples on the loss function of the contrastive learning approach, was proposed. The findings indicate that the incorporation of children's data (Child Affective Facial Expressions - CAFE) in domain adaptation produces superior performance outcomes compared to the use of adult's data (The Denver Intensity of Spontaneous Facial Action - DISFA). Furthermore, the adoption of the smoothing parameter $\beta$ results in a noteworthy enhancement of the recognition success. In relation to the aforementioned inquiry, an additional question was explored within the confines of the thesis: since the datasets containing the facial expressions of children, especially hearing-impaired children, are limited and difficult to access, which approach would yield superior results—transfer learning or domain adaptation? In order to address this inquiry, we used the Hearing-Impaired Children(HIC) dataset, which has been meticulously annotated by many experts, including both AU and emotion labels. Within the framework of domain adaptation, the Siamese Network model was successfully trained using data derived from typically developing children, namely the CAFE dataset, with the objective of identifying the Action Units (AUs) shown by children in the HIC dataset. Next, the top portion of the Siamese Network model was used as the AU classifier. An artificial neural network (ANN) model was built onto the AU classifier in order to accurately identify the emotional states of the children in the HIC dataset. On the other hand, the transfer learning idea used the EfficientNet-B0 model. This model was first trained using the IMAGENET and CAFE datasets, and then further refined using the HIC dataset. In this work, we use the HIC dataset, which consists of positive, negative, and neutral emotions, to train deep learning models. When conducting the research, it was noted that the models trained using transfer learning and domain adaptation techniques had comparable outcomes. The experts that annotated the HIC dataset in terms of emotion, categorized the emotion as neutral, which belongs to a class of emotions that cannot be categorized as either positive or negative. For instance, the feeling of surprise transcends the categories of negative and positive emotions. Consequently, this feeling is included in the neutral class. However, in the domain adaptation concept, the assumption was made that the neutral emotion did not exhibit any Action Units (AUs) after first detecting them and then classifying the emotions. In the RoboRehab project, we examined the ability to recognize positive and negative emotions in hearing-impaired children. To do this, we investigated the performance of detecting just positive and negative emotions using both transfer learning and domain adaptation concepts. Upon doing the investigation using the HIC dataset, which only consisted of positive and negative emotions, it was noted that the domain adaptation strategy yielded much superior outcomes compared to transfer learning.
Benzer Tezler
- Mr görüntülerinde gliyom karakterizasyonu için 3B analiz temelli sınıflayıcı model tasarımı
The design of 3D analysis-based framework for glioma characterization in MR images
ABDULSALAM HAJMOHAMAD
Yüksek Lisans
Türkçe
2023
Elektrik ve Elektronik MühendisliğiKonya Teknik ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HASAN KOYUNCU
- Designing an information framework for semantic search
Semantik arama için bilgi çerçevesi tasarlanması
ALPER MITINCIK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İSMAİL BURAK PARLAK
- Digital-twin flight modelling through machine learning for trajectory error estimation and recovery
Rota hesaplamalarında makine öğrenmesi tabanlı dijital ikiz uçuş modeli
MEVLÜT UZUN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. GÖKHAN İNALHAN
DR. MUSTAFA UMUT DEMİREZEN
- Hierarchical representations for visual object tracking by detection
Tespit ile görsel nesne takibi için sıradüzensel betimlemeler
BERİL BEŞBINAR
Yüksek Lisans
İngilizce
2015
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ABDULLAH AYDIN ALATAN
- Learning based multiple input multiple output radar imaging
Öğrenme tabanlı çok girişli çok çıkışlı radar görüntüleme
KUDRET AKÇAPINAR
Doktora
İngilizce
2024
Elektrik ve Elektronik MühendisliğiSabancı ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ÖZGÜR GÜRBÜZ ÜNLÜYURT
DR. NAİME ÖZBEN ÖNHON