Geri Dön

Emotion recognition in children: Single and multimodal approaches with facial and physiological data

Çocuklarda duygu tanima: Yüz ve fizyolojik verilerle tekli ve çoklu modalite yaklaşimlari

  1. Tez No: 878671
  2. Yazar: ŞEYMA TAKIR
  3. Danışmanlar: PROF. DR. HATİCE KÖSE
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 86

Özet

Duygu; bir bireyin yaşadığı olaylara, durumlara, düşüncelere göre bireyde meydana gelen içsel tepkilerdir. Bu tepkiler çoğu zaman kalp atış hızındaki değişim gibi fizyolojik veya yüz ifadesi, mikro mimik, el-kol işaretleri gibi beden dili aracılığıyla da kendini gösterebilir. Duygular, sosyal etkileşimde temel bir rol oynar çünkü insanlar arasındaki iletişimin büyük bir kısmı duygusal ifade ve tepkiler aracılığıyla gerçekleşir. Duygusal zeka ise kişinin başkalarının duygularını ve kendi duygularını anlamlandırabilmesi, ayırt edebilmesi ve daha sonra bu bilgiler ışığında düşünce ve davranışlarını şekillendirmesidir. Duygusal zeka kişiye empati yeteneği sağlar ve kişi hareket ve davaranışlarına karşısındakini de düşünerek karar verir. Böylece kişiler arası etkileşim artar ve bireyler topluma entegre olur. Son günlerde, duygusal zeka Pepper, Nao, Kaspar gibi insansı robot tabanlı sistemlere entegre edilmeye çalışılmaktadır. Böylece bu sistemlerden karşısındakinin duygularını anlayabilmesi ve geri bildirim ve davranışlarına karar verirken bu duyguları da göz önüne alması beklenmektedir. Yapılan araştırmalara göre atipik gelişimli (otizm, işitme engelli, vb.) çocuklar, duygularını gösterebilmekte ve karşısındakinin duygularını anlayabilmekte zorluklar yaşayabilmektedir. Bu durum çocukların topluma uyumunu azaltıp kendilerini izole hissetmelerine sebep olabilir fakat duygusal zekanın entegre edilebileceği bir insansı robot ile etkileşim bu çocukların sosyalleşmesi ve topluma adaptasyonu konusunda yardımcı olabilir. Robotik bir sisteme duygu modülü geliştirilirken göz önünde bulundurulması gereken bir çok etmen bulunmaktadır. Bu tezde atipik gelişimli (otizm ve işitme engelli) çocukların veri setleri kullanılmış ve sosyal robotlar için duygu tanıma modülü oluşturulması amaçlanmıştır. Bu duygu tanıma modülü için hangi tür veri kullanılması gerektiği, robotların gerçek zamanlı nasıl çalışabileceği, robotlardaki duygu tanıma modülünde düşük maliyet ile yüksek performansın nasıl sağlanabileceği gibi konular üzerinde durulmuştur. Ayrıca“Duygu modülü için tekli modalite mi kullanılmalıdır?”yoksa“Farklı türdeki verileri birleştirerek çoklu modalite mi kullanılmalıdır?”gibi sorular makine öğrenmesi model performansı temel alınarak tartışılmıştır. Sonuç olarak bu tez aşağıdaki araştırma alanlarına yoğunlaşmış ve bu sorular çerçevesinde çalışmalar düzenlenmiştir. • Atipik gelişime sahip çocuklar için sosyal robotlarda duygu tespiti yapmak üzere yüz verilerinde farklı görüntü sıkıştırma teknikleri kullanılarak model performansından ödün vermeden daha verimli bir duygu modülü oluşturulabilir mi? • Yüzden fizyolojik sinyaller kamera ile temas gerektirmeden düşük maliyetle elde edilebilir mi? • E4 cihazı ve temas gerektirmeyen rPPG kıyaslandığında, atipik gelişime sahip bir çocuktan fizyolojik sinyaller elde ederken rPPG daha avantajlı olabilir mi? • Atipik gelişime sahip çocuklar için tek modaliteli duygu tanıma (yüz görüntüleri veya fizyolojik sinyaller) ile çoklu modaliteli duygu tanıma (birleşik yüz görüntüleri ve fizyolojik sinyaller) arasında performans farkı var mıdır? • Boyut indirgeme yöntemleri çoklu modalite ile kullanıldığında model performansını artırabilir mi? İlk çalışmada çocuklar için geliştirilen bir yardımcı sosyal robot sistemi için gerçek zamanlı bir duygu tanıma modülünde geliştirmeye çalışılmıştır. Maliyeti düşürmek ve gecikme olmadan gerçek zamanlı olarak etkileşime girmesini sağlamak için yüz verisi maskeleme ve sıkıştırma yöntemleri önerilmektedir. Çalışmanın hedefi, robotun sınırlı işlem kapasitesi ve hafıza kullanımı üzerine kurulu, gerçek zamanlı bir eylem birimi temelli duygu tanıma modülü geliştirmektir. Bu doğrultuda, CAFE verisetindeki çocuk yüz verilerinde eylem birimi tanımına etkisi olan çeşitli ön işleme ve görüntü sıkıştırma teknikleri incelenmiştir. Görüntü sıkıştırma teknikleri kayıpsız ve kayıplı olarak iki ana başlıkta incelenmiştir. Kayıpsız sıkıştırma tekniğinde görüntüde herhangi bir bozulma olmadan görüntü boyutu düşebilir. Bu metod görüntülere uygulandığında görüntü boyutu 150KB'dan 74KB'a kadar düşmüş ve model performansı %71.29'dan %71.26'ya düşmüştür. Kayıplı sıkıştırmada ise görüntüde bozulmalar olur ve görüntü tekrar eski haline döndürülemez. Bu çalışmada dalgacık renk nicemleme (color quantization) ve dalgacık dönüşümü (wavelet transform) olarak iki farklı kayıplı sıkıştırma metodu denenmiştir. Renk nicemlemede görüntü boyutu 150KB'dan 35KB düşmüşken model performansı %71.29'dan %70.99'a düşmüştür. Dalgacık dönüşümünde ise görüntü boyutu 150KB'dan 26KB düşmüşken model performansı %71.29'dan %70.90'a düşmüştür. Bu sonuçlardan yola çıkarak dalgacık dönüşümünün model performansı ve boyut açısından optimum sıkıştırma tekniği olarak seçilmesine karar verilmiştir. Sonuçlar, gerçek zamanlı uygulamalarda robotun tepki süresini sınırlayacak işlemlerin dışarıda bırakılabileceğini göstermektedir. İkinci çalışma EMBOA projesinin bir parçasıdır ve çalışmada bu proje dahilinde toplanan veriler kullanılmıştır. Çalışmanın amacı otizm spektrum bozukluğu olan çocuklar için fizyolojik sinyaller kullanarak robota entegre edilebilecek bir duygu tanıma modülü geliştirilmesidir. Bu modülün geliştirilmesinin sebebi bu çocukların, duygularını ifade etme ve çevreleriyle sosyal etkileşimde bulunmakta zorluklar yaşamalarıdır. Bu zorluğun üstesinden gelmek ve robot ile çocuk arasındaki etkileşimin kalitesini artırmak için duygu tanıma kullanılmaktadır. Bu çalışmada, robot ile otizmli çocuklar arasındaki etkileşim sırasında kamerayla yakalanan yüz görüntüleri kullanılarak uzaktan fotopletismografi (rPPG) sinyalleri çıkarılmıştır. Bunun için ilk olarak yüzden ilgili bölgeleri (region of interest) çıkartmak için LinkNet 34 modeli kullanılmıştır. Daha sonra o bölgelerdeki kırmızı, yeşil, mavi piksel değerleri bulunmuş ve aykırı değerlerden kurtulmak için hareketli ortalama filtresi (moving average filter) uygulanmıştır. En son ise güç spektral yoğunluğu (power spectral density) ölçülmek için fast Fourier dönüşümü uygulanmıştır. Böylece kan hacim basıncından (Blood volume pressure) kalp atışı bulunabilmiştir. Daha sonra bu sinyaller Empatica E4 bileklik kullanılarak kaydedilen fizyolojik verilerle karşılaştırılmıştır. Bu veriler arasında düşük bir korelasyon olmasına rağmen, E4 bilekliği ve yüz verilerinden duygu tanıma ile kıyaslandığında bazı avantajlar bulunmuştur. E4'ten alınan sinyallerin aksine, rPPG sinyalleri çocuk hareket ettiğinde de bulunabilir. Ayrıca, çocuğun yüzünden hiçbir duygu tespit edilemese bile rPPG sinyalleri elde edilebilir. Çalışma, otizmli çocuklarda robot çocuk etkileşimi sırasında diğer duygu tanıma modellerinin karşılaştığı zorluklar nedeniyle, duygu tanımada alternatif bir yöntem olarak rPPG sinyallerini kullanmayı amaçlamaktadır. Son çalışmada ise işitme engelli çocuklarda duygu tanıma için fizyolojik ve yüz verilerinin özniteliklerini birleştirerek çoklu modalite önerilmektedir. Çalışma, klinik ortamlar ve hastane ortamlarında işitme engelli çocuklara duyguları tespit edebilen sosyal robotlar ile destek sağlamak amacıyla yürütülen çocuk-robot etkileşimi projesinin bir parçasıdır. Çalışmada ilk olarak veri toplama aşaması gerçekleştirilmiştir. Çocukların fizyolojik sinyalleri ve yüz ifadeleri, psikologlar tarafından seçilen pozitif, negatif ve nötr duyguları tetikleyici 3 farklı video izlerken kayıt altına alınmıştır ve daha sonra çocukların videoları uzman psikologlar tarafından pozitif, negatif ve nötr olarak etiketlenmiştir. Daha sonra derin öğrenme yöntemleri ile yüz ve fizyolojik sinyallerden ayrı ayrı öznitelik çıkarım işlemi gerçekleşmiş ve bu öznitelikler birleştirilip geleneksel makina öğrenimi algoritmaları ile sınıflandırılmıştır. Ayrıca birleştirilmeden de her bir modalite için ayrı ayrı sonuçlar elde edilmiştir. Yalnızca yüz ifadesi özelliklerini kullanan model %43.67 sonuç vermiştir. Yalnızca fizyolojik veriler kullanıldığında ise sonuç %58.68'e yükseldi. Son olarak, bu iki farklı modalitenin özellikleri özellik katmanında birleştirildiğinde, doğruluk oranı %70.34'e yükselmiştir. Ayrıca çoklu-modalite ile boyut indirgeme metodlarından biri olan PCA kullanıldığında ise sonuç %70.34'den %74.96'ya yükselmiştir. Sonuç olarak bu veri seti için çoklu modalite yaklaşımının işitme engelli çocuklarda pozitif, negatif ve nötr duyguların tanınmasında önemli ölçüde iyileşme sağladığını göstermiştir. Sonuç olarak bu tez tipik gelişimli olmayan (işitme engelli, otizm) çocuklar için sosyal robotlara entegre edilebilecek duygu modülü oluşturmayı, model oluşturulurken gerçek zamanlı robot-çocuk etkileşiminin nasıl ve hangi metodlarla sağlanabileceği, hangi türde sinyallerin kullanılması gerektiği, bu kullanılan sinyalleri daha ucuz ve efektif bir yöntemle elde edilip edilemeyeceği, bir modalite yerine birden fazla modalite kullanmanın model performansını nasıl etkilediği gibi birçok araştırma sorusunu temel almıştır. Tez dahilinde bu sorular tartışılmış, yapılan test ve deneyler ile ilk olarak robotun sınırlı işlem kapasitesi ve hafıza kullanımını referans alarak çeşitli ön işleme teknikleri ile maliyetin düşürülmesi sağlanmıştır. Ayrıca fizyolojik sinyaller çocuk yüzlerinden elde edilebilmiş ve E4 gibi saatler ile kıyaslandığında rPPG metodunun birçok avantajı gözlemlenmiştir. Son olarak işitme engelli çocuk verileri kullanılarak çoklu modalite çalışması yapılmış ve bir modaliteye göre çoklu modalitenin performansının çok daha yüksek olduğu gözlemlenmiştir. Ayrıca çoklu modalite ile PCA beraber kullanılmasının model performansını daha da arttırdığı gözlemlenmiştir.

Özet (Çeviri)

Emotion is the internal response of an individual to events, situations, and thoughts they experience. These responses often manifest through physiological changes, such as variations in heart rate, or through body language, such as facial expressions, micro-expressions, and hand-arm gestures. Emotions play a fundamental role in social interaction, as a significant portion of communication between people occurs through emotional expression and reactions. Emotional intelligence, on the other hand, is the ability to understand and differentiate one's own emotions and those of others, and subsequently shape thoughts and behaviors based on this information. Emotional intelligence provides individuals with the capacity for empathy, allowing them to make decisions by considering the feelings and reactions of others. This enhances interpersonal interaction and helps individuals integrate into society. Recently, emotional intelligence has been integrated into humanoid robot-based systems like Pepper, Nao, and Kaspar. These systems are expected to understand the emotions of their counterparts and consider these emotions when deciding on their feedback and behaviors. Research indicates that children with atypical development (such as autism or hearing impairment) may struggle with expressing their emotions and understanding the emotions of others. This can reduce their social adaptation and lead to feelings of isolation. However, interaction with a humanoid robot equipped with an affective computing module could assist these children in socializing and adapting to society. When developing an emotion module for a robotic system, several factors need to be considered. This thesis aims to create an emotion recognition module for social robots using datasets of children with atypical development (autism and hearing impairment). The focus includes determining the types of data to be used for the emotion recognition module, how robots can operate in real-time, and achieving high performance with low cost in the emotion recognition module of robots. Additionally, the questions“Should a single modality be used for the emotion module?”or“Should multiple modalities be used by combining different types of data?”are discussed based on the performance of machine learning models. As a result, this thesis examines three different studies and attempts to answer the previously mentioned questions. In the first study, a real-time emotion recognition module was developed for an assistive social robot system designed for children. To reduce costs and enable real-time interaction without delay, face data masking and compression methods are proposed. The goal of the study is to develop a real-time action unit-based emotion recognition module built on the robot's limited processing capacity and memory usage. In this regard, various preprocessing and image compression techniques affecting the definition of action units in child face data from the CAFE dataset were examined. Image compression techniques were analyzed under two main categories: lossless and lossy compression. In lossless compression, the image size can be reduced without any degradation of the image. When this method was applied to images, the image size was reduced from 150KB to 74KB, and the model performance decreased from 71.29% to 71.26%. In lossy compression, there are degradations in the image, and the image cannot be restored to its original state. In this study, two different lossy compression methods were tested: wavelet transform and color quantization. With color quantization, the image size was reduced from 150KB to 35KB, while the model performance decreased from 71.29% to 70.99%. With wavelet transform, the image size was reduced from 150KB to 26KB, and the model performance decreased from 71.29% to 70.90%. Based on these results, wavelet transform was decided to be the optimal compression technique in terms of both model performance and size. The results indicate that in real-time applications, operations that would limit the robot's response time can be excluded. The second study is part of the EMBOA project, utilizing data collected within this project. The aim of the study is to develop an emotion recognition module using physiological signals for children with autism spectrum disorder. This module is necessary because these children often face difficulties in expressing emotions and engaging in social interactions. Emotion recognition is employed to overcome this challenge and enhance the quality of interaction between the robot and the child. In this study, remote photoplethysmography (rPPG) signals were extracted from face images captured during interactions between the robot and children with autism. Initially, the LinkNet 34 model was used to identify regions of interest (ROI) on the face. Then, red, green, and blue pixel values from these regions were extracted, and a moving average filter was applied to eliminate outliers. Finally, a fast Fourier transform was performed to measure power spectral density, allowing the detection of heart rate from blood volume pressure. These signals were then compared with physiological data recorded using the Empatica E4 wristband. Although there was a low correlation between these datasets, some advantages were found when comparing emotion recognition using rPPG signals from the face to signals from the E4 wristband. Unlike signals from the E4 wristband, rPPG signals can still be detected even when the child is moving. Additionally, rPPG signals can be obtained even if no emotion is detected from the child's facial expression. This study aims to use rPPG signals as an alternative method for emotion recognition during robot-child interactions with children with autism, addressing the challenges faced by other emotion recognition models. The final study proposes a multimodal approach for emotion recognition in hearing-impaired children by combining features from physiological and facial data. This study is part of a child-robot interaction project aimed at supporting hearing-impaired children in clinical and hospital settings with social robots capable of detecting emotions. Initially, data collection was conducted, where the physiological signals and facial expressions of children were recorded while they watched three different videos designed to elicit positive, negative, and neutral emotions, selected by psychologists. The videos were then labeled as positive, negative, or neutral by expert psychologists. Subsequently, deep learning methods were used to extract features from both facial and physiological signals separately, and these features were combined and classified using traditional machine learning algorithms. Additionally, separate results were obtained for each modality before combining them. The model using only facial expression features achieved an accuracy of 43.67%. When only physiological data was used, the accuracy increased to 58.68%. Finally, when the features from these two different modalities were combined at the feature level, the accuracy rose to 70.34%. Furthermore, when principal component analysis (PCA), a dimensionality reduction method, was applied along with multimodal features, the accuracy increased from 70.34% to 74.96%. These results demonstrate that the multimodal approach significantly improves the recognition of positive, negative, and neutral emotions in hearing-impaired children for this dataset. In conclusion, this thesis focuses on developing an emotion module for social robots to be integrated with children with atypical development (hearing impairment, autism). It addresses research questions such as how real-time robot-child interaction can be achieved and which methods to use, what types of signals should be utilized, whether these signals can be obtained more cost-effectively and efficiently, and how the use of multiple modalities impacts model performance compared to a single modality. These questions are discussed throughout the thesis, and through various tests and experiments, costs were reduced by using preprocessing techniques that consider the robot's limited processing capacity and memory usage. Additionally, physiological signals were successfully obtained from children's faces, and the rPPG method demonstrated several advantages when compared to devices like the E4 wristband. Finally, a multimodal study with data from hearing-impaired children showed that multimodal approaches significantly outperformed single modality approaches, and combining multimodal features with PCA further enhanced model performance.

Benzer Tezler

  1. Transfer learning based facial emotion recognition and action unit detection

    Transfer öğrenme tabanlı yüz ifadesinden duygu tanıma ve eylem birimi tespiti

    SÜLEYMAN ENGİN BAĞLAYİCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  2. Dikkat eksikliği/ hiperaktivite bozukluğu, öğrenme bozukluğu ve otistik spektrum bozukluğu tanılı çocukların yaş ve cinsiyet açısından eşlenmiş sağlıklı kardeşlerinde sözel olmayan iletişim becerileri, empati düzeyleri, çevresel belirteçleri ile ilişkilerinin araştırılması: kontrollü bir araştırma

    Evaluation of nonverbal communication skills, empathy levels and their relationships with peripheral markers in age and gender matched healty siblings of children in attention deficit hyperactivity disorder, learning disability and autism spectrum disorder: a controlled study

    NURAN DEMİR

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2016

    PsikiyatriAbant İzzet Baysal Üniversitesi

    Çocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı

    DOÇ. DR. ALİ EVREN TUFAN

  3. OSB'li çocuklara yüz ifadelerinden duygu tanıma becerisi kazandırmada eşzamanlı ipucuyla sunulan gömülü öğretim uygulamalarının etkililiğinin incelenmesi

    Investigating the effectiveness of embedded instructional practices using simultaneous cueing method in developing emotion recognition skills from facial expressions in children with ASD

    BÜŞRA VİRDİL

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimBiruni Üniversitesi

    Özel Eğitim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SİNAN KALKAN

  4. Lightweight facial expression recognition systems for social robots

    Sosyal robotlar için hafif ağırlıklı yüz ifadesi tanıma sistemleri

    ERHAN BİÇER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HATİCE KÖSE

  5. Otizmli bireylerin yüz ifadelerinden duygu tanımalarına yönelik dijital materyali geliştirme: Tasarım tabanlı bir araştırma

    Digital instructional material development for recognizing emotions from facial expressions of individuals with autism: A design-based research

    GÜNEŞ UĞRAŞ

    Doktora

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimAtatürk Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    PROF. DR. SELÇUK KARAMAN