Facial expression analysis foran online usability evaluation platform
Çevrimiçi kullanılabilirlik değerlendirme platformu için yüz ifadesi analizi
- Tez No: 917103
- Danışmanlar: PROF. DR. HAZIM KEMAL EKENEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 88
Özet
Yüz ifadeleri, insan duygularının iletilmesinde ve dolayısıyla sözsüz iletişimde önemli bir rol oynar. Son zamanlarda, İnsan-Bilgisayar Etkileşimi (HCI) gibi uygulamalarda duyguları yorumlama potansiyeli nedeniyle otomatik Yüz İfadesi Analizi (FEA) önemli bir araştırma alanı olarak öne çıkmaktadır. FEA, kas kasılmaları sonucu oluşan göz kapakları, kaşlar ve cilt dokularındaki değişiklikler gibi yüz özelliklerini tanımlamaya dayanır. Bu ipuçları, makinelerin insan duygularını gözlemlemesine ve anlamasına olanak tanıyarak daha etkili ve empatik etkileşimleri mümkün kılar. FEA'nın kullanım alanları insan davranış analizi, işaret dili yorumlama ve farklı HCI uygulamaları gibi çeşitli uygulamaları içerir. FEA, kullanıcıların duygusal durumlarını analiz ederek insan ve bilgisayar sistemleri arasındaki etkileşimi geliştirir ve sistemlerin, kullanıcıların duygusal ihtiyaçlarına daha uygun tepkiler~vermesini~sağlar. Derin öğrenmede son gelişmeler, FEA'nın ilerlemesini hızlandırmış ve sınırlı işlem gücüne sahip cihazlarda bile gerçek zamanlı duygu tanıma imkanı sağlamıştır. Konvolüsyonel Sinir Ağları (CNN) kullanan yöntemler; veri genişletme, transfer öğrenme ve hafif mimari tasarımları gibi teknikler kullanarak gerçek dünya senaryolarında etkin bir şekilde performans göstermektedir. Ek olarak, Ölçekten Bağımsız Özellik Dönüşümü (SIFT) gibi geleneksel özellik çıkarma yöntemlerini derin öğrenme modelleri ile birleştiren hibrit modeller, özellikle sınıflandırma doğruluğunu artırmada umut verici sonuçlar vermektedir. Ancak FEA'nın gerçek dünya uygulamaları, değişken çevresel faktörler ve duyguların öznel yorumlanması nedeniyle hala zorluklarla karşı karşıyadır. Bu sorunları ele almak için, bu araştırma, FEA performansını iyileştirmede dikkat mekanizmalarının ve hibrit modellerin etkinliğini araştırmakta ve gerçek zamanlı duygu tanıma performansını artırarak HCI'ye katkıda bulunmaktadır. Son yıllarda dikkat mekanizması, derin öğrenmede özellikle doğal dil işleme ve bilgisayarla görme gibi karmaşık veri içeren görevlerde kritik bir unsur olarak öne çıkmaktadır. FEA'de dikkat mekanizmaları, modellerin yüzün tüm bölümlerini eşit şekilde işlemek yerine en ilgili yüz özelliklerine dinamik olarak odaklanmasını sağlar. Bu yaklaşım, gereksiz yüz alanlarından gelen özellikleri en aza indirerek daha verimli bir hesaplama sağlar ve doğruluğu artırır. Örneğin, yalnızca belirli bölgelerin (gözler ve ağız gibi) anlamlı duygusal ipuçları taşıdığı bir görüntüde dikkat mekanizması, modelin bu alanlara öncelik vermesine yardımcı olur. Bu işlem; arka plan gürültüsü ve ışıklandırma değişiklikleri gibi faktörlerin model doğruluğunu azaltabileceği gerçek dünya senaryolarında özellikle faydalıdır. Önemli özelliklere odaklanmayı daha da geliştirmek amacıyla bu çalışmada, görsel ve yapısal yüz özellikleri arasındaki etkileşimden yararlanan Çapraz-Füzyon Dikkat (Cross-Fusion Attention) Tekniği kullanılmaktadır. Çapraz-Füzyon Dikkat mekanizması, görüntü ve işaret noktaları (landmark) gibi farklı veri akışlarını birleştirerek modelin hem yüksek düzeyli hem de ayrıntılı özellikleri yakalama yeteneğini artırır. Örneğin; görsel özellikler, genel yüz ifadesi ile ilgili bilgileri barındırırken yapısal özellikler, belirli yüz noktalarının mekansal ilişkileri hakkında bilgi verir. Çapraz-Füzyon Dikkat, modelin her iki özellik türünü eşzamanlı olarak işlemesini sağlayarak gözle algılanması zor olan duygusal ipuçlarını tespit etme yeteneğini geliştirir. Dikkat mekanizmalarının avantajlarından yararlanmak amacıyla Çapraz-Füzyon Transformer Kodlayıcı (CFTE) model mimarisine entegre edilmiş ve FEA performansını artırdığı gözlemlenmiştir. Bu entegrasyon, modelin karmaşık yüz verilerini kapsamlı bir şekilde işlemesini sağlar. Hem görsel hem de yapısal girdileri kullanarak CFTE, yüz ifadelerinin bütüncül bir görünümünü yakalarken aynı zamanda duygusal olarak en ilgili yüz bölgelerine de odaklanır. Bu çift yönlü yaklaşım, modelin yalnızca genel yüz ifadelerini tanımlamakla kalmayıp aynı zamanda benzer duyguları ayırt etmek için kritik olan daha ince ayrıntıları da yakalamasını sağlar. Genel olarak dikkat mekanizmaları, Çapraz-Füzyon Dikkat ve Çapraz-Füzyon Transformer Kodlayıcı kombinasyonu, İnsan-Bilgisayar Etkileşimi (HCI) için sağlam bir FEA metodolojisi oluşturur. Bu teknikler, modelin hem yüksek düzeyli görsel özellikleri hem de ayrıntılı yapısal bilgileri dikkate almasını sağlayarak duygu tespitinin doğruluğunu artırır. Bu mimari; ışıklandırma koşulları, kamera açıları ve arka plan gürültüsü gibi faktörlerin performansı etkileyebileceği çeşitli gerçek dünya ortamlarına uyum sağlayacak şekilde tasarlanmıştır. Model, yüzün en bilgilendirici kısımlarına odaklanarak ve birden çok veri akışından yararlanarak daha güvenilir bir duygu tanıma sağlar. Bu metodoloji, gerçek zamanlı duygusal geri bildirim gerektiren uygulamalarda, kullanıcıların duygusal durumlarına daha doğru yanıt verebilen HCI sistemlerinin geliştirilmesine önemli ölçüde katkıda bulunmaktadır. Bu çalışmada; AffectNet, RAF-DB, FER2013 ve CK+ gibi çeşitli veri setleri kullanılarak FEA modeli eğitilmiş ve eğitilen model değerlendirilmiştir. Her veri seti, farklı özelliklere ve farklı zorluk seviyelerine sahiptir. AffectNet, geniş ölçekli bir veri seti olarak çeşitli gerçek dünya görüntüleri içerirken,“mutlu”ve“nötr”ifadelerin“korku”veya“tiksinti”ifadelerine kıyasla daha sık yer alması nedeniyle önemli bir sınıf dengesizliğine sahiptir. RAF-DB ve FER2013 veri setleri ise modellerin gerçekçi ortamlarda çalışmak üzere eğitilmesi için uygundur. Ancak, düşük çözünürlük ve dengesiz sınıf dağılımları, veri setinde az örnek içeren sınıfların tespitinde doğruluğu etkileyebilir. Kontrollü bir ortamda oluşturulmuş CK+ veri seti ise yapısal yüz ifadeleri içerir ve belirgen duyguların ifadesini incelemek için faydalıdır. Bunlara ek olarak, çevrimiçi alışveriş ortamlarında kullanıcı davranışlarını gerçekçi koşullar altında analiz etmek için bu çalışmaya özgü bir özel veri seti oluşturulmuştur. Bu veri seti, 40 katılımcının çeşitli çevrimiçi alışveriş görevlerini yerine getirirken kaydedilen videolarından oluşur. Her katılımcı; biri moderatörlü, diğeri moderatörsüz bir oturum olmak üzere iki farklı senaryoya katılmıştır. Bu iki yönlü yaklaşım, moderatör varlığının kullanıcıların duygusal ifadeleri üzerindeki etkisini anlamak için yararlı bir bakış açısı sağlar. Özel veri seti, ışıklandırma ve çevresel koşullardaki farklılıklar gibi gerçek dünya çeşitliliğini yansıtmakta olup modelin pratik senaryolardaki performansını değerlendirmek için kullanışlıdır. Moderatörlü ve moderatörsüz etkileşimleri analiz ederek özel veri seti, kullanıcı memnuniyeti ve etkileşim düzeyini artırmada, dış desteğin rolüne ilişkin değerli veriler sunar ve FEA modellerinin etkileşimli ortamlarda test edilmesi için faydalı bir katkı sağlar. Ek olarak, veri setimiz, katılımcıların konuşmalarına ilişkin anotasyonları içeren bir alt küme barındırmaktadır. Bu anotasyonlar, duyguları üç kategoride sınıflandırmıştır: pozitif, negatif ve nötr. Anotasyonların toplanmasının ardından, eğitilmiş modelin bu duyguları tahmin etme performansı değerlendirilmiştir. Gerçek etiketlere göre, her videoda yer alan ifadelerin çoğunluğunun nötr olduğu tespit edilmiştir. Ayrıca, anotasyonlar videodaki katılımcıların konuşmalarına dayanırken, katılımcıların görevleri yerine getirirken genellikle belirgin yüz ifadeleri göstermedikleri gözlemlenmiştir. Değerlendirme sürecinde, konuşmaya dayalı anotasyonların tamamen güvenilir olmayabileceği göz önünde bulundurulmuş ve modelin doğruluğunu kısmen ölçmek için kullanılmıştır. Bu çalışmada; dört farklı derin öğrenme modeli, yüz tanıma veri setleri üzerinde ön-eğitilmiş şekilde kullanılmış ve FEA için eğitilerek performansları karşılaştırılmıştır. AffectNet ve RAF-DB eğitim setleri üzerinde ayrı ayrı eğitim yapılmış olup ilgili veri setinin test setinde testler yapılmıştır. Buna ek olarak, eğitilen modellerin genellenebilirliğini gözlemlemek amacıyla CK+ ve FER2013 test setlerinde çapraz değerlendirme (cross-evaluation) yapılmıştır. Böylece, her veri seti için yüz ifadelerinin çeşitliliğini en iyi yakalayan ve üstün genelleme yeteneği gösteren model belirnemiştir. Bu değerlendirme sonucunda, simplified POSTERv1 modeli; POSTERv1, POSTERv2 ve InceptionResNetV1 modelleriyle karşılaştırıldığında daha yüksek performans göstermiş ve bu nedenle özel veri seti üzerinde yapılacak deneyler için seçilmiştir. Deneyler sonucunda, simplified POSTERv1 modelinin AffectNet, CK+ ve FER2013 veri setlerinde sırasıyla %66,84, %92,46 ve %58,21 doğruluk ile kullanılan diğer modelleri geride bıraktığı gözlemlenmiştir. Böylece simplified POSTERv1 modelinin, POSTERv1 modeli ile karşılaştırıldığında daha hafif bir model olmasına rağmen genelleme becerisinin kısmen daha yüksek olduğu ve gerçek dünya uygulamalarında daha iyi performans gösterebileceği gösterilmiştir. Buna ek olarak, RAF-DB veri setinde simplified POSTERv1 modeli %91.79 doğruluğa ulaşarak en yüksek performansı sergileyen POSTERv1 modeline %91.88 yakın bir performans~göstermiştir. Ek olarak, simplified POSTERv1 modelinin CK+ ve FER2013 veri setleri üzerinde çapraz değerlendirme performansı gözlemlenerek modelin güçlü ve zayıf yönleri incelenmiştir. Model, CK+ veri setinde iyi tanımlanmış duygusal ipuçlarını, net ve belirgin yüz ifadelerini etkili bir şekilde tanımlarken FER2013'te bulunan görüntülerin düşük çözünürlüklü ve gri tonlamalı doğasından dolayı daha çok zorlanmıştır. Simplified POSTERv1 modelinin daha yüksek oranda yanlış sınıflandırma yaptığı sınıfları görmek amacıyla sınıf bazında doğruluklar incelenmiştir. Simplified POSTERv1 modelinin, AffectNet veri setinde mutluluk ve nötr gibi fazla örnek barındıran sınıfları yüksek başarı ile ayırt ederken korku ve tiksinti gibi örnek sayısı daha az duygularda daha fazla hatalı sınıflandırma yaptığı gözlemlenmiştir. Benzer şekilde, RAF-DB veri setinde de fazla örnek barındıran duygu sınıfları daha kolay tanınırken, daha az örnek bulunan sınıflar daha yanlış sınıflandırılmıştır. Simplified POSTERv1 modelinin açık erişimli veri setlerinde değerlendirilmesinin ardından model, çevrimiçi alışveriş ortamındaki katılımcıların yüz ifadelerini içeren özel veri setinde duyguları tahmin etmek için kullanışmıştır. Modelin gerçek dünya koşullarında duygusal ifadeleri yorumlama yeteneğini değerlendirmek ve genel kullanıcı memnuniyetini anlamak amacıyla özel veri setindeki her katılımcının simplified POSTERv1 modeli kullanılarak tahmin edilen duygularının dağılımı, histogramlar kullanılarak görselleştirilmiştir. Fakat bu veri setinde duygu etiketlerin olmaması nedeniyle bu tahminler, modelin doğruluğunun tam bir ölçümü değil, yaklaşık değerlendirmelerdir. Ek olarak; tahmin hataları incelenerek yüz yapısı ve ışıklandırma gibi çevresel faktörlerin modelin performansını nasıl etkilediği gözlemlenmiştir. Ek olarak, moderatörün kullanıcı memnuniyeti üzerindeki etkisini incelemek amacıyla moderatörlü ve moderatörsüz senaryolar karşılaştırılmış ve moderatörün bulunduğu etkileşimli durumlarda kullanıcı memnuniyetinin arttığı gözlemlenmiştir. Moderatörlü senaryolarda, mutluluk ve sürpriz gibi olumlu duygulara daha sık rastlanırken üzüntü gibi olumsuz duygularda bir azalma gözlemlenmiştir. Moderatörlü senaryoda mutluluk tahminleri %1.05'ten %2.12'ye çıkarken, üzüntü %12.71'den %9.72'ye düşmüştür. Sonuç olarak, bu çalışmada, simplified POSTERv1 modelinin HCI alanında çeşitli senaryolarda duyguları doğru sınıflandırmadaki etkinliği araştırılmıştır. Modelin genellenebilirliğini ve gerçek dünya uygulamalarındaki performansını incelemek amacıyla AffectNet veri seti üzerinde eğitilen model, CK+ ve FER2013 gibi açık erişimli veri setlerinde test edilmiş ve modelin eğitim uzayından farklı uzaylarda dahi iyi sonuç verdiği gözlemlenmiştir. Ayrıca bu araştırmada dikkat mekanizmaları ve CNN'leri bir araya getiren hibrit bir model mimarisi kullanılarak modelin, önemli yüz bölgelerine odaklanması sağlanmış ve tanıma doğruluğu arttırılmıştır. Bulgular sonucu, sınıflandırmadaki hatalar incelendiğinde, derin öğrenme modellerinin yüksek performansla sınıflandırma yapabilmesi için iki boyutlu bir görüntünün yetersiz olabileceği gözlemlenmiştir. Bu nedenle, video tiplerinde giriş alabilen modellerden kullanmanın hatalara sebep olan eksik bilgi miktarının azaltılması için faydalı olabileceği düşünülmektedir. Sonuç olarak, simplified POSTERv1 modeli ile hem açık erişimli veri setlerinde hem de özel veri setinde elde edilen sonuçlardan, bu modelin çevrimiçi kullanılabilirlik değerlendirme platformu için etkili olarak kullanılabileceği gözlemlenmiştir.
Özet (Çeviri)
Facial Expression Analysis (FEA) is crucial in human-computer interaction (HCI), because recognizing and responding to user behavior can greatly improve engagement and satisfaction. It helps evaluate user experiences in customer service and interactive online usability platforms. However, applying FEA in online environments faces many difficulties, such as different lighting setups, diverse facial structures, and spontaneous expressions. These factors can reduce the accuracy and reliability of current expression recognition models. To address these challenges, researchers have developed POSTERv1, an advanced deep-learning model. POSTERv1 uses a feature extraction block, a transformer block, and a multilayer perceptron (MLP) classifier to classify facial expressions. Its cross-fusion transformer encoder (CFTE) layer supports the interaction of appearance-based and structural features, helping the model capture emotional cues. By including cross-fusion multi-head self-attention (CFMSA), POSTERv1 focuses on the most important areas of the face, reducing irrelevant features. A simplified version of POSTERv1 was also introduced to handle practical and computational constraints. This version removes the pyramid structure of the original model and uses only one CFTE block, making it faster and still highly accurate in most tests. In this study, we built a custom dataset of videos showing customers performing tasks in different online shopping environments. We aim to observe user behaviors on shopping platforms to evaluate the usability of the designed platform and designed two scenarios: one with the help of a moderator and one without it. In the moderator-assisted setting, participants received guidance and support when faced with difficulties. These conditions allowed us to compare emotional responses in moderator-assisted versus independent scenarios. We also evaluated and compared the latest FEA models on popular public datasets such as AffectNet, RAF-DB, FER2013, and CK+. We specifically tested how well models trained on AffectNet would perform when cross-evaluated on FER2013 and CK+ datasets. Notably, the simplified POSTERv1 model delivered better and faster performance while preserving accuracy in most public datasets than the original POSTERv1. Besides offering faster performance, the simplified model showed slightly greater robustness, making it a possible candidate for real-time emotion analysis. Based on these promising results, we used the simplified POSTERv1 to predict emotions in our custom dataset. The model showed reliable speed and efficiency in expression recognition, although factors like lighting and individual facial features had impacts on performance. In addition, an additional subset of our custom dataset included text-based sentiment annotations, derived from participants' speech, labeled as positive, negative, or neutral. We compared predicted facial expressionswith sentiment labels to assess the performance of simplified POSTERv1 model. Outputs from the custom dataset utilizing simplified POSTERv1 model showed that having a moderator encouraged more positive expressions and fewer negative reactions, demonstrating the model's ability to capture changes in emotional responses. However, the absence of annotations limits the ability to thoroughly assess the model's performance. Factors such as poses, like looking downward, and variations in environmental conditions, including lighting, can impact the reliability of the model. These considerations underscore the need to address aspects like illumination, facial diversity, and contextual user interactions when developing and deploying FEA tools. In conclusion, this thesis demonstrates how advanced deep-learning models like POSTERv1 and its simplified variant can effectively handle real-world challenges in FEA. These models achieve reliable real-time FEA by focusing on the most important facial features and adapting to different environmental and social conditions. Tests on both public datasets and a custom online shopping dataset show that the simplified POSTERv1 is faster and more efficient for real-time predictions, making it suitable for practical HCI applications. However, issues such as lighting conditions and certain facial poses point to areas that need further study. These challenges point to areas for further improvement, but the approach presented in this thesis can help designers develop online platforms that better understand and respond to user behavior, ultimately improving engagement and satisfaction across various interactive digital services and online usability evaluation platforms.
Benzer Tezler
- Suça sürüklenen çocuklarda katı duygusuz özellikleri ile sosyal dikkat ve empati arasındaki ilişkinin incelenmesi
Investigation of the relationship between callous-unemotional traits, social attention, and empathy in juvenile delinquents
MÜBERRA KOLAK ÇELİK
Tıpta Uzmanlık
Türkçe
2025
PsikiyatriAtatürk ÜniversitesiÇocuk ve Ergen Ruh Sağlığı ve Hastalıkları Ana Bilim Dalı
DOÇ. DR. ABDULLAH BOZKURT
- Automatic analysis of head and facial gestures in video streams
Video görüntülerinden kafa ve yüz mimiklerinin otomatik analizi
HATİCE ÇINAR AKAKIN
Doktora
İngilizce
2010
Elektrik ve Elektronik MühendisliğiBoğaziçi ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. BÜLENT SANKUR
- DA4HI: A deep learning framework for facial emotion recognition in affective systems for children with hearing impairments.
DA4HI: İşitme engelli çocuklar için duyuşsal sistemlerde yüzdeki duyguların tanınması maksadıyla geliştirilen derin öğrenme modeli.
CEMAL GÜRPINAR
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
PROF. DR. NAFİZ ARICA
- Emotion recognition in children: Single and multimodal approaches with facial and physiological data
Çocuklarda duygu tanima: Yüz ve fizyolojik verilerle tekli ve çoklu modalite yaklaşimlari
ŞEYMA TAKIR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Smiles and affective alignment in naturally occurring dyadic academic supervisions
Doğal gelişen ikili akademik danışmanlık görüşmelerinde gülümsemeler ve duygusal uyuşma
BURAK SUNGURALP TEKİN
Yüksek Lisans
İngilizce
2013
DilbilimUniversity of Newcastle upon Tyneİnsan ve Toplum Bilimleri Ana Bilim Dalı
DR. DAWN KNIGHT