Audio-visual affect recognition
Yüz ifadeleri ve sesten çok-kipli duygu tanıma
- Tez No: 391774
- Danışmanlar: Assoc. Prof. Dr. ÇİĞDEM EROĞLU ERDEM
- Tez Türü: Yüksek Lisans
- Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 80
Özet
İnsanlar arası iletişimde yüz ifadeleri, ses tonundaki değişiklikler, vücut duruşu ve hareketleri ve diğer biyolojik sinyaller gibi kipler duygularımız hakkında ipuçları taşırlar. Günümüzde gittikçe önem kazanmakta olan insan-bilgisayar etkileşimi ve yapay zeka uygulamalarının daha doğal ve etkin hale gelebilmesi için çok kipli duygu tanıma problemi ilgi odağı haline gelmiştir. Duygu tanımanın güvenlik, sürücü güvenliği, sağlık, davranış bilimleri, eğitim, reklam ve pazarlama gibi sistemin tepkisinin kullanıcının duygusal ve zihinsel durumuna göre değişebileceği alanlarda uygulamaları vardır. Literatürde, tek-kipli duygu tanıma yöntemleri mevcuttur (örn. yüz ifadeleri ve ses kullanarak). Fakat, birden fazla kipi birleştirerek duygu ya da zihinsel durum tanımaya çalışan yöntemler daha azdır. Yakın zamanda çok-kipli duygu tanıma çalışmaları daha yüksek tanıma başarımı elde etmek amacıyla önem kazanmıştır. Bu tezde, yüz ifadelerinden ve sesten çok kipli duygu tanıma amacıyla tepe çerçeve seçimine dayalı bir sistem öneriyoruz. Duygusal ifade içeren bir yüz videosu verildiğinde, tepe çerçeveler, duygusal ifadenin maximum olduğu yerlerdir ve duygu tanıma için kullanıldığında daha yüksek tanıma oranları vermeleri beklenir. Bu nedenle tepe çerçeve seçiminin amacı, video parçasındaki duyguyu en iyi şekilde özetlemektir. Önerilen çok kipli duygu sisteminin ana basamakları, tepe çerçeve seçimine dayalı yüz ifadelerinden ve sesten öznitelik çıkarma, tek kipli sınıflandırma ve karar aşamasında birleştirme adımlarından oluşmaktadır. Sistemin performansını altı temel duyguyu içeren İngilizce eNTERFACE ve sekiz duygu ve zihinsel durum içeren Türkçe BAUM-1 veritabanları üzerinde test ettik. Deney sonuçları önerilen sistemin literatürdeki diğer yöntemlere göre etkinliğini göstermektedir.
Özet (Çeviri)
Humans express their emotions through multiple modalities, including facial expressions, speech prosody and body gestures and various biological signals. Therefore, multi modal emotion recognition has been a major interest in applications requiring natural man-machine interaction and ambient intelligence scenarios, such as security, driver safety, health-care, behavioral science, education, marketing and advertising, where the response of the system to the user depends on the estimated emotional and/or mental state of the user. In the literature, various state-of-the-art techniques have been employed for emotion recognition from single modality (mainly facial expressions and speech); but there are relatively few works that combine different modalities in a single system for the analysis of human emotional state. Recent research has started focusing on extraction of emotional features from each modality and then combining the outputs of each modality for improved recognition of the user's emotional state. In this thesis, we present an effective framework for multimodal emotion recognition based on a novel approach for automatic peak frame selection from audio-visual video sequences. Given a video with an emotional expression, peak frames are the ones at which the emotion is at its apex, and hence are expected give higher emotion recognition results. The objective of peak frame selection is to summarize the expressed emotion over a video sequence. The main steps of the proposed framework consists of extraction of video and audio features based on peak frame selection, unimodal classification and decision level fusion of audio and visual results. We evaluated the performance of our approach on eNTERFACE'05 containing six basic emotional classes recorded in English and BAUM-1 audio-visual database containing eight emotional and mental state classes recorded in Turkish. Experimental results demonstrate the effectiveness and superiority of the proposed system over other methods in the literature.
Benzer Tezler
- A re-acted audio-visual affective Turkish database
Görsel işitsel duygusal Türkçe veri tabanı
ONUR ÖNDER
Yüksek Lisans
İngilizce
2014
Elektrik ve Elektronik MühendisliğiBahçeşehir ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROĞLU ERDEM
- Automatic extraction of affective multimodal face videos
Duygu içerikli çok biçimli yüz videolarinin elde edilmesi için otomatik bir yöntem
CAN KANSIN
Yüksek Lisans
İngilizce
2012
Elektrik ve Elektronik MühendisliğiBahçeşehir ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM EROĞLU ERDEM
- Domain adaptation for speech-driven affective facial features synthesis
Başlık çevirisi yok
RIZWAN SADIQ
Doktora
İngilizce
2020
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
Prof. Dr. ENGİN ERZİN
- Affect recognition based on key frame selection from video
Videodan anahtar çerçeve seçimine dayalı duygu tanıma
MEHMET KAYAOĞLU
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik MühendisliğiBahçeşehir ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ÇİĞDEM EROĞLU ERDEM
- Robust machine learning methods for computational paralinguistics and multimodal affective computing
Hesaplamasal paralinguistik ve çok-kipli duyuşsal hesaplama için gürbüz yapay öğrenme yönemleri
HEYSEM KAYA
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ALBERT ALİ SALAH
PROF. DR. SADIK FİKRET GÜRGEN