Self–attention based LSTM network for valence estimation of ballet videos
Öz-dikkat tabanlı LSTM ağı ile bale videolarının hoşluk kestirimi
- Tez No: 836748
- Danışmanlar: PROF. DR. ENGİN ERZİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 56
Özet
Özgün duygusal ifadeleri iletmek ve anlamak duygusal hesaplamanın en önemli yönlerinden biridir. Bale, sözsüz iletişimde bahsettiğimiz duygu dinamiklerini keşfetmek için uygun bir ortamdır. Bale sanatçıları koreografinin içsel hislerini seyirciye aktarmak için dans hareketlerini mükemmelleştirmeye çalışırlar. Bale sanatçılarının hareketleri, dans ettikleri müziğin duygusal özelliklerini benimser. Bu hareketler izleyicide performansın etkisini deneyimlemelerine yardımcı olan görsel bir uyarıya sebep olur. Bu tez, bale performansının hoşluk değerlerini sınıflandırmak için bale sanatçısının insan poz tahminlerini kullanan bir kavram kanıtı önermektedir. Önerdiğimiz yöntem, ifade nitelikli pozları ve ahenkli hareketleri müzikten ortaya çıkan hoşluk boyutuyla eşleştirmek için baledeki ses ve görüntü kiplerinin arasındaki eğilimi takip ediyor. Bu amaç ile, bale videolarından insan pozu tespit algoritmaları aracılığıyla çıkartılan 2 boyutlu insan pozu anahtar noktalarını ve derin poz yerleştirmelerini inceliyoruz. Yerleştirmeler daha sonra her videonun sesinden elde edilen düşük ve yüksek hoşluk seviyelerinin ikili sınıflandırmasını sağlamak için LSTM mimarisi ile oluşturulmuş hoşluk sınıflandırıcısına besleniyor. çalışmanın deneysel analizini gerçekleştirmek için çevrimiçi videolardan Ballet 116 veri kümesini oluşturduk. Deneysel çalışmalar, 2 boyutlu insan pozu anahtar noktalarının bale videolarındaki hoşluk tahmini için bir dayanak olarak görüldüğünü, en gelişkin insan pozu tahmin ağları yoluyla elde edilen uzay-zamansal derin poz yerleştirmelerinin kullanımının hoşluk değeri sınıflandırma doğruluğunu önemli ölçüde arttırdığını gösteriyor. Temel hoşluk sınıflandırma ağımızda öz-dikkat mekanizmasının uygulanmasıyla, her yerleştirme türü için doğruluk, karar değerlendirme grafiği, eğri altında kalan alan, ve F1 puanını arttıran bir güçlenme gerçekleşiyor.
Özet (Çeviri)
One of the key aspects of affective computing is conveying and understanding authentic emotional expressions. To explore the dynamics of emotion in a non-verbal communication environment, ballet serves as an appropriate medium. Ballet performers strive to perfect their dance movements to transmit the choreography's internal sensations to the audience. The ballet performers' movements adopt the emotional characteristics of the music they are dancing to. These movements cause a visual stimulus in the spectator that helps them to experience the performance's affect. This thesis proposes a proof of concept to use human pose estimations of the ballet performer to classify valence values of the ballet performance. The proposed methodology follows the cross-modal bias of audio and vision in ballet to map the expressive poses and harmonious movements to the valence dimension of affection elicited from accompanying music. For this purpose, we investigate 2D human pose keypoints and deep pose embeddings extracted from ballet videos through human pose detection algorithms. The embeddings are then fed into a valence classifier of LSTM architecture to provide a binary classification of low and high valence levels obtained from each video's audio. To perform the experimental analysis of the work, the Ballet 116 dataset is introduced from in-the-wild online videos. Experimental studies show that while 2D human pose keypoints serve as a baseline for the valence estimation in ballet videos, spatio-temporal deep pose embeddings, extracted through a state-of-the-art human pose estimation network, significantly increase the valence classification accuracy. The LSTM valence classification network is further augmented by implementing a self-attention mechanism, increasing each embedding type's accuracy, AUC, and F1-score performances.
Benzer Tezler
- A deep-learning based model for visual depth and pose estimation of mobile robots
Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model
ROZHIN FANI
Yüksek Lisans
İngilizce
2024
Mekatronik MühendisliğiBahçeşehir ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET BERKE GÜR
- Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi
Task based management of user queries for effective query suggestions
NURULLAH ATEŞ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
- Lifelong learning for auditory scene analysis
İşitsel sahne analizi için hayat boyu öğrenme
BARIŞ BAYRAM
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN İNCE
- Kablosuz 5G ötesi ağlarda görme destekli ışın izleme problemine yumuşak dikkat mekanizması kullanarak uzun kısa süreli bellek uygulanması
On the vision-beam aided tracking for wireless 5G-beyond networks using long short-term memory with soft attention mechanism
NASIR SINANI
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. FERKAN YILMAZ
- Identification of object manipulation anomalies for service robots
Servis robotları için nesne etkileşim anomalilerinin tanısı
DOĞAN ALTAN
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SANEM SARIEL UZER