Geri Dön

Self–attention based LSTM network for valence estimation of ballet videos

Öz-dikkat tabanlı LSTM ağı ile bale videolarının hoşluk kestirimi

  1. Tez No: 836748
  2. Yazar: SİTARE ARSLANTÜRK
  3. Danışmanlar: PROF. DR. ENGİN ERZİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 56

Özet

Özgün duygusal ifadeleri iletmek ve anlamak duygusal hesaplamanın en önemli yönlerinden biridir. Bale, sözsüz iletişimde bahsettiğimiz duygu dinamiklerini keşfetmek için uygun bir ortamdır. Bale sanatçıları koreografinin içsel hislerini seyirciye aktarmak için dans hareketlerini mükemmelleştirmeye çalışırlar. Bale sanatçılarının hareketleri, dans ettikleri müziğin duygusal özelliklerini benimser. Bu hareketler izleyicide performansın etkisini deneyimlemelerine yardımcı olan görsel bir uyarıya sebep olur. Bu tez, bale performansının hoşluk değerlerini sınıflandırmak için bale sanatçısının insan poz tahminlerini kullanan bir kavram kanıtı önermektedir. Önerdiğimiz yöntem, ifade nitelikli pozları ve ahenkli hareketleri müzikten ortaya çıkan hoşluk boyutuyla eşleştirmek için baledeki ses ve görüntü kiplerinin arasındaki eğilimi takip ediyor. Bu amaç ile, bale videolarından insan pozu tespit algoritmaları aracılığıyla çıkartılan 2 boyutlu insan pozu anahtar noktalarını ve derin poz yerleştirmelerini inceliyoruz. Yerleştirmeler daha sonra her videonun sesinden elde edilen düşük ve yüksek hoşluk seviyelerinin ikili sınıflandırmasını sağlamak için LSTM mimarisi ile oluşturulmuş hoşluk sınıflandırıcısına besleniyor. çalışmanın deneysel analizini gerçekleştirmek için çevrimiçi videolardan Ballet 116 veri kümesini oluşturduk. Deneysel çalışmalar, 2 boyutlu insan pozu anahtar noktalarının bale videolarındaki hoşluk tahmini için bir dayanak olarak görüldüğünü, en gelişkin insan pozu tahmin ağları yoluyla elde edilen uzay-zamansal derin poz yerleştirmelerinin kullanımının hoşluk değeri sınıflandırma doğruluğunu önemli ölçüde arttırdığını gösteriyor. Temel hoşluk sınıflandırma ağımızda öz-dikkat mekanizmasının uygulanmasıyla, her yerleştirme türü için doğruluk, karar değerlendirme grafiği, eğri altında kalan alan, ve F1 puanını arttıran bir güçlenme gerçekleşiyor.

Özet (Çeviri)

One of the key aspects of affective computing is conveying and understanding authentic emotional expressions. To explore the dynamics of emotion in a non-verbal communication environment, ballet serves as an appropriate medium. Ballet performers strive to perfect their dance movements to transmit the choreography's internal sensations to the audience. The ballet performers' movements adopt the emotional characteristics of the music they are dancing to. These movements cause a visual stimulus in the spectator that helps them to experience the performance's affect. This thesis proposes a proof of concept to use human pose estimations of the ballet performer to classify valence values of the ballet performance. The proposed methodology follows the cross-modal bias of audio and vision in ballet to map the expressive poses and harmonious movements to the valence dimension of affection elicited from accompanying music. For this purpose, we investigate 2D human pose keypoints and deep pose embeddings extracted from ballet videos through human pose detection algorithms. The embeddings are then fed into a valence classifier of LSTM architecture to provide a binary classification of low and high valence levels obtained from each video's audio. To perform the experimental analysis of the work, the Ballet 116 dataset is introduced from in-the-wild online videos. Experimental studies show that while 2D human pose keypoints serve as a baseline for the valence estimation in ballet videos, spatio-temporal deep pose embeddings, extracted through a state-of-the-art human pose estimation network, significantly increase the valence classification accuracy. The LSTM valence classification network is further augmented by implementing a self-attention mechanism, increasing each embedding type's accuracy, AUC, and F1-score performances.

Benzer Tezler

  1. A deep-learning based model for visual depth and pose estimation of mobile robots

    Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model

    ROZHIN FANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mekatronik MühendisliğiBahçeşehir Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET BERKE GÜR

  2. Etkin sorgu önerileri için kullanıcı sorgularının görev tabanlı yönetilmesi

    Task based management of user queries for effective query suggestions

    NURULLAH ATEŞ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

  3. Lifelong learning for auditory scene analysis

    İşitsel sahne analizi için hayat boyu öğrenme

    BARIŞ BAYRAM

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN İNCE

  4. Kablosuz 5G ötesi ağlarda görme destekli ışın izleme problemine yumuşak dikkat mekanizması kullanarak uzun kısa süreli bellek uygulanması

    On the vision-beam aided tracking for wireless 5G-beyond networks using long short-term memory with soft attention mechanism

    NASIR SINANI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. FERKAN YILMAZ

  5. Identification of object manipulation anomalies for service robots

    Servis robotları için nesne etkileşim anomalilerinin tanısı

    DOĞAN ALTAN

    Doktora

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SANEM SARIEL UZER