Geri Dön

Emotion prediction in movies using visual features

Filmlerde görsel özellikler kullanılarak duygu tahmini

  1. Tez No: 596110
  2. Yazar: FATİH ASLAN
  3. Danışmanlar: DOÇ. DR. HAZIM KEMAL EKENEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Multimedyada duygu durumunu otomatik olarak algılayabilmek büyük bir önem taşımaktadır ve aynı zamanda birçok uygulama alanı vardır. Doğru duygu kestirimi yapıldığı takdirde filmler en ayırıcı duygu durumlarına göre görselleştirilip özet bölümleri çıkarılabilir. Ayrıca filmler duygu durumlarına göre gruplanıp izleyicilere önerilebilir. İstenmeyen sahneler tamamen engellenebilir veya bu sahnelere sansür uygulanabilir. İstenmeyen sahnelere örnek olarak çocuklara zararlı olabilecek içeriğinde kan, silah, şiddet barındıran sahneler verilebilir. Bunların dışında farklı bir uygulama alanı olarak filmlerde verilen en yoğun duygulara göre filmlerin özetinin çıkarılması da söylenebilir. Kişilere özgü filmlerin oluşturulması da başka bir utgulama alanı olarak verilebilir. Günümüze kadar filmlerden doğru duygu durumunu çıkarmaya ilişkin birçok araştırma mevcuttur. Bunların birçoğu duygunun; üzgün, mutlu ve heyecanlı gibi belli başlı kategorilere göre sınıflandırılmasına odaklanmıştır. Ancak bu şekilde sınıflandırmalar duyguların çeşitliliğini kavrayabilme konusunda yetersiz kalmaktadır. Bu yüzden duygunun daha kompleks olarak modellenmesine ihtiyaç duyulmuştur. Bu karmaşık modeller duyguyu iki eksende ele almaktadır. Birinci eksen değerlik olarak adlandırılmaktadır ve duygu durumumun pozitif ve negatifliğini göstermektedir. İkinci eksen ise uyarılma olarak adlandırılan duygudaki sakinlik ve heyecanlılık arası geçişi gösteren bir indistir. Bu çalışmada duygu; bu değerlik-uyarılma indislerinin bileşkesi olarak ele alınmıştır. Duygu durumu çalışmaları için gerekli veri kümesi MULTIMEDIAEVAL organizasyonu tarafından“MediaEval 2018 Filmlerin Duygusal Etkisi”başlıklı yarışmasından temin edilmiştir. Bu topluluk LIRIS-ACCEDE film veri tabanının içerisinden temin ettiği filmleri“eğitim”ve“test”kümesi olarak iki kümeye ayırmıştır. Sonrasında bu filmleri bir izleyici kümesine değerlik ve uyarılma indisleri için ayrı ayrı etiketletmiştir. İzleyici kümesi tarafından sürekli olarak etiketlenen bu değerler örneklenerek ve ortalamaları alınarak her bir saniyeye ilişkin bir değerlik ve bir de uyarılma indisi olacak şekilde kaydedilmiştir. Bu çalışmanın amacı; filmlerdeki duygu durumunu tanımlamak için kullanılan değerlik-uyarılma indisleri için yapılan tahminlerin hata kare ortalamasını en küçüklemek, aynı zamanda da Pearson korelasyon katsayısını enbüyüklemektir. Organizasyon aynı zamanda bu kestirimi yapmaya yardımcı olabilmek adına bazi özellik kümeleri de temin etmiştir. Bu kümeler sadece basit doku bazlı görsel ve işitsel özellik kümeleri ile sınırlı olmayıp aynı zamanda önceden eğitilmiş evrişimsel sinir ağlarından çıkarılan daha karmaşık özellikleri de barındırmaktadır. Bu çalışmada bu özellik kümeleri kullanılmamıştır. Çalışma kapsamında, yalnızca görsel özellikler kullanılmıştır. İşitsel özellikler kapsam dışındadır. Çalışmada kullanılan veri kümesi önceki çalışmalardan farklı bir şekilde gerçekleştirilmiştir. Bu amaçla, yarışmada sağlanan geliştirme kümesi organize edilerek“eğitim”,“doğrulama”ve“test”kümelerine ayrılmıştır. Yarışmadaki test data etiketlemesi paylaşılmadığı için bu kümeden faydalanılamamıştır. Bu ayrım yapılırken, bu veri kümesini kullananan önceki çalışmalardan farklı olarak, film türleri her bir grup için eşit oranda dağıtılmıştır (Örn. 10 tane Drama türüne ilişkin filmin 6 tanesi eğitim kümesine, 2 tanesi doğrulama kümesine 2 tanesi de test kümesine koyulmuştur). Birden fazla tür bilgisine sahip filmler ayrım yapılırken her iki kategoriye de ait olarak ele alınmıştır. Bu çalışmada, farklı tahmin yaklaşımlarından faydalanılmıştır. Bu yaklaşımlar içerisinden CNN yaklaşımında, daha önceki çalışmalardan farklı olarak CNN mimarisi öznitelik çıkartmak için değil direk tahmin amacıyla kullanılmıştır. Tahmin amacıyla daha önceden eğitilmiş meşhur CNN metotları ile transfer öğrenmesi gerçekleştirilmiştir. Ayrıca çalışmada zamandan bağımsız CNN mimarilerinden faydalanılmıştır. Eğitimleri gerçekleştirebilmek amacıyla filmler her saniyesinde bir imge olacak şekilde çözümlenmiştir. CNN yaklaşımında başka, film türlerinden yola çıkılarak tahmin algoritması gerçekleştirilmiştir. Bu amaçla öncelikle çalışma kapsamında ayrılmış eğitim ve doğrulama seti birleştirilerek tek bir geliştirme setinde toplanmıştır. Bu geliştirme setinde yer alan her bir film türü için ortalama/ medyan değerleri belirlenmiştir. Belirlenen bu değerler daha sonrasında test kümesinde yer alan filmlerin tahmin değeri olarak kullanılmıştır. Bunlara ek olarak, Bayes karar kuramından faydalanılarak tahmin algoritması geliştirilmiştir. Bu amaçla filmler renk ve parlaklık değerlerine göre detaylı olarak analiz edilmiştir. Her bir özellik kümesi için minimum ve maximum değerler eşit aralıklara ayrılarak normalize edilmiş ve histogramlar oluşturulmuştur. Elde edilen bu histogramlar Bayes kuramına girdi olarak sağlanarak renk ve parlaklık değerleri için ayrı ayrı tahmin algoritması geliştirilmiştir. Sonuç olarak, değerlik indisi için tür bazlı medyan tahmini oldukça iyi sonuç vermiştir. Alınan bu sonuçlar sadece bu çalışmadaki diğer metotlardan değil aynı zamanda geçmişte bu alanda yapılan çalışmalardan da (ses özelliğinin de kullanıldığı çalışmalar dahil) daha iyi sonuç vermiştir. Uyarılma indisi için CNN yaklaşımı önceki imge tabanlı tahmin çalışmalarından daha tatmin edici sonuçlar vermiştir. Ek olarak bu çalışmada tür bilgisinin uyarılma indisindeki oldukça iyi performansı ve değerlik indisinde de güzel sonuçlar vermesinden ötürü duygu tahmininde daha fazla kullanılması gerektiği sonucuna varılmıştır. Bu amaçla diğer özniteliklerle birlikte öncül bilgi olarak kullanılabilir.

Özet (Çeviri)

Perceiving the emotion automatically in movies has great importance and also has many application areas. By knowing the right emotion extracted from the films, the movies can be outlined and envisioned according to the most representative emotions. In addition, the movies can be grouped according to the dominant emotional situation and then recommended to the audience. Until recently, there have been many studies to understand the right emotion elicited from multimedia. Many of them have focused on the emotion classification with limited emotion states in six categories which are happiness, anger, fear, sadness, disgust, and surprise. Lack of representation in the models causes limited expression of the emotional variation. In recent studies, more complex models have been developed in a way that the emotion is defined in two different axes in terms of valence and arousal. Whereas the valence shows the positivity and negativity of the emotional state, the arousal points out the calmness and excitement in the emotional state. In this work, the emotion is addressed as a prediction of both valence and arousal. The dataset used in this study is provided by the MULTIMEDIAEVAL community in the contest of“MediaEval 2018 Emotional Impact of Movies Task”. The community obtained the movies from the LIRIS-ACCEDE movie database and separated into the development and test group. Then, the movies are sampled in a way that valence and arousal have one value for each second separately. Those values are collected from different spectators by observing their annotations continuously. The data is then divided into ten-second segments to get the valence and arousal score for the moment. To get a value from ten-second data from different annotators, inter-coder correlation methods are applied for averaging and then sampled. Afterward, the ten seconds window is shifted as 1 second to get the next value. The whole process proceeds in that way. This study aims to estimate valence and arousal score in the movies in a way to minimize MSE (Mean Square Error) and to maximize PCC (Pearson Correlation Coefficient). The MultimediaEval community also supplies some features extracted from movies in order to assist the prediction. The features are not only some basic audio and visual features such as texture-based visual features but also the complex features such as CNN based features. In this study, those features are not utilized. In the scope of this work, only visual-based features and approaches are utilized. The audio-based features are out of the scope. The dataset separation is applied differently from the previous studies. Train, validation and test sets are completely created from the contest development dataset since the original contest test data annotations are not provided. Meanwhile, the genre of the movies is utilized. By doing this separation, unlike from other studies, the movies are proportionally distributed to each dataset group. To give an example, from ten drama films, six of them are assigned to the train set, two of them are given to the validation set. The remaining two films are put into the test set. The movies having multiple genres are assumed in all genre groups by doing the separation. In this study, different prediction approaches are utilized. In the CNN approach, apart from the previous studies which use CNN to extract features, the transfer learning approach in well known CNN methodologies is applied to estimate valence and arousal score directly from the decoded image data. From different CNN architectures, non-temporal methods are utilized. To feed the CNN network, the provided movies are decoded into frames in a way that each frame is created per second. Apart from the CNN prediction, the genre-based prediction is applied. To do that, the training and the validation set are collected in one development set. For each movie genre, the mean and median values of the development set are determined as the prediction value of the test set. Besides, the Bayesian decision approach is utilized for the prediction. For this aim, the movies are analyzed deeply in terms of hue (color) and intensities. For each type of feature, the minimum and maximum values are divided into intervals. Then, the normalized distribution according to each feature is studied. Those histograms are given as input to the Bayesian decision theorem. Therefore, the prediction can be performed via hue and intensity features separately. As a conclusion of this study, genre-based median prediction results for valence are pretty good and outperforms not only the other prediction methods in this study but also the previous studies including audio-based prediction. For arousal, the results found in the CNN approach are more satisfactory from the previous frame-based prediction scores. Besides, the genre information can be utilized much more as prior information together with other features due to its great performance in the prediction of valence and satisfactory results in arousal prediction.

Benzer Tezler

  1. The significance and the contribution of 6+1 traits of writing to the success of the students in writing courses in English language teaching

    Yazmanın 6+1 özelliğinin İngilizce öğretiminde yazılı anlatım derslerindeki öğrenci başarısına katkısı ve önemi

    ÖZLEM YAZAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2004

    Eğitim ve ÖğretimGazi Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    YRD. DOÇ. DR. PAŞA TEVFİK CEPHE

  2. Ergenlerde duygu farkındalığı ve duygu düzenleme: Duygu farkındalığının yordayıcı rolünün ve Ters-Yüz filmi temelli psikoeğitim programının etkililiğinin incelenmesi

    Emotion awareness and emotion regulation in adolescents: Investigation into the role of emotion awareness as a predictor and the effectiveness of the psychoeducation program based on the movie 'Inside Out'

    SEVİL ÜNAL DOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    PsikolojiBahçeşehir Üniversitesi

    Rehberlik ve Psikolojik Danışmanlık Ana Bilim Dalı

    PROF. DR. ÖZLEM KARAIRMAK

  3. Doğal dil işleme ve veri madenciliği kullanarak tvitler üzerinden film derecelendirilmesi

    Movie rating on tweets using natural language processing and data mining

    ABDOULAZIZ ABDOUKARIM

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BARIŞ KOÇER

  4. Lise öğrencilerinde internet bağımlılığı ve öznel iyi oluş

    High school students internet addiction and subjective well-being

    SÜMEYYE DERİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Eğitim ve ÖğretimHacettepe Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. FİLİZ BİLGE

  5. Emotional impact of movies

    Filmlerin duygusal etkisi

    NİHAN KARSLIOĞLU İMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. LALE AKARUN ERSOY

    DOÇ. DR. ALBERT ALİ SALAH