Geri Dön

Multimedia data modeling and semantic analysis by multimodal decision fusion

Çoklu karar füzyonu ile medya veri modelleme ve anlamsal bölümleme

  1. Tez No: 415531
  2. Yazar: MENNAN GÜDER
  3. Danışmanlar: PROF. DR. FEHİME NİHAN ÇİÇEKLİ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 118

Özet

Bu tezde, olay modelleme, füzyon, derin öğrenme ve ilişkisel kural çıkarımı üzerine kurulu, olay tanımlama yeteneği olan bir uygulama çerçevesi önerilmekteyiz. Olay modelleme, görsel kavram öğrenmesi, sahne özetleme ve ilişkisel kural çıkarımı kullanılarak başarılmıştır. Görsel kavram öğrenmesi, görsel içerik ve metinsel tanımlama arasındaki anlamsal boşluğu gidermek için uygulanmıştır. İlişkisel kurallar, oluş zamanı gözeten özelleşmiş bir kural çıkarma yöntemi ile çıkarılmaktadır. Fiziksel video parçalarına ek olarak, kural elemanlarını çıkarabilmek için video kesit kavramı tanımlanmıştır. Ses, hareket, anahtar nokta tarif ediciler, zamansal oluş özellikleri ve konvolüsyonal yapay sinir ağlarının tam bağlantılı katmanlarının çıktıları özellik füzyonu ile birleştirilmiştir. Karar füzyonunda logistik regresyon kullanılarak, bağımlı değişken (olay tipi) ve bağımsız değişken (sınıflandırıcı çıktısı) arasındaki ilişki ağırlıklandırmalar üzerinden formülleştirilmiştir. Bu tez çalışmasında ana motivasyon kaynağı, farklı karar ve veri kaynaklarını kullanacak bir olay tanıma sistemi geliştirmektir. Ses, görsel, hareketsel, derin öğrenme gibi kaynaklardan sağlanan bilgiler tümleştirilmiş ve incelenmiştir. Önerilen yöntemde karar füzyonu son anlamsal analiz aşaması olarak uygulanmıştır. Tanımsızlığa karşı direnç, modelleme esnekliği, çoklu şekil verileri, çıkarılan kural ve derin öğrenme sonuçları kullanılarak olayların daha iyi tanınabilmesi, önerilen sistemdeki ana odaklar olarak sıralanabilir.

Özet (Çeviri)

In this thesis, we propose a multi-modal event recognition framework based on the integration of event modeling, fusion, deep learning and, association rule mining. Event modeling is achieved through visual concept learning, scene segmentation and association rule mining. Visual concept learning is employed to reveal the semantic gap between the visual content and the textual descriptors of the events. Association rules are discovered by a specialized association rule mining algorithm where the proposed strategy integrates temporality into the rule discovery process. In addition to physical parts of video, the concept of scene segment is proposed to define and extract elements of association rules. Various feature sources such as audio, motion, keypoint descriptors, temporal occurrence characteristics and fully connected layer outputs of CNN model are combined into the feature fusion. The proposed decision fusion approach employs logistic regression to formulate the relation between dependent variable (event type) and independent variables (classifiers' outputs) in terms of decision weights. The main motivation in this thesis is to construct a multimodal fusion system which detects events in video by examining feature and decision sources. Various feature sets such as audio, visual, motion and deep learning are investigated. The proposed system employs a decision fusion methodology as the final step of semantic analysis. The main issues that are investigated throughout this study are robustness to uncertainty, better event recognition by use of multi-modal fusion, deep learning outputs, extracted rules, and flexibility in representation.

Benzer Tezler

  1. Detection of phishing web pages by combining semantical and visual information

    Kimlik avcısı web sayfalarının anlamsal ve görsel bilgiyle tespiti

    AHMAD HANI ABDALLA ALMAKHAMREH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET SELMAN BOZKIR

  2. Mimari bir dilin biçim grameri analizi ve bilgisayar ortamında sunumu

    Başlık çevirisi yok

    EDA VELİBAŞOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Mimarlıkİstanbul Teknik Üniversitesi

    DOÇ.DR. GÜLEN ÇAĞDAŞ

  3. Video object segmentation for interactive multimedia

    Etkileşimli çoğulortamlılık için video nesne bölütlenmesi

    TOLGA EKMEKÇİ

    Yüksek Lisans

    İngilizce

    İngilizce

    1998

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. LEVENT ONURAL

  4. Sosyal bilgiler dersinde geo-medya destekli otantik öğrenme ortamının öğrenmeye etkisi

    The effectiveness of geo-media assisted authentic learning environment on learning on the social studies lessons

    ZEKERİYA FATİH İNEÇ

    Doktora

    Türkçe

    Türkçe

    2017

    Eğitim ve ÖğretimErzincan Üniversitesi

    İlköğretim Ana Bilim Dalı

    PROF. DR. ERDAL AKPINAR

  5. Optical flow based video frame segmentation and segment classification

    Optik akış tabanlı video çerçeve bölümlendirme ve bölüm sınıflandırma

    SAMET AKPINAR

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FERDANUR ALPASLAN