Fusion of multimodal information for multimedia information retrieval

Çoğulortam bilgi erişimi için çok kipli bilginin birleştirilmesi

PDF İndir

Tez No: 385111
Yazar: TURGAY YILMAZ
Danışmanlar: PROF. DR. ADNAN YAZICI
Tez Türü: Doktora
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2014
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Sayfa Sayısı: 265

Özet

Çoğulortam verilerine etkili bir erişim, verideki mantıksal içerik üzerine bina edilir. Mantıksal içeriğin çıkarılması için, çoğulortam verisi dikkatlice analiz edilmeli ve bilgi verinin içerdiği tüm bilgi kullanılmalıdır. Çoğulortam veriler, içinde çok kipli bilgi barındıran karmaşık bir yapıya sahiptir. Verideki gürültü, herhangi bir tekil kipin genelgeçer bilgi içerememesi ve her kipin performans üst limiti sebebiyle, herhangi bir kipten sağlanacak bilgiye güvenmek mümkün değildir. Bu yüzden, bilgi erişimi işleminin performansını artırmak için çok kipli bilginin birleştirilmesi kullanışlı bir yöntem olarak ortaya çıkmaktadır. Fakat, bu yöntemle ilgili olarak iki temel zorluk bulunmaktadır; 'ne' ve 'nasıl' birleştirilmeli. Verilen bu zorluklar kapsamında, bu tezin katkıları dört başlık altında incelenebilir. İlk olarak, literatürdeki çalışmaları incelenerek ve genel bilgi birleştirme sistemlerinin tasarım kriterleri saptanarak genel bir birleştirme çerçeveleri ortaya konmuştur. İkinci olarak, 'ne' birleştirilmeli problemini çözmek amacıyla, sınıfa özgü öznitelik seçim (CSF) yöntemi ve RELIEF-tabanlı bir kip ağırlıklandırma algoritması (RELIEF-MM) önerilmiştir. Üçüncü olarak, 'nasıl' birleştirilmeli problemi ele alınıp, madencilik ve çizge tabanlı yeni bir yöntem önerilmiştir. Bu yöntem kelime torbaları modeliyle temsil edilen kiplerin etkili bir şekilde birleştirilmesini sağlamaktadır. Son olarak, bahsedilen iki problem birlikte ele alınarak, doğrusal ağırlıklandırmalı birleştirme üzerine, doğrusal olmayan bir ilave yapılmıştır. CalTech101, TRECVID 2007, 2008, 2011 and CCV veri kümelerinde çeşitli çok öznitelikli ve çok kipli ayarlar ile kapsamlı deneyler yapılmış, ve önerilen algoritmaların belirtilen problemlerin çözümünde verimli, etkin ve sağlam yöntemler olduğu ortaya konmuştur.

Özet (Çeviri)

An effective retrieval of multimedia data is based on its semantic content. In order to extract the semantic content, the nature of multimedia data should be analyzed carefully and the information contained should be used completely. Multimedia data usually has a complex structure containing multimodal information. Noise in the data, non-universality of any single modality, and performance upper bound of each modality make it hard to rely on a single modality. Thus, multimodal fusion is a practical approach for improving the retrieval performance. However, two major challenges exist; 'what-to-fuse' and 'how-to-fuse'. In the scope of these challenges, the contribution of this thesis is four-fold. First, a general fusion framework is constructed by analyzing the studies in the literature and identifying the design aspects of general information fusion systems. Second, a class-specific feature selection (CSF) approach and a RELIEF-based modality weighting algorithm (RELIEF-MM) are proposed to handle the 'what-to-fuse' problem. Third, the 'how-to-fuse' problem is studied, and a novel mining and graph based combination approach is proposed. The approach enables an effective combination of the modalities represented with bag-of-words models. Lastly, a non-linear extension on the linear weighted fusion approach is proposed, by handling both of the 'what-to-fuse' and 'how-to-fuse' problems together. We have conducted comprehensive experiments on CalTech101, TRECVID 2007, 2008, 2011 and CCV datasets with various multi-feature and multimodal settings; and validate that our proposed algorithms are efficient, accurate and robust ways of dealing with the given challenges of multimodal information fusion.

Benzer Tezler

Tez No
859205
Empowering multimodal multimedia information retrieval through semantic deep learning
Semantik derin öğrenme yoluyla multimodal multimedya bilgi erişimini güçlendirme
SAEID SATTARI
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET HALİT SEYFULLAH OĞUZTÜZÜN
PROF. DR. ADNAN YAZICI
Tez No
487896
Çok kipli video kavram sınıflandırması
Multimodal video concept classification
BERKAY SELBES
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Başkent Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MUSTAFA SERT
Tez No
872555
Synergraph: A novel approach for multi-modal graph based recommendation systems
Synergraph: Çok modlu çizge tabanlı tavsiye sistemleri için yeni bir yaklaşım
MERT BURAK BURABAK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bahçeşehir Üniversitesi
Yapay Zeka Ana Bilim Dalı
DOÇ. DR. TEVFİK AYTEKİN
Tez No
368922
An efficient fuzzy fusion-based framework for surveillance applications in wireless multimedia sensor networks
Kablosuz çoklu-ortam duyarga ağlarda gözetleme uygulamaları için bulanık füzyon-tabanlı etkin çatı
SEYYİT ALPER SERT
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADNAN YAZICI
PROF. DR. AHMET COŞAR
Tez No
353687
Classifier fusion for multimodal correlated classifiers and video annotation
Bağımlı sınıflandırıcılar ve video işaretleme için sınıflandırıcı birleştirme
ÜMİT EKMEKCİ
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZEHRA ÇATALTEPE

Geri Dön