Geri Dön

Empowering multimodal multimedia information retrieval through semantic deep learning

Semantik derin öğrenme yoluyla multimodal multimedya bilgi erişimini güçlendirme

  1. Tez No: 859205
  2. Yazar: SAEID SATTARI
  3. Danışmanlar: PROF. DR. MEHMET HALİT SEYFULLAH OĞUZTÜZÜN, PROF. DR. ADNAN YAZICI
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 104

Özet

Multimedya verileri, ses, görsel ve metin de dahil olmak üzere çeşitli yöntemleri kapsar ve bu yöntemler, multimedya kaynaklarından anlamsal bilgileri çıkarmak ve almak için bu yöntemlerden yararlanabilecek sağlam erişim yöntemlerinin geliştirilmesini gerektirir. Bu çalışma, oldukça ölçeklenebilir ve çok yönlü, uçtan uca çok modlu bir multimedya bilgi erişim çerçevesi sunmaktadır. Bu sistemin temel gücü, derin sinir modellerinin kullanımıyla elde edilen, bireysel yöntemler içindeki ve farklı yöntemler arasındaki anlamsal bağlamları öğrenme kapasitesinde yatmaktadır. Bu modeller, sorgu kombinasyonları ve sorgu günlüklerinden elde edilen ilgili çekimler kullanılarak eğitilir. Bu çerçevenin ayırt edici özelliklerinden biri, daha önce karşılaşılmamış videoları temsil eden çekim şablonları oluşturabilmesidir. Geri alma performansını artırmak amacıyla sistem, bu şablonlara benzer çekimleri almak için kümeleme teknikleri kullanır. Çok modlu konseptlerdeki doğal belirsizliği gidermek için değiştirilmiş kayıp fonksiyonuyla bulanık kümelemenin geliştirilmiş bir çeşidi uygulanır. Yaklaşımımız, gelişmiş yeniden sıralama için Siyam ağlarını dahil ederek basit küme tabanlı sıralamanın ötesine geçiyor ve böylece erişim hassasiyetini artırıyor. Ayrıca OWA operatörünü içeren bir füzyon yöntemi tanıtılmıştır. Bu yöntem, birden fazla erişim sistemi tarafından üretilen sıralanmış listeleri bir araya getirmek için çeşitli önlemler kullanır. Önerilen yaklaşım, çerçevenin uyarlanabilirliğini ve ölçeklenebilirliğini sağlayarak üç farklı yöntemden özellikler çıkarmak için paralel işleme ve aktarım öğreniminden yararlanır. Etkinliğini değerlendirmek için sistem, yaygın olarak tanınan altı çok modlu veri kümesi üzerinde gerçekleştirilen deneyler aracılığıyla titizlikle değerlendirilir. Dikkat çekici bir şekilde, yaklaşımımız literatürde bu veri kümelerinin beşi üzerinde yapılan önceki çalışmalardan daha iyi performans göstermektedir. İstatistiksel testlerle desteklenen deneysel bulgular, önerilen yaklaşımın çok modlu multimedya bilgi erişimi alanında etkinliğini kesin olarak ortaya koymaktadır.

Özet (Çeviri)

Multimedia data encompasses various modalities, including audio, visual, and text, necessitating the development of robust retrieval methods capable of harnessing these modalities to extract and retrieve semantic information from multimedia sources. This study presents a highly scalable and versatile end-to-end multimodal multimedia information retrieval framework. The core strength of this system lies in its capacity to learn semantic contexts within individual modalities and across different modalities, achieved through the utilization of deep neural models. These models are trained using combinations of queries and relevant shots obtained from query logs. One of the distinguishing features of this framework is its ability to create shot templates representing videos that have not been encountered previously. To enhance retrieval performance, the system employs clustering techniques to retrieve shots similar to these templates. An improved variant of fuzzy clustering with a modified loss function is applied to address the inherent uncertainty in multimodal concepts. Our approach goes beyond simple cluster-based ranking by incorporating Siamese networks for improved re-ranking, thereby enhancing retrieval precision. Additionally, a fusion method incorporating an OWA operator is introduced. This method employs various measures to aggregate ranked lists produced by multiple retrieval systems. The proposed approach leverages parallel processing and transfer learning to extract features from three distinct modalities, ensuring the adaptability and scalability of the framework. To assess its effectiveness, the system is rigorously evaluated through experiments conducted on six widely recognized multimodal datasets. Remarkably, our approach outperforms previous studies in the literature on five of these datasets. The experimental findings, substantiated by statistical tests, conclusively establish the effectiveness of the proposed approach in the field of multimodal multimedia information retrieval.

Benzer Tezler

  1. Exploring intergenerational shared reading of picturebooks with a focus on older adults: Art, design implications and strategies for wellbeing

    Resimli kitapların kuşaklararası ortak okuma deneyiminin yaş almış bireyler odağında incelenmesi: İyi oluş için sanat, tasarım çıkarımları ve stratejileri

    SERPİL KARAOĞLU

    Doktora

    İngilizce

    İngilizce

    2025

    Bilim ve TeknolojiKoç Üniversitesi

    Tasarım, Teknoloji ve Toplum Bilimi Ana Bilim Dalı

    DOÇ. DR. ILGIM VERYERİ ALACA

  2. Afet tedarik zinciri yönetiminde stokastik, çok periyotlu, çok-modlu, çok malzemeli, iki-seviyeli yardım malzemesi dağıtım modeli

    A two-stage stochastic, multi-period, multi-modal and multi-commodity model for the disaster-relief supply chain distribution and planning

    ÇAĞLAR UTKU GÜLER

    Doktora

    Türkçe

    Türkçe

    2016

    Endüstri ve Endüstri MühendisliğiHava Harp Okulu Komutanlığı

    Endüstri Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MURAT ERMİŞ

  3. Empowering learner autonomy for developing writing skills through ai-enhanced reflective journals

    Yapay zekâ destekli yansıtıcı günlükler aracılığıyla yazma becerilerinin geliştirilmesi için öğrenen özerkliğinin güçlendirilmesi

    SENA KÖNEZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Eğitim ve Öğretimİstanbul Medeniyet Üniversitesi

    Yabancı Diller Eğitimi Ana Bilim Dalı

    PROF. DR. SELAMİ AYDIN

  4. Algoritmik ticarette kantitatif yatırım stratejileri ve makine öğrenimi kullanarak finansal karar alma yeteneğinin güçlendirilmesi

    Empowering financial decision-making through leveraging uantitative investment strategies and machine learning in algorithmic trading

    HAMMAM JAMEEL MAHMOUD ABURAIDI

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İMAN ASKERBEYLİ

  5. Empowering teachers as agents of change: English language teachers' proactive personality through job crafting

    Öğretmenleri değişimin temsilcileri olarak yetkilendirmek: İş biçimlendirme sürecinde İngilizce öğretmenlerinin proaktif kişiliği

    NUŞİN EKİNCİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Eğitim ve ÖğretimÇağ Üniversitesi

    İngiliz Dili Eğitimi Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜRCAN DEMİROGLARI