Draw, utter and search: a multi-modal video search engine
Çiz, konuş ve arat: Çok kipli bir video arama sistemi
- Tez No: 543861
- Danışmanlar: DOÇ. DR. TEVFİK METİN SEZGİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 86
Özet
Web üzerinde çoklu ortam içeriğinin artışına paralel olarak, video aramaları, yazı tabanlı arama yöntemleri yerine, video içeriğine gore düzenleme olanağı sağlayan içerik tabanlı arama yöntemleri kullanılarak gerçekleştirilmeye başlanmıştır. Bu eğilim, büyük video kümeleri üzerinde etkili ve verimli arama gerçekleştirebilecek video arama sistemleri üzerinde bir araştırma sürecinin başlangıcı olmustur. Birçok video arama sistemi, sadece el yordamıyla oluşturulan özniteliklere ve etiketlemelere bağlı olarak arama gerçekleştirmektedir. Video gibi devimsel içerikleri birbirinden ayıran en önemli özellik olan nesnelerin hareket bilgisi görmezden gelinmektedir. Hareket, çizim ve konuşmanın eş zamanlı olarak kullanılmasıyla belirtilebilecek bir bilgidir. Konuşma, içeriğin, olayların ve nesnelerin birbirleriyle olan ilişkilerinin kolaylıkla belirtilebilmesine olanak tanırken, çizim uzamsal ifade kabiliyeti sunmaktadir. Fakat, söz konusu etkileşim yapısına sahip bir video arama sistemi bulunmadığından, bu kiplerin video aramalarında nasıl kullanılabileceğine dair bir bilgi eksikliği mevcuttur. Bu çalışmada, kullanıcıların çizim ve konuşma tabanlı video arama görevlerine aktif katılımlarını sağlayacak bir Oz Büyücüsü yönergesi ve bazi araçlar geliştirilmiştir. Söz konusu araçların ve arama yönergesinin birbirleriyle olan uyumu, bir kullanım alanı üzerinde (futbol maçlarının aranması) değerlendirilmiştir. Ardından, toplanan kullanıcı etkileşim verileri kullanılarak, eş zamanlı olarak verilen çizim ve konuşma girdilerinden kullanıcının bahsetmiş olduğu hareket olaylarının sıralamasının elde edilebildiği bir makine öğrenmesi modeli geliştirilmiştir. Bu modelin performans sonuçları, video arama yönergesinin ve araçların farklı türlerde videoların aranmasında çoklu etkileşim mekanizmalarının irdelenmesi icin uygun olduğunu göstermektedir. Bunun yanında, oluşturulmuş çok kipli yorumlayıcı, çoklu ortamlar icin hazırlanmış ölçeklenebilir ve hızlı bir veritabanı sistemi ile birleştirilmiş ve bir video arama sistemi meydana getirilmiştir. Söz konusu video arama sistemi, kullanıcı değerlendirme çalışmaları ile değerlendirilmiştir. Çalışmalardan elde edilen sonuçlar, oluşturulan çok kipli yorumlama mekanizmasının ve veritabanı sisteminin büyük video kümeleri üzerinde hareket tabanlı video araması için iyi bir ikili olduğunu göstermektedir.
Özet (Çeviri)
With the increasing amount of multimedia content available on the web, the focus on video retrieval engines has been shifting from text-based systems to content-based methods that allow indexing and retrieval based on video contents. This trend has sparked a quest for efficient and effective video retrieval systems on large video collections. Most video retrieval systems rely only on hand-crafted features and manual annotations. Motion of the individual objects, the most decisive information conveyed in videos, is usually overlooked in video retrieval. From a user interaction perspective, motion can be given as a query using speech and sketch simultaneously. Speech allows easy specification of content, events and relationships, while sketching brings in spatial expressiveness. Unfortunately, we have insufficient knowledge of how sketching and speech can be used for video retrieval, because there are no existing retrieval systems that support such interaction. In this paper, we describe a Wizard-of-Oz protocol and a set of tools that we have developed to engage users in a sketch- and speech- based video retrieval task. We report how the protocol and the tools fit together to establish an ecologically valid testbed using retrieval of soccer videos as a use case scenario. Using the data collected in the studies, we developed a model capable of interpreting simultaneous speech and sketching to infer the sequence of motions described by a user. The performance results of the model suggest that the protocol and the tools together have the potential to serve as effective means for studying a wide range of multi-modal use cases. Moreover, a video retrieval system was built by integrating the multimodal interpretation model to a database back-end designed for big multimedia collections. The retrieval system was assessed through user evaluation studies. The evaluation results demonstrate that the given query interpretation mechanism and the database system make a good couple for motion-based video retrieval on big video collections.
Benzer Tezler
- Tarihi kentlerdeki açık mekanların değişen kullanımlarının değerlendirilmesi: Amasya örneği
The evaluation of the changing usage of the open spaces in the historic cities: Amasya example
YASİN ÇAĞATAY SEÇKİN
Doktora
Türkçe
2005
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
PROF. DR. HANDAN TÜRKOĞLU
- POY tekniği ile üretilen naylon 66 filamentlerinde kondüsyonlamanın etkisi
Başlık çevirisi yok
AYTÜL GÜNSEL
- Pamuk ipliği üreten tesislerde klima ve klimanın iplik üzerine etkileri
Air conditioning plant for cotton yarn production mills and effect air condition on the yarn characteristics
HAKAN KARADEMİR
Yüksek Lisans
Türkçe
1999
Makine MühendisliğiErciyes ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜRSEL ÇINAR
- Elektronik ortamda alışveriş yapanların kontrolsüz satın alma eğilimlerinin incelenmesi
An investigation of impulsive buying tendencies of shoppers in electronic environment
ZEYNEP ÜSTER
Yüksek Lisans
Türkçe
2014
İşletmeKarabük Üniversitesiİşletme Ana Bilim Dalı
YRD. DOÇ. DR. ALİ ÇAĞLAR ÇAKMAK