Geri Dön

Draw, utter and search: a multi-modal video search engine

Çiz, konuş ve arat: Çok kipli bir video arama sistemi

  1. Tez No: 543861
  2. Yazar: OZAN CAN ALTIOK
  3. Danışmanlar: DOÇ. DR. TEVFİK METİN SEZGİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Koç Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 86

Özet

Web üzerinde çoklu ortam içeriğinin artışına paralel olarak, video aramaları, yazı tabanlı arama yöntemleri yerine, video içeriğine gore düzenleme olanağı sağlayan içerik tabanlı arama yöntemleri kullanılarak gerçekleştirilmeye başlanmıştır. Bu eğilim, büyük video kümeleri üzerinde etkili ve verimli arama gerçekleştirebilecek video arama sistemleri üzerinde bir araştırma sürecinin başlangıcı olmustur. Birçok video arama sistemi, sadece el yordamıyla oluşturulan özniteliklere ve etiketlemelere bağlı olarak arama gerçekleştirmektedir. Video gibi devimsel içerikleri birbirinden ayıran en önemli özellik olan nesnelerin hareket bilgisi görmezden gelinmektedir. Hareket, çizim ve konuşmanın eş zamanlı olarak kullanılmasıyla belirtilebilecek bir bilgidir. Konuşma, içeriğin, olayların ve nesnelerin birbirleriyle olan ilişkilerinin kolaylıkla belirtilebilmesine olanak tanırken, çizim uzamsal ifade kabiliyeti sunmaktadir. Fakat, söz konusu etkileşim yapısına sahip bir video arama sistemi bulunmadığından, bu kiplerin video aramalarında nasıl kullanılabileceğine dair bir bilgi eksikliği mevcuttur. Bu çalışmada, kullanıcıların çizim ve konuşma tabanlı video arama görevlerine aktif katılımlarını sağlayacak bir Oz Büyücüsü yönergesi ve bazi araçlar geliştirilmiştir. Söz konusu araçların ve arama yönergesinin birbirleriyle olan uyumu, bir kullanım alanı üzerinde (futbol maçlarının aranması) değerlendirilmiştir. Ardından, toplanan kullanıcı etkileşim verileri kullanılarak, eş zamanlı olarak verilen çizim ve konuşma girdilerinden kullanıcının bahsetmiş olduğu hareket olaylarının sıralamasının elde edilebildiği bir makine öğrenmesi modeli geliştirilmiştir. Bu modelin performans sonuçları, video arama yönergesinin ve araçların farklı türlerde videoların aranmasında çoklu etkileşim mekanizmalarının irdelenmesi icin uygun olduğunu göstermektedir. Bunun yanında, oluşturulmuş çok kipli yorumlayıcı, çoklu ortamlar icin hazırlanmış ölçeklenebilir ve hızlı bir veritabanı sistemi ile birleştirilmiş ve bir video arama sistemi meydana getirilmiştir. Söz konusu video arama sistemi, kullanıcı değerlendirme çalışmaları ile değerlendirilmiştir. Çalışmalardan elde edilen sonuçlar, oluşturulan çok kipli yorumlama mekanizmasının ve veritabanı sisteminin büyük video kümeleri üzerinde hareket tabanlı video araması için iyi bir ikili olduğunu göstermektedir.

Özet (Çeviri)

With the increasing amount of multimedia content available on the web, the focus on video retrieval engines has been shifting from text-based systems to content-based methods that allow indexing and retrieval based on video contents. This trend has sparked a quest for efficient and effective video retrieval systems on large video collections. Most video retrieval systems rely only on hand-crafted features and manual annotations. Motion of the individual objects, the most decisive information conveyed in videos, is usually overlooked in video retrieval. From a user interaction perspective, motion can be given as a query using speech and sketch simultaneously. Speech allows easy specification of content, events and relationships, while sketching brings in spatial expressiveness. Unfortunately, we have insufficient knowledge of how sketching and speech can be used for video retrieval, because there are no existing retrieval systems that support such interaction. In this paper, we describe a Wizard-of-Oz protocol and a set of tools that we have developed to engage users in a sketch- and speech- based video retrieval task. We report how the protocol and the tools fit together to establish an ecologically valid testbed using retrieval of soccer videos as a use case scenario. Using the data collected in the studies, we developed a model capable of interpreting simultaneous speech and sketching to infer the sequence of motions described by a user. The performance results of the model suggest that the protocol and the tools together have the potential to serve as effective means for studying a wide range of multi-modal use cases. Moreover, a video retrieval system was built by integrating the multimodal interpretation model to a database back-end designed for big multimedia collections. The retrieval system was assessed through user evaluation studies. The evaluation results demonstrate that the given query interpretation mechanism and the database system make a good couple for motion-based video retrieval on big video collections.

Benzer Tezler

  1. Tarihi kentlerdeki açık mekanların değişen kullanımlarının değerlendirilmesi: Amasya örneği

    The evaluation of the changing usage of the open spaces in the historic cities: Amasya example

    YASİN ÇAĞATAY SEÇKİN

    Doktora

    Türkçe

    Türkçe

    2005

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. HANDAN TÜRKOĞLU

  2. K.K.T.C. Konaklama tesislerinde uygulanan pazarlama stratejileri

    Başlık çevirisi yok

    AHMET MORALI

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    TurizmÇukurova Üniversitesi

    PROF.DR. MUSTAFA MAZLUM

  3. POY tekniği ile üretilen naylon 66 filamentlerinde kondüsyonlamanın etkisi

    Başlık çevirisi yok

    AYTÜL GÜNSEL

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    KimyaTrakya Üniversitesi

    Kimya Ana Bilim Dalı

    YRD. DOÇ. DR. NEVİN KAPTANOĞLU

  4. Pamuk ipliği üreten tesislerde klima ve klimanın iplik üzerine etkileri

    Air conditioning plant for cotton yarn production mills and effect air condition on the yarn characteristics

    HAKAN KARADEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    1999

    Makine MühendisliğiErciyes Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜRSEL ÇINAR

  5. Elektronik ortamda alışveriş yapanların kontrolsüz satın alma eğilimlerinin incelenmesi

    An investigation of impulsive buying tendencies of shoppers in electronic environment

    ZEYNEP ÜSTER

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    İşletmeKarabük Üniversitesi

    İşletme Ana Bilim Dalı

    YRD. DOÇ. DR. ALİ ÇAĞLAR ÇAKMAK