Geri Dön

Video classification and retrieval with low data regime learning

Düşük veri rejimi öğrenimi ile video sınıflandırma ve geri alma

  1. Tez No: 904684
  2. Yazar: EROL ÇITAK
  3. Danışmanlar: PROF. DR. MİNE ELİF KARSLIGİL
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 83

Özet

Video sınıflandırma, bir videonun içeri˘gini analiz ederek onu bir veya daha fazla önceden tanımlanmı¸s kategoriye atamayı gerektiren, bilgisayarlı görü alanında zorlu bir görevdir. Ancak, videolarda bulunan büyük miktardaki görsel veri nedeniyle, sınıflandırma süreci genellikle hesaplama açısından pahalıdır ve önemli miktarda etiketli veri gerektirir. Bu nedenlerden dolayı, az veri ile video sınıflandırma alanı, az örnekle ö˘grenme (few-shot learning) ve sıfır örnekle ö˘grenme (zero-shot learning) görevlerinden olu¸san, geleneksel video sınıflandırma ile ilgili zorlukları a¸smak için potansiyel bir çözüm olarak önerilmektedir. Az veri ile yapılan çalı¸smalar potansiyel çözümler olarak görülse de, mevcut veri setleri, ya çe¸sitli de˘gil ya da sıfır örnekle ö˘grenme için zorunlu olan yardımcı modalliklere sahip de˘gildir. Bu nedenle az örnekle ve sıfır örnekle ö˘grenme görevlerinin gereksinimlerini tam olarak kar¸sılamamaktadır. Bu bo¸slu˘gu gidermek için, bu çalı¸smada, çok modaliteli az veri ile video sınıflandırma problemi için büyük ölçekli, genel amaçlı bir veri kümesi öneriyoruz. veri kümesi, video içeri˘ginin birden çok yönünü yakalayan video ve öznitelik çiftlerini içermektedir. Böylece, yeni önerilen veri kümesi, az veri ile video sınıflandırma görevlerinin incelenmesini sa˘glarken, bu alandaki gelecekteki çalı¸smaların de˘gerlendirmelerinin kar¸sıla¸stırılmasında tutarlılık sa˘glayacaktır. Ayrıca, yeni önerilen veri kümesimizde gelecekteki çalı¸smaları de˘gerlendirmek ve bir temel olu¸sturmak için, farklı modallikler arasındaki içsel korelasyonu kullanarak daha bilgilendirici temsiller ö˘grenen varyasyonel otokodlayıcı tabanlı bir model sunuyoruz. Bunun yanı sıra, temel modelimizin az veri senaryolarında genelleme performansını artırmak için bir düzenleme tekni˘gi öneriyoruz. Deneysel sonuçlarımız, bu düzenleme tekni˘ginin yardımıyla, önerilen temel modelimizin, yalnızca tek bir etiketli örnekle temel modele kıyasla sınıflandırma do˘grulu˘gunda %12'den fazla bir iyile¸sme sa˘gladı˘gını ortaya koymaktadır. veri kümesimiz ve önerilen temel modelimiz, bu alanda ilk adım olarak gelecekteki çalı¸smalarda kullanılabilir. Sonuç olarak, gözetim, video özetleme ve içerik tabanlı video arama gibi geni¸s bir yelpazedeki video tabanlı uygulamalar bu vizyondan faydalanabilir.

Özet (Çeviri)

Video classification is a challenging task in computer vision that requires analyzing the content of a video to assign it to one or more predefined categories. However, due to the vast amount of visual data contained in videos, the classification process is often computationally expensive and requires a significant amount of annotated data. Because of these reasons, the low-data-based video classification area, which consists of few-shot and zero-shot tasks, is proposed as a potential solution to overcome traditional video classification-oriented challenges. Although low-data-based studies are considered potential solutions, existing datasets, which are either not diverse or have no auxiliary modality that is a mandatory requirement for the zero-shot task, don't fulfill the requirements for few-shot and zero-shot tasks completely. To address this gap, in this paper, we propose a large-scale, general-purpose dataset for the problem of multi-modal low data-based video classification. The dataset contains pairs of videos and attributes that capture multiple facets of the video content. Thus, the new proposed dataset will both enable the study of low-data-based video classification tasks and provide consistency in terms of comparing the evaluations of future studies in this field. Furthermore, to evaluate and provide a baseline for future works on our new proposed dataset, we present a variational autoencoder-based model that leverages the inherent correlation among different modalities to learn more informative representations. As well as we introduce a regularization technique to improve the baseline model's generalization performance in low-data scenarios. Our experimental results reveal that our proposed baseline model, with the aid of this regularization technique, achieves over 12% improvement in classification accuracy compared to the pure baseline model with only a single labeled sample. Our dataset and proposed baseline model can be used in future studies as a first step in this area. As a result, a wide range of video-based applications, including surveillance, video summarization, and content-based video retrieval, can benefit from this vision.

Benzer Tezler

  1. Image classification using low level features and C4.5 algorithm

    Düşük seviyeli özellikleri ve C4.5 algoritmasını kullanarak resim sınıflandırma

    MUSTAFA KAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2002

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ADİL ALPKOÇAK

  2. Combining image features for semantic descriptions

    Anlamsal tanımlamalar için görüntü öznitelikleri birleştirme

    MEDENİ SOYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2003

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYDIN ALATAN

  3. Utilizing multiple instance learning for computer vision tasks

    Bilgisayarlı görü problemlerinin çoklu örnekle öğrenme ile değerlendirilmesi

    FADİME ŞENER

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Bölümü

    YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN

    YRD. DOÇ. DR. NAZLI İKİZLER CİNBİŞ

  4. Distance approximations between high and multi-dimensional structures

    Yüksek ve çok boyutlu yapılar arasındaki mesafe yaklaşımları

    MURAT SEMERCİ

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ TAYLAN CEMGİL

  5. Optical flow based video frame segmentation and segment classification

    Optik akış tabanlı video çerçeve bölümlendirme ve bölüm sınıflandırma

    SAMET AKPINAR

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FERDANUR ALPASLAN