Video classification and retrieval with low data regime learning
Düşük veri rejimi öğrenimi ile video sınıflandırma ve geri alma
- Tez No: 904684
- Danışmanlar: PROF. DR. MİNE ELİF KARSLIGİL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 83
Özet
Video sınıflandırma, bir videonun içeri˘gini analiz ederek onu bir veya daha fazla önceden tanımlanmı¸s kategoriye atamayı gerektiren, bilgisayarlı görü alanında zorlu bir görevdir. Ancak, videolarda bulunan büyük miktardaki görsel veri nedeniyle, sınıflandırma süreci genellikle hesaplama açısından pahalıdır ve önemli miktarda etiketli veri gerektirir. Bu nedenlerden dolayı, az veri ile video sınıflandırma alanı, az örnekle ö˘grenme (few-shot learning) ve sıfır örnekle ö˘grenme (zero-shot learning) görevlerinden olu¸san, geleneksel video sınıflandırma ile ilgili zorlukları a¸smak için potansiyel bir çözüm olarak önerilmektedir. Az veri ile yapılan çalı¸smalar potansiyel çözümler olarak görülse de, mevcut veri setleri, ya çe¸sitli de˘gil ya da sıfır örnekle ö˘grenme için zorunlu olan yardımcı modalliklere sahip de˘gildir. Bu nedenle az örnekle ve sıfır örnekle ö˘grenme görevlerinin gereksinimlerini tam olarak kar¸sılamamaktadır. Bu bo¸slu˘gu gidermek için, bu çalı¸smada, çok modaliteli az veri ile video sınıflandırma problemi için büyük ölçekli, genel amaçlı bir veri kümesi öneriyoruz. veri kümesi, video içeri˘ginin birden çok yönünü yakalayan video ve öznitelik çiftlerini içermektedir. Böylece, yeni önerilen veri kümesi, az veri ile video sınıflandırma görevlerinin incelenmesini sa˘glarken, bu alandaki gelecekteki çalı¸smaların de˘gerlendirmelerinin kar¸sıla¸stırılmasında tutarlılık sa˘glayacaktır. Ayrıca, yeni önerilen veri kümesimizde gelecekteki çalı¸smaları de˘gerlendirmek ve bir temel olu¸sturmak için, farklı modallikler arasındaki içsel korelasyonu kullanarak daha bilgilendirici temsiller ö˘grenen varyasyonel otokodlayıcı tabanlı bir model sunuyoruz. Bunun yanı sıra, temel modelimizin az veri senaryolarında genelleme performansını artırmak için bir düzenleme tekni˘gi öneriyoruz. Deneysel sonuçlarımız, bu düzenleme tekni˘ginin yardımıyla, önerilen temel modelimizin, yalnızca tek bir etiketli örnekle temel modele kıyasla sınıflandırma do˘grulu˘gunda %12'den fazla bir iyile¸sme sa˘gladı˘gını ortaya koymaktadır. veri kümesimiz ve önerilen temel modelimiz, bu alanda ilk adım olarak gelecekteki çalı¸smalarda kullanılabilir. Sonuç olarak, gözetim, video özetleme ve içerik tabanlı video arama gibi geni¸s bir yelpazedeki video tabanlı uygulamalar bu vizyondan faydalanabilir.
Özet (Çeviri)
Video classification is a challenging task in computer vision that requires analyzing the content of a video to assign it to one or more predefined categories. However, due to the vast amount of visual data contained in videos, the classification process is often computationally expensive and requires a significant amount of annotated data. Because of these reasons, the low-data-based video classification area, which consists of few-shot and zero-shot tasks, is proposed as a potential solution to overcome traditional video classification-oriented challenges. Although low-data-based studies are considered potential solutions, existing datasets, which are either not diverse or have no auxiliary modality that is a mandatory requirement for the zero-shot task, don't fulfill the requirements for few-shot and zero-shot tasks completely. To address this gap, in this paper, we propose a large-scale, general-purpose dataset for the problem of multi-modal low data-based video classification. The dataset contains pairs of videos and attributes that capture multiple facets of the video content. Thus, the new proposed dataset will both enable the study of low-data-based video classification tasks and provide consistency in terms of comparing the evaluations of future studies in this field. Furthermore, to evaluate and provide a baseline for future works on our new proposed dataset, we present a variational autoencoder-based model that leverages the inherent correlation among different modalities to learn more informative representations. As well as we introduce a regularization technique to improve the baseline model's generalization performance in low-data scenarios. Our experimental results reveal that our proposed baseline model, with the aid of this regularization technique, achieves over 12% improvement in classification accuracy compared to the pure baseline model with only a single labeled sample. Our dataset and proposed baseline model can be used in future studies as a first step in this area. As a result, a wide range of video-based applications, including surveillance, video summarization, and content-based video retrieval, can benefit from this vision.
Benzer Tezler
- Image classification using low level features and C4.5 algorithm
Düşük seviyeli özellikleri ve C4.5 algoritmasını kullanarak resim sınıflandırma
MUSTAFA KAYA
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ADİL ALPKOÇAK
- Combining image features for semantic descriptions
Anlamsal tanımlamalar için görüntü öznitelikleri birleştirme
MEDENİ SOYSAL
Yüksek Lisans
İngilizce
2003
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYDIN ALATAN
- Utilizing multiple instance learning for computer vision tasks
Bilgisayarlı görü problemlerinin çoklu örnekle öğrenme ile değerlendirilmesi
FADİME ŞENER
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Bölümü
YRD. DOÇ. DR. PINAR DUYGULU ŞAHİN
YRD. DOÇ. DR. NAZLI İKİZLER CİNBİŞ
- Distance approximations between high and multi-dimensional structures
Yüksek ve çok boyutlu yapılar arasındaki mesafe yaklaşımları
MURAT SEMERCİ
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ TAYLAN CEMGİL
- Optical flow based video frame segmentation and segment classification
Optik akış tabanlı video çerçeve bölümlendirme ve bölüm sınıflandırma
SAMET AKPINAR
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FERDANUR ALPASLAN