Geri Dön

Visual representation learning by exploring spatio-temporal consistency

Mekansal-zamansal tutarlılığı keşfederek görsel temsil öğrenimi

  1. Tez No: 920839
  2. Yazar: ARİF AKAR
  3. Danışmanlar: PROF. DR. NAZLI İKİZLER CİNBİŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 93

Özet

Video temsili öğrenimi, bilgisayarla görme alanında temel bir araştırma konusudur. Bu alan, video verilerini belirgin ve ayırt edici temsillere kodlamak için yöntemler ve modeller geliştirmeye odaklanır. Bu temsiller, video sınıflandırma, eylem tanıma, video arama ve video açıklama gibi alt görevlerde etkili bir şekilde kullanılabilir. Video temsili öğreniminin temelinde, sahneyi, aktörü ve aktörün nesneler ve sahne elemanları gibi çevresiyle ilişkisini anlamak yatar. Görsel içeriğin zaman içindeki geçişini öğrenmek için bir modelin, video dizilerinde doğrudan kodlanmış zamansal ve mekansal bilgileri yakalaması ve çeşitli uygulamalarda faydalı olabilecek uzaysal-zamansal temsilleri çıkarması gerekir. Bu tez, hareket özniteliklerine odaklanan özdenetimli video temsili öğrenimi problemini ele almakta ve arka plan yanlılığını azaltarak ön plandaki hareketlerden öznitelikler yakalamayı amaçlamaktadır. Son dönemde başarılı yöntemler genellikle örnek ayrımı tabanlı yaklaşımları kullanmakta olup, bu yaklaşımlar yoğun hesaplama gerektirebilir ve verimsiz ve yorucu bir ön eğitim sürecine yol açabilir. Ayrıca, bu tezde önerilen yöntemler hareket öznitelikleri için optik akış, H264 codec öznitelikleri veya herhangi bir hareket tanımlayıcı gibi ek hesaplamalar gerektirmez. Çeşitli çalışmalar iki kanallı ağlar kullanarak hareket öğrenimini amaçlasa da, bu tez çalışması uzaysal-zamansal öznitelikleri öğrenmek için tek kanallı çözümleri aramaktadır. Bu doğrultuda, MAC: Mask-Augmentation TeChnique(Maskeleme-tabanlı Artırma Tekniği) adlı veri artırma tekniğini kullanıyoruz. MAC, video kareleri-farkına dayalı maskeler kullanarak ön plan hareketini harmanlar ve uygulanan dönüşümü tanımayı bir ön görev olarak belirler. Ön eğitim aşamasında doğru harmanlama katsayısını tahmin etme oyununu içeren modelimiz, hareket temelli temsil özniteliklerini kodlamaya zorlanır ve bu özniteliklerini daha sonra eylem tanıma ve video arama gibi alt görevlere başarıyla aktarılır. Ayrıca, temsili yetenekleri daha da artırmak için uzaysal ve zamansal alanlarda ek görevler ekleyerek yaklaşımımızı bütünleşik bir öğrenme çerçevesinde karşıt öğrenme ile genişletiyoruz. UCF-101, HMDB51 ve Diving-48 veri setlerinde düşük kaynak tüketimi ayarlarında yöntemimizin üstün performans elde ettiğini ve yoğun kaynak tüketimi ayarlarında örnek ayrımı tabanlı yöntemlerle rekabetçi sonuçlar elde ettiğini gösteren deneysel sonuçlar sunuyoruz. Önerilen yöntemlerin öğrenme davranışını ve her bileşenin katkısını analiz etmek için özenle tasarlanmış ablasyon deneyleri yapıyoruz. Son olarak, sunulan yöntemlerin faydalarını daha da vurgulamak için nitel sonuçlar sunuyoruz. Artırma tekniğimizin, ilişkili ön görev ve karşıt öğrenme hedefleriyle birlikte, özdenetimli video temsili öğreniminde gelecekteki gelişmelerin temelini oluşturacağına inanıyoruz.

Özet (Çeviri)

Video representation learning is a fundamental area of research in computer vision. It focuses on developing methods and models to encode video data into definitive and discriminative representations that can be effectively utilized in downstream tasks, such as video classification, action recognition, video retrieval and video captioning. At the core of it, video representation learning seeks to understand scene, actor and actor's relationship with their surroundings, e.g. objects, and scene elements. In order to learn the transition of visual content over time, a model needs to capture temporal and spatial information inherently encoded in video sequences and to extract spatiotemporal representations that can be useful for downstream applications. This thesis addresses the problem of self-supervised video representation learning focused on motion features, aiming to capture features from foreground motion with reduced reliance on background bias. Recent successful methods often employ instance discrimination approaches, which entail heavy computation and may lead to inefficient and exhaustive pretraining. Moreover, proposed methods in this thesis do not require any additional computation for motion features, such as optical flow, H264 codec features or any motion descriptor. Although several works in literature incorporate two-stream networks to incorporate motion learning, this thesis work seeks for single network solutions for learning spatiotemporal features. To this end, we utilize the augmentation technique MAC: Mask-Augmentation TeChnique. MAC blends foreground motion using frame-difference-based masks and sets up a pretext task to recognize the applied transformation. By incorporating a game of predicting the correct blending multiplier at the pretraining stage, our model is compelled to encode motion-based features, which are then successfully transferred to downstream tasks such as action recognition and video retrieval. Moreover, we expand our approach within a joint contrastive framework and integrate additional tasks in the spatial and temporal domains to further enhance representation capabilities. We present experimental results on action recognition and video retrieval tasks to demonstrate that our method achieves superior performance on the UCF-101, HMDB51 and Diving-48 datasets under low-resource settings and competitive results with instance discrimination methods under costly computation settings. We carefully design ablation experiments to analyze learning behavior of proposed methods and contribution of each component. Lastly, we present qualitative results to further illustrate the benefits of presented methods. We anticipate that our augmentation technique, along with the associated pretext and contrastive learning objectives, will lay the groundwork for future advancements in self-supervised video representation learning.

Benzer Tezler

  1. Spatio-temporal assessment of pain intensity through facial transformation-based representation learning

    Yüz dönüşümü tabanlı gösterim öğrenimi ile ağrı şiddetinin uzam-zamansal değerlendirilmesi

    DİYALA NABEEL ATA EREKAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAMDİ DİBEKLİOĞLU

  2. Computing structural analogies of musical rhythms in visual design

    Müzikal ritimlerin görsel tasarımdaki yapısal karşılıklarının hesaplanması

    SEÇKİN MADEN

    Doktora

    İngilizce

    İngilizce

    2021

    Mimarlıkİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. MİNE ÖZKAR KABAKÇIOĞLU

  3. Grounding language in motor space: Exploring robot action learning and control from proprioception

    Dil öğrenimini robot motor alanında temellendirme: Propriyosepsiyondan robot eylem öğrenimi ve kontrolünü keşfetmek

    EMRE CAN ACİKGOZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. DR. DENİZ YURET

    DOÇ. DR. MEHMET ERKUT ERDEM

    DR. ÖĞR. ÜYESİ BARIŞ AKGÜN

  4. Visualization based analysis of gene networks using high dimensional model representation

    Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi

    PINAR GÜLER

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  5. Optimizing artistic process: Exploring efficient environment creation workflows in gaming industry

    Sanatsal sürecin optimizasyonu: Oyun endüstrisinde verimli çevre oluşturma süreçlerinin incelenmesi

    EMRAH ÖZÇİÇEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Oyun ve Etkileşim Teknolojileri Ana Bilim Dalı

    PROF. DR. LEMAN FİGEN GÜL