Visual representation learning by exploring spatio-temporal consistency
Mekansal-zamansal tutarlılığı keşfederek görsel temsil öğrenimi
- Tez No: 920839
- Danışmanlar: PROF. DR. NAZLI İKİZLER CİNBİŞ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 93
Özet
Video temsili öğrenimi, bilgisayarla görme alanında temel bir araştırma konusudur. Bu alan, video verilerini belirgin ve ayırt edici temsillere kodlamak için yöntemler ve modeller geliştirmeye odaklanır. Bu temsiller, video sınıflandırma, eylem tanıma, video arama ve video açıklama gibi alt görevlerde etkili bir şekilde kullanılabilir. Video temsili öğreniminin temelinde, sahneyi, aktörü ve aktörün nesneler ve sahne elemanları gibi çevresiyle ilişkisini anlamak yatar. Görsel içeriğin zaman içindeki geçişini öğrenmek için bir modelin, video dizilerinde doğrudan kodlanmış zamansal ve mekansal bilgileri yakalaması ve çeşitli uygulamalarda faydalı olabilecek uzaysal-zamansal temsilleri çıkarması gerekir. Bu tez, hareket özniteliklerine odaklanan özdenetimli video temsili öğrenimi problemini ele almakta ve arka plan yanlılığını azaltarak ön plandaki hareketlerden öznitelikler yakalamayı amaçlamaktadır. Son dönemde başarılı yöntemler genellikle örnek ayrımı tabanlı yaklaşımları kullanmakta olup, bu yaklaşımlar yoğun hesaplama gerektirebilir ve verimsiz ve yorucu bir ön eğitim sürecine yol açabilir. Ayrıca, bu tezde önerilen yöntemler hareket öznitelikleri için optik akış, H264 codec öznitelikleri veya herhangi bir hareket tanımlayıcı gibi ek hesaplamalar gerektirmez. Çeşitli çalışmalar iki kanallı ağlar kullanarak hareket öğrenimini amaçlasa da, bu tez çalışması uzaysal-zamansal öznitelikleri öğrenmek için tek kanallı çözümleri aramaktadır. Bu doğrultuda, MAC: Mask-Augmentation TeChnique(Maskeleme-tabanlı Artırma Tekniği) adlı veri artırma tekniğini kullanıyoruz. MAC, video kareleri-farkına dayalı maskeler kullanarak ön plan hareketini harmanlar ve uygulanan dönüşümü tanımayı bir ön görev olarak belirler. Ön eğitim aşamasında doğru harmanlama katsayısını tahmin etme oyununu içeren modelimiz, hareket temelli temsil özniteliklerini kodlamaya zorlanır ve bu özniteliklerini daha sonra eylem tanıma ve video arama gibi alt görevlere başarıyla aktarılır. Ayrıca, temsili yetenekleri daha da artırmak için uzaysal ve zamansal alanlarda ek görevler ekleyerek yaklaşımımızı bütünleşik bir öğrenme çerçevesinde karşıt öğrenme ile genişletiyoruz. UCF-101, HMDB51 ve Diving-48 veri setlerinde düşük kaynak tüketimi ayarlarında yöntemimizin üstün performans elde ettiğini ve yoğun kaynak tüketimi ayarlarında örnek ayrımı tabanlı yöntemlerle rekabetçi sonuçlar elde ettiğini gösteren deneysel sonuçlar sunuyoruz. Önerilen yöntemlerin öğrenme davranışını ve her bileşenin katkısını analiz etmek için özenle tasarlanmış ablasyon deneyleri yapıyoruz. Son olarak, sunulan yöntemlerin faydalarını daha da vurgulamak için nitel sonuçlar sunuyoruz. Artırma tekniğimizin, ilişkili ön görev ve karşıt öğrenme hedefleriyle birlikte, özdenetimli video temsili öğreniminde gelecekteki gelişmelerin temelini oluşturacağına inanıyoruz.
Özet (Çeviri)
Video representation learning is a fundamental area of research in computer vision. It focuses on developing methods and models to encode video data into definitive and discriminative representations that can be effectively utilized in downstream tasks, such as video classification, action recognition, video retrieval and video captioning. At the core of it, video representation learning seeks to understand scene, actor and actor's relationship with their surroundings, e.g. objects, and scene elements. In order to learn the transition of visual content over time, a model needs to capture temporal and spatial information inherently encoded in video sequences and to extract spatiotemporal representations that can be useful for downstream applications. This thesis addresses the problem of self-supervised video representation learning focused on motion features, aiming to capture features from foreground motion with reduced reliance on background bias. Recent successful methods often employ instance discrimination approaches, which entail heavy computation and may lead to inefficient and exhaustive pretraining. Moreover, proposed methods in this thesis do not require any additional computation for motion features, such as optical flow, H264 codec features or any motion descriptor. Although several works in literature incorporate two-stream networks to incorporate motion learning, this thesis work seeks for single network solutions for learning spatiotemporal features. To this end, we utilize the augmentation technique MAC: Mask-Augmentation TeChnique. MAC blends foreground motion using frame-difference-based masks and sets up a pretext task to recognize the applied transformation. By incorporating a game of predicting the correct blending multiplier at the pretraining stage, our model is compelled to encode motion-based features, which are then successfully transferred to downstream tasks such as action recognition and video retrieval. Moreover, we expand our approach within a joint contrastive framework and integrate additional tasks in the spatial and temporal domains to further enhance representation capabilities. We present experimental results on action recognition and video retrieval tasks to demonstrate that our method achieves superior performance on the UCF-101, HMDB51 and Diving-48 datasets under low-resource settings and competitive results with instance discrimination methods under costly computation settings. We carefully design ablation experiments to analyze learning behavior of proposed methods and contribution of each component. Lastly, we present qualitative results to further illustrate the benefits of presented methods. We anticipate that our augmentation technique, along with the associated pretext and contrastive learning objectives, will lay the groundwork for future advancements in self-supervised video representation learning.
Benzer Tezler
- Spatio-temporal assessment of pain intensity through facial transformation-based representation learning
Yüz dönüşümü tabanlı gösterim öğrenimi ile ağrı şiddetinin uzam-zamansal değerlendirilmesi
DİYALA NABEEL ATA EREKAT
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAMDİ DİBEKLİOĞLU
- Computing structural analogies of musical rhythms in visual design
Müzikal ritimlerin görsel tasarımdaki yapısal karşılıklarının hesaplanması
SEÇKİN MADEN
Doktora
İngilizce
2021
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
PROF. DR. MİNE ÖZKAR KABAKÇIOĞLU
- Grounding language in motor space: Exploring robot action learning and control from proprioception
Dil öğrenimini robot motor alanında temellendirme: Propriyosepsiyondan robot eylem öğrenimi ve kontrolünü keşfetmek
EMRE CAN ACİKGOZ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
PROF. DR. DENİZ YURET
DOÇ. DR. MEHMET ERKUT ERDEM
DR. ÖĞR. ÜYESİ BARIŞ AKGÜN
- Visualization based analysis of gene networks using high dimensional model representation
Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi
PINAR GÜLER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
- Optimizing artistic process: Exploring efficient environment creation workflows in gaming industry
Sanatsal sürecin optimizasyonu: Oyun endüstrisinde verimli çevre oluşturma süreçlerinin incelenmesi
EMRAH ÖZÇİÇEK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiOyun ve Etkileşim Teknolojileri Ana Bilim Dalı
PROF. DR. LEMAN FİGEN GÜL