Extreme low resolution video action recognition
Aşırı düşük çözünürlüklü videolarda aksiyon tanıma
- Tez No: 866366
- Danışmanlar: DOÇ. DR. NAZLI İKİZLER CİNBİŞ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 108
Özet
Makine öğrenimi ve derin öğrenme yaklaşımlarının hızlı evrimi, özellikle video içerik betimleme, tanımlama ve bölütleme gibi karmaşık ve ağır hesap gücü gerektiren problemlerde gürbüz çözümler sunmaktadır. İnsan hayatını kolaylaştıran bu çözümlerin başarımı, çok miktarda yüksek çözünürlüklü video verisi sayesinde sağlanmaktadır. Ancak bu yüksek kalitedeki video sahneleri, kişiler ve ortamlar hakkında kişisel verileri içerir. Kişilerin bu veriler üzerindeki hakları sınırlı olmakla beraber, verilerin saklandığı depolama ortamları sanal saldırılara maruz kalabilmektedir. Ayrıca, yüksek çözünürlükteki videoların saklanması ve işlenmesi günden güne maliyeti artan bir giderdir. Bu noktada aşırı düşük çözünürlükteki video örnekleri (12 x 16), hem kişisel bilgiyi içermezken hem de sahip oldukları küçük boyutlardan dolayı daha uygun bir depolama maliyeti sunabilmektedir. Ancak kişisel bilgi olmadığı gibi, bu düşük çözünürlükte sahnelerdeki zamansal ve uzamsal bilgiler de çok limitli bir miktarda bulunmaktadır. Bu tez, aşırı düşük çözünürlükteki videolardaki aksiyonları tanımaya odaklanmaktadır ve bu konuda özgün derin öğrenme tabanlı yaklaşımlar sunmaktadır. Bu bağlamda, mevcut literatürde kullanılan yüksek çözünürlüklü video aksiyon tanıma veri setleri olan UCF-101 ve HMDB-51 veri setlerinin aşırı düşük çözünürlüklü örnekleri oluşturulmuştur. Böylece, literatürle karşılaştırılabilir bir senaryo hazırlanmıştır. Daha sonra, bu düşük çözünürlüklü verilerin sınırlı zamansal ve uzamsal bilgi kalitesini iyileştirmek için sahne tabanlı bir süper çözünürlük algoritması kullanışmıştır. Sonrasında aşırı düşük çözünürlüklü videolardaki aksiyonları tanımak için bilgi damıtma tabanlı yeni derin öğrenme modelleri geliştirilmiştir. Modellerde kullanılan, öğretmen ağlarının ilgili veri setlerindeki yüksek çözünürlüklü eşlerinde, ön eğitimlerini sağlanmıştır. Bu düşük çözünürlükteki zamansal ve uzamsal bilgileri öğrenecek olan öğrenci ağı için farklı özgün derin modeller önerilmiştir. Bununla beraber bu öğrenci ağlarının eğitimi için öznitelik tabanlı yeni damıtla kayıp fonksiyonları tanımlanmıştır. Eğitim sırasında, öğretmen ağından öğrenci ağına bilgi aktarımını daha etkili hale getirebilmek için çapraz çözünürlük dikkat modülleri önerilmiş ve olası kullanım noktalarını deneysel olarak sunulmuştur. Ayrıca, bu zor problemin çözümünde sunduğumuz özgün derin öğrenme yapılarının kullandıkları bilgi uzayları arttırılmıştır. Video sahnelerindeki hareketi modelleyen optik akış düzlemindeki bilginin aşırı düşük çözünürlük uzayına, etkin bir şekilde aktarımı sağlamak amacıyla, yeni bir öğretmen modeli geliştirilmiştir. Bu yeni öğretmen yapısının etkisi detaylı deneyler ile sunulmuştur. Sonrasında yüksek çözünürlüklü sahnelerdeki, yüksek frekanslı bilgilerin, sahnelerdeki uzamsal detayları temsil ettiği gerçeğinden yola çıkarak, aşırı düşük çözünürlüklü video aksiyon tanıma literatüründe ilk defa frekans uzayı öznitelikleri öğrenci ağına aktarmak üzere kullanılmıştır. Yaptığımız deneylerde, aşırı düşük çözünürlüklü videolardaki aksiyon tanıma yeteneklerimizin UCF-101 veri seti için literatürdeki en yüksek tanımlama başarısına sahip olduğu, HMDB-51 veri seti için ise rekabetçi başarı seviyelerine ulaştığı gösterilmiştir.
Özet (Çeviri)
The rapid evolution of machine learning and deep learning approaches has enabled robust solutions for complex and computationally intensive problems, particularly in describing, identifying, and segmenting video content. The success of these solutions is made possible through a large amount of high-resolution video data. However, these high-quality video scenes contain private data about individuals and environments. While people have limited rights over this data, the storage mediums are vulnerable to cyber attacks. Also, storing and processing high-resolution videos is becoming increasingly costly. At this point, extremely low-resolution video samples (12 x 16) offer a more affordable storage cost while not containing private information. However, they also contain very limited temporal and spatial information. This thesis focuses on recognizing actions in extremely low-resolution videos and offers novel deep learning-based approaches. In this context, we create extremely low-resolution samples of high-resolution video action recognition datasets currently used in literature, namely UCF-101 and HMDB-51. This way, we prepare a scenario comparable to existing literature. Then, to improve the limited temporal and spatial information quality of these low-resolution data, we use a scene-based super-resolution algorithm. Later on, we develop new deep learning models based on knowledge distillation to recognize actions in extremely low-resolution videos. We pre-train the teacher networks with high-resolution counterparts from the relevant datasets. We propose different and novel deep architectures for the student network, which will learn the temporal and spatial information in low resolution. In addition, we define new feature-based distillation loss functions for training these student networks. We propose cross-resolution attention modules to make the transfer of information from teacher to student network more effective during the training and present their potential uses experimentally. Also, for solving this challenging problem, we increase the information spaces used by our unique deep learning structures. To transfer the information in the optical flow space, which models motion in video scenes, to the extreme low-resolution space in a efficient way, we develop a new teacher model. We show the effect of this new teacher structure with detailed experiments. Then, based on the fact that high-frequency information in high-resolution scenes represents spatial details, for the first time in the literature of extreme video action recognition, we use frequency space features to transfer to the student network. In our experiments, we show that our ability to recognize actions in extremely low-resolution videos achieves the state-of-the-art (SoA) level in the UCF-101 dataset and achieves competitive recognition accuracies for the HMDB-51 dataset.
Benzer Tezler
- Genişbandlı şebekelerde hizmet adaptasyon protokolleri
Başlık çevirisi yok
RECEP EVREN PALANDUZ
Yüksek Lisans
Türkçe
1999
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNSEL DURUSOY
- Projections for changes in climatology and extreme events of the cordex-australasia domain: A dynamical downscaling approach
Cordex-avustralasya bölgesinin klimatolojisi ve ekstrem olaylarındaki değişimlerin projeksiyonu: Dinamik ölçek küçültme yaklaşımı
MUSTAFA TUFAN TURP
Doktora
İngilizce
2021
Çevre MühendisliğiBoğaziçi ÜniversitesiÇevre Bilimleri Ana Bilim Dalı
PROF. DR. ORHAN YENİGÜN
PROF. DR. MEHMET LEVENT KURNAZ
- Improving the performance of remote sensing-based water budget components across mid- and small- scale basins
Küçük ve orta ölçekli havzalarda uzaktan algılama tabanlı su bütçesi değişkenlerinin iyileştirilmesi
GÖKHAN KAYAN
Doktora
İngilizce
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ESRA ERTEN
PROF. DR. UMUT TÜRKER
- Masaüstü yayıncılığın temel ilkelerinin basılı ürünün kalitesi açısından uygulamalı incelenmesi
Desktop publishing basic principles applied in terms of the print quality investigation of the product
NESLİHAN SAĞLAM
Yüksek Lisans
Türkçe
2010
MatbaacılıkMarmara ÜniversitesiMatbaa Eğitimi Ana Bilim Dalı
YRD. DOÇ. DR. MUHARREM SÖZEN
- Assessing added value of wave coupling for the Mediterranean climate and extremes in regional earth system model simulations
Bölgesel yer sı̇stem modelı̇ sı̇mülasyonlarında Akdenı̇z ı̇klı̇mı̇ ve ekstremlerı̇ ı̇çı̇n dalga bı̇rleşı̇mı̇nı̇n katma değerı̇nı̇n belı̇rlenmesı̇
FULDEN BATIBENİZ
Doktora
İngilizce
2020
Meteorolojiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
DOÇ. DR. BARIŞ ÖNOL