Geri Dön

Deep learning based saliency prediction in videos

Videolarda derin oğrenme tabanlı belirginlik kestirimi

  1. Tez No: 444615
  2. Yazar: ÇAĞDAŞ BAK
  3. Danışmanlar: YRD. DOÇ. DR. İBRAHİM AYKUT ERDEM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2016
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 111

Özet

Son yıllarda teknoloji alanında gerçekleşen gelişmeler doğrultusunda çevremizdeki bilgisayar bileşenlerinin çalışma performanslarında önemli iyileştirmeler sağlanmıştır. Bu gerçeğe paralel olarak görüntü ve video kıymetlendirme sistemlerinin kullanımı ile çalışmaların sayısı gün geçtikçe artmaktadır. Bu bağlamda gerçekleştirilen çalışmalardan bir tanesi de görsel belirginlik tespitidir. Görsel belirginlik tespiti bir görüntü ya da video sekansı üzerindeki göz sabitlemelerinin yani en dikkat çekiçi bölgelerin belirlenmesi olarak tanımlanabilir. Bilgisayarlı görü alanında genellikle sabit görüntüler üzerinden belirginlik tespiti gerçekleştiren çalışmalar üzerine yoğunlaşılmıştır. Bununla birlikte yine son yıllarda önemli bir çalışma konusu haline gelen derin öğrenme yaklaşımları bu alanda kullanılarak yüksek başarımlar elde edilmektedir. Sabit görüntüler kullanılarak gerçekleştirilen bu gibi çalışmalara karşılık video sekansları üzerinden gerçekleştirilen dinamik belirginlik tespiti ile ilgili çalışmalar daha az ilgi çekmektedir. Literatürde bu doğrultuda gerçekleştirilen çalışmalar genellikle problemi sabit belirginlik tespiti problemi ile eş tutup benzer çözümlere gitmektedirler. Video sekanslarının sabit görüntülerden farklı olarak konumsal bilginin yanında zamansal unsurlarda içerdiği gerçeğinden yola çıkarak, gerçekleştirdiğimiz tez çalışması kapsamında dinamik belirginlik tespiti için veri güdümlü ve derin öğrenme tabanlı çözümler sunulmaktadır. Bu doğrultuda hem derin öğrenme mantığı video belirginlik tespiti gibi bir regresyon problemini çözmek için güncellenmekte, hem konumsal bilginin yanı sıra zamansal bilgi kullanılmakta, hem de farklı derin ağ modellerinin ne gibi sonuçlar verdiği gözlemlenmektedir.Önerilen derin ağ modelleri üzerinden gerçekleştirdiğimiz deneysel çalışmalar yöntemimizin dinamik belirginlik tespiti için literatürdeki en iyi sonuçları ürettiğini göstermektedir.Bu bağlamda gerçekleştirdiğimiz çalışma kapsamında 5 farklı konvolüsyonel ağ modeli önerilmiş ve bu modellerin belirginlik tespiti üzerindeki başarımları ölçülmüştür. İlk olarak sadece konumsal bilgi kullanarak belirginlik tespiti gerçekleştirem“Spatial Stream Network”isimli modelimiz, VGG-Net mimarisi üzerine inşa edilmiş ve sadece video kareleri üzerinden bir öğrenme gerçekleştirmiştir. Önerilen bu ağ modeli ile konumsal bilginin etkisi gözlemlenmiştir. İkinci bir model olarak aynı mimari, girdi olarak optik akışlarla beslenmiş ve“Temporal Stream Network”isimli mimari ortaya çıkmıştır. Aynı mantık çerçevesinde bu ağ modeli ile de zamansal bilginin belirginlik tespiti üzerindeki etkisi gözlemlenmiştir. Tek akışlı bu modeller dışında önerilen ve sırası ile“Late Fusion Model”,“Early Fusion Model”ve“Hyper-column Fusion Model”isimli çift akış mimarileri farklı seviyelerde farklı füzyon stratejilerine dayanarak bir öğrenme gerçekleştirmekte ve belirginlik tespiti üzerindeki başarımları gözlemlenmektedir. Önerilen yöntemlerin başarımları arttırmak için aynı zamanda özgün bir veri artımı yöntemi tez kapsamında önerilmektedir. Tez kapsamında dinamik belirginlik tespiti çözümlerinin yanı sıra, uygulanan transfer öğrenmesi yakşaşımı ile önerilen modellerin statik görüntülerden alınan optik akışlar ile iyileeştirilmesinin sonucunda, ilgili ağ modellerinin statik görüntüler üzerinde de kullanılabileceği gösterilmiştir. Bu doğrultu da önerilen yöntemin sabit belirginlik tespiti için de kullanılabileceği gösterilmektedir. Tez kapsamında önerilen tüm modellerin başarım analizleri dinamik belirginlik tespiti için DIEM ve UCF-Sports, statik belirginlik tespiti içinse SALICON ve MIT 300 veri kümeleri üzerinde ölçülmüştür.

Özet (Çeviri)

In recent years, in accordance with technological developments, significant improvements have been achieved in the working performance of our environmental computer components. In line with this fact, the numbers of studies for image and video intelligence systems are increased day by day. One study carried out in this context is to predict visual saliency. Visual saliency prediction can be defined as prediction of eye fixations or more correctly most significant areas on an images or video sequences. In the field of computer vision, studies are generally focused on static saliency estimation problem which works on the still images. Also in recent years deep learning based approaches has become an important subject for this task to obtain high performances. Although still image based saliency prediction attracts high attention, predicting salient regions in the videos has received relatively little attention. Generally studies in the literature are handle this problem as a still image based task and offers similar solutions. Starting from this fact, unlike the still images, video sequences also includes temporal information. Therefore, we propose a data driven and deep learning based solutions for dynamic saliency prediction task. In this context, we modify deep learning logic for solving a regression task, use temporal information as well as spatial information and observe reactions of different deep learning architectures. With respect to experimental results over proposed deep models, one of our proposed approaches produces best results in the literature for the dynamic saliency estimation. Therefore we propose 5 different convolutional network architectures in the scope of this thesis. We perform and measure the accuracy of these proposed network models on saliency estimation task. First of all we propose a model which uses only spatial information for saliency estimation which called as“Spatial Stream Network”. This model is based on a simple VGG-Net architecture and training process is applied over only video frames. With using this proposed network model, we observe the effect of the spatial information over saliency estimation task. As a second model we use the same architecture with only changing the input type of network. At this model, instead of using video frames, we use corresponding optical flows as an input. This network model is called as“Temporal Stream Network”. Under the same logic with using this model, we observe the effect of temporal information over saliency estimation task. These two models are single stream networks. On the other hand we also propose two-stream network models which are fuse spatial and temporal information at different layers with using different fusion strategies. These models are called as“Late Fusion Model”,“Early Fusion Model”and“Hyper-column Fusion Model”respectively. To improve the generalization capability of our models, we also introduce a novel, empirically grounded data augmentation technique for this task. Moreover, we perform transfer learning experiments on the still images by fine-tuning our models on the optical flows estimated from static images. We perform our experiments on DIEM and UCF-Sports datasets for the dynamic saliency estimation task and SALICON and MIT 300 datasets for the static saliency estimation task.

Benzer Tezler

  1. Boyut arttırma yöntemleri kullanılarak eeg sinyallerinden derin öğrenme tabanlı şizofren durum tespiti

    Deep learning based schizophrenia status determination from eeg signals using dimension augmentation methods

    ZÜLFİKAR ASLAN

    Doktora

    Türkçe

    Türkçe

    2021

    Elektrik ve Elektronik MühendisliğiDicle Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET AKIN

  2. Energy management system in real time by image processing and deep learning

    Görüntü işleme ve derin öğrenme ile gerçek zamanlı enerji yönetim sistemi

    SUDAD J ASHAJ ASHAJ

    Doktora

    İngilizce

    İngilizce

    2020

    Elektrik ve Elektronik MühendisliğiGaziantep Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ERGUN ERÇELEBİ

  3. Leveraging deep learning techniques to improvep300-based brain computerinterfaces

    Başlık çevirisi yok

    İHSAN DAĞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    BiyomühendislikPolitecnico di Milano

    PROF. ALESSANDRA PEDROCCHI

  4. Derin öğrenme ile cerrahi video anlama

    Surgical video understanding with deep learning

    ABDISHAKOUR ABDILLAHI AWALE ABDISHAKOUR ABDILLAHI AWALE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilişim Sistemleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ DUYGU SARIKAYA

  5. Superpixel assisted deep neural network for breast tumor segmentation in ultrasound images

    Süperpiksel destekli derin sinir ağı ile meme ultrason görüntülerinde tümör segmentasyonu

    NEFİSE UYSAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

    ÖĞR. GÖR. MURAT GEZER