Geri Dön

Good features to correlate for visual tracking

Korelasyon ile görsel takip için iyi öznitelikler

  1. Tez No: 474863
  2. Yazar: ERHAN GÜNDOĞDU
  3. Danışmanlar: PROF. DR. ABDULLAH AYDIN ALATAN
  4. Tez Türü: Doktora
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 170

Özet

Nesne hareketi tahmin etme, video işlemenin temel bileşenlerinden biridir ve video temsiline ihtiyaç duyan uygulamalardaki ilk adımdır. Görsel nesne takibi, bu bileşenin çıkarılma yollarından birisi olup, bilgisayarla görme alanındaki önemli bir problemdir. Bu sorunu çözmek için geçmişte birçok ayırımcı ve üretken makine öğrenme yaklaşımları kullanılmıştır. Son zamanlarda, korelasyon süzgeci tabanlı (KST) yaklaşımlar, hesaplama verimliliği ve karşılaştırma amaçlı kullanılan veri kümeleri üzerinde dikkate değer performansları nedeniyle popüler olmuştur. KST yaklaşımlarının nihai amacı, gerçek nesne konumu etrafında yüksek korelasyon çıktıları üretebilen ve nesneden uzaktaki yerler çevresinde düşük korelasyon çıktıları üretebilen bir süzgeci (diğer bir deyişle şablon) hesaplamaktır. Bununla birlikte, KST görsel takip yöntemleri; kapanma, ani görünüm değişiklikleri, hızlı hareket ve nesne deformasyonu gibi birçok durumda zorlanmaktadır. KST yöntemlerinin basit güncelleme aşamaları, en iyi olmayan model güncelleme oranı ve hedef nesnenin görünüm değişikliklerine karşı sağlam olamaması KST yöntemlerinin takip ve konumlandırma performanslarındaki azalmaların sebepleri olarak gösterilebilir. KST görsel takip yöntemlerinin yukarıda belirtilen dezavantajlarını gidermek için bu tez üç önemli katkı içermektedir. İlk olarak, korelasyon kalitesini arttırmak için mekânsal pencere öğrenme yöntemi önerilmiştir. Bu amaçla, nesne görüntüsü (veya korelasyon filtresi) ile çarpılacak bir pencere, yeni bir gradyan iniş prosedürüyle öğrenilir. Öğrenilen pencere, nesnenin gerekli bölgelerini bastırma/vurgulama yeteneğine sahiptir ve kapanma ve nesne deformasyonu durumunda takip performansını artırabilir. İkinci bir katkı olarak, en iyi olmayan öğrenme hızı ve nesnenin geçmiş pozlarını unutma zorlukları ile baş edebilmek için birden çok takipçiyi (hedef takip yöntemi) içeren bir takip grubu yöntemi önerilmiştir. Gruptaki takipçiler, ikili bir ağaçta düzenlenir, ve her takipçi ağacın düğümlerinde saklanır. Takip sırasında, en son nesne görünümüne ilişkin uzman takipçiler etkinleştirilir ve konumlandırma ve güncelleme aşamalarında kullanılır. Önerilen takipçiler grubu yönteminin, uzman takipçilerin bu tezde önerilen pencere öğrenme yöntemiyle birleştirilmesi ile konumlandırma doğruluğunu önemli ölçüde geliştirdiği gözlenmiştir. Tezin son katkısı, KST görsel takip kayıp fonksiyonu üzerine odaklanan öznitelik öğrenme problemini ele alır. Bu kayıp fonksiyonu için, tamamen evrişimsel derin sinir ağını eğitmek için yeni bir geri yayılım algoritması geliştirilmiştir. Geri yayılım için gerekli olan gradyan hesaplaması, frekans ve görüntü uzaylarında etkin bir şekilde gerçekleştirilir ve öznitelik haritalarının sayısı ile doğrusal bir karmaşıklığa sahiptir. Ağ modelinin eğitimi, görsel izlemenin iyi bilinen zorluklarını (örneğin kapanma, nesne deformasyonu ve hızlı hareket) da dâhil ederek hazırlanmış veri kümeleri üzerinde gerçekleştirilir. Öğrenilen öznitelikler, en gelişmiş KST görsel takipçilere entegre edildiğinde - manuel olarak tasarlanmış öznitelikleri veya önceden eğitim görmüş sınıflandırma modellerinden çıkarılan derin öznitelikleri kullanan KST yöntemlerine kıyasla - karşılaştırma veri kümelerinde olumlu takip performansı sağlamıştır.

Özet (Çeviri)

Estimating object motion is one of the key components of video processing and the first step in applications which require video representation. Visual object tracking is one way of extracting this component, and it is one of the major problems in the field of computer vision. Numerous discriminative and generative machine learning approaches have been employed to solve this problem. Recently, correlation filter based (CFB) approaches have been popular due to their computational efficiency and notable performances on benchmark datasets. The ultimate goal of CFB approaches is to find a filter (\emph{i.e.}, template) which can produce high correlation outputs around the actual object location and low correlation outputs around the locations that are far from the object. Nevertheless, CFB visual tracking methods suffer from many challenges, such as occlusion, abrupt appearance changes, fast motion and object deformation. The main reasons of these sufferings are forgetting the past poses of the objects due to the simple update stages of CFB methods, non-optimal model update rate and features that are not invariant to appearance changes of the target object. In order to address the aforementioned disadvantages of CFB visual tracking methods, this thesis includes three major contributions. First, a spatial window learning method is proposed to improve the correlation quality. For this purpose, a window that is to be element-wise multiplied by the object observation (or the correlation filter) is learned by a novel gradient descent procedure. The learned window is capable of suppressing/highlighting the necessary regions of the object, and can improve the tracking performance in the case of occlusions and object deformation. As the second contribution, an ensemble of trackers algorithm is proposed to handle the issues of non-optimal learning rate and forgetting the past poses of the object. The trackers in the ensemble are organized in a binary tree, which stores individual expert trackers at its nodes. During the course of tracking, the relevant expert trackers to the most recent object appearance are activated and utilized in the localization and update stages. The proposed ensemble method significantly improves the tracking accuracy, especially when the expert trackers are selected as the CFB trackers utilizing the proposed window learning method. The final contribution of the thesis addresses the feature learning problem specifically focused on the CFB visual tracking loss function. For this loss function, a novel backpropagation algorithm is developed to train any fully deep convolutional neural network. The proposed gradient calculation, which is required for backpropagation, is performed efficiently in both frequency and image domain, and has a linear complexity with the number of feature maps. The training of the network model is fulfilled on carefully curated datasets including well-known difficulties of visual tracking, \emph{e.g.}, occlusion, object deformation and fast motion. When the learned features are integrated to the state-of-the-art CFB visual trackers, favorable tracking performance is obtained on benchmark datasets against the CFB methods that employ hand-crafted features or deep features extracted from the pre-trained classification models.

Benzer Tezler

  1. A multi - factor analysis model to determine the use value of enclosed outdoor spaces

    Binalarla tanımlanmış dış mekanların kullanım değerini saptamaya yönelik çok faktörlü bir analiz modeli

    DİLEK YILDIZ

    Doktora

    İngilizce

    İngilizce

    2004

    Mimarlıkİstanbul Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. HASAN ŞENER

  2. İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti

    Anomaly detection with machine learning on air conditioning systems

    REFİK KİBAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK

    DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR

  3. Dinamik algılayıcı öğrenme algoritması ile kenar saptamanın öğrenilmesi

    Learning of edge detection using recurrent perceptron learning algorithm

    FİLİZ YOSMA TAŞKIN

    Yüksek Lisans

    Türkçe

    Türkçe

    1995

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    DOÇ.DR. CÜNEYT GÜZELİŞ

  4. Sayısal hücre görüntülerinin kodlanması ve nicel analizi

    Coding and quantitative analysis of the digital cell images

    NEŞE APAK

    Yüksek Lisans

    Türkçe

    Türkçe

    1993

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Y.DOÇ.DR. MUHİTTİN GÖKMEN

  5. Buzdolabında şeffaf, döner bir kapı içi kapı tasarımı

    Transparent and rotary door in door design for a refrigerator

    MURAT KOŞAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ VEDAT TEMİZ