Geri Dön

Visual object recognition and detection using deep learning

Derinlikli öğrenme ile görsel nesne tanıma ve tespit etme

  1. Tez No: 485260
  2. Yazar: BURAK ÇÖREKCİOĞLU
  3. Danışmanlar: PROF. DR. BİLGE GÜNSEL KALYONCU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Telekomünikasyon Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 93

Özet

Görsel nesne tanıma problemi, bir görüntü dosyası verildiğinde, görüntünün hangi nesneye ait olduğunun tespitini amaçlamaktadır. Tezin ilk parçası olarak temel bir nesne tanıma uygulaması olan el yazısı rakam tanıma problemi üzerine çalışılmıştır. El yazısı rakam tanıma problemi ilk olarak Amerika Birleşik Devletleri Posta Servisi üzerinden yollanan mektuplar üzerindeki ZIP kodlarını otomatik olarak tanınmasının istenmesi üzerine ortaya çıkmıştır. İnsanlar el yazısı karakterleri tanıma konusunda oldukça başarılı olmalarına rağmen, farklı el yazılarındaki karakterler birbirine benzeyebilmekte, bu yüzden mektuplar yanlış postalanmaktadır. Daha yüksek performanslı otomatik bir sistemin tasarlanması, mektupların yanlış adreslere postalanma miktarına azaltması ve maliyetin düşmesi açısından, önemli bir problem haline gelmiştir. Söz konusu problem, bilgisayarlı görü (computer vision) ve makine öğrenmesi (machine learning) araştırma alanlarında incelenmektedir. Matematiksel olarak problemi ele almak için bir karakter verildiğinde nasıl prosedür takip edilerek karakterin ait olduğu sınıfın belirlendiği formülize edilmelidir. İnsanlar oldukça başarılı bir şekilde söz konusu problemi çözebilmelerine rağmen, çözüme nasıl ulaştıklarını aşama aşama açıklayamazlar. Probleme dair veriye sahip olunmasına rağmen bu veriyi üreten süreç ve elde edilmek istenen sonuca dair süreç bilinmiyor ise bu tarz problemlere ters problem adı verilir. Makine öğrenmesi, bir veri kümesine sahip iken arkaplandaki süreci öğrenmeyi amaçlayan bir disiplindir. Makine öğrenmesi açısından, el yazısı rakam tanıma problemi ele alındığında yeni bir rakam görüntüsünün sınıflandırılması sorgusunu işleyecek fonksiyon, önceden doğruluğundan emin olduğumuz veri kümemize yani eğitim setimize bağımlıdır. Makine öğrenmesi algoritmalarının performansı ise eğitim seti ile örtüşmeyen ayrı bir test seti üzerindeki sınıflandırma başarımına göre ölçülür. Makine öğrenmesi literatürü, sınıflandırıcı fonksiyonun eğitim setine bağımlı olarak modellenmesine yönelik birçok farklı metod sunmaktadır. Söz konusu metodlar parametrik (parametric) metodlar ve parametrik olmayan (nonparametric) metodlar olmak üzere iki ana başlık altında incelenebilir. Parametrik olmayan metodlar, sınıflandırıcı fonksiyonu eğitim setinde bulunan gözlemlere bağımlı olarak inşaa eder. Parametrik metodlar ise, sınıflandırıcı fonksiyonu parametrelere bağlı olarak oluşturduktan sonra, parametre değerlerini gözlemlere bağlı olarak tahminler. Parametrik bir probleme ait parametrelerin tespiti bir optimizasyon problem olarak tanımlanır. Sistemin sınıflandırma performansını maksimum yapan parametreler, sistem parametreleri olarak tercih edilir. Bahsedilen algoritmalar uygulamada ham veri üzerine uygulanamamaktadır. Düşük boyutlu uzaylarda tanımlanan veri uzayı, sınırlı sayıda gözlem ile modellenebilir iken uzay boyutu lineer olarak artarken, uzayı modellemek için gereken gözlem sayısı üssel olarak artar. Bu problem yüksek boyutluluğun laneti (curse of dimensionality) olarak adlandırılır. Yüksek boyutlu veriler kullanarak Makine Öğrenmesi algoritmalarını kullanabilmek için verileri uygun şekilde temsil edecek daha düşük boyutlu öznitelikler (feature) çıkarılması gerekmektedir. Bu özniteliklerin seçilmesi alana bağımlı ve sezgisel olarak gerçekleştirilir. 2006 yıllında Hinton tarafından önerilen Derinlikli İnanç Ağları (Deep Belief Networks) modeli ile veriyi en iyi temsil eden özniteliklerin öğrenilmesi sağlanmış ve derinlikli öğrenme (deep learning) alanı ortaya çıkmıştır. Belirlenen model üzerinde verinin olasılığını en yüksekleyesen öznitelikler, eğitim veri kümesinin sınıflarına bakılmaksızın öğrenilir. Söz konusu öznitelik öğrenme süreci bir kaç katmanda gerçekleştirilerek derin bir yapı oluşturularak, oldukça karışık veri uzaylarının modellenmesi sağlanmış olur. Sınıflandırma problemi eğitim kümesinden çıkarılan özniteliklerin sınıflandırıcı bir modele giriş olarak verilmesi ile çözülebilir. Derinlikli inanç ağları ile öğrenilen özniteliklerin genelleştirme performanslarının iyi olması amacı ile model optimizasyonuna düzenlemeler (regularization) eklenmektedir. Bu düzenlemeler, modelin eğitim veri kümesindeki gözlemleri ezberlemesini engelleyerek, daha önce karşılaşmadığı test verilerinde de iyi performans sergilemesini sağlamaktadır. Bu tez çalışması dahilinde klik potansiyel düzenlemesi (clique potential regularization), derinlikli inanç ağlarında kullanılmak üzere önerilmektedir. Eğer problem için kullanılan veri kümesi görüntü ise bir derinlikli inanç ağında öğrenilen bağlantı parametreleri de görüntü olarak ifade edilip görselleştirilebilmektedir. Söz konusu görseller, model tarafından öğrenilen özniteliklere karşı gelmekte ve veri kümesinde bulunan örneklerde sıkça gözlenen yapıları gösterir. Görüntü işleme (image processing) alanında yaygınca kullanılan biçimsel (morphological) koşullar söz konusu özniteliklere uygulanabilir. Bir düzenleme olarak özniteliğin her noktasının 4 komuşuluğu ile benzer değerler vermesini sağlamak, özniteliklerde mevcut olan gürültüyü düşürmekte ve öznitelikte aktif ve pasif bölgeler oluşturarak daha seyrek öznitelikler meydana getirmektedir. Hem parametrik hem de parametrik olmayan yaklaşımların bir çoğu, sınıflandırıcı fonksiyon tanımında parametrelerden ve gözlemlerden bağımsız hiperparametreler (hyperparameter) içermektedir. Söz konusu hiperparametrelerin tespiti ise üzerinde çalışılan probleme bağımlı olarak çoğu zaman deneme-yanılma yolu ile tespit edilmektedir. Bu tez kapsamında düzenlemelere dair hiperparametrelerin tespiti için Bayesçi optimizasyon yöntemleri kullanılmıştır. Bayesçi optimizasyon yaklaşımları, optimum noktasının bulunması amaçlanan hedef fonksiyonunu regresyon (regression) analizi yardımı ile modeller. Regresyon analizini gerçekleştirmek için hedef fonksiyon Gauss süreçler (Gaussian process) cinsinden ifade edilir. Hedef fonksiyon parametrik olmayan bir yöntem ile sadece gözlemlere bakılarak tahmin edilir. Bayesçi optimizasyon (Bayesian optimization) tekrarlamalı bir süreç olarak tanımlanmıştır. Tanımlanan hiperparametre uzay kısıtları içerisinde denemeler yapılır. Her yapılacak deneme noktasının belirlenmesi, önceden yapılan denemelerin sonuçlarına bağımlıdır. Hiperparametre uzayında bir noktaya ait hedef fonksiyon tahmininin o ana kadar elde edilen optimum değerden, daha iyi bir değer elde etme olasılığı göz önüne alınarak bir sonraki adımda hangi hiperparametrenin inceleneceğine karar verilir. Önerilen sistem 100 adım boyunca farklı hiperparametreler ile derinlikli inanç ağlarını bayesçi veri kümesi sınıflandırma hatasını en küçükleyecek şekilde eğitilir. Elde edilen modellerden doğrulama kümesinde en düşük hatayı sağlayan model en iyi model olarak seçilir. Seçilen model gerçek veri kümesi üzerinde eğitilerek, sonuçlar raporlanır. Bu tez çalışmasında $l_1$, $l_2$, $4$ komşulu klik potansiyel ve $8$ komşulu klik potansiyel düzenlemeleri için Bayesçi optimizasyon yardımı ile hiperparametreler tespit edilmiş ve elde edilen sonuçlar karşılaştırılmıştır. Düzenleme yapılmayan metod 1.57\% sınıflandırma hatası meydana getirirken, düzenleme uygulanıp, hiperparametreleri Bayesçi optimizasyon ile belirlenen modeller daha iyi sınıflandırma hatası sonuçları sergilemiştir. $l_1$ ve $l_2$ düzenlemeleri 1.46\% sınıflandırma hatası ile sonuçlanarak Bayesçi optimizasyonun hiperparametre tespiti için kullanımını haklı çıkarmaktadır. Önerdiğimiz 4 komşulu Klik Potansiyel düzenlemesi 1.49\% hata oranı ile sonuçlanmış ve öğrenilen özniteliklerde gürültü oranını azaltmıştır. 8 komşulu Klik Potansiyel düzenlemesi ise sadece 1.55\% hata oranı elde ederek önemli bir ilerleme katetmemiştir. Görsel nesne tespit problemi sağlanan bir görüntü dosyası içerisinde bir veya daha çok nesnenin lokasyonunu ve tiplerini belirleme problemidir. Tezin bu aşaması için, şu anda en gelişmiş yöntemlerden biri olarak kabul edilen, Faster R-CNN yöntemi kullanılmıştır. Faster R-CNN metodu, konvolüsyon bazlı yapay sinir ağları kullanarak nesne tespiti problemini çözen bir yaklaşımdır. VOT2016 veri setinde bulunan videolar içerisinde nesnelerin takip edilmesi amacı ile, hazır bulunan eğitim kümelerinden faydalanarak özel bir eğitim kümesi hazırlanmış ve yöntem bu veri kümesi ile eğitilip test edilmiştir. Sistem başarısının tespiti amacı ile COCO yarışması çerçevesinde kullanılan mAP metriği kullanılmıştır.

Özet (Çeviri)

Visual object recognition problem is defined as the determination of the object inside an image file. With the advent of Deep Learning, learning a good, lower dimensional representation for the raw data is made possible with the use of deep architectures. Deep Belief Networks are proposed as a multi-layered probabilistic model where each layer is trained by maximizing the probability of the previous layer's output over the model distribution. Said approach corresponds to a greedy layer-wise unsupervised training procedure where the object representations are learned so that the data probability over the model is maximized. In the first part of the thesis, we worked on a sample object recognition application, specifically handwritten digit recognition. Handwritten digit recognition is a problem first emerged from the need to correctly recognize ZIP codes on the letters posted through U.S. Postal Service. While the recognition of single characters is a fairly well studied research field, it is an important part of any system used for generating text from an image containing handwriting. MNIST dataset is a specialized dataset collected for the task of handwritten digit recognition. Because MNIST provides researchers with a simple and well defined problem, it is widely used as a benchmark for Machine Learning algorithms. Overfitting of the model to the training data is also a problem of deep architectures as well as classical Machine Learning approaches. To prevent overfitting and generate generalizable models, regularization is introduced to the optimization procedure in the training. Regularization is used as a powerfull tool to avoid overfitting the complex structures in the training data which might not be present in unobserved data samples. Regularization can also be seen as a tool to impose a prior on the representation model in a Bayesian sense. We propose a Clique Potential regularization which is form of morphological constraints on the connections between a Restricted Boltzmann Machine. If the input data is an image, the connections between layers can also be viewed as images. Clique Potential regularization puts costs to not connected neighbours so that the features learned will be sparse and noise free. Introducing a regularization to the model also presents us with the challenge of determining a hyperparameter for said regularization. Selecting a hyperparameter is also defined as an optimization problem where evaluating the objective function is computationally costly, because it requires a full training cycle to observe the effects of the hyperparameter selection. We employ Bayesian optimization to select the hyperparameter of the regularization. Bayesian optimization methods are used in literature to optimize costly black-box objective functions with minimum number of evaluations, as they model the objective function and decide the next point to evaluate based on the expected gain of the input space. The hyperparameters of Bayesian optimization is marginalized to procure a parameter-free method. In the first part of the thesis, performance of the system is evaluated based on the classification error over the test data. Deep Belief Network (DBN) architecture with no regularizations achieves 1.57\% test error, while DBN with a 4 neighbourhood Clique Potential regularization gives the result of 1.49\% test error. 4 neighbourhood Clique Potential regularization results with features that is noise free and more sparse. $l_1$ and $l_2$ regularizations both generate 1.46\% classification error on the test set. $l_1$ regularization pushes most of the weights towards zero, therefore generate a more sparse representation. $l_2$ regularization punishes the weights with higher absolute values more aggressively, so the noise in the uniform gray level regions is not effected by $l_2$. Visual object detection is the problem of determining the location and the type of, possibly multiple, objects inside an image. For the second part of this thesis, we worked on Faster R-CNN method, which is the current state-of-the-art method for visual object detection, to generate a detection model for VOT2016 object tracking challenge where different objects required to be tracked in different videos. A custom dataset is created by using publicly available datasets to cover classes required for VOT2016 challenge. Overall system performance is measured by using mean average precision metric employed by COCO challenge. %Overall system performance was observed as 27\% according to mean average precision metric defined by COCO dataset, and 48.6\% according to average precision metric used by Pascal VOC dataset.

Benzer Tezler

  1. Deep learning-based object recognition from RGB images using convolutional neural networks

    Başlık çevirisi yok

    MOHAMMED ZAKI HAMEED ALTAMEEMI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiAltınbaş Üniversitesi

    Elektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MESUT ÇEVİK

  2. Geospatial object recognition using deep networks for satellite images

    Uydu görüntüleri için derin ağlar kullanılarak coğrafi nesnelerin tanımlanması

    ONUR BARUT

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. ABDULLAH AYDIN ALATAN

  3. Manipulation of visually recognized objects using deep learning

    Görsel tanınan nesnelerin derin öğrenme kullanarak hareket ettirilmesi

    ERTUĞRUL BAYRAKTAR

    Doktora

    İngilizce

    İngilizce

    2018

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. PINAR BOYRAZ

  4. Çoklu video görüntüleri üzerinde akıllı hedef takibi

    Intelligent target tracking on multi video images

    SEVİNÇ AY DOĞRU

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT KARABATAK

  5. Semantic land cover and land use classification using deep convolutional neural networks

    Derin evrişimsel sinir ağları ile arazi kullanımı ve arazi örtüsünün anlamsal sınıflandırılması

    BERK GÜNEY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. ELİF SERTEL