Geri Dön

Derin öğrenme tekniklerini kullanarak rgb-d nesne tanıma

Rgb-d object recognition using deep learning techniques

  1. Tez No: 536119
  2. Yazar: ALİ ÇAĞLAYAN
  3. Danışmanlar: DOÇ. DR. AHMET BURAK CAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 123

Özet

Nesne tanıma, bilgisayarlı görü alanının temel ve zorlu problemlerinden birisidir. RGB görüntüleri ile beraber zengin geometrik yapılı derinlik verilerini sağlayan Microsoft Kinect gibi algılayıcıların yaygınlaşmalarıyla birlikte, RGB-D verileri, temel bilgisayarlı görü problemlerini çözmek için çok yararlı bir kaynak olarak ortaya çıkmıştır. Özellikle robotik görme alanında bu tür verilerin kullanıldığı nesne tanıma görevi, robotun ortamla etkileşiminde ve görsel kavrayışında önemli bir rol oynamaktadır. Öte yandan, derin öğrenme tekniklerinde kaydedilen özellikle son on yıldaki gelişmeler, nesne tanıma performansında büyük bir artış sağlamıştır. Bu tez kapsamında, derin öğrenme tekniklerini kullanarak RGB-D nesne kategorilerini tanımak için gerçekleştirilen çeşitli çalışmalar sunulmaktadır. Bu çalışmalarda, derin öğrenme tekniklerinden evrişimsel sinir ağları (ESA, convolutional neural networks) ve özyinelemeli sinir ağları (ÖSA, recursive neural networks) kullanılmaktadır. Tezin ilk aşamasında, evrişim filtrelerinin gözetimsiz bir şekilde öğrenildiği bir ESA ve bir de ÖSA olmak üzere iki katmanlı, sığ bir mimari kullanılarak RGB-D nesne tanıma için bir analiz çalışması sunulmaktadır. RGB ve derinlik verilerinin farklı karakteristiklerine uygun olarak, geriyayılım algoritması kullanmaksızın ileri-beslemeli öğrenme gerçekleştiren sığ mimaride, etkin model ayarlamaları ve parametreleri araştırılmaktadır. Tezin sonraki aşamasında, derinlik verilerinde saklı olan zengin geometrik bilgilerden daha iyi faydalanmak için çeşitli hacimsel gösterimler tanımlanarak, bu hacimsel gösterimleri giriş olarak ele alan 3-boyutlu ESA mimarileri ile tanıma gerçekleştirilmektedir. Bu amaçla, derinlik verileri 3B voksel grid temsilleri ile ifade edilmekte ve bu temsillere uygun 3B ESA modelleri deneysel olarak araştırılarak uygun bir model sunulmaktadır. Tezin son kesiminde ise transfer öğrenme ile RGB-D nesne tanıma için yeni bir yaklaşım sunulmaktadır. Buna göre ilk önce bir öneğitimli ESA modeli ile RGB ve derinlik verileri için farklı katmanlardan nitelikler çıkartılmaktadır. Daha sonra bu nitelikler daha yüksek düzeyli temsillere eşlenmek üzere, ÖSA modelleri ile dönüştürülmektedir. Son olarak farklı düzeyden çıkartılan temsiller birleştirilerek bir nesne görüntüsünün bütününü ifade eden vektörler elde edilmektedir. Önerilen çalışmalar, RGB-D nesne tanıma için literatürde sıkça kullanılan veri kümelerinde gerçekleştirilen kapsamlı testler ile analiz edilmektedir. Önerilen yöntemlerde, çalışma amaçlarını doğrulayan ve ilgili çalışmalarla yarışabilir düzeyde, başarılı sonuçlar elde edilmektedir.

Özet (Çeviri)

Object recognition is one of the basic and challenging problems of computer vision. With the widespread use of RGB-D sensors such as Microsoft Kinect, which provides rich geometric structured depth data along with RGB images, RGB-D data have emerged as very useful resources for solving fundamental computer vision problems. Particularly in the field of robotic vision, an object recognition task using such data plays an essential role in the interaction of a robot with its surrounding environment and the capability of its visual comprehension. On the other hand, the tremendous progress in deep learning techniques over the last decade, has led to a significant increase in object recognition performance. In this thesis, several studies on RGB-D object category recognition using deep learning techniques are presented. In these studies, convolutional neural networks (CNN) and recursive neural networks (RNN) are employed. In the first phase of the thesis, an empirical analysis for RGB-D object recognition based on a two-layered shallow architecture with an RNN layer and a CNN layer in which the convolution filters are learned in an unsupervised manner is presented. In accordance with the different characteristics of RGB and depth data, effective model settings and parameters are investigated in this shallow model that learns deep features in a feed-forward manner without backpropagation algorithm. In the next phase of the thesis, various volumetric representations are defined in order to make better use of the rich geometric information stored in the depth data and recognition is carried out with 3-dimensional CNN architectures that take these volumetric representations as inputs. To this end, depth data are represented by 3D voxel grid representations and a suitable 3D CNN model is presented for these representations by experimentally investigating among many different alternatives. In the last part of the thesis, a new approach based on transfer learning for RGB-D object recognition is presented. To this end, firstly, a pretrained CNN model is used to extract features from different layers for RGB and depth data. Then, these features are transformed with RNN structures to map to higher-level representations. Finally, the representations derived from different levels are fused to produce a final vector expressing the holistic object image. The proposed works are analyzed with extensive experiments performed on the well-known datasets for RGB-D object recognition. The proposed works produce successful results that confirm the main objectives and the results are higly competitive with the related studies.

Benzer Tezler

  1. Human activity recognition using deep learning

    Derin öğrenme ile insan aktivitesi tanıma

    MURAT YALÇIN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HÜLYA YALÇIN

  2. Investigation of artificial intelligence-based point cloud semantic segmentation

    Yapay zeka tabanlı nokta bulutu semantik bölümlendirmesinin incelenmesi

    MUHAMMED ENES ATİK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. ZAİDE DURAN

  3. Detection and classification of brown marmorated stink bug (Halyomorpha halys) damage in hazelnut using image processing and deep learning techniques

    Görüntü işleme ve derin öğrenme teknikleri kullanarak fındıkta kahverengi kokarca (Halyomorpha halys) zararının belirlenmesi ve sınıflandırılması

    OMSALMA ALSADIG ADAM GADALLA

    Doktora

    İngilizce

    İngilizce

    2023

    ZiraatOndokuz Mayıs Üniversitesi

    Tarım Makineleri ve Teknolojileri Mühendisliği Ana Bilim Dalı

    PROF. DR. YEŞİM BENAL ÖZTEKİN

  4. Earthquake damage detection with satellite imagery and deep learning approaches: A case study of the february 2023, Kahramanmaraş, Turkey earthquake sequence

    Uydu görüntüleri ve derin öğrenme yaklaşımları ile hasar tespiti: 2023 şubat Kahramanmaraş, Türkiye deprem dizisinden bir vaka çalışması

    FATMA ELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Uydu Haberleşmesi ve Uzaktan Algılama Ana Bilim Dalı

    PROF. DR. ELİF SERTEL

  5. Scene change detection with triplet loss network using self-supervised learning

    Üçlü kayıp ağı ile kendi kendine denetimli öğrenme metodu kullanarak sahne geçişlerinin tespiti

    BURAK NAYIR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Ana Bilim Dalı

    DR. TANKUT AKGÜL