Geri Dön

Indoor visual understanding with rgb-d images using deep neural networks

Derin yapay sinir ağlarıyla bina içi üç boyutlu görsel anlama

  1. Tez No: 522765
  2. Yazar: METEHAN DOYRAN
  3. Danışmanlar: PROF. DR. HÜSEYİN LEVENT AKIN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2018
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 84

Özet

Biz, normal fotoğrafın yanısıra derinlik bilgisi de veren (RGB-D) kameraya sahip evde çalışacak robotlar için bir görsel anlama sistemi oluşturduk. Bu sistem üç temel kısımdan oluşuyor; (i) RGB-D bilgisiyle nesne tanıma ağı (ii) basit bir takip algoritması, ve (iii) 3 boyutlu anlamsal haritalama modülü. Bizim en büyük kısıtımız ise sistemimizin gerçek zamanlı çalışabilmesi. Çoğu RGB-D nesne tanıma ağı derinlik bilgisine uzun süren ön işleme yöntemleri uyguladıkları için gerçek zamanlı çalışamıyor. Biz de derinlik bilgisini ham olarak kullanmayla kendi geliştirdiğimiz bir ön işleme yöntemini kullanmayı iki alanında en ileri yönteme uyarlayarak karşılaştırdık. Derinlik bilgisine normal fotoğraftaki doku bilgisini de gömerek oluşturduğumuz gerçek zamanlı çalışabilir ön işleme yöntemiyle SUN RGB-D veri kümesinde sadece ham derinlik bilgisiyle elde ettiğimizden %0.9 daha iyi bir ortalama duyarlıkların ortalaması skoru elde ettik. Bu iki girdi türüyle eğittiğimiz ağları normal fotoğraf girdisi alan orijinal ağlara karar seviyesinde entegre ettiğimizde ise sadece normal fotoğraf girdisi işleyen ağa göre %2 civarında daha iyi sonuçlar aldık. Küçük bir evde nesne tanıma veri kümesi topladık ve basit bir takip algoritması ekleyerek bu veri kümesinde aldığımız skorları %5 oranında arttırdık. 3 boyutlu anlamsal haritalama yaptığımız son modülümüzde haritalama kısmını açık kaynak kodlu RTAB-Map kütüphanesi ile oluşturduk. Anlamsal içeriği ise nesne tanıma ağlarıyla ve bir takip algoritmasıyla bu haritaya ekledik. Nesne tanıma ağları 2 boyutlu nesne kutuları önermesine rağmen biz üç boyutlu harita oluştururken robotun farklı açılardan nesneleri görmesinden faydalanarak bu bilgiyi 3 boyuta döktük.

Özet (Çeviri)

We created a visual understanding pipeline for house robots with Red-Green-Blue-Depth (RGB-D) sensors. Our pipeline consists of three components; (i) an RGB-D object detection network, (ii) a simple tracking algorithm, and (iii) a 3D semantic mapping module. Our constraint is running the whole system in real-time. Most RGB-D object detection networks do not have such constraint and cannot run in real-time because they require costly preprocessing methods. Instead of the costly methods, we seek ways to make raw depth data more useful by a cheap preprocessing technique of RGB overlaying on the depth data. After adding depth branches into two state-of-the-art RGB object detection networks we compared performances of feeding raw depth input and RGB overlaid depth input on the SUN RGB-D dataset. The results of using only one type of input show that our overlaying method gets 0.9\% better mean average precision (mAP) than feeding the network with raw depth data. SSD with decision level fused depth network increased the mAP around 2% compared to RGB only SSD. We collected a small household object detection dataset to test the tracking method combined with the object detector. We used median flow tracking on the object boxes detected by the object detector, which increased the mAP of the object detection network by around 5% on our dataset. Our final module consists of 3D semantic mapping which we used Robot Operating System node of the Real-time Appearance-Based Mapping library for the 3D mapping part. The semantic information of the objects are created by the object detector network combined with the tracker. Although the object detector network proposes 2D bounding boxes around the objects, labeling these pixels and seeing the object from different angles allow us to create 3D maps with object labels.

Benzer Tezler

  1. Application and analysis of deep learning techniques on the problem of depth estimation from a single image

    Derin öğrenme tekniklerinin tekil görüntüden derinlik tahmini problemi üzerinde uygulanması ve incelenmesi

    ALİCAN MERTAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖZDE ÜNAL

  2. Simultaneous improvement in visual and acoustic performance by modifying common design components in lecture halls

    Amfilerde ortak tasarım bileşenlerinin değiştirilmesiyle görsel ve akustik performansın eş zamanlı olarak geliştirilmesi

    YASEMİN YÖRÜK

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Mimarlıkİzmir Yüksek Teknoloji Enstitüsü

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. ZEHRA TUĞÇE KAZANASMAZ

  3. Urban scale prediction of indoor daylighting illumination for sustainable buildings

    Sürdürülebilir binalar için iç mekan günışığı aydınlanmasının kent ölçekli tahmini

    İLKİM CANLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Mimarlık Ana Bilim Dalı

    DOÇ. DR. İPEK GÜRSEL DİNO

    DOÇ. DR. SİNAN KALKAN

  4. Yapı bilgi modelleme'den dijital ikiz'e doğru: Akıllı tesis yönetimini etkinleştirme

    From BIM towards digital twin: Enabling smart facility management

    MOUTAMAN MERT HOCAOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMimar Sinan Güzel Sanatlar Üniversitesi

    Enformatik Ana Bilim Dalı

    PROF. DR. ÜMİT IŞIKDAĞ

  5. Bölgeselci mimarlık ve çok duyulu mekan tasarımı ilişkisi Correa ve Kéré örnekleri

    The relation between regionalist architecture and multisensory space design Correa and Kéré examples

    ECE AYAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    MimarlıkGazi Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. NAZAN KIRCI