Geri Dön

A deep-learning based model for visual depth and pose estimation of mobile robots

Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model

  1. Tez No: 878119
  2. Yazar: ROZHIN FANI
  3. Danışmanlar: DOÇ. DR. MEHMET BERKE GÜR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mekatronik Mühendisliği, Mechatronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 66

Özet

Tek kameralı videolardan derinlik ve konum tahminleri robotik görevler için önemli problemlerdir, örneğin eş zamanlı konumlama ve haritalama (SLAM) ve görsel odometri gibi. Madden tek çerçeve derinlik tahminleri ve pozisyon regresyonu için derin öğrenme yöntemleri ilerleme kaydetmiştir, ancak zaman serisi boyunca bağlam bilgisi eksikliği nedeniyle tahminler sınırlı kalmaktadır. Önceki çalışmalar, özellikle uzun kısa süreli hafıza (LSTM) modelleri kullanarak çerçeve özelliklerini toplayan geri dönüşümlü sinir ağlarını (RNA'lar) incelemiştir, ancak RNA'lar uzun süreli bağımlılıkları yakala- mada zorluk yaşamaktadır. Bu tez, tek kameralı videolardan eş zamanlı derinlik haritaları ve kamera pozisy- onlarını tahmin etmek için sonlu eleman ağı olarak adlandırılan Derinlik-Pozisyon Ağı'nı önermektedir. Optik akış özellikleri çerçeve arasından Farneback algoritması kullanılarak çıkarılmakta ve LSTM veya Transformer enkoderine iletilmektedir. Modeller KITTI veri kümesi üzerinde değerlendirilmiş ve LSTM'ye kıyasla Trans- former'ın performansı karşılaştırılmıştır. Bulgular, Transformer'ın zaman serisi mod- elleme görevlerinde robotik algılama için umut verici bir yaklaşım olduğunu doğru- lamaktadır. Zamansal bağlamları etkili bir şekilde yakalayarak, Transformer'lar de- rinlik ve hareket tahminlerinde zor koşullarda daha tutarlı sonuçlar üretme potansiye- line sahiptir. Bu araştırma, robotik alanında uzaysal-zamansal anlayışı geliştirmek için kendi kendine dikkat mekanizmalarını kullanmaya ilişkin fikirler sunmaktadır.

Özet (Çeviri)

Accurate depth and pose estimation from monocular videos are important prob- lems with applications in robotics tasks such as simultaneous localization and map- ping (SLAM) and visual odometry. While convolutional neural networks (CNNs) have made progress in single-frame depth prediction and pose regression, estimates remain limited without modeling temporal context across frames. Previous works have ex- plored using recurrent neural networks (RNNs) like LSTMs to aggregate frame fea- tures, but RNNs struggle with long-term dependencies. The thesis proposes an end-to-end neural network model called Depth-Pose Net for jointly estimating depth maps and camera poses from monocular video sequences. Extensive experiments are conducted on the KITTI dataset to evaluate and compare the performance of the architecture with an LSTM versus with a Transformer. The findings validate Transformers for robotic perception sequence modeling tasks. By effectively capturing temporal cues, Transformers have potential to improve depth and motion estimation in challenging conditions for applications like SLAM and vi- sual odometry. This research provides insights into leveraging self-attention models to enhance spatio-temporal understanding in robotics.

Benzer Tezler

  1. An autonomous area coverage method for endoscopic capsule robots

    Endoskopik kapsül robotlarda otonom alantarama

    İBRAHİM ÖMER ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SADIK FİKRET GÜRGEN

    DR. MEHMET TURAN

  2. Derin öğrenme tabanlı yöntemlerle düşük ışıklı görüntü iyileştirme

    Low light image enhancement with deep learning based methods

    EMİN CİHANGİR US

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  3. 5 eksenli hibrit delta robotun RGB-D kamerayla görsel servo yaklaşımı ile yönlendirilmesi

    Guidance of 5-axis hybrid delta robot with RGB-D camera using visual servo approach

    ÖZGÜR KURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Mekatronik MühendisliğiBursa Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NURETTİN GÖKHAN ADAR

  4. LiDAR based ground plane estimation, hybrid visual-LiDAR odometry and navigation of autonomous trucks

    Otonom maden sahası kamyonları için zemin düzlemi tahmini, hibrit görsel-LiDAR odometri ve navigasyon sistemi

    EREN AYDEMİR

    Doktora

    İngilizce

    İngilizce

    2024

    Mekatronik MühendisliğiSabancı Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MUSTAFA ÜNEL

  5. Sürekli tip cam ergitme fırınları için hesaplamalı akışkanlar dinamiği tabanlı indirgenmiş model geliştirilmesi

    Development of a computational fluid dynamics based reduced order model for continuous glass melting furnaces

    ENGİN DENİZ CANBAZ

    Doktora

    Türkçe

    Türkçe

    2025

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    Makine Mühendisliği Ana Bilim Dalı

    PROF. DR. MESUT GÜR