A deep-learning based model for visual depth and pose estimation of mobile robots
Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model
- Tez No: 878119
- Danışmanlar: DOÇ. DR. MEHMET BERKE GÜR
- Tez Türü: Yüksek Lisans
- Konular: Mekatronik Mühendisliği, Mechatronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 66
Özet
Tek kameralı videolardan derinlik ve konum tahminleri robotik görevler için önemli problemlerdir, örneğin eş zamanlı konumlama ve haritalama (SLAM) ve görsel odometri gibi. Madden tek çerçeve derinlik tahminleri ve pozisyon regresyonu için derin öğrenme yöntemleri ilerleme kaydetmiştir, ancak zaman serisi boyunca bağlam bilgisi eksikliği nedeniyle tahminler sınırlı kalmaktadır. Önceki çalışmalar, özellikle uzun kısa süreli hafıza (LSTM) modelleri kullanarak çerçeve özelliklerini toplayan geri dönüşümlü sinir ağlarını (RNA'lar) incelemiştir, ancak RNA'lar uzun süreli bağımlılıkları yakala- mada zorluk yaşamaktadır. Bu tez, tek kameralı videolardan eş zamanlı derinlik haritaları ve kamera pozisy- onlarını tahmin etmek için sonlu eleman ağı olarak adlandırılan Derinlik-Pozisyon Ağı'nı önermektedir. Optik akış özellikleri çerçeve arasından Farneback algoritması kullanılarak çıkarılmakta ve LSTM veya Transformer enkoderine iletilmektedir. Modeller KITTI veri kümesi üzerinde değerlendirilmiş ve LSTM'ye kıyasla Trans- former'ın performansı karşılaştırılmıştır. Bulgular, Transformer'ın zaman serisi mod- elleme görevlerinde robotik algılama için umut verici bir yaklaşım olduğunu doğru- lamaktadır. Zamansal bağlamları etkili bir şekilde yakalayarak, Transformer'lar de- rinlik ve hareket tahminlerinde zor koşullarda daha tutarlı sonuçlar üretme potansiye- line sahiptir. Bu araştırma, robotik alanında uzaysal-zamansal anlayışı geliştirmek için kendi kendine dikkat mekanizmalarını kullanmaya ilişkin fikirler sunmaktadır.
Özet (Çeviri)
Accurate depth and pose estimation from monocular videos are important prob- lems with applications in robotics tasks such as simultaneous localization and map- ping (SLAM) and visual odometry. While convolutional neural networks (CNNs) have made progress in single-frame depth prediction and pose regression, estimates remain limited without modeling temporal context across frames. Previous works have ex- plored using recurrent neural networks (RNNs) like LSTMs to aggregate frame fea- tures, but RNNs struggle with long-term dependencies. The thesis proposes an end-to-end neural network model called Depth-Pose Net for jointly estimating depth maps and camera poses from monocular video sequences. Extensive experiments are conducted on the KITTI dataset to evaluate and compare the performance of the architecture with an LSTM versus with a Transformer. The findings validate Transformers for robotic perception sequence modeling tasks. By effectively capturing temporal cues, Transformers have potential to improve depth and motion estimation in challenging conditions for applications like SLAM and vi- sual odometry. This research provides insights into leveraging self-attention models to enhance spatio-temporal understanding in robotics.
Benzer Tezler
- An autonomous area coverage method for endoscopic capsule robots
Endoskopik kapsül robotlarda otonom alantarama
İBRAHİM ÖMER ÇELİK
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SADIK FİKRET GÜRGEN
DR. MEHMET TURAN
- Derin öğrenme tabanlı yöntemlerle düşük ışıklı görüntü iyileştirme
Low light image enhancement with deep learning based methods
EMİN CİHANGİR US
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
- 5 eksenli hibrit delta robotun RGB-D kamerayla görsel servo yaklaşımı ile yönlendirilmesi
Guidance of 5-axis hybrid delta robot with RGB-D camera using visual servo approach
ÖZGÜR KURT
Yüksek Lisans
Türkçe
2025
Mekatronik MühendisliğiBursa Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NURETTİN GÖKHAN ADAR
- LiDAR based ground plane estimation, hybrid visual-LiDAR odometry and navigation of autonomous trucks
Otonom maden sahası kamyonları için zemin düzlemi tahmini, hibrit görsel-LiDAR odometri ve navigasyon sistemi
EREN AYDEMİR
Doktora
İngilizce
2024
Mekatronik MühendisliğiSabancı ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA ÜNEL
- Sürekli tip cam ergitme fırınları için hesaplamalı akışkanlar dinamiği tabanlı indirgenmiş model geliştirilmesi
Development of a computational fluid dynamics based reduced order model for continuous glass melting furnaces
ENGİN DENİZ CANBAZ
Doktora
Türkçe
2025
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
PROF. DR. MESUT GÜR