A deep-learning based model for visual depth and pose estimation of mobile robots

Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model

PDF İndir

Tez No: 878119
Yazar: ROZHIN FANI
Danışmanlar: DOÇ. DR. MEHMET BERKE GÜR
Tez Türü: Yüksek Lisans
Konular: Mekatronik Mühendisliği, Mechatronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Bahçeşehir Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
Sayfa Sayısı: 66

Özet

Tek kameralı videolardan derinlik ve konum tahminleri robotik görevler için önemli problemlerdir, örneğin eş zamanlı konumlama ve haritalama (SLAM) ve görsel odometri gibi. Madden tek çerçeve derinlik tahminleri ve pozisyon regresyonu için derin öğrenme yöntemleri ilerleme kaydetmiştir, ancak zaman serisi boyunca bağlam bilgisi eksikliği nedeniyle tahminler sınırlı kalmaktadır. Önceki çalışmalar, özellikle uzun kısa süreli hafıza (LSTM) modelleri kullanarak çerçeve özelliklerini toplayan geri dönüşümlü sinir ağlarını (RNA'lar) incelemiştir, ancak RNA'lar uzun süreli bağımlılıkları yakala- mada zorluk yaşamaktadır. Bu tez, tek kameralı videolardan eş zamanlı derinlik haritaları ve kamera pozisy- onlarını tahmin etmek için sonlu eleman ağı olarak adlandırılan Derinlik-Pozisyon Ağı'nı önermektedir. Optik akış özellikleri çerçeve arasından Farneback algoritması kullanılarak çıkarılmakta ve LSTM veya Transformer enkoderine iletilmektedir. Modeller KITTI veri kümesi üzerinde değerlendirilmiş ve LSTM'ye kıyasla Trans- former'ın performansı karşılaştırılmıştır. Bulgular, Transformer'ın zaman serisi mod- elleme görevlerinde robotik algılama için umut verici bir yaklaşım olduğunu doğru- lamaktadır. Zamansal bağlamları etkili bir şekilde yakalayarak, Transformer'lar de- rinlik ve hareket tahminlerinde zor koşullarda daha tutarlı sonuçlar üretme potansiye- line sahiptir. Bu araştırma, robotik alanında uzaysal-zamansal anlayışı geliştirmek için kendi kendine dikkat mekanizmalarını kullanmaya ilişkin fikirler sunmaktadır.

Özet (Çeviri)

Accurate depth and pose estimation from monocular videos are important prob- lems with applications in robotics tasks such as simultaneous localization and map- ping (SLAM) and visual odometry. While convolutional neural networks (CNNs) have made progress in single-frame depth prediction and pose regression, estimates remain limited without modeling temporal context across frames. Previous works have ex- plored using recurrent neural networks (RNNs) like LSTMs to aggregate frame fea- tures, but RNNs struggle with long-term dependencies. The thesis proposes an end-to-end neural network model called Depth-Pose Net for jointly estimating depth maps and camera poses from monocular video sequences. Extensive experiments are conducted on the KITTI dataset to evaluate and compare the performance of the architecture with an LSTM versus with a Transformer. The findings validate Transformers for robotic perception sequence modeling tasks. By effectively capturing temporal cues, Transformers have potential to improve depth and motion estimation in challenging conditions for applications like SLAM and vi- sual odometry. This research provides insights into leveraging self-attention models to enhance spatio-temporal understanding in robotics.

Benzer Tezler

Tez No
681048
An autonomous area coverage method for endoscopic capsule robots
Endoskopik kapsül robotlarda otonom alantarama
İBRAHİM ÖMER ÇELİK
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Boğaziçi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SADIK FİKRET GÜRGEN
DR. MEHMET TURAN
Tez No
887294
Derin öğrenme tabanlı yöntemlerle düşük ışıklı görüntü iyileştirme
Low light image enhancement with deep learning based methods
EMİN CİHANGİR US
Yüksek Lisans
Türkçe
2024
Elektrik ve Elektronik Mühendisliği İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ENDER METE EKŞİOĞLU
Tez No
858775
A 3D video quality evaluation model that provides high depth perception satisfaction and efficient transmission channel use based on depth cues
Derinlik ipuçlarına dayanarak yüksek derinlik algısı memnuniyeti ve verimli iletim kanalı kullanımı sağlayan bir 3 boyutlu video kalite değerlendirme modeli
YAMAÇ TAN
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol TED Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. GÖKÇE NUR YILMAZ
Tez No
901564
Mimari tasarımda yapay zekâ yaklaşımı: Makine öğrenmesi ile mekân işlevlerinin tanınması ve üretken çekişmeli ağlarla mimari plan üretimi
Artificial intelligence approach in architectural design: Recognition of space functions with machine learning and architectural plan generation with generative adversarial networks
BERFİN YILDIZ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilişim Ana Bilim Dalı
PROF. DR. GÜLEN ÇAĞDAŞ
DR. ÖĞR. ÜYESİ İBRAHİM ZİNCİR
Tez No
523516
Combining features and semantics for low-level computer vision
Başlık çevirisi yok
FATMA GÜNEY
Doktora
İngilizce
2017
Bilim ve Teknoloji Eberhard-Karls-Universität Tübingen
Dr. ANDREAS GEIGER

Geri Dön