Geri Dön

A deep-learning based model for visual depth and pose estimation of mobile robots

Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model

  1. Tez No: 878119
  2. Yazar: ROZHIN FANI
  3. Danışmanlar: DOÇ. DR. MEHMET BERKE GÜR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Mekatronik Mühendisliği, Mechatronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Mekatronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Mekatronik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 66

Özet

Tek kameralı videolardan derinlik ve konum tahminleri robotik görevler için önemli problemlerdir, örneğin eş zamanlı konumlama ve haritalama (SLAM) ve görsel odometri gibi. Madden tek çerçeve derinlik tahminleri ve pozisyon regresyonu için derin öğrenme yöntemleri ilerleme kaydetmiştir, ancak zaman serisi boyunca bağlam bilgisi eksikliği nedeniyle tahminler sınırlı kalmaktadır. Önceki çalışmalar, özellikle uzun kısa süreli hafıza (LSTM) modelleri kullanarak çerçeve özelliklerini toplayan geri dönüşümlü sinir ağlarını (RNA'lar) incelemiştir, ancak RNA'lar uzun süreli bağımlılıkları yakala- mada zorluk yaşamaktadır. Bu tez, tek kameralı videolardan eş zamanlı derinlik haritaları ve kamera pozisy- onlarını tahmin etmek için sonlu eleman ağı olarak adlandırılan Derinlik-Pozisyon Ağı'nı önermektedir. Optik akış özellikleri çerçeve arasından Farneback algoritması kullanılarak çıkarılmakta ve LSTM veya Transformer enkoderine iletilmektedir. Modeller KITTI veri kümesi üzerinde değerlendirilmiş ve LSTM'ye kıyasla Trans- former'ın performansı karşılaştırılmıştır. Bulgular, Transformer'ın zaman serisi mod- elleme görevlerinde robotik algılama için umut verici bir yaklaşım olduğunu doğru- lamaktadır. Zamansal bağlamları etkili bir şekilde yakalayarak, Transformer'lar de- rinlik ve hareket tahminlerinde zor koşullarda daha tutarlı sonuçlar üretme potansiye- line sahiptir. Bu araştırma, robotik alanında uzaysal-zamansal anlayışı geliştirmek için kendi kendine dikkat mekanizmalarını kullanmaya ilişkin fikirler sunmaktadır.

Özet (Çeviri)

Accurate depth and pose estimation from monocular videos are important prob- lems with applications in robotics tasks such as simultaneous localization and map- ping (SLAM) and visual odometry. While convolutional neural networks (CNNs) have made progress in single-frame depth prediction and pose regression, estimates remain limited without modeling temporal context across frames. Previous works have ex- plored using recurrent neural networks (RNNs) like LSTMs to aggregate frame fea- tures, but RNNs struggle with long-term dependencies. The thesis proposes an end-to-end neural network model called Depth-Pose Net for jointly estimating depth maps and camera poses from monocular video sequences. Extensive experiments are conducted on the KITTI dataset to evaluate and compare the performance of the architecture with an LSTM versus with a Transformer. The findings validate Transformers for robotic perception sequence modeling tasks. By effectively capturing temporal cues, Transformers have potential to improve depth and motion estimation in challenging conditions for applications like SLAM and vi- sual odometry. This research provides insights into leveraging self-attention models to enhance spatio-temporal understanding in robotics.

Benzer Tezler

  1. An autonomous area coverage method for endoscopic capsule robots

    Endoskopik kapsül robotlarda otonom alantarama

    İBRAHİM ÖMER ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SADIK FİKRET GÜRGEN

    DR. MEHMET TURAN

  2. Derin öğrenme tabanlı yöntemlerle düşük ışıklı görüntü iyileştirme

    Low light image enhancement with deep learning based methods

    EMİN CİHANGİR US

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ENDER METE EKŞİOĞLU

  3. A 3D video quality evaluation model that provides high depth perception satisfaction and efficient transmission channel use based on depth cues

    Derinlik ipuçlarına dayanarak yüksek derinlik algısı memnuniyeti ve verimli iletim kanalı kullanımı sağlayan bir 3 boyutlu video kalite değerlendirme modeli

    YAMAÇ TAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTED Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. GÖKÇE NUR YILMAZ

  4. Mimari tasarımda yapay zekâ yaklaşımı: Makine öğrenmesi ile mekân işlevlerinin tanınması ve üretken çekişmeli ağlarla mimari plan üretimi

    Artificial intelligence approach in architectural design: Recognition of space functions with machine learning and architectural plan generation with generative adversarial networks

    BERFİN YILDIZ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Ana Bilim Dalı

    PROF. DR. GÜLEN ÇAĞDAŞ

    DR. ÖĞR. ÜYESİ İBRAHİM ZİNCİR