Geri Dön

Transformer based sensor fusion and pose estimation in end-to-end supervised learning of visual inertial odometry

Denetemeli uçtan uca öğrenme ile görsel ataletsel odometride dönüştürücü temelli algılayıcı füzyonu ve poz tahmini

  1. Tez No: 899649
  2. Yazar: YUNUS BİLGE KURT
  3. Danışmanlar: PROF. DR. ABDULLAH AYDIN ALATAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

Bu tez, görsel-ataletsel odometri ağlarında zamansal modelleme için Dönüştürücü mimarisinin uygulanmasını araştırmaktadır. Amaç, geçmiş yöntemlerde görülen Uzun Kısa Süreli Bellek ağlarına kıyasla geçmiş verileri daha iyi kullanan Dönüştürücülerdeki dikkat mekanizmalarından yararlanarak poz tahmini doğruluğunu iyileştirmektir. Önerilen yöntem uçtan uca eğitilebilirdir ve çıkarım sırasında yalnızca mono kamera ve ataletsel ölçüm birimi ölçümleri gerektirir. Gizli görsel-ataletsel özelliklerin poz tahmini için temel bilgiler içerdiğini ve Dönüştürücülerin yerel bir pencere içinde geçmiş ölçümlerden etkili zamansal güncellemeler yapmasını sağladığını gözlemlenmektedir. Gerçek zamanlı çalışmayı kolaylaştırmak için tüm dikkat mekanizmaları nedensel maskelerle çalışacak şekilde tasarlanmıştır. Bu tez ayrıca zaman serisi tahmin problemlerindeki sürekli veriler için tokenize etme mekanizmalarının dometride kullanımını incelemektedir ve sınıflandırma ile regresyonu değerlendirilmektedir. Çalışma, denetlenen uçtan uca odometri öğrenmesinde veri belirsizliğinin etkisini incelemektedir ve poz uzayı için özel kayıp fonksiyonlarını dikkate almaktadır. Deneysel sonuçlar, Dönüştürücü tabanlı mimarilerin, standart odometri veri kümeleri üzerinde son teknoloji yöntemlerle karşılaştırıldığında daha iyi veya karşılaştırılabilir sonuçlar elde ederek, monoküler mono görsel ataletsel odometri ağlarının doğruluğunu artırdığını göstermektedir.

Özet (Çeviri)

This thesis investigates the application of Transformer architecture for temporal modeling in visual-inertial odometry (VIO) networks. The objective is to improve pose estimation accuracy by leveraging the attention mechanisms in Transformers, which better utilize historical data compared to Long Short Term Memory (LSTM) networks seen in recent methods. The proposed method is end-to-end trainable and requires only monocular camera and IMU measurements during inference. We observe that latent visual-inertial features contain essential information for pose estimation, enabling Transformers to perform effective temporal updates from past measurements within a local window. To facilitate real-time deployment, all attention mechanisms are designed to work with causal masks. This thesis also explores the use of tokenization mechanisms for continuous data in time series prediction problems, and evaluates regression by classification in odometry task. The study examines the impact of data uncertainty in supervised end-to-end odometry learning and considers specialized loss functions for the pose space. Experimental results demonstrate that Transformer-based architectures enhance the accuracy of monocular VIO networks, achieving better or comparable results compared to state-of-the-art methods on standard odometry datasets.

Benzer Tezler

  1. Güç transformatörlerinde makine öğrenmesi ve sensör füzyonu yöntemleri ile arıza analizi

    Power transformers fault analysis with machine learning and sensor fusion methods

    MERVE DEMİRCİ

    Doktora

    Türkçe

    Türkçe

    2023

    Elektrik ve Elektronik MühendisliğiGazi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. MÜSLÜM CENGİZ TAPLAMACIOĞLU

    DOÇ. DR. HALUK GÖZDE

  2. Derin öğrenme ile giyilebilir sensör tabanlı insan aktivitesi ve demografik grup tanıma

    Wearable sensor-based human activity and demographic group recognition with deep learning

    MEHMET ÇAĞDAŞ SAYGILI

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA SERT

  3. A transformer-based approach for fusing infrared and visible band images

    Kızılötesi ve görünür bant görüntülerin birleştirilmesi için transformer tabanlı bir yaklaşım

    AYTEKİN ERDOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Modelleme ve Simülasyon Ana Bilim Dalı

    DOÇ. DR. ELİF SÜRER

    DOÇ. DR. ERDEM AKAGÜNDÜZ

  4. Paralel hesaplama kullanarak yerel fourıer filtreleri ile optik uydu görüntülerinin birleştirilmesi

    Optical satellite imagery fusion using parallel programming and local fourier filters

    BURAK KURT

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. SEDEF KENT PINAR

  5. Uzaktan algılamada görüntü birleştirme algoritmalarının karşılaştırılması

    Comparison of image fusion algorithms in remote sensing

    ALPER AKOĞUZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. SEDEF KENT PINAR