Geri Dön

TUM-RGBD derinlik görüntülerinin Gaussian Splat tabanlı (SPLATAM) medyan filtresi optimizasyonu ile 3B rekonstrüksiyon performansının artırılması

Enhancing 3D reconstruction performance of TUM-RGBD depth images using Gaussian Splat-based (SPLATAM) median filter optimization

  1. Tez No: 959669
  2. Yazar: CEMİL ZEYVELİ
  3. Danışmanlar: DOÇ. DR. ALİ FURKAN KAMANLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Sakarya Uygulamalı Bilimler Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 73

Özet

Görsel Eş Zamanlı Lokalizasyon ve Haritalama yöntemleri, otonom sistemlerin bilinmeyen ortamlarda konumlarını belirleyerek bu ortamların haritasını çıkarmalarına ve otonom bir şekilde hareket edebilmelerine olanak tanımaktadır. Bu yöntemler, robotik, otonom araçlar ve AR/VR gibi çeşitli alanlarda yaygın olarak kullanılmaktadır. Görsel SLAM yöntemleri, kamera sensörlerinden alınan görüntüleri işleyerek ortamın haritasını oluşturan ve kamera poz tahmini gerçekleştiren yöntemlerdir. Son yıllarda, sahne temsilinde 3D Gauss yapılarını kullanan Gaussian Splatting tabanlı Görsel SLAM yöntemleri düşük bellek kullanımı, hızlı render ve yüksek kaliteli rekonstrüksiyon avantajlarıyla öne çıkmaktadır. Gaussian Splatting yöntemi, diğer yöntemlere göre düşük bellek kullanımı, hızlı render ve yüksek kaliteli rekonstrüksiyon sağlayan bir yöntemdir. Ancak bu yöntemlerin performansı, kullanılan derinlik görüntülerinin kalitesine büyük ölçüde bağlıdır. Derinlik sensörlerinden elde edilen verilerdeki bozulmalar ve hatalar, 3D rekonstrüksiyon kalitesini doğrudan etkilemekte ve Gauss yapılarının hatalı konumlandırılmasına yol açabilmektedir. Görsel SLAM yöntemlerinin değerlendirilmesi ve test edilmesinde TUM-RGBD, Replica ve ScanNet vb. popüler veri setleri kullanılmaktadır. Bu veri setleri, farklı ortamlarda kaydedilmiş RGB ve derinlik görüntülerinden oluşmakta ve sistemlerin performansını çeşitli koşullar altında değerlendirebilme imkânı sağlamaktadır. Ancak, TUM-RGBD veri setindeki derinlik görüntüleri, kullanılan Kinect sensörünün teknik kısıtlamaları ve düşük kaliteli olması nedeniyle diğer veri setlerine kıyasla daha düşük kalitelidir. Bu durum, derinlik verilerinin doğruluğunu olumsuz etkilemekte ve haritalama sonuçlarının kalitesini düşürmektedir. Özellikle keskin kenar geçişlerindeki bozulmalar ve pürüzlü yüzeyler, bu sistemlerin performansını önemli ölçüde sınırlandırmaktadır. Bu çalışmada, TUM-RGBD veri setinin“fr1/desk”ve“fr1/desk2”alt veri setlerindeki derinlik görüntülerine, kenar ve köşe özelliklerini koruyarak iyileştirme sağlayan medyan filtresi uygulanmıştır. Filtrelenmiş derinlik görüntüleri, SplaTAM yöntemi kullanılarak işlenmiş ve elde edilen sonuçlar PSNR, SSIM ve LPIPS metrikleriyle değerlendirilmiştir.“fr1/desk”alt veri setinde orijinal görüntülere kıyasla PSNR değerinde %8.08, SSIM değerinde %6.83 ve LPIPS değerinde %26.14 oranında iyileştirme sağlanmıştır. Benzer şekilde,“fr1/desk2”alt veri setinde de PSNR değerinde %4.93 ve SSIM değerinde %6.27 iyileştirme elde edilmiştir. Ayrıca, kamera poz tahmin doğruluğunda da sırasıyla %2.09 ve %7.80 oranında artış gözlenmiştir.

Özet (Çeviri)

Visual Simultaneous Localization and Mapping methods allow autonomous systems to determine their locations and create maps of unknown environments, enabling them to move autonomously without the need for external intervention. These methods are widely used in various fields such as robotics, autonomous vehicles, unmanned aerial vehicles, and AR/VR. Visual SLAM methods process images taken from camera sensors to create maps of environments and perform camera pose estimation. In recent years, Gaussian Splatting-based Visual SLAM methods, which use 3D Gaussian structures in scene representation, have stood out with their advantages of low memory usage, fast rendering, and high-quality reconstruction. The Gaussian Splatting approach provides significant benefits compared to other visual SLAM methods in terms of computational efficiency and reconstruction quality. However, the performance of these methods is highly dependent on the quality of the depth images used. Distortions and errors in the data obtained from depth sensors directly affect the quality of 3D reconstruction and can lead to incorrect positioning of Gaussian structures. Popular datasets such as TUM-RGBD, Replica and ScanNet are used in the evaluation and testing of visual SLAM methods. These datasets consist of RGB and depth images recorded in different environments and provide the opportunity to evaluate the performance of systems under various conditions. However, the depth images in the TUM-RGBD dataset are of lower quality compared to other datasets due to the technical limitations and low resolution of the Kinect sensor used. This negatively affects the accuracy of the depth data and reduces the quality of the mapping results. Especially the distortions in sharp edge transitions and rough surfaces significantly limit the performance of these systems. In this study, a median filter is applied to the depth images in“fr1/desk”and“fr1/desk2”subdatasets of the TUM-RGBD dataset, which provides improvement by preserving the edge and corner features. Filtered depth images are processed using the SplaTAM method and the obtained results are evaluated with PSNR, SSIM and LPIPS metrics. In the“fr1/desk”subdataset, an 8.08% improvement is achieved in PSNR value, a 6.83% in SSIM value and a 26.14% in LPIPS value compared to the original images. Similarly, in the“fr1/desk2”subdataset, a 4.93% improvement is achieved in PSNR value and a 6.27% in SSIM value. Additionally, increases of 2.09% and 7.80% in camera pose estimation accuracy are observed, respectively.

Benzer Tezler

  1. Depth based calibration of multiple RGBD cameras for full 3D reconstruction

    Tam 3B geriçatım için çoklu KYMD kameralarının derinlik tabanlı kalibrasyonu

    ESRA TUNÇER ÇALI

    Doktora

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik Mühendisliğiİzmir Yüksek Teknoloji Enstitüsü

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞEVKET GÜMÜŞTEKİN

  2. Vision-based robotic plant growth monitoring and learning in polyculture farming

    Polikültür tarımda bitki gelişimlerinin robotla görsel izlenmesi ve öğrenimi

    ARİF YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik MühendisliğiBoğaziçi Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. HURİYE IŞIL BOZMA AYDIN

  3. Hareketli RGB-D görüntülerinden el parmaklarının tesbiti

    Hand finger recognition from RGB-D video images

    HAKAN ONGÜL

    Yüksek Lisans

    Türkçe

    Türkçe

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. MİNE ELİF KARSLIGİL YAVUZ

  4. Human pose and shape estimation based on masked mesh modelling from single view RGBD

    Tek bir bakış açısından RGBD'den maskelenmiş örgü modellemeye dayalı insan pozu ve şekli tahmini

    ÖZHAN SUAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE AKBAŞ

  5. Gesture recognition for humanoid robot assisted interactive sign language tutoring

    İnsansı robot destekli etkileşimli işaret dili eğitimi için işaret tanıma

    BEKİR SITKI ERTUĞRUL

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HATİCE KÖSE