TUM-RGBD derinlik görüntülerinin Gaussian Splat tabanlı (SPLATAM) medyan filtresi optimizasyonu ile 3B rekonstrüksiyon performansının artırılması

Enhancing 3D reconstruction performance of TUM-RGBD depth images using Gaussian Splat-based (SPLATAM) median filter optimization

PDF İndir

Tez No: 959669
Yazar: CEMİL ZEYVELİ
Danışmanlar: DOÇ. DR. ALİ FURKAN KAMANLI
Tez Türü: Yüksek Lisans
Konular: Elektrik ve Elektronik Mühendisliği, Electrical and Electronics Engineering
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Sakarya Uygulamalı Bilimler Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 73

Özet

Görsel Eş Zamanlı Lokalizasyon ve Haritalama yöntemleri, otonom sistemlerin bilinmeyen ortamlarda konumlarını belirleyerek bu ortamların haritasını çıkarmalarına ve otonom bir şekilde hareket edebilmelerine olanak tanımaktadır. Bu yöntemler, robotik, otonom araçlar ve AR/VR gibi çeşitli alanlarda yaygın olarak kullanılmaktadır. Görsel SLAM yöntemleri, kamera sensörlerinden alınan görüntüleri işleyerek ortamın haritasını oluşturan ve kamera poz tahmini gerçekleştiren yöntemlerdir. Son yıllarda, sahne temsilinde 3D Gauss yapılarını kullanan Gaussian Splatting tabanlı Görsel SLAM yöntemleri düşük bellek kullanımı, hızlı render ve yüksek kaliteli rekonstrüksiyon avantajlarıyla öne çıkmaktadır. Gaussian Splatting yöntemi, diğer yöntemlere göre düşük bellek kullanımı, hızlı render ve yüksek kaliteli rekonstrüksiyon sağlayan bir yöntemdir. Ancak bu yöntemlerin performansı, kullanılan derinlik görüntülerinin kalitesine büyük ölçüde bağlıdır. Derinlik sensörlerinden elde edilen verilerdeki bozulmalar ve hatalar, 3D rekonstrüksiyon kalitesini doğrudan etkilemekte ve Gauss yapılarının hatalı konumlandırılmasına yol açabilmektedir. Görsel SLAM yöntemlerinin değerlendirilmesi ve test edilmesinde TUM-RGBD, Replica ve ScanNet vb. popüler veri setleri kullanılmaktadır. Bu veri setleri, farklı ortamlarda kaydedilmiş RGB ve derinlik görüntülerinden oluşmakta ve sistemlerin performansını çeşitli koşullar altında değerlendirebilme imkânı sağlamaktadır. Ancak, TUM-RGBD veri setindeki derinlik görüntüleri, kullanılan Kinect sensörünün teknik kısıtlamaları ve düşük kaliteli olması nedeniyle diğer veri setlerine kıyasla daha düşük kalitelidir. Bu durum, derinlik verilerinin doğruluğunu olumsuz etkilemekte ve haritalama sonuçlarının kalitesini düşürmektedir. Özellikle keskin kenar geçişlerindeki bozulmalar ve pürüzlü yüzeyler, bu sistemlerin performansını önemli ölçüde sınırlandırmaktadır. Bu çalışmada, TUM-RGBD veri setinin“fr1/desk”ve“fr1/desk2”alt veri setlerindeki derinlik görüntülerine, kenar ve köşe özelliklerini koruyarak iyileştirme sağlayan medyan filtresi uygulanmıştır. Filtrelenmiş derinlik görüntüleri, SplaTAM yöntemi kullanılarak işlenmiş ve elde edilen sonuçlar PSNR, SSIM ve LPIPS metrikleriyle değerlendirilmiştir.“fr1/desk”alt veri setinde orijinal görüntülere kıyasla PSNR değerinde %8.08, SSIM değerinde %6.83 ve LPIPS değerinde %26.14 oranında iyileştirme sağlanmıştır. Benzer şekilde,“fr1/desk2”alt veri setinde de PSNR değerinde %4.93 ve SSIM değerinde %6.27 iyileştirme elde edilmiştir. Ayrıca, kamera poz tahmin doğruluğunda da sırasıyla %2.09 ve %7.80 oranında artış gözlenmiştir.

Özet (Çeviri)

Visual Simultaneous Localization and Mapping methods allow autonomous systems to determine their locations and create maps of unknown environments, enabling them to move autonomously without the need for external intervention. These methods are widely used in various fields such as robotics, autonomous vehicles, unmanned aerial vehicles, and AR/VR. Visual SLAM methods process images taken from camera sensors to create maps of environments and perform camera pose estimation. In recent years, Gaussian Splatting-based Visual SLAM methods, which use 3D Gaussian structures in scene representation, have stood out with their advantages of low memory usage, fast rendering, and high-quality reconstruction. The Gaussian Splatting approach provides significant benefits compared to other visual SLAM methods in terms of computational efficiency and reconstruction quality. However, the performance of these methods is highly dependent on the quality of the depth images used. Distortions and errors in the data obtained from depth sensors directly affect the quality of 3D reconstruction and can lead to incorrect positioning of Gaussian structures. Popular datasets such as TUM-RGBD, Replica and ScanNet are used in the evaluation and testing of visual SLAM methods. These datasets consist of RGB and depth images recorded in different environments and provide the opportunity to evaluate the performance of systems under various conditions. However, the depth images in the TUM-RGBD dataset are of lower quality compared to other datasets due to the technical limitations and low resolution of the Kinect sensor used. This negatively affects the accuracy of the depth data and reduces the quality of the mapping results. Especially the distortions in sharp edge transitions and rough surfaces significantly limit the performance of these systems. In this study, a median filter is applied to the depth images in“fr1/desk”and“fr1/desk2”subdatasets of the TUM-RGBD dataset, which provides improvement by preserving the edge and corner features. Filtered depth images are processed using the SplaTAM method and the obtained results are evaluated with PSNR, SSIM and LPIPS metrics. In the“fr1/desk”subdataset, an 8.08% improvement is achieved in PSNR value, a 6.83% in SSIM value and a 26.14% in LPIPS value compared to the original images. Similarly, in the“fr1/desk2”subdataset, a 4.93% improvement is achieved in PSNR value and a 6.27% in SSIM value. Additionally, increases of 2.09% and 7.80% in camera pose estimation accuracy are observed, respectively.

Benzer Tezler

Tez No
630861
Depth based calibration of multiple RGBD cameras for full 3D reconstruction
Tam 3B geriçatım için çoklu KYMD kameralarının derinlik tabanlı kalibrasyonu
ESRA TUNÇER ÇALI
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliği İzmir Yüksek Teknoloji Enstitüsü
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞEVKET GÜMÜŞTEKİN
Tez No
910216
Vision-based robotic plant growth monitoring and learning in polyculture farming
Polikültür tarımda bitki gelişimlerinin robotla görsel izlenmesi ve öğrenimi
ARİF YILMAZ
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik Mühendisliği Boğaziçi Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. HURİYE IŞIL BOZMA AYDIN
Tez No
364229
Hareketli RGB-D görüntülerinden el parmaklarının tesbiti
Hand finger recognition from RGB-D video images
HAKAN ONGÜL
Yüksek Lisans
Türkçe
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. MİNE ELİF KARSLIGİL YAVUZ
Tez No
830120
Human pose and shape estimation based on masked mesh modelling from single view RGBD
Tek bir bakış açısından RGBD'den maskelenmiş örgü modellemeye dayalı insan pozu ve şekli tahmini
ÖZHAN SUAT
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. EMRE AKBAŞ
Tez No
363859
Gesture recognition for humanoid robot assisted interactive sign language tutoring
İnsansı robot destekli etkileşimli işaret dili eğitimi için işaret tanıma
BEKİR SITKI ERTUĞRUL
Yüksek Lisans
İngilizce
2014
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HATİCE KÖSE

Geri Dön