Geri Dön

Monocular depth estimation with self-supervised representation learning

Öz-denetimli temsil öğrenmeyle monoküler derinlik tahmini

  1. Tez No: 798182
  2. Yazar: UFUK UMUT ŞENTÜRK
  3. Danışmanlar: DOÇ. DR. NAZLI İKİZLER CİNBİŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 83

Özet

Sahne bağlamını anlamak için, görüntüler, videolar vb. gibi birçok temsil ve modalite geliştirilmiştir. Zengin 3B bilgileri içerdiğinden ve sahne hakkında güçlü önceliklere sahip olduğundan, sahne temsilini derinlik haritaları olarak çıkarmak pratik olarak bir çok avantaj sağlamaktadır. Derinlik tahmini görevi için kesin referans derinlik haritalarını toplamak külfetli bir eylemdir. Bu nedenle, yeni görütü sentezleme, Hareketten-Yapı çerçevesinde derinlik tahmini görevini çözmek için bir vekil görev olarak kullanılır. Ayrıca, derinlik tahmini için öz-denetimli temsil öğrenimi kapsamlı bir şekilde çalışılmamıştır ve kendi kendini denetleyen temsil öğreniminin mevcut durumu, eğitim için kesin referans hiç gerek olmayacağının sinyallerini vermektedir. İki paradigmayı birleştirmek, daha iyi pratik gelişmelere yol açan daha iyi sahne anlayışı için daha iyi temsil yaratmanın bir yoludur. Bu çalışmada, tamamen öz-denetimli derinlik tahmini için çok amaçlı, damıtma tabanlı bir çerçeve olan {\em TripleDNet (Disentangled Distilled Depth Network)} öneriyoruz. Harekete dayalı yapı tabanlı derinlik tahmin modelleri, ardışık kareleri monoküler derinlik tahmini tarzında işlerken kendi öz-denetlemeyi yapar. Fakat, statik dünya ve aydınlatma sabitliği varsayımları gerçek dünyada kırılacağı için eğitim prosedürüne yanlış sinyaller verilmesine izin verir, bu da düşük performansa yol açar. Ayrıca bu kısımların maskelenmesi görüntü yapısının bütünlüğüne zarar vermektedir. Çözüm alanını sınırlamak ve etkin, basit bir mimari içinde özellik uzayının çözülmesine izin vermek için SfM tabanlı tahmine ek olarak başka objektifler ekliyoruz. Ek olarak, sahne bağlamı ve yapısı açısından derinlik tahminine fayda sağlayan bir bilgi damıtma yaklaşımı da öneriyoruz. Şaşırtıcı bir şekilde, model başlatma için öz-denetimli görüntü temsili öğrenme çerçevelerinin, kesin referansla denetlenen benzerlerinden daha iyi performans gösterdiğini de keşfettik. Deneysel sonuçlar, tamamen öz-denetimli bir şekilde eğitilmiş önerilen modellerin, KITTI ve Make3D veri kümelerinde son teknoloji modellerden, ve kesin referans olarak segmentasyon haritalarını kullanan modellere kıyasla daha iyi performans göstermektedir.

Özet (Çeviri)

Many representation and modalities are developed for better scene understanding as images, videos, point clouds, etc. In this thesis, we intentionally characterize scene representation as depth maps in order to leverage rich 3D information and to develop strong priors over the scene. Gathering ground truth for depth estimation task is burdensome. To alleviate this supervision, novel view synthesis is employed as a proxy task to solve the depth estimation task within the Structure-from-motion (SfM) framework. Besides, self-supervised representation learning for depth estimation is not studied extensively, and the current state of self-supervised representation learning signals that there will be no dependence on ground truth annotations for training at all. Combining two paradigms is a way of improving representations for better scene understanding that leads to better practical developments. Specifically, we propose {\em TripleDNet (Disentangled Distilled Depth Network)}, a multi-objective, distillation-based framework for purely self-supervised depth estimation. Structure-from-motion-based depth prediction models utilize self-supervision while processing consecutive frames in a monocular depth estimation manner. Static world and illumination constancy assumptions do not hold and allow wrong signals to the training procedure, leading to poor performance. Masking out those parts hurts the integrity of the image structure. In order to compensate side effects of previous approaches, we add further objectives to SfM based estimation to constrain the solution space and to allow feature space disentanglement within an efficient and simple architecture. In addition, we propose a knowledge distillation objective that benefits depth estimation in terms of scene context and structure. Surprisingly, we also found out that self-supervised image representation learning frameworks for model initialization outperforms supervised counterparts. Experimental results show that proposed models trained purely in a self-supervised fashion outperform state-of-the-art models on the KITTI and Make3D datasets compared to models utilizing ground truth segmentation maps and feature metric loss compared to supervised counterparts. Experimental result shows that models trained without any ground truth knowledge, or with any prior based on ground truth, outperform models on the KITTI and Make3D datasets on many metrics.

Benzer Tezler

  1. Addressing the static scene assumption and the scale ambiguity in self-supervised monocular depth estimation

    Denetimsiz monoküler derinlik tahmini: Statik sahne varsayımı ve ölçek belirsizliği

    SADRA SAFADOUST

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FATMA GÜNEY

  2. Exploring dense depth predictions as a supervision source for human pose and shape estimation

    Yoğun derinlik tahminlerinin insan poz ve şekil tahmini için bir denetim kaynağı olarak incelemesi

    BATUHAN KARAGÖZ

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. EMRE AKBAŞ

  3. An autonomous area coverage method for endoscopic capsule robots

    Endoskopik kapsül robotlarda otonom alantarama

    İBRAHİM ÖMER ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SADIK FİKRET GÜRGEN

    DR. MEHMET TURAN

  4. Mobil platformlar için dinamik konum verisinin elde edilmesinde farklı veri türlerinin entegrasyonunun araştırılması

    Investigating the integration of different data types in the acquisition of dynamic positioning data for mobile platforms

    MERT GÜRTÜRK

    Doktora

    Türkçe

    Türkçe

    2023

    Jeodezi ve FotogrametriYıldız Teknik Üniversitesi

    Harita Mühendisliği Ana Bilim Dalı

    PROF. DR. METİN SOYCAN

  5. A deep-learning based model for visual depth and pose estimation of mobile robots

    Mobil robotların görsel derinliği ve poz tahmini için derin öğrenme tabanlı bir model

    ROZHIN FANI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mekatronik MühendisliğiBahçeşehir Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MEHMET BERKE GÜR