Geri Dön

Monocular depth estimation and object detection using depth-wise convolution

Derinlik bilgesel dönüşüm kullanarak monoküler derinlik tahmini ve nesne tespiti

  1. Tez No: 753785
  2. Yazar: MASUM SHAH JUNAYED
  3. Danışmanlar: DR. ÖĞR. ÜYESİ MD BAHARUL ISLAM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Son yıllarda çok sayıda nesne dedektörü ve monoküler derinlik tahmini, konvolüsyonel sinir ağları ve diğer verimli mimarileri kullanarak son yıllarda kabul edilebilir performans göstermiştir. Bu alandaki mevcut yaklaşımlar, küçük nesne ayrıntılarını ve yer-gerçeği derinlik haritası edinimi sırasında kaybolan verileri kurtarmada sınırlamalardan muzdariptir. Bu tezde, HiMODE adında bir monoküler çok yönlü derinlik tahmincisi önerdik. Hesaplama karmaşıklığını azaltırken bozulmayı ve yapaylıkları etkili bir şekilde azaltmak için CNN+Transformer'ın hibrit mimarisine dayalı olarak tasarlanmıştır. Transformer kodlayıcıda kendi kendine ve çapraz dikkat blokları ve kod çözücüde uzamsal ve zamansal yamalar tasarlanarak hesaplama maliyetinde daha fazla azalma sağlandı. Her bir kodlayıcı ve kod çözücüden sonra yeni bir SRB yapısı uygulanması nedeniyle, boyut arttıkça yama yerleştirmelerinin dizi uzunluğu azaldı. Gerçek zamanlı nesne algılama ve sınıflandırma için PDS-Net adı verilen yeni bir mimari sunulmaktadır. Bu model, bir omurga ve uzaysal özelliklerden oluşan bir piramit ağı içerir. Omurgadaki derinlik bilgilerinin çıkarılması için, çok ölçekli özellikleri çıkarmak ve doğru nesne tespiti için özellik piramitleri oluşturmak için derinlemesine evrişim, artık kısayol bağlantıları, özellik birleştirme ve transformatör kodlayıcı-kod çözücü modülleri uyguladık. Sonuç olarak, eğitim performansı stabilize edildi ve geliştirildi. Kapsamlı bir ablasyon çalışması yürütmenin yanı sıra, altı kıyaslama veri kümesi üzerinde yürütülen kapsamlı deneyler, en gelişmiş performansı elde etti.

Özet (Çeviri)

Numerous recent object detectors and monocular depth estimation have shown acceptable performance in recent years by using convolutional neural networks and other efficient architectures. Existing approaches in this field suffer from limitations in recovering small object details and data lost during the ground-truth depth map acquisition. In this thesis, we proposed a monocular omnidirectional depth estimator, namely HiMODE. It was designed based on a hybrid architecture of CNN+Transformer to effectively reduce the distortion and artifacts while decreasing the computational complexity. Further reduction in computation cost was achieved by designing self and cross attention blocks in the Transformer encoder, and spatial and temporal patches in the decoder. The sequence length of patch embeddings was reduced when the dimension increases, due to applying a novel structure of SRB after each encoder and decoder. A novel architecture is presented for real-time object detection and classification called PDS-Net. This model comprises a backbone and a pyramid network of spatial features. For extraction of depth information in the backbone, we applied depthwise convolution, residual shortcut connections, feature fusion, and transformer encoder-decoder modules are utilized to extract multiscale features and generate feature pyramids for accurate object detection. Consequently, the training performance was stabilized and improved. In addition to conducting a comprehensive ablation study, extensive experiments conducted on six benchmark datasets achieved state-of-the-art performance.

Benzer Tezler

  1. Hand pose estimation and rendering for augmented reality

    Artırılmış gerçeklik için insan eli tahmini ve görselleştirme

    IKRAM KOURBANE

    Doktora

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YAKUP GENÇ

  2. Monocular depth estimation with thermal data

    Thermal verilerle monoküler derinlik tahmini

    ALİ AKYAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ OSMAN SERDAR GEDİK

  3. Addressing the static scene assumption and the scale ambiguity in self-supervised monocular depth estimation

    Denetimsiz monoküler derinlik tahmini: Statik sahne varsayımı ve ölçek belirsizliği

    SADRA SAFADOUST

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ FATMA GÜNEY

  4. Mikro hava araçlarının bilinmeyen ortamlarda görüntü temelli kontrolü

    Vision based control of micro air vehicles in unknown environments

    CİHAT BORA YİĞİT

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ERDİNÇ ALTUĞ

  5. Bulanık yaşam analizi ve uygulaması

    Fuzzy survival analysis and its application

    GÖZDE ULU METİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    BiyoistatistikMuğla Sıtkı Koçman Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. NEVİN GÜLER DİNCER