Monocular depth estimation and object detection using depth-wise convolution
Derinlik bilgesel dönüşüm kullanarak monoküler derinlik tahmini ve nesne tespiti
- Tez No: 753785
- Danışmanlar: DR. ÖĞR. ÜYESİ MD BAHARUL ISLAM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 97
Özet
Son yıllarda çok sayıda nesne dedektörü ve monoküler derinlik tahmini, konvolüsyonel sinir ağları ve diğer verimli mimarileri kullanarak son yıllarda kabul edilebilir performans göstermiştir. Bu alandaki mevcut yaklaşımlar, küçük nesne ayrıntılarını ve yer-gerçeği derinlik haritası edinimi sırasında kaybolan verileri kurtarmada sınırlamalardan muzdariptir. Bu tezde, HiMODE adında bir monoküler çok yönlü derinlik tahmincisi önerdik. Hesaplama karmaşıklığını azaltırken bozulmayı ve yapaylıkları etkili bir şekilde azaltmak için CNN+Transformer'ın hibrit mimarisine dayalı olarak tasarlanmıştır. Transformer kodlayıcıda kendi kendine ve çapraz dikkat blokları ve kod çözücüde uzamsal ve zamansal yamalar tasarlanarak hesaplama maliyetinde daha fazla azalma sağlandı. Her bir kodlayıcı ve kod çözücüden sonra yeni bir SRB yapısı uygulanması nedeniyle, boyut arttıkça yama yerleştirmelerinin dizi uzunluğu azaldı. Gerçek zamanlı nesne algılama ve sınıflandırma için PDS-Net adı verilen yeni bir mimari sunulmaktadır. Bu model, bir omurga ve uzaysal özelliklerden oluşan bir piramit ağı içerir. Omurgadaki derinlik bilgilerinin çıkarılması için, çok ölçekli özellikleri çıkarmak ve doğru nesne tespiti için özellik piramitleri oluşturmak için derinlemesine evrişim, artık kısayol bağlantıları, özellik birleştirme ve transformatör kodlayıcı-kod çözücü modülleri uyguladık. Sonuç olarak, eğitim performansı stabilize edildi ve geliştirildi. Kapsamlı bir ablasyon çalışması yürütmenin yanı sıra, altı kıyaslama veri kümesi üzerinde yürütülen kapsamlı deneyler, en gelişmiş performansı elde etti.
Özet (Çeviri)
Numerous recent object detectors and monocular depth estimation have shown acceptable performance in recent years by using convolutional neural networks and other efficient architectures. Existing approaches in this field suffer from limitations in recovering small object details and data lost during the ground-truth depth map acquisition. In this thesis, we proposed a monocular omnidirectional depth estimator, namely HiMODE. It was designed based on a hybrid architecture of CNN+Transformer to effectively reduce the distortion and artifacts while decreasing the computational complexity. Further reduction in computation cost was achieved by designing self and cross attention blocks in the Transformer encoder, and spatial and temporal patches in the decoder. The sequence length of patch embeddings was reduced when the dimension increases, due to applying a novel structure of SRB after each encoder and decoder. A novel architecture is presented for real-time object detection and classification called PDS-Net. This model comprises a backbone and a pyramid network of spatial features. For extraction of depth information in the backbone, we applied depthwise convolution, residual shortcut connections, feature fusion, and transformer encoder-decoder modules are utilized to extract multiscale features and generate feature pyramids for accurate object detection. Consequently, the training performance was stabilized and improved. In addition to conducting a comprehensive ablation study, extensive experiments conducted on six benchmark datasets achieved state-of-the-art performance.
Benzer Tezler
- İsaretçi takibi ile PnP tabanlı 6DoF poz tahminive CFD simülasyon karşılaştırması
PnP-based 6DoF pose estimation with marker trackingand CFD simulation comparison
YUSUF DEMİREL
Yüksek Lisans
Türkçe
2025
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik-Haberleşme Eğitimi Ana Bilim Dalı
DOÇ. DR. MEHMET NURİ AKINCI
- The light weight monocular depth estimation
Hafif monoküler derinlik tahmini
MEHMET ÖMER EYİ
Yüksek Lisans
İngilizce
2025
Elektrik ve Elektronik MühendisliğiFriedrich-Alexander-Universität Erlangen-NürnbergElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. VASİLEİOS BELAGİANNİS
- Hand pose estimation and rendering for augmented reality
Artırılmış gerçeklik için insan eli tahmini ve görselleştirme
IKRAM KOURBANE
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAKUP GENÇ
- Monocular depth estimation with thermal data
Thermal verilerle monoküler derinlik tahmini
ALİ AKYAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ OSMAN SERDAR GEDİK
- Addressing the static scene assumption and the scale ambiguity in self-supervised monocular depth estimation
Denetimsiz monoküler derinlik tahmini: Statik sahne varsayımı ve ölçek belirsizliği
SADRA SAFADOUST
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATMA GÜNEY