Monocular depth estimation and object detection using depth-wise convolution
Derinlik bilgesel dönüşüm kullanarak monoküler derinlik tahmini ve nesne tespiti
- Tez No: 753785
- Danışmanlar: DR. ÖĞR. ÜYESİ MD BAHARUL ISLAM
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 97
Özet
Son yıllarda çok sayıda nesne dedektörü ve monoküler derinlik tahmini, konvolüsyonel sinir ağları ve diğer verimli mimarileri kullanarak son yıllarda kabul edilebilir performans göstermiştir. Bu alandaki mevcut yaklaşımlar, küçük nesne ayrıntılarını ve yer-gerçeği derinlik haritası edinimi sırasında kaybolan verileri kurtarmada sınırlamalardan muzdariptir. Bu tezde, HiMODE adında bir monoküler çok yönlü derinlik tahmincisi önerdik. Hesaplama karmaşıklığını azaltırken bozulmayı ve yapaylıkları etkili bir şekilde azaltmak için CNN+Transformer'ın hibrit mimarisine dayalı olarak tasarlanmıştır. Transformer kodlayıcıda kendi kendine ve çapraz dikkat blokları ve kod çözücüde uzamsal ve zamansal yamalar tasarlanarak hesaplama maliyetinde daha fazla azalma sağlandı. Her bir kodlayıcı ve kod çözücüden sonra yeni bir SRB yapısı uygulanması nedeniyle, boyut arttıkça yama yerleştirmelerinin dizi uzunluğu azaldı. Gerçek zamanlı nesne algılama ve sınıflandırma için PDS-Net adı verilen yeni bir mimari sunulmaktadır. Bu model, bir omurga ve uzaysal özelliklerden oluşan bir piramit ağı içerir. Omurgadaki derinlik bilgilerinin çıkarılması için, çok ölçekli özellikleri çıkarmak ve doğru nesne tespiti için özellik piramitleri oluşturmak için derinlemesine evrişim, artık kısayol bağlantıları, özellik birleştirme ve transformatör kodlayıcı-kod çözücü modülleri uyguladık. Sonuç olarak, eğitim performansı stabilize edildi ve geliştirildi. Kapsamlı bir ablasyon çalışması yürütmenin yanı sıra, altı kıyaslama veri kümesi üzerinde yürütülen kapsamlı deneyler, en gelişmiş performansı elde etti.
Özet (Çeviri)
Numerous recent object detectors and monocular depth estimation have shown acceptable performance in recent years by using convolutional neural networks and other efficient architectures. Existing approaches in this field suffer from limitations in recovering small object details and data lost during the ground-truth depth map acquisition. In this thesis, we proposed a monocular omnidirectional depth estimator, namely HiMODE. It was designed based on a hybrid architecture of CNN+Transformer to effectively reduce the distortion and artifacts while decreasing the computational complexity. Further reduction in computation cost was achieved by designing self and cross attention blocks in the Transformer encoder, and spatial and temporal patches in the decoder. The sequence length of patch embeddings was reduced when the dimension increases, due to applying a novel structure of SRB after each encoder and decoder. A novel architecture is presented for real-time object detection and classification called PDS-Net. This model comprises a backbone and a pyramid network of spatial features. For extraction of depth information in the backbone, we applied depthwise convolution, residual shortcut connections, feature fusion, and transformer encoder-decoder modules are utilized to extract multiscale features and generate feature pyramids for accurate object detection. Consequently, the training performance was stabilized and improved. In addition to conducting a comprehensive ablation study, extensive experiments conducted on six benchmark datasets achieved state-of-the-art performance.
Benzer Tezler
- Hand pose estimation and rendering for augmented reality
Artırılmış gerçeklik için insan eli tahmini ve görselleştirme
IKRAM KOURBANE
Doktora
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGebze Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YAKUP GENÇ
- Monocular depth estimation with thermal data
Thermal verilerle monoküler derinlik tahmini
ALİ AKYAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ OSMAN SERDAR GEDİK
- Addressing the static scene assumption and the scale ambiguity in self-supervised monocular depth estimation
Denetimsiz monoküler derinlik tahmini: Statik sahne varsayımı ve ölçek belirsizliği
SADRA SAFADOUST
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolKoç ÜniversitesiBilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FATMA GÜNEY
- Mikro hava araçlarının bilinmeyen ortamlarda görüntü temelli kontrolü
Vision based control of micro air vehicles in unknown environments
CİHAT BORA YİĞİT
Yüksek Lisans
Türkçe
2012
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ERDİNÇ ALTUĞ
- Bulanık yaşam analizi ve uygulaması
Fuzzy survival analysis and its application
GÖZDE ULU METİN
Yüksek Lisans
Türkçe
2016
BiyoistatistikMuğla Sıtkı Koçman Üniversitesiİstatistik Ana Bilim Dalı
YRD. DOÇ. DR. NEVİN GÜLER DİNCER