Geri Dön

Semantic segmentation of panoramic images and panoramic image based outdoor visual localization

Panoramik imgelerde anlamsal bölütleme ve panoramik imge tabanlı dış mekan görsel konumlandırma

  1. Tez No: 770347
  2. Yazar: SEMİH ORHAN
  3. Danışmanlar: DOÇ. DR. YALIN BAŞTANLAR
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: İzmir Yüksek Teknoloji Enstitüsü
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 85

Özet

360-derece görüntüler tümyönlü kameralar ile çekilir ve genellikle panoramik imgeler ile temsil edilir. Ne yazık ki, panoramik imgeler kürenin kutup noktalarında aşırı küresel bozunuma maruz kalır. Evrişimli Yapay Sinir Ağları (EYSA) literatüründe, küresel bozunumun etkisini azaltmak için birçok yöntem önerilmiştir (örn. eşdikdörtgensel evrişim). Önceki çalışmalardan esinlenerek, UNet modelinin eşdikdörtgensel evrişim versiyonunu geliştirdik. UNet modeli ve onun eşdikdörtgensel evrişim versiyonunun anlamsal bölütleme performansını dış mekan panoramik veri kümesi üzerinde ölçtük. Deney sonuçları, UNet'in eşdikdörtgensel evrişim versiyonunun, UNet'den daha iyi performans gösterdiğini göstermiştir. Ek olarak, piksel seviyesinde etiketlenmiş anlamsal bölütleme için ilk dış mekan panoramik imge veri kümelerinden birini yayınladık. Görsel konumlandırma yaparken, perspektif sorgu imgelerini panoramik veri kü-mesinde aramak kameralar arasındaki örtüşmeyen görüntü problemini hafifletebilir. Genellikle, perspektif sorgu imgeleri panoramik veri kümesi içinde panoramik imgelerin 4 veya 8 gnomonik görüntüleri (kürenin küp ile temsili) üretilerek konumlandırılır. Bunu yapmak, konumlandırma problemini perspektiften perspektif aramaya indirgeyebilir, fakat sorgu ve gnomonik veri kümesi imgeleri arasında hala örtüşmeyen görüş açısı problemi olabilir. Bu nedenle perspektif sorgu imgelerini doğrudan panoramik imgeler içerisinde aramayı önerdik. Bunu yapmak için, kayan pencere yaklaşımını EYSA'nın son evrişim katmanına uyguladık. Öznitelikleri R-MAC, GeM ve SFRS ile çıkardık. Deney sonuçla-rında, kayan pencere yöntemi 4 gnomonik görüşe göre çok daha iyi sonuçlar üretti, ve kayan pencere yöntemi ile 8 ve 12 gnomonik görüşe göre rekabetçi sonuçlar aldık. Herhangi bir görsel konumlandırma sistemi uzun vadeli değişikliklere karşı gürbüz olmalıdır. Anlamsal bilgi bu değişikliklere karşı daha gürbüzdür (örn: binanın yüzeyi), ve derinlik haritaları geometrik bilgi sağlar. Çalışmamızda, anlamsal ve derinlik bilgisini poz doğrulama aşamasında kullandık. Poz doğrulama RGB model ile getirilen pozların (sonuçların) anlamsal ve derinlik benzerlikleri ile doğrulanmasıdır. Anlamsal ve derinlik bilgisini özdenetimli karşılaştırmalı öğrenme yaklaşımı (SimCLR) ile temsil ettik. Deney sonuçları anlamsal ve derinlik öznitelikleri ile poz doğrulamanın sadece RGB öznitelik kullanan modelin görsel konumlandırma performansını arttırdığını gösterdi.

Özet (Çeviri)

360-degree views are captured by full omnidirectional cameras and generally represented with panoramic images. Unfortunately, these images heavily suffer from the spherical distortion at the poles of the sphere. In previous studies of Convolutional Neural Networks (CNNs), several methods have been proposed (e.g. equirectangular convolution) to alleviate spherical distortion. Getting inspired from these previous efforts, we developed an equirectangular version of the UNet model. We evaluated the semantic segmentation performance of the UNet model and its equirectangular version on an outdoor panoramic dataset. Experimental results showed that the equirectangular version of UNet performed better than UNet. In addition, we released the pixel-level annotated dataset, which is one of the first semantic segmentation datasets of outdoor panoramic images. In visual localization, localizing perspective query images in a panoramic image dataset can alleviate the non-overlapping view problem between cameras. Generally, perspective query images are localized in a panoramic image database with generating its virtual 4 or 8 gnomonic views, which is deforming sphere into cube faces. Doing so can simplify the searching problem to perspective to perspective search, but still there might be a non-overlapping view problem between query and gnomonic database images. Therefore we propose directly localizing perspective query images in panoramic images by applying sliding windows on the last convolution layer of CNNs. Features are extracted with R-MAC, GeM, and SFRS. Experimental results showed that the sliding window approach outperformed 4-gnomonic views, and we get competitive results compared with 8 and 12 gnomonic views. Any city-scale visual localization system has to be robust against long-term changes. Semantic information is more robust to such changes (e.g. surface of the building), and the depth maps provide geometric clues. In our work, we utilized semantic and depth information while pose verification, that is checking semantic and depth similarity to verify the poses (retrievals) obtained with the approach that use only RGB image features. Semantic and depth information are represented with a self-supervised contrastive learning approach (SimCLR). Experimental results showed that pose verification with semantic and depth features improved the visual localization performance of the RGB-only model.

Benzer Tezler

  1. Tarihi kent merkezlerindeki değişimin görsel mekan kalitesi üzerinden ölçümüne yönelik bir model önerisi: Bursa örneği

    Proposal of a model for measuring the change in historical city centers through quality of visual space: Case of Bursa

    ALPER GÖNÜL

    Doktora

    Türkçe

    Türkçe

    2023

    MimarlıkBursa Uludağ Üniversitesi

    Mimarlık Ana Bilim Dalı

    PROF. DR. SELEN DURAK

  2. Semantic segmentation of UAV images in archaeological sites using deep learning

    Arkeolojik alanlardaki İHA görüntülerinin derin öğrenme yardımıyla anlamsal segmentasyonu

    DAMLA KUMBASAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  3. COVID-19 tanılı bilgisayarlı tomografi görüntülerinde akciğer ve pnömoni bölgelerinin farklı senaryolarda semantik segmentasyonu

    Semantic segmentation of lung and pneumonia regions in different scenarios on COVID-19 diagnosed computer tomographic images

    HÜSEYİN EMRE ALEMDAROĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Mühendislik BilimleriNecmettin Erbakan Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMET ÜSAME ÖZİÇ

  4. Derin öğrenme metotları kullanılarak farklı sosyal statüye sahip yapısal alanlarda binaların semantik segmentasyonu: İstanbul örneği

    Semantic segmentation of buildings in structural areas with different social statuses using deep learning methods: Istanbul example

    BURCU AMİRGAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Jeodezi ve FotogrametriKocaeli Üniversitesi

    Jeodezi ve Jeoinformasyon Mühendisliği Ana Bilim Dalı

    PROF. DR. ARZU ERENER

  5. Tarihi hava fotoğraflarının derin öğrenme ile semantik segmentasyonu

    Semantic segmentation of historical aerial photographs using deep learning

    GÜLSENA YILANCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Jeodezi ve FotogrametriKaradeniz Teknik Üniversitesi

    Harita Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA DİHKAN