Geri Dön

Building detection from very high resolution satellite images with deep learning approach

Derin öğrenme yaklaşımı ile çok yüksek çözünürlüklü uydu görüntülerinde bina tespiti

  1. Tez No: 665780
  2. Yazar: ESRA ÖZAYDIN
  3. Danışmanlar: PROF. DR. ELİF SERTEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Jeodezi ve Fotogrametri, Geodesy and Photogrammetry
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Geomatik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Geomatik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 95

Özet

Son yıllarda makine öğreniminin bir biçimi olan derin öğrenme, konuşmaların tanınması, nesnelerin algılanması, dillerin çevrilmesi ve kararların alınması gibi bir çok görevde yaygın olarak kullanılmaya başlanılmıştır. Artan hesaplama gücü, derin öğrenme algoritmasındaki hızlı gelişmeler ve büyük verilerin kullanılabilirliği gibi etkenler bu alandaki araştırmaların hızlanmasını sağlamıştır. Bir derin öğrenme mimarisi olan Evrişimsel Sinir Ağları (ESA) evrişimli katman, havuzlama katmanı ve tamamen bağlı katmanlar gibi birçok katmandan oluşur. Evrişim, ESA'nın temel yapı taşlarından biridir. Burada nesnelere ait farklı özellikleri çıkarmak için filtreler kullanılır ve özellik haritası elde edilir. Elde edilen bu özellik haritaları havuzalama katmanında maksimum havuzalama, ortalama havuzalama gibi bazı operasyonlara maruz bırakılır. Sonrasında bunlar tamamen bağlı katmanına aktarılır ve burada vektörler düzleştirilip aktivasyon fonksiyonları kullanılır. Görüntülerin sınıflandırılması ise bu katmanda gerçekleşir. Bir çok araştırma alanında önemli olan büyük veri konusu uzaktan algılama çalışmalarında da yerini almıştır. Uzaktan algılama (UA), nesneler veya alanlar hakkında belirli bir mesafeden, tipik olarak uçak veya uydulardan bilgi edinilmesidir. Bu kapsamda günümüze değin Ulusal Havacılık ve Uzay İdaresi başta olmak üzere ABD Jeolojik Etütleri (USGS) ve Avrupa Kopernik programı bünyesinde bir çok uydu fırlatılmıştır. Zamanla gelişen uydu teknolojisiyle birlikte SPOT, WorldView ve Pléiades gibi çok yüksek çözünürlüklü görüntüler elde edilebilmektedir. Bu, doğal afet yönetimi, kriz yönetimi, kentsel planlama, iklim değişikliği, askeri keşif gibi çok önemli uygulamalarda uydu görüntülerinin kullanılmasına imkan sağlar. RS görüntüleri büyük miktarda veridir ve karmaşık yapılara sahiptir. Dolayısıyla bu verilerden manuel olarak anlamlı bilgiler çıkarmak zaman alıcı ve çok pahalıdır. Ayrıca bu analizlerin doğru sonuçlar verebilmesi için uzmanlara ihtiyaç vardır. Uydu görüntülerinin analizinde bilgisayarlı görü kullanımı sınıflandırma, bölütleme ve obje tespiti gibi 3 ana görevde incelenebilir. Sınıflandırma benzer spektal özellikleri olan nesnelerin gruplandırılması işlemidir. Eğitim verisi kullanılarak yapılan kontollü sınıflandırma, kontrolsüz sınıflandırmaya göre yüksek doğruluk sağladığı için daha çok tercih edilmektedir. Bölütleme ise kendi içinde anlamsal bölütleme ve örnek bölütleme olarak alt sınıflara ayrılabilir. Literatürde günümüze kadar bu analizlerin yapılmasına yönelik çeşitli algoritmalar önerilmiştir ve evrişimli sinir ağları kullanılarak güzel başarılar elde edilmiştir. Bu tez çalışmasında, uydu görüntülerinde bina tespiti konusu ele alınmış, daha hızlı R-CNN ve YOLO adlı iki nesne algılama algoritması kullanılmıştır. Bu mimariler Worldview-3 uydu sensöründen elde edilen SpaceNet bina çıkarımı v2 veri seti kullanılarak eğitilmiş ve test edilmiştir. Bu veri setinde raster veriler yani görüntüler 16-bit ve geotif, vektör veri ise geojson formatında tutulmaktadır. Görüntülerin boyutu ise 650*650 pikseldir. Bu veri setinin seçilme nedeni daha önce yarışmalarda kullanılmış olması ve makalelerde yer alması, yani kabul görmüş olmasıdır. Ek olarak derin öğrenme çalışmaları için gerekli farklı örnekler ve her bir görüntüde birden fazla nesne içermektedir. Bu veri seti segmentasyon görevi için hazırlanmış olduğu için bazı ön işlemler ile segmentler halinde olan vektör veriler sınırlayıcı kutulara dönüştürülerek nesne tespiti için uygun hale getirilmiştir. Son olarak tüm deneylerde kullanılmak üzere veri seti %70 eğitim, %20 doğrulama ve %10 test verisi olacak şekilde ayrılmıştır. Böylece eğitim için 2561, doğrulama için 721 ve test çin 360 görüntü elde edildi. Bu çalışmada bina tespiti için son zamanlarda fazlaca kullanılan Yolo v4 ve Faster R-CNN modelleri kullanılmıştır. Farklı mimariler ve parametreler kullanmanın doğruluk üzerindeki etkisi tartışılmıştır. Çalışmada ilk olarak bina tespiti üzerinde litaratür araştırması yapılmış, farklı metotlar incelenmiştir. Burada geleneksel yöntemler ve derin öğrenme temelli methodlar tanıtılmış, bu yöntemlerin avantajlarına ve getirdiği kısıtlamalara değinilmiştir. Ardından derin öğrenme tabanlı nesne tespit modelleri özellik çıkarıcı olarak evrişimsel sinir ağlarını kullandıkları için tezin metodoloji kısmında CNN hakkında temel kavramlar anlatılmıştır. İlk olarak farklı parametrelerin doğruluk ve hıza olan etkisini görmek için Yolo v4 modelide iki deney yapılmıştır. Burada config dosyası içerisinde ağın boyutu ve alt bölümleme (subdivision) değişen parametrelerdir. Deney sonucunda ağın boyutunun artmasının eğitim sürsesini ciddi anlamda uzattığı gözlemlenmiştir. Kullanılan bir diğer model daha hızlı R-CNN için iki farklı özellik çıkarıcı kullanılarak deneyler yapılmıştır. Deneyde Inception v2 ve Resnet-50 özellik çıkarıcıları kullanılarak doğruluğa olan etkisi tartışılmıştır. Toplamda bu iki model için dört deney yapılıp, her deneyde kullanılan görüntülerin boyutu ve sayısı aynıdır. Çok yüksek çözünürlüklü uydu görüntülerinden oluşan bu veri setinde hızlı ve yüksek doğrlulukta tespit yapabilmek için kayan pencere yönteminden faydalanılmıştır. Birden fazla tespiti önlemek için maximum olmayan bastırma tekniği kullanılmıştır. Eğitilen bu iki model için doğrulama IoU ve mAP kullanılarak sonuçlar değerlendirilmiş ve tartışılmıştır. Ek olarak daha hızlı R-CNN deneylerinin sonuçları COCO Metric API kullanılarak 12 farklı metrik için çıkarılmıştır. Son olarak tespit sonuçları test görüntülerinden elde edilerek paylaşılmıştır. Ayrıca bu deneylere ek olarak modellerin farklı uydu görüntülerindeki başarısını test etmek için Pleiades görüntüleri kullanılmıştır. Bu görüntüler seçilirken farklı bina ve çatı türleri olmasına dikkat edilip İstanbul ilinin çeşitli bölgeleri seçilmiştir. Boyutları 1500*1500 pikselolan bu görüntüler dört banta sahiptir. Ayrıca görüntülerin radyometrik çözünürlüğü 16-bit olup tif formatındadır. Test işleminden önce ilk olarak bu görüntüler 16-bitten 8 bite dönüştürülüp, jpg formatında üç bant olacak şekilde kaydedilmiştir. Sonrasında görüntü boyutunu 650*650 piksel yapabilmek için tile işlemi gerçekleştirildi. Elde edilen bu görüntülerden test için on tanesi kullanılmıştır. Her bir görüntü için dört deney gerçekleştirilmiş ve toplamda 40 sonuç görüntü elde edildmiştir. Yapılan bu bağımsız test sonucunda Yolo v4 mimarisinin daha hızlı R-CNN'e göre daha iyi sonuç verdiği gözlemlenmiştir. Özellikle birbirine çok yakın ve fazla sayıda bina olan alanlarda daha hızlı R-CNN modelinin başarısı düşüktür. Bu deneyden yola çıkılarak eğitim veri setine farklı coğrafyalardaki bina ve çatı türlerini içeren görüntüler eklenerek sonuçlar zenginleştirilebilir. Modelin farklı özellikleri öğrenmesi sağlanılıp başarı yüzdesi arttırılabilir. Son olarak 8 Google Earth görüntüsü ile deney yapılmıştır. Sonuçlar Pleiades görüntülerine göre Google Earth görüntülerinin daha iyi sonuç verdiğini göstermektedir. Bunun nedeni eğitim verisindeki görüntülerle Google Earth görüntülerinin benzer bina türü ve coğrafi özellikte olmasındandır. Tüm bu çalışmalara ek olarak coğrafi bilgi sistemi ve sayısal yükseklik modeli gibi destekleyici veriler sisteme entegre edilerek modellerin performası geliştirilebilir.

Özet (Çeviri)

In recent years, deep learning (DL) as one of the fields of machine learning (ML) has been widely used for various tasks such as object detection, speech recognition, language translation and decision making. There have been huge improvements in these fields, owing to higher computing power, rapid developments in DL algorithms and availability of big data. Remote sensing (RS) is the acquisition of information about objects or areas from a distance, typically from satellites or aircraft. Exploiting big data has become essential in research focusing on the remote sensing. With the technological improvements of satellite sensors, very high resolution (VHR) satellite imageries such as SPOT, Worldview and Pléiades have become attainable. This enables the utilizing of satellite imageries in various applications such as the disaster monitoring, risk management, climate change and military reconnaissance. Large amount of RS imagery data with complex structure makes it expensive and time-consuming to perform analysis manually. Additionally, RS specialists are needed to obtain accurate results from these analyses. There are three main issues in the field of computer vision including image classification, object detection and segmentation. Classification can be referred to the categorization of objects with similar spectral characteristics. The supervised classification employing a training data is the most preferred method due to the higher classification accuracies compared to those provided by unsupervised classification. On the other hand, the object segmentation can be categorized in two subfields of semantic and instance segmentation. In this thesis, the identification of buildings from VHR satellite imagery is performed by using YOLO and Faster R-CNN algorithms, which are two popular methods. The SpaceNet building detection v2 dataset obtained from the Worldview-3 satellite sensor is trained and tested applying different hyper parameters. In the faster R-CNN model, an experiment was conducted using Inception v2 and Resnet50 to see the effect of different feature extractors. In addition to all these experiments, independent tests were carried out with Pleiades and Google Earth images taken from different regions of Istanbul. The impacts of using different architectures and parameters on the detection accuracy are discussed. The IoU and mAP metrics are used as accuracy metrics for evaluating our results. As a final point the results of building detection applying on test imageries are presented.

Benzer Tezler

  1. Çok yüksek çözünürlüklü uydu görüntülerinden grafik tabanlı bilgi çıkarımı

    Graph-based infortmation extraction from very high resolution satellite images

    NURETTİN SİNANOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Uydu Haberleşmesi ve Uzaktan Algılama Ana Bilim Dalı

    PROF. DR. ELİF SERTEL

  2. Automatic airplane detection using deep learning techniques and very high-resolution satellite images

    Derin öğrenme teknikleri ve çok yüksek çözünürlüklü uydu görüntüleri kullanılarak otomatik uçak tespiti

    BAKARY TRAORE

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    İletişim Bilimleriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    Prof. Dr. ELİF SERTEL

  3. Uydu imgelerine derin öğrenme tabanlı süper çözünürlük yöntemlerinin uygulanması ve imgelerin iyileştirilmesi

    Application of deep learning based super resolution methods to satellite images and improvement of images

    AYŞE CENGİZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Bilim ve TeknolojiFırat Üniversitesi

    Ekobilişim Ana Bilim Dalı

    DOÇ. DR. DERYA AVCI

  4. Deep learning-based building segmentation using high-resolution aerial images

    Yüksek çözünürlüklü hava görüntüleri kullanarak derin öğrenme temelli bina bölütlemesi

    BATUHAN SARITÜRK

    Doktora

    İngilizce

    İngilizce

    2022

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. DURSUN ZAFER ŞEKER

  5. Satellite images super resolution using generative adversarial networks

    Uydu görüntülerinde çekişmeli üretici ağ kullanarak süper çözünürlük

    MARYAM SERDAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. AHMET HAMDİ KAYRAN