Geri Dön

Land cover and land use classification of multi-modal high-resolution satellite images using multi-task deep learning approach

Çok görevli derin öğrenme tekniği ile çok kipli yüksek çözünürlüklü uydu görüntülerinin arazi örtüsü ve arazi kullanımı sınıflandırılması

  1. Tez No: 677471
  2. Yazar: BURAK EKİM
  3. Danışmanlar: PROF. DR. ELİF SERTEL
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: İletişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Uydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı
  13. Sayfa Sayısı: 119

Özet

Uzaktan algılama (UA) görüntülerinin arazi örtüsü ve arazi kullanımı (AÖAK) sınıflandırması, yeryüzünün uzay perspektifinden anlaşılması açısından önemli bir yere sahiptir. UA görüntüsünde bulunan tüm piksellere önceden belirlenmiş AÖAK sınıflarının atanması işlemi olarak adlandırılan AÖAK sınıflandırması; afet yönetimi, şehircilik planlaması, akıllı şekil uygulamaları, ve sosyo-ekonomik uygulamalar gibi birçok gerçek hayat uygulama alanında kullanıma sahip olması dolayısıyla son kullanıcılar için faydalı bilgiler sağlayabilmektedir. Yüksek uzamsal, temporal, ve spektral çözünürlüklü yer gözlem uydularında ve uzayla ilgili araştırmalarda olan artış ile kullanıma açık ve yüksek hacimli UA görüntüleri artık hiçbir zaman olmadığı kadar ulaşılabilir bir duruma gelmiş, bu durum büyük veri çağının UA alanında başlangıcı olmuştur. Bu durum neticesinde, yakın geçmişe kadar dikkate değer başarım gösteren makine öğrenmesi (MÖ) tabanlı geleneksel yaklaşımlar ile binlerce veya belki milyonlarca görüntünün işlemlenmesi ve faydalı çıktılar elde edilmesi zorlu bir hal almıştır. Yüksek performanslı hesaplama alanındaki gelişme ve yüksek hacimli verinin oluşum, erişim ve işleme durumlarının iyileşmesi ile veri-güdümlü yapıya sahip olan derin öğrenme (DÖ) tekniklerinin gelişmesi ve benimsenmesinin önü açılmıştır. Yüksek öznitelik çıkarımı ve görüntünün temelini oluşturan örüntüyü ortaya çıkarma yeteneği sayesinde DÖ teknikleri günümüzde doğal dil işleme, ses tanıma ve bilgisayarla görü gibi UA görüntülerinin AÖAK sınıflandırılmasının da dahil olduğu birçok alanda tekniklerin yeniden gözden geçirilmesine neden olmuştur. Bu tez çalışması çok kipli ve yüksek çözünürlüklü UA görüntülerinin DÖ teknikleri ile AÖAK sınıflandırmasının gerçekleştirilmesini ele almaktadır. Gözetimli AÖAK sınıflandırıcı performansı önceden belirlenen yer doğrusu bilgisine ve DÖ modelinin üzerinde eğitildiği veri setine bağlıdır. Bundan dolayı, çalışma alanında yüksek sayıda ve çeşitte sınıfların bulunduğu gerçek hayat senaryolarını uygun bir şekilde taklit etmek ve örneklemek önemli bir adımdır. Bu duruma bir ödünleşim bulunmaktadır. Yüksek sayıda sınıfa sahip nomenklatür sınıflandırıcı performansını negatif şekilde etkileyebilmek ile birlikte veri seti oluşturma aşamasındaki etiketleme işlemini zorlaştırabilmektedir. Buna karşılık, az sayıda sınıfa sahip bir nomenklatür ile eğitilen bir sınıflandırıcı ise gerçek hayat uygulanabilirliği açısından, çeşitli yeryüzü sınıflarını nitelemedeki yetersizliği dolayısıyla, zorluk yaşayacaktır. Bu çelişkideki orta nokta ise sınıflandırıcının kullanılabilirliğini ve performansını ciddi bir şekilde etkilemeden, yeryüzünü uygun bir şekilde temsil edebilecek yeterli sayıda sınıfa sahip olmaktır. Tez kapsamında kullanılan veri seti sıfırdan oluşturulmuş olup yer-verisi uzmanlar tarafından CORINE nomenklatür uyarınca 14 adet sınıf olacak şekilde, obje kümeleri seviyesinde ve geniş perspektifli olarak etiketlenmiş, bu sayede yeryüzünü temsil edilebilme yeteneğinden ödün vermeden yüksek sınıflandırma başarımı hedeflenmiştir. Bu veri seti sırasıyla SPOT-7 ve TerraSAR-X yer gözlem uydularından alınan, İstanbul, Türkiye'de bulunan Atatürk Havaalanı ve çevresini kapsayan 4-bantlı (RGBNIR) optik ve HH polarizasyonlu SAR görüntülerinden oluşmaktadır. Oluşturulan veri setinin özgünlüğü sadece yüksek sayıda sınıf sayısına sahip olması değil, aynı zamanda yüksek çözünürlüklü ve çok-kipli şemada AÖAK sınıflandırması araştırması yürütülmesine olanak sağlamasıdır. Hem yüksek sınıf sayısına sahip olması hem de aynı bölgenin birden çok kipli verisini yer doğrusu verisi ile birlikte barındırması dolayısıyla özgün bir değere sahip olan bu veri seti üzerinde AÖAK sınıflandırması görevini çözmek için ResNeXt50 ve DeepLabv3+ mimarileri birlikte kullanılmıştır. Bu mimariler sırasıyla, girdi görüntüsünden öznitelik çıkartımı gerçekleştirilmesini ve pixel-tabanlı olacak şekilde etiketlenmiş çıktı sınıflandırma haritalarının üretilmesini sağlamaktadır. Oluşturulan bu iş akışı sayesinde girdi uzaktan algılanmış görüntüsünün 14 sınıflık çıktı sınıflandırma haritasına dönüştürülmesi mümkün olmaktadır. Bu tezde yürütülen deneyler iki ana başlık altında toplanmıştır; kip veya bant-bağımlı farklılıkların incelendiği çok-kipli öğrenme deneyleri ve ana görevin ve yardımcı görevlerin ortak en-iyileme kullanılarak birleştirilmiş bir öğrenme yapısında birlikte çözüldüğü çok-görevli öğrenme deneyleri. Üretilen deney sonuçları ışığında, çok-kipli öğrenme deneyleri kapsamında şu gözlemler yapılmıştır; (i) RGB bantları ile birlikte NIR bandının kullanılması AÖAK sınıflandırması performansının artmasına yardımcı olmuştur. (ii) optik görüntü üzerinde eğitilen derin sinir ağı modelinin performansı SAR görüntüsü üzerinde eğitilen model performansını büyük bir fark ile aşmaktadır. (iii) birden çok kipi bir arada kullanmak için benimsenen teknikler arasından (erken-kaynaştırma, orta-kaynaştırma, ve geç-kaynaştırma), erken-kaynaştırma tek-kipli modelin performansını da aşarak en iyi performansı göstermektedir. Semantik segmentasyon (piksel-bazlı sınıflandırma) görevinin, görevler arası ortak temel örüntüyü ortaya, eğer varsa, çıkarmak için, görüntü yeniden üretme ve sınır çıkartma görevi ile birlikte çözüldüğü çok-görevli öğrenme deneylerinden ise şu çıktılar elde edilmiştir; (i) ana segmentasyon görevi görüntü yeniden üretme görevinden, ortak gizli temsilden faydalanarak sınıflandırma başarımını arttırdığı dolayısıyla, faydalanabilmektedir. (ii) semantik segmentasyon görevinin sınır çıkartma görevi ile birlikte çözüldüğü birleşik öğrenme şemasında ortak gizli temsilin paylaşılması ana görevin performansına hasar vermektedir. Çok-görevli öğrenme, her görevin kayıp fonksiyonun birleştirilmesini ve ortak bir şemada çözülmesini gerektirir. Ancak artan görev sayısı ile her görevin kayıp fonksiyonunun toplam kayıp fonksiyonuna etkisini deneme yoluyla belirlemek hem zaman hem de hesaplama açısından zorlu bir hal almaktadır. Bu zorluktan alınan motivasyon ile bu tez çalışmasının birden çok görevin bir arada öğrenilmesini amaçlayan çok-görevli öğrenme deneylerinde her görevin kayıp fonksiyonun toplam kayıp fonksiyonuna olan katkısı el ile ayarlanmak yerine benimsenen eşvaryanslı belirsizlik tekniği kullanılmış, bu sayede her görevin toplam kayıp fonksiyonuna etkisinin öğrenilebilir parametreler olması sağlanmıştır. Dolayısıyla, her görevin toplam kayıp fonksiyonuna etkisinin el ile ayarlanması yerine eğitim süreci sırasında diğer öğrenilebilir parametreler ile birlikte öğrenilebilmesi mümkün olmuştur. Görüntü yeniden üretme görevi, girdi görüntüsünün yeniden üretilebilmesine ve dolayısıyla segmente edilecek alanların daha iyi anlaşılabilmesine olanak sağladığı için semantik segmentasyon görevi ile birlikte kullanıldığında başarımı yükseltebilmiştir. Öte yandan, segment sınırlarının daha iyi anlaşılabilmesinin amaçlanması ile kurulan semantik segmentasyon ve sınır çıkarma görevi ikilisinin semantik segmentasyon görevine kıyasla başarımı negatif şekilde etkilemesi hem yer verisinin obje bazlı değil de bölge bazlı etiketlenmiş olması, hem de sınıf sayısının fazla olması dolayısıyla açıklanabilmektedir. Ayrıca, sınır çıkarmanın bir gözetimli sınıflandırma görevi olması nedeniyle sınıflandırıcının çözüm uzayını olumsuz şekilde kısıtlamış olması ve başarımın artmasını engellemiş olması mümkündür. Dolayısıyla, bu tez çalışması AÖAK sınıflandırması görevinin derin öğrenme tabanlı çok-kipli öğrenme ve çok-görevli öğrenme teknikleri ile çözülmesi üzerine kapsamlı bir analiz sunmaktadır.

Özet (Çeviri)

Land cover and land use (LCLU) classification of remote sensing (RS) images generate valuable geo-information to better understand Earth surface conditions and their changes. Classification is an important research topic in RS that aims to develop and advance different algorithms to accurately map land characteristics either with supervised or unsupervised/weakly-supervised approaches. The task of assigning a predefined label to each pixel in the image is defined as supervised pixel-wise classification and is of paramount importance as it provides valuable information in the context of RS in real-world scenarios such as disaster management, urban planning, smart city applications, and socio-economic applications. The big-data era of RS has emerged with the availability of an increasing number of Earth Observation (EO) satellites with high spatial and temporal resolutions and increasing involvement in space-related research. Machine learning (ML) based traditional approaches have shown remarkable results in the near past but now, with the increasing volume of data, tackling with thousands, if not millions, of images have become more compelling. With the feature extraction and underlying pattern revealing, deep learning (DL) approaches are now achieving state-of-the-art in many areas, including natural language processing, speech recognition, and computer vision. The recent progress in DL, in terms of advancement in high-performance computing and relatively easier access to big-data has led many topics to be reconsidered. RS-related tasks such as pan-sharpening, super-resolution, object detection, segmentation, and image classification, more specifically pixel-wise classification of LCLU classes, are widely tackled by implementing DL approaches as well. This thesis addresses the task of multimodal LCLU classification of high-resolution RS images using DL techniques. The performance of supervised LCLU classifiers excessively depends on the pre-defined labels and the classifier trained on. Therefore, it is important to adequately mimic and sample the real-life scenarios in which a wide variety of classes exist in the area of interest. The trade-off here is that having a great number of classes in the nomenclature negatively influences the performance of the classifier and complicates the process of data collection along with annotation. On the other hand, having less classes severely affects real life applicability. The midpoint in this contradiction is to have a sufficient number of classes that can adequately represent the surface of the earth without damaging employability and performance. To mitigate this effect, the dataset used in this thesis is created from scratch and the ground truth mask with 14 predefined classes is constructed by domain expert annotators according to the CORINE-based nomenclature. The dataset consists of 4-band (RGBNIR) optical data and accompanying HH polarized SAR data which are acquired from SPOT-7 and TerraSAR-X EO satellites, respectively. The experiments conducted in the thesis are grouped into two main categories; multi-modal learning where the modality or band-dependent differences are inspected and multi-task learning where the main task is coupled with an auxiliary task(s) in a unified learning scheme with a joint optimization. DeepLabv3+ and ResNeXt50 architectures are used in order to produce densely-labeled prediction outputs and perform feature extraction, respectively. In the light of the experimental results produced in the multimodal learning case the following observations were made; (i) use of the NIR band along with the RGB bands is helpful in improving the classification performance within the context of LCLU classification. (ii) the deep neural network model trained on the optical data outperforms the modal trained on the SAR data by a wide margin. (iii) among the fusion techniques (early fusion, middle fusion, and late fusion) used in the thesis to make simultaneous use of two modalities, the early fusion performs the best and exceeds the obtained unimodal performances. As for the multitask learning case, where the semantic segmentation task is coupled with the image reconstruction task and the boundary extraction task with an intend to uncover the common (if there is any) underlying pattern between tasks, the followings were drawn; (i) the main segmentation task benefits from the image reconstruction task as it increases the classification accuracy by exploiting common hidden representation. (ii) sharing the hidden representations by coupling the semantic segmentation task with the boundary extraction task damage the main task's performance. A homoscedastic uncertainty-based logic to dynamically learn the contribution of each loss function to the overall objective function is used in the multitask learning experiments. In brief, this thesis presents a comprehensive analysis on solving the LCLU classification of multi-modal high-resolution satellite images using deep multi-task learning techniques.

Benzer Tezler

  1. Multispektral İHA verilerinin obje tabanlı sınıflandırılmasında ndym tabanlı performans artırım yaklaşımları

    Ndsm-based potential enhancement approaches in object-based classification of multispectral uav data

    İLYAS AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Jeodezi ve FotogrametriGebze Teknik Üniversitesi

    Harita Mühendisliği Ana Bilim Dalı

    PROF. DR. UMUT GÜNEŞ SEFERCİK

  2. Uydu görüntü verileri ve V-I-S model kullanılarak kentsel ekolojik fonksiyonun mekansal-zamansal analizi

    Spatial temporal analysis of urban ecological function by using satellite image data and V-I-S model

    CEMRE ÖZTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞİNASİ KAYA

  3. Spektral indekslerin arazi örtüsü/kullanımı sınıflandırmasına etkisi: İstanbul, Beylikdüzü ilçesi, arazi kullanımı değişimi

    Effect of spectral indices over land use/cover classification: İstanbul, Beylikduzu district, land use change

    ÖZGE KAYMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. AYŞE FİLİZ SUNAR

  4. Farklı sayısal yüzey modellerinin doğruluk değerlendirmesi

    Accuracy assessment of different digital surface models

    BARIŞ BEŞOL

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UĞUR ALGANCI