Land cover segmentation of very high-resolution remotely sensed data using CNN and transformer models
Transformer ve CNN modelleri kullanarak çok yüksek çözünürlüklü uzaktan algılama görüntülerinin arazi örtüsü segmentasyonu
- Tez No: 935168
- Danışmanlar: PROF. DR. ELİF SERTEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Uydu Haberleşmesi ve Uzaktan Algılama Ana Bilim Dalı
- Bilim Dalı: Uydu Haberleşmesi ve Uzaktan Algılama Bilim Dalı
- Sayfa Sayısı: 77
Özet
Uzaktan algılama (UA) görüntülerinin segmentasyonu, piksel bazında farklı arazi örtü tiplerinin sınıflandırılmasını içerir. Bu uygulama, yeryüzü sınıflarındaki değişimi daha iyi anlamamızı sağlayan değerli coğrafi çıktılar üretir. Bu çıktılar, felaket yönetimi, kentsel planlama, akıllı şehir uygulamaları ve sosyo-ekonomik analizler gibi gerçek dünya uygulamalarında önemli bir rol oynar. Uzaktan algılama görüntülerinden elde edilen doğru segmentasyon sonuçları, doğal afet öncesi ve sonrası değerlendirmelerde, kaynak yönetiminde, tarımsal alan takibinde ve çevresel değişim analizlerinde karar vericilere kritik bilgiler sunar. Bu nedenle, uzaktan algılama alanında farklı algoritmaların geliştirilmesi ve iyileştirilmesi üzerine yoğun bir araştırma yürütülmektedir. Bu görev, denetimli ya da zayıf/denetimsiz yöntemlerle gerçekleştirilebilir. Denetimli yöntemler, etiketli veri gerektirirken, zayıf/denetimsiz yöntemler daha az etiketli veri ile veya hiç etiketli veri olmadan çalışabilir. Bu çalışmada, arazi kullanımı ve arazi örtüsü (LU/LC) özelliklerinin çok sınıflı anlamsal segmentasyonu için derin öğrenme modellerinin uygulanması incelenmiştir. Bu tezin temel amacı, arazi örtüsünün çok sınıflı anlamsal segmentasyonu için en güncel derin öğrenme modellerini araştırmak ve uygulamaktır. Geleneksel makine öğrenmesi yöntemleri, yüksek çözünürlüklü uydu görüntü verileriyle başa çıkmada hız ve performans açısından yetersiz kalmaktadır. Özellikle destek vektör makineleri (SVM), rastgele ormanlar ve k-en yakın komşu (k-NN) gibi klasik yöntemler, büyük ölçekli uzaktan algılama verilerinin karmaşık dokularını ve yüksek boyutlu özelliklerini modellemekte zorluk çekmektedir. Ancak Evrişimsel Sinir Ağları (CNN), doğruluk ve verimlilik açısından geleneksel yöntemleri geride bırakmıştır. CNN'ler, görüntü içindeki konumsal ilişkileri yakalama yetenekleri, hiyerarşik özellik çıkarımı ve end-to-end eğitilebilme özellikleri sayesinde uzaktan algılama alanında devrim yaratmıştır. CNN'ler anlamsal segmentasyon üzerinde güçlü performans göstermelerine rağmen, yüksek parametre sayıları nedeniyle önemli hesaplama kaynakları gerektirmektedir. Bu durum, özellikle sınırlı donanım kaynaklarına sahip araştırmacılar veya kurumlar için bir engel oluşturabilmektedir.Bunun yanı sıra, transformer tabanlı modellerin gelişimi, segmentasyon performansında önemli iyileşmeler sağlamıştır. 2017 yılında doğal dil işleme alanında tanıtılan transformer mimarisi, kendinden dikkat (self-attention) mekanizması sayesinde uzun mesafeli bağımlılıkları etkili bir şekilde modelleyebilmektedir. Son yıllarda, transformer tabanlı modellerin görüntü işleme alanına uyarlanması ve geliştirilmesiyle, bu modeller uzaktan algılama görüntülerinin segmentasyonunda da uygulanmaya başlanmıştır. Son yıllarda, transformer tabanlı modellerin yükselişi, özellikle GPU bağımlılığı ve işlem hızı açısından hesaplama verimlilikleri karşılaştırıldığında ilgi uyandırmıştır. Vision Transformer (ViT) ve SegFormer gibi modeller, global bağlamı daha iyi yakalama yetenekleri nedeniyle karmaşık uzaktan algılama görüntülerinin segmentasyonunda umut verici sonuçlar göstermiştir. Bu endişeleri gidermek için, bu çalışma tüm deneyleri Kaggle'ın ücretsiz bulut tabanlı GPU kaynakları kullanarak gerçekleştirmiştir. Böylece, yüksek doğruluk ve performansı korurken, arazi örtüsü segmentasyonu görevleri için ücretsiz olarak kullanılabilen hesaplama platformlarının fizibilitesini değerlendirmeyi amaçlamaktadır. Bu yaklaşım, özellikle sınırlı kaynaklara sahip araştırmacılar veya kurumlar için önemli bir alternatif sunmaktadır. Ayrıca, bu çalışma derin öğrenme modellerinin eğitiminde kullanılan hiperparametrelerin optimizasyonu ve veri artırma tekniklerinin etkisini de incelemektedir. Bu çalışmada, Unet, Unet++ ve Deeplabv3+ gibi CNN tabanlı modeller ile SegFormer ve Vision Transformer (ViT) gibi transformer tabanlı modellerin performansları araştırılmış ve karşılaştırılmıştır. Unet, tıbbi görüntü segmentasyonu için geliştirilmiş olsa da, uzaktan algılama alanında da yaygın olarak kullanılmaktadır. Unet'in genişletilmiş bir versiyonu olan Unet++, daha derin ve daha karmaşık özellikleri yakalayabilmektedir. Deeplabv3+ ise atrous konvolüsyon ve kodlayıcı-kod çözücü yapısıyla piksel seviyesinde ayrıntılı segmentasyon sonuçları üretebilmektedir. SegFormer, hiyerarşik transformer kodlayıcısı ve hafif MLP kod çözücüsü ile verimli ve etkili bir segmentasyon modeli olarak öne çıkmaktadır. Vision Transformer (ViT) ise, görüntüleri sabit boyutlu yamalarına bölerek, bu yamaları doğal dil işlemedeki token'lar gibi işleyerek global bağlamı yakalama yeteneğine sahiptir. Modelin genelleme yeteneğini artırmak için kırpma, döndürme, çevirme, kaydırma, ölçekleme, rastgele parlaklık ve kontrast gibi veri artırma teknikleri kullanılmıştır. Veri artırma, özellikle sınırlı miktarda eğitim verisi olduğunda modelin aşırı uyumunu (overfitting) önlemek ve çeşitli koşullar altında model performansını iyileştirmek için kritik bir tekniktir. Bu çalışmada uygulanan veri artırma teknikleri, modelin farklı ışık koşulları, açılar ve ölçeklerde arazi örtüsü özelliklerini tanımasını sağlamaktadır. Eğitim sürecini optimize etmek ve sınıf dengesizliği sorunlarını gidermek amacıyla birleşik Jaccard-Dice kayıp fonksiyonu ve AdamW optimizasyon algoritması uygulanmıştır. Jaccard-Dice kayıp fonksiyonu, özellikle dengesiz sınıf dağılımına sahip segmentasyon problemlerinde etkili bir şekilde çalışabilmektedir. AdamW optimizasyon algoritması ise ağırlık bozulmasını (weight decay) daha iyi kontrol ederek modelin eğitimini daha stabil hale getirmektedir.Deneyler, Polonya'dan yüksek çözünürlüklü RGB ortofotoğrafları içeren LandCover.ai veri seti üzerinde gerçekleştirilmiştir. Bu veri seti, çeşitli arazi örtüsü özelliklerini içeren gerçek dünya verilerini temsil etmekte olup, uzaktan algılama alanında segmentasyon modellerinin değerlendirilmesi için uygun bir benchmark oluşturmaktadır. Veri seti, 25 cm/piksel çözünürlüğünde 33 görüntü ve 50 cm/piksel çözünürlüğünde 8 görüntü içerirken, binalar, ormanlık alanlar, su ve yollar için manuel anotasyonlar barındırmaktadır. Bu yüksek çözünürlüklü görüntüler, modellerin piksel seviyesinde ayrıntılı segmentasyon yapabilme yeteneklerini test etmek için idealdir. On deney gerçekleştirilmiş; tüm parametreler sabit tutulmuş ve her bir koşuda maksimum olası yığın büyüklükleri kullanılmıştır. Deneyler, Kaggle'ın ücretsiz bulut GPU kaynakları kullanılarak P-100 işlem birimleri üzerinde uygulanmıştır. Bu yaklaşım, sınırlı hesaplama kaynaklarına sahip araştırmacılar için modellerin fizibilitesini değerlendirme imkanı sağlamaktadır. P-100 GPU'lar, orta düzeyde hesaplama gücü sunmakta olup, yüksek maliyetli özel donanım gerektirmeden derin öğrenme modellerinin eğitilebilmesine olanak tanımaktadır. xxiv Bu, çalışmanın sonuçlarının geniş bir araştırmacı kitlesi için uygulanabilir olmasını sağlamaktadır. Eğitim süreci, başlangıç öğrenme hızı olarak 0.0001 belirlenmiş ve plato algoritması, AdamW optimizasyonu ile Jaccard-Dice kaybı kombinasyonu kullanılarak 40 epok boyunca eğitilmiştir. Plato algoritması, eğitim sırasında performans iyileşmesi durduğunda öğrenme hızını azaltarak modelin yerel minimumlara takılmasını önlemekte ve daha iyi bir yakınsama sağlamaktadır. AdamW optimizasyonu, klasik Adam optimizasyonunun geliştirilmiş bir versiyonu olup, ağırlık bozulmasını daha etkili bir şekilde kontrol etmektedir. Jaccard-Dice kaybı ise, özellikle dengesiz sınıf dağılımına sahip segmentasyon problemlerinde etkili bir performans göstermektedir.Sonuçlar, özellikle SegFormer modelinin yol sınıfında en iyi tahmin doğruluğunu sağladığını göstermiştir. Yol sınıfı, genellikle ince ve uzun yapılar içerdiğinden ve diğer arazi örtüsü özelliklerinden ayırt edilmesi zor olabildiğinden, bu sonuç SegFormer'in kompleks yapıları yakalama yeteneğini göstermektedir. SegFormer modeli, %88.78 genel Intersection over Union (IoU) puanı ile en iyi performansı sergilemiştir. Bu sonuç, Landcover.ai makalesinde önerilen Deeplabv3+ modelinin %85.56 IoU puanını geçmiştir. SegFormer'in daha yüksek IoU puanı elde etmesi, transformer tabanlı modellerin global bağlamı daha iyi yakalama yeteneklerinden kaynaklanabilir. Yol ve bina gibi karmaşık yapıları segmente ederken, global bağlamın dikkate alınması önemlidir ve transformer tabanlı modeller bu konuda avantaj sağlamaktadır. SegFormer modeli, en yüksek F1 ve IoU puanlarını elde ederek diğer modellerin önüne geçmiştir. F1 skoru, hassasiyet (precision) ve geri çağırma (recall) metriklerinin harmonik ortalaması olup, sınıf dengesizliği durumunda model performansını değerlendirmek için önemli bir metriktir.Modelin sınıf bazında performansları şu şekildedir: Arka Plan, Su, Yol, Ormanlık Alanlar ve Bina için sırasıyla F1 skorları 0.9387, 0.9789, 0.8436, 0.9507 ve 0.8975; IoU skorları ise sırasıyla 0.8828, 0.9606, 0.7117, 0.8032 ve 0.8073 olarak elde edilmiştir. Su sınıfının en yüksek F1 ve IoU skorlarına sahip olması, bu sınıfın diğer arazi örtüsü tiplerine göre daha belirgin spektral özellikler göstermesinden kaynaklanabilir. Yol sınıfının nispeten düşük IoU skoruna sahip olması ise, yolların ince ve uzun yapılar olması ve bazen bina veya diğer yapılarla karıştırılabilmesinden kaynaklanabilir. Bina sınıfı için elde edilen skorlar, binaların kompleks yapılarına rağmen modelin bu yapıları başarılı bir şekilde segmente edebildiğini göstermektedir. Ormanlık alanlar için yüksek F1 skoru, bu sınıfın belirgin doku özellikleri nedeniyle diğer sınıflardan kolayca ayırt edilebildiğini göstermektedir. SegFormer taban modeli, Landcover.ai veri setinde olağanüstü bir başarı gösterse de yüksek işlem gücü ihtiyacı nedeniyle daha büyük ve çeşitli veri setleri üzerinde performans süresinin uzayabileceği gözlemlenmiştir. Transformer tabanlı modeller, genel olarak CNN tabanlı modellere göre daha fazla hesaplama kaynağı gerektirmektedir. Bu durum, özellikle sınırlı donanım kaynaklarına sahip gerçek zamanlı uygulamalar için bir dezavantaj oluşturabilir. Ancak, bulut tabanlı hesaplama kaynaklarının giderek daha erişilebilir hale gelmesi, bu kısıtlamaların etkisini azaltabilir. Ayrıca, modellerin optimizasyonu ve daha verimli mimari tasarımlar ile bu sorunlar hafifletilebilir. Sonuçlar, yüksek çözünürlüklü uydu görüntülerinin segmentasyonunda model seçiminin ve hiperparametre ayarlarının önemine dikkat çekmektedir. Farklı modellerin performansları arasındaki farklar, model mimarisinin yanı sıra hiperparametre ayarlarının da modelin başarısında önemli bir rol oynadığını göstermektedir. Özellikle öğrenme hızı, kayıp fonksiyonu ve optimizasyon algoritması gibi faktörler, model performansını önemli ölçüde etkileyebilmektedir.Bu çalışma, özellikle SegFormer modeliyle transformer tabanlı modellerin, karmaşık arazi örtüsü özelliklerini yakalamada ve sınıflandırma doğruluğunu artırmada CNN modellerine kıyasla üstünlük sağladığını ortaya koymaktadır. Bu sonuçlar, uzaktan algılama görüntülerinin segmentasyonu için transformer tabanlı modellerin kullanımının yaygınlaşmasına katkıda bulunabilir. Ayrıca, bu çalışmanın bulguları, gelecekteki araştırmalar için yeni yönler açmaktadır. Örneğin, transformer tabanlı modellerin farklı uzaktan algılama veri setleri veya sensör tipleri üzerindeki performansının incelenmesi, bu modellerin genelleme yeteneklerinin daha iyi anlaşılmasına yardımcı olabilir. Ayrıca, CNN ve transformer tabanlı modellerin hibrit yaklaşımları, her iki model türünün avantajlarını birleştirerek daha güçlü segmentasyon modelleri oluşturma potansiyeline sahiptir. Sonuç olarak, bu çalışma, uzaktan algılama görüntülerinin segmentasyonu için derin öğrenme modellerinin uygulanmasına değerli bir katkı sağlamakta ve gelecekteki araştırmalar için umut verici yönler sunmaktadır.
Özet (Çeviri)
Land Semantic segmentation of remote sensing (RS) images involves pixel-wise classification of different land cover types, such as vegetation, water, or urban areas. This process creates valuable geographical information which helps to better understand changes in earth surface. It is an important research topic in RS that aims to develop and advance different algorithms to accurately map land characteristics using supervised or unsupervised/weakly-supervised technics. This task holds an important role in real-world scenarios such as disaster management, urban planning, smart city applications, and socio-economic applications. This study investigates the application of deep learning models for multi-class semantic segmentation of land cover features. Traditionally machine learning methods struggles with high resolution image data due to their lack of speed and performance limitations on complex tasks. Convolutional Neural Networks (CNN) have surpassed traditional methods in accuracy and efficiency. However, the advecement of transformer-based models has further improved the performance. This Study explores and compares the performance of CNN models such as Unet, Unet++ and Deeplabv3+ with transformer based models SegFormer and Vision Transformer (ViT). This study employed various data augmentation techniques such as crop, rotate, flip, shift, scale, random brightness, and contrast to increase the training set and improve model generalization. The use of a combined Jaccard-Dice loss function and the AdamW optimizer further optimized the training process and addressed class imbalance issues. Ten experiments were conducted, with the batch sizes set to the maximum possible for each run, while keeping all other parameters constant. The SegFormer model demonstrated the best prediction accuracy, particularly excelling in the road class. It outperformed all other models evaluated in the experiments, delivering the highest F1 and IoU scores. Experiments were conducted on the LandCover.ai dataset, which contains high-resolution RGB orthophotos from Poland. The dataset includes 33 images at 25 cm/pixel resolution and 8 images at 50 cm/pixel resolution with manual annotations for buildings, woodlands, water, and roads. We implemented the project on Kaggle's free cloud GPU resources using P-100 processing units. The training process took 40 epochs with an initial learning rate of 0.0001 using a reduction-on plateau algorithm, the AdamW optimizer, and a combination of Jaccard and Dice loss functions. Segformer model achieved the best performance with overall 88.78% intersection of union (IoU) score. This result surpasses the original Landcover.ai article's proposed Deeplabv3+ model, which achieved an 85.56% Intersection over Union (IoU) score. The model achieved class-wise F1 scores of 0.9387, 0.9789, 0.8436, 0.9507, and 0.8975 for Background, Water, Road, Woodlands, and Building, respectively, with IoU scores of 0.8828, 0.9606, 0.7117, 0.8032, and 0.8073 respectively. Even though SegFormer base model performed exceptionally on the Landcover.ai dataset, its high need in processing units can make the training process longer. This might potentially lead to slower performance on larger diverse datasets. The findings emphasize the importance of model selection and hyperparameter tuning in remote sensing segmentation. This study shows that transformer based models, especially SegFormer, outperform CNNs in capturing complex land cover features and improving segmentation accuracy.
Benzer Tezler
- Object-based urban land cover extraction using the synergy of lidar data and very high resolution multispectral imagery
Lidar verisi ve çok yüksek çözünürlüklü çok bantlı görüntü sinerjisini kullanarak nesne-tabanlı kentsel arazı örtüsü çıkarımı
ENES HALICI
Yüksek Lisans
İngilizce
2023
Jeodezi ve FotogrametriHacettepe ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA TÜRKER
- Yüksek çözünürlüklü uydu görüntüleri kullanarak benzer spektral özelliklere sahip doğal nesnelerin ayırt edilmesine yönelik bir metodoloji geliştirme
Developing a methodology for discriminating natural objects having spectrally similar features using very high resolution satellite imagery
İSMAİL ÇÖLKESEN
Doktora
Türkçe
2015
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHSİN YOMRALIOĞLU
- Banliyö alanlarda çok yüksek çözünürlüklü gerçek ortofotolardan nesne-tabanlı makine öğrenmesi sınıflandırması ile arazi örtüsü haritalama
Land cover mapping in suburban areas with object-based machine learning classification from very high resolution true orthophotos
RAZİYE BÜYÜKDEMİR ÇETİNKAYA
Yüksek Lisans
Türkçe
2025
Jeodezi ve FotogrametriHacettepe ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA TÜRKER
- Yüksek çözünürlüklü uydu verileri kullanılarak şehir alanlarının incelenmesi
Investigation of city areas using high-resolution satellite data
RAZİYE HALE TOPALOĞLU
Doktora
Türkçe
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. ELİF SERTEL
- Yüksek mekansal çözünürlüklü uydu/uçak platformlu görüntüler ve CBS teknolojisi kullanılarak Van-Erciş depremi sonrası bina hasar tespiti
Determination of building damage after Van-Ercis earthquake by using very high resolution satellite/aircraft platforms and GIS technology
ASLI SABUNCU
Doktora
Türkçe
2018
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. AYŞE FİLİZ SUNAR