Deep metric learning applied to crop classification from multi-spectral multi-temporal remote sensing data
Derin metrik öğrenmenin çoklu-zamanlı ve çoklu-bantlı uzaktan algılanmış verilerden tarım ürünü sınıflandırmaya uygulanması
- Tez No: 665824
- Danışmanlar: PROF. DR. ZEHRA ÇATALTEPE
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 101
Özet
Tarımsal izleme ve yönetim için önemli bilgiler sağlayan arazi örtüsü sınıflandırması, uzaktan algılama alanında uzun süredir devam eden araştırma konularından biridir. Son yıllarda uyduların artması ile birlikte dünya üzerindeki bir konuma ait çoklu spektral görüntüler birkaç günde bir alınmakta, ayrıca aynı konuma ait farklı zamanlardaki görüntülere de erişim sağlanabilmektedir. Aynı alana ait hem çoklu zamansal örneklerin, hem de çoklu spektral bantların varlığı, önemli bir metodolojik zorluk oluşturmaktadır. Bu nedenle bu alanda son yıllarda kapsamlı çalışmalar yapılarak, çok sayıda yayın ortaya çıkmıştır. Ürün türlerinin spektral yansıtma özellikleri ve fenolojik gelişimi, zaman içinde tahmin edilebilir bir şekilde değişme eğilimindedir ve bu özellikler, arazi örtüsü sınıflandırması için bilgilendirici özellikleri barındırmaktadır. Bu nedenle, ürünlerin spektral imzaları ile birlikte uzun vadeli zaman serisi verileri, ürün türlerinin büyüme adımlarını yakalamak ve bu bilgileri sınıflandırmada kullanmak için gereklidir. Bununla birlikte, ürün sınıflandırmasının (ve genel olarak büyük ölçekli arazi örtüsü haritası üretiminin) ana sorunlarından biri, dayanıklılığa (veya alandan bağımsızlığa) ulaşmaktır. Daha ayrıntılı olarak, belirli bir coğrafi bölgedeki bir ürün sınıfının spektral piksel imzaları, genellikle aynı sınıfın başka bir coğrafi bölgedeki spektral piksel imzaları ile eşleşmez (örneğin, iklim farklılıkları nedeniyle, vb.). İki sahne arasındaki coğrafi uzaklık arttıkça sorun daha da kötüleşir. Bu sorunu çözmek için, metrik öğrenme, özellikle derin metrik öğrenme kullanılmaktadır. Bu yöntemle, aynı sınıftaki örneklerin birbirine daha yakın, farklı sınıflardaki örneklerin ise daha mesafeli olması sağlanarak sınıf içi varyans azaltılıp, sınıflar arası varyans arttırılmaktadır. Zamansal veriler üzerinde, özel bir tekrarlayan sinir ağı (Recurrent Neural Network - RNN) çeşiti olan, çift yönlü uzun kısa-vadeli bellek ağları (Bidirectional Long Short Term Memory; BiLSTM) bulunulan zaman adımı için tahminleme yapılırken geçmiş zaman adımlarındaki verinin etkisini de göz önünde bulundurduğundan iyi performans göstermektedir. Bununla birlikte, uzaktan algılanan tarım ürünü görüntülerindeki yüksek sınıf içi varyasyonlar ve sınıflar arası benzerlikler ürün türü sınıflandırmasında önemli zorluklar olmaya devam etmektedir. Bu sorunları çözmek için ise metrik öğrenme metotlarından faydalanılmaktadır. Bu tez kapsamında, uzaktan algılanan çoklu spektral zaman serisi verisi üzerinde tarım ürünü sınıflandırılması amacıyla, BiLSTM ağını metrik öğrenme yöntemi ile birleştirerek, paylaşılan ağırlıklara sahip üç özdeş BiLSTM'den oluşan, uçtan uca bir derin sinir ağı, Üçüz (Triplet) BiLSTM mimarisi öneriyoruz. Üçüz ağlar, birbirinden farklı üç girdi kabul eden, birbirinin aynısı üç yapay sinir ağından oluşur. Bu sinir ağlarında parametreler paylaşılır; yani her üç ağda da parametreler ortaktır. İdeal olarak, sınıflar arasındaki daha ince farklılıkları öğrenmek için bir üçüz ağın, sınıf varyanslarını temsil eden bilgilendirici üçüzlerle eğitilmesi beklenir. Daha spesifik olarak, optimum performans için ağın, referans (pivot) örnekten olabildiğince farklı olan pozitif örneklerle (yani, zor pozitifler) ve referans örneğe olabildiğince benzer olan negatif örneklerle (yani, zor negatifler) eğitilmesi gerekmektedir. Burada bahsedilen pozitif örnek, referans örnekle aynı sınıfta yer alan, negatif örnek ise referans örnekten farklı sınıfta yer alan örneği temsil etmektedir. Bu bağlamda, referans örnekten çok farklı pozitif örnekler ve referans örneğe çok benzeyen negatif örnekler seçmenin başarıma etkisini göstermek için, eğitim üçüzlerimizi seçerken iki farklı veri oluşturma düzeneği kullandık. İlk düzenekte (Triplet BiLSTM-1), üçüzleri, referans örnek ve pozitif örnek aynı sınıftan, negatif örnek ise farklı sınıftan olacak şekilde eğitim verimizdeki bölgelerden (FRH01 ve FRH02) rastgele seçerek oluşturduk. İkinci düzenekte ise (TripletBiLSTM-2), ağın farklı bölgeler arası spektral varyasyonları daha iyi tanıması için, üçüzleri, referans örneği ve negatif örneği eğitim verimizdeki aynı bölgeden, pozitif örneği ise eğitim verimizdeki farklı bir bölgeden seçerek oluşturduk. Sınıflandırma için ağırlıklı çapraz entropi kaybı, metrik öğrenme için ise üçüz kayıp (triplet loss) kullandık. Üçüz kayıp, model girdileri arasındaki uzaklığı kullanarak, ağımızın yalnızca doğru sınıflandırmaya yol açan özellikler üretmekle kalmayıp, aynı zamanda aynı sınıf içinde düşük varyansa ve farklı sınıflar arası yüksek varyansa sahip, dolayısıyla potansiyel olarak daha yüksek performansa yol açan özellik vektörleri üretmeyi öğrenmesini de sağlamaktadır. Böylelikle önerdiğimiz mimari sınıflandırma hatasını en aza indirmekle kalmayıp, aynı zamanda alt ağları daha iyi ayırt edici derin özellikler üretmeye zorlayarak daha başarılı sınıflandırma yapılmasına olanak sağlamaktadır. Önerilen yöntem, kısa süre önce ürün türü sınıflandırması için literatüre sunulan Sentinel-2 tarımsal zaman serisi verisinin, BreizhCrops, üzerinde kapsamlı deneyler ile analiz edilmiştir. İlk olarak PyTorch framework'ü için geliştirilen metrik öğrenmesi kütüphanesi kullanılarak, çeşitli metrik öğrenme kayıp fonksiyonları incelenmiştir. Bunlardan en sık kullanılanlar kontrast kaybı ve üçüz kayıp olup, n-ikili kayıp (n-pair loss) ve açısal kayıp (angular loss) üçüz kaybını iyileştirmek amacıyla ortaya çıkmış ve literatürde üçüz kaybından daha iyi performans gösterdikleri belirtilmiştir. Yapılan deneylerde, literatürün aksine, üçüz kayıp fonksiyonu, diğer kayıp fonksiyonlarına göre daha iyi performans göstermiş olup, bu nedenle deneylere üçüz kayıp fonksiyonu ile devam edilmiştir. İlk deneyler, veri setindeki dört bölgeden ikisi eğitim (FRH01 ve FRH02), biri doğrulama (FRH03) ve diğeri test (FRH04) amacıyla kullanılarak, model için en iyi parametreleri bulmak için yapılmıştır. Bu deneylerde çeşitli değerlerdeki küme boyutu, katman sayısı, gizli vektör boyutu, ağırlık katsayısı (lamda, ), vektörler arası uzaklık değeri (margin, m) ve seyreltme (dropout) oranı kullanılarak 144 farklı parametre kombinasyonu elde edilmiş ve eğitim verisi üzerinde her bir parametre kombinasyonu eğitilerek, bu parametrelerin doğrulama verisindeki başarımı belirlenmiştir. Tüm modeller rastgele ağırlık başlatmanın tahminlere olan etkisini azaltmak için üç kez eğitilmiş ve test edilmiştir. Sonuç olarak, karşılaştırılan sayısal sonuçlar modellerin üç çalıştırmadaki ortalama sonuçlarından oluşmaktadır. Bu deneyler sonucu kappa metriğine göre en iyi performans gösteren parametre kümesi ile üç bölge üzerinde (FRH01, FRH02, FRH03) eğitim yapılarak test kümesi (FRH04) üzerinde sonuçlar paylaşılmıştır. Sınıflandırma sonuçları, tüm sınıflarda genel doğruluk (overall accuracy - OA), Cohen'in kappa skoru (κ) , ortalama f1 skoru (f1-score), ortalama hassaslık (precision) ve ortalama geri çağırma (recall) performans metrikleri ile ölçülmüştür. Bu metrikler kullanılarak önerdiğimiz Triplet BiLSTM mimarisi, temel makine öğrenimi modellerinden Rastgele Orman algoritması (Random Forest - RF), karar ağacı temelli bir makine öğrenimi sistemi olan Extreme Gradient Boosting (XGBoost; XGB) ve derin sinir ağları kullanan modellerle (Temporal CNN, Ms-ResNet, InceptionTime, StarRNN, Transformer, Vanilla LSTM ve Vanilla BiLSTM) karşılaştırılmıştır. Bu modellerin yanında, metrik öğrenme alanında yaygın olarak kullanılan kontrast kaybı, üçlü kaybın tam olarak karşılığı olduğundan, önerdiğimiz üçlü kayıplı Triplet BiLSTM ağının, kontrast kaybı kullanan Siyam ağı ile de karşılaştırması yapılmıştır. Yapılan deneyler sonucunda, klasik makine öğrenimi tabanlı yöntemlerden olan RF modelinin, zaman serisi verisinin sıralı doğasını hesaba katmadığından dolayı kullanılan performans metriklerine göre en kötü performansı gösterdiği gözlenmiştir. Buna karşın, evrişimsel sinir ağı (CNN) tabanlı yaklaşımlar, RF modelini yüzde 10 oranında kappa puanı ile geride bırakarak, klasik makine öğrenimi yöntemlerine göre derin özelliklerin üstünlüğünü ortaya koymaktadır. Bununla birlikte en yüksek performans, zamansal serileri aralarındaki bağımlılıkları öğrenebilen RNN tabanlı yöntemler ile elde edilmiştir. Sonuç olarak, önerdiğimiz Triplet BiLSTM mimarisinin en yakın alternatifine göre kappa metriği ile yüzde 2 daha iyi performans gösterdiği gözlemlenmiştir. Bunun yanında veriyi rastgele seçtiğimiz ikililerle oluşturarak eğittiğimiz Siyam BiLSTM ağının, geleneksel BiLSTM ağına göre hem genel doğruluk hem de kappa metriğine bağlı olarak geride kaldığının ölçülmesi, veri hazırlama yöntemlerimize göre üçüzlerin rastgele oluşturulması yerine, negatif örneğin referans örnek ile aynı bölgeden, pozitif örneğin ise referans örnek ile farklı bir bölgeden seçildiği yöntemin daha başarılı sonuç verdiğini kanıtlamaktadır. Nitekim bilgilendirici üçüzlerin seçilmesine özen gösterilerek oluşturulan veri ile eğitilen Triplet BiLSTM modelinin 0,65'lik bir kappa ve 0,71'lik bir genel doğruluk ile genel olarak en iyi performansı sergilediği görülmektedir. Bu tez uzaktan algılanan veri üzerinde, ürün sınıflandırılması kapsamında metrik öğrenme ile birlikte BiLSTM'lerin ilk kullanılma girişimidir. Yapılan deneyler ile, çoklu zamanlı ve çoklu spektral bilginin BiLSTM ve metrik öğrenme metodu ile kullanımının başarıma etkisi gösterilmiştir. Buna rağmen kappa skoru, κ, cinsinden 0.65'lik bir performansın pratik amaçlar için yeterli olduğu söylenemez. Bu nedenle gelecek çalışmalarda, özellikle çoklu spektral veriler için hazırlanmış metrik kayıp fonksiyonlarının ve üçüz seçim stratejilerinin başarımının araştırılmasını öneriyoruz. Ayrıca, zamansal bilgilerle birlikte uzamsal bilginin de daha iyi kullanılması için CNN-LSTM hibrit modelinin, Triplet ağının bir dalı olarak kullanılmasını öneriyoruz. Bununla birlikte doğrulama verisi üzerinde error analizi yapılarak farklı dağılıma sahip modellerin toplu öğrenme metotları ile birlikte kullanılmasının başarımı artıracağını düşünüyoruz.
Özet (Çeviri)
Land crop type classification provides crucial information for agricultural monitoring and management. With the proliferation of satellites in the last decade, multi-spectral images of the entire globe are taken every few days, and images of the same location at different times are publicly available. Nevertheless, the existence of both multiple temporal samples and spectral bands for a specific location constitutes a significant methodological challenge in terms of their analysis. Hence, it is one of the long-standing research problems in the remote sensing area and has led to a large number of published works to this end. The reflectance characteristics and phenological development of crop types employ the most informative features for land cover classification since their characteristics tend to change over time in a predictive manner. Therefore, a long term observation, time series data, together with spectral signature is necessary to capture the growth steps of crop types to discriminate accordingly. However, one of the major issues of crop classification (and large scale land cover map production in general) is achieving robustness (or domain invariance). In more detail, the spectral pixel signatures of a class in one particular geographical scene, often, do not match with that of the same class at another distinct scene (e.g., due to climate differences, etc.). The problem worsens as the geographical distance between the two scenes increases. A general way to handle this is metric learning, especially deep metric learning, which brings samples of the same class closer to each other while ensuring that the samples from different classes are far from each other. As such, it can be used to reduce intra-class variance and increase inter-class variance of the samples. In this thesis, we propose an end to end deep network for the classification of multi-spectral time series data and apply them to crop type mapping. Bidirectional Long short-term memory networks (BiLSTMs) are well established in this regard, thanks to their capacity to capture both long and short-term temporal dependencies. Nevertheless, in order to deal with high intra-class variance and inter-class similarity, we propose a straightforward approach where BiLSTMs are equipped with metric learning. The proposed architecture accommodates three distinct branches with shared weights, each containing a BiLSTM module, that are merged through a triplet loss. We employ weighted cross-entropy loss for classification and triplet loss for metric learning. The proposed network, thus, not only minimizes classification error but enforces the sub-networks to produce more discriminative deep features. When two samples belong to the same class, the network encodes these samples into vectors that are close to each other in the feature space, while samples from different classes are encoded into vectors that are far from each other. A triplet network is expected to be trained with informative triplets; with positive samples that are too different from the anchor (i.e., hard positives), and negative samples too close to the anchor (i.e., hard negatives). Thus, we employ two setups for underlining the significance of selecting training triplets. In setup-1 (Triplet BiLSTM-1), triplets are randomly created, by selecting positive samples from the same class and negative samples from different classes using the entire training set (FRH01 and FRH02). In setup-2 (TripletBiLSTM-2), on the other hand, to better utilize the inter-regional spectral variations of classes, the anchor and negative samples are selected from the same region, and the positive samples are selected from the remaining training region. The proposed methodology is validated via Breizhcrops, a very recently introduced and challenging time series dataset for crop type mapping. First, using the PyTorch metric learning library, various metric learning loss functions have been investigated, among which contrastive loss and triplet loss functions are the most common ones. Later on, n-pair loss and angular loss have emerged to improve the triplet loss and in the literature, it is stated that they perform better than the triplet loss. Contrary to the literature, the triplet loss performed better than the other loss functions in our experiments; thus, the experiments continued with the triplet loss function. The first experiments were conducted to find the best parameters, using two regions for training (FRH01 and FRH02), one region for validation (FRH03) and the other one for testing (FRH04). In these experiments, several values of batch size, number of layers, hidden vector size, weight coefficient lambda (λ), margin (m) value, and dropout rate were used which resulted in 144 different parameter combinations. After training the model with training data for each parameter, performance results were taken on validation data for each parameter. All the models were trained and tested three times to reduce the impact of random weight initialization on predictions. After the experiment, training was performed on three regions (FRH01, FRH02, FRH03) with the parameter set showing the best performance according to the kappa metric, and the results were shared on the test set (FRH04). The classification results were measured by overall accuracy (OA), Cohen's kappa score (κ), mean f1-score, mean precision and mean recall. Using these performance metrics, the proposed Triplet BiLSTM model was compared with a machine learning classifier, Random Forest (RF), a decision tree-based machine learning system, Extreme Gradient Boosting (XGBoost), and several deep neural network models (Temporal CNN, Ms- ResNet, InceptionTime, StarRNN, Transformer, Vanilla LSTM and Vanilla BiLSTM). Besides these models, since the commonly used contrastive loss for Siamese networks is exactly the counterpart of the triplet loss, we have also compared the proposed Triplet BiLSTM network with a Siamese network with contrastive loss. As a result of the experiments, it has been observed that the RF model performed the worst among all the models since it does not consider the sequential nature of the time series data. In contrast, the convolutional neural network (CNN) based approaches outperform the RF model with a kappa score of 10 percent, revealing the superiority of deep features over classical machine learning methods. However, the highest performance was obtained with RNN-based methods that can learn the dependencies in time series data. It was measured that the Siamese BiLSTM model which is trained with randomly selected input pairs, performed worse than the traditional BiLSTM model based on both overall accuracy and kappa metric. This proves that instead of randomly generating triplets, selecting the negative sample as close to the anchor sample as possible and selecting the positive sample as far from the anchor sample as possible yields successful results. The evaluation results indicate that, through a careful selection of training triplets across multiple geographical regions, the proposed deep metric learning method outperformed its closest alternative by 2 percentile kappa points. To this end, the results highlight the effectiveness and potential of the metric learning strategy together with RNNs in this context. This is the first attempt of using LSTMs together with metric learning in the context of remote sensing data analysis. As future research, metric loss functions, specifically crafted for multi-spectral data as well as novel triplet selection strategies can be further explored. Moreover, a CNN-LSTM hybrid model can be used as a branch of the Triplet network for better use of spatial information together with the temporal information in the time series remote sensing data. Furthermore, this study can be improved by the use of an ensemble of classification models, that exhibits different patterns, as a branch of the Triplet network.
Benzer Tezler
- Gelişmiş makine öğrenimi teknikleri ile çok zamanlı hava ve uydu görüntüleri kullanılarak mısır (Zea mays) türlerinin fenoloji tabanlı sınıflandırılması
Phenology- based classification of maize (Zea mays) species using multi̇- temporal aerial and satellite imagery with advanced machine learning techniques
OSMAN YAVUZ ALTUNTAŞ
Yüksek Lisans
Türkçe
2024
Jeodezi ve FotogrametriGebze Teknik ÜniversitesiHarita Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSMAİL ÇÖLKESEN
- Classification of agricultural land cover using satellite imagery with deep learning
Derin öğrenme ile uydu görüntüleri kullanılarak tarımsal arazi örtüsünün sınıflandırılması
ABDULWAHEED ADEBOLA YUSUF
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. GALİP AYDIN
- CNN-based text-independent automatic speaker identification
Evrişimsel sinir ağı tabanlı metinden bağımsız otomatik konuşmacı tanılama
MANDANA FASOUNAKI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKHAN İNCE
- Deep feature transfer from deep learning models into machine learning algorithms to classify COVID-19 from chest X-ray images
Göğüs röntgeni görüntülerinden COVID-19 sınıflandırması yapmak amacıyla derin öğrenme modellerinden makine öğrenmesi algoritmalarına derin öznitelik aktarımı
OZAN GÜLDALİ
Yüksek Lisans
İngilizce
2021
Matematikİstanbul Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜL İNAN
- Enhancing the stability and quality assessment of visual explanations for thorax disease classification using deep learning
Derin öğrenme kullanarak göğüs hastalıkları sınıflandırması için görsel açıklamaların kararlılık ve kalite değerlendirmesini geliştirme
SHAKIBA RAHIMIAGHDAM
Doktora
İngilizce
2023
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HANDE ALEMDAR