Random forest classification of tomato fields with planet satellite image data and accuracy assessment
Planet uydu görüntü verileriyle yüksek doğruluklu domates ürün tipi sınıflandırmasında rastgele orman sınıflandırma yönteminin kullanımı ve doğruluk analizi
- Tez No: 637631
- Danışmanlar: PROF. DR. AYŞE FİLİZ SUNAR
- Tez Türü: Yüksek Lisans
- Konular: Jeodezi ve Fotogrametri, Ziraat, İstatistik, Geodesy and Photogrammetry, Agriculture, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2020
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Geomatik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Geomatik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 138
Özet
Günümüzde, insan ve hayvan yaşamının devamlılığı tarımla üretilen besinlerle sağlandığından tarımın önemi son derecede büyüktür. Ancak hızla artan nüfus artışı nedeniyle, yeterli üretimin yapılabilmesi için doğru ve sürdürülebilir tarım planlamasına gereksinim vardır. Aksi halde açlık sebebiyle yaşanabilecek can kayıplarının beraberinde ortaya çıkacak gıda savaşlarının önüne geçilemez. Tarımda sürdürülebilirliği sağlamanın en etkili yolu, gelişen ve gelişmekte olan teknolojileri, tarımsal üretim sürecindeki tüm paydaşlara ve her bir aşamaya entegre etmektir. Uzaktan algılama, tarımsal üretime entegre edilebilecek en uygun teknolojilerden biridir. Tek seferde görüntü alımı ile oldukça geniş alanların izlenmesine imkan sağlayan bu teknoloji, lokal, bölgesel ve hatta küresel ölçekte üretim planlamasını mümkün kılarak karar vericilere daha geniş bir perspektif sunar. Uzaktan algılama teknolojilerinin bu planlamalara katkı sağlayacak en önemli çıktılarından biri ürün deseni haritalarıdır. Bunun için literatürde birçok çalışma mevcuttur. Özellikle hasattan önce elde edilen bölge bazlı ürün tipi haritaları ile ilgili ürünlere ait üretim durumu belirlenerek pazar hakimiyeti sağlanabilir, piyasadaki fiyat dalgalanmalarının önüne geçilebilir ve fabrikaların sezon sonu kapasiteleri için bir öngörü elde edilebilir. Bununla birlikte bakanlıklar ve tarımsal sigorta şirketleri için beyan kontrolü sağlanarak güven ortamı oluşturulabilir ve haksız uygulamaların önüne geçilebilir. Dünya genelinde domates, sofralık tüketim ve endüstriyel üretimde önemli bir paya sahiptir. Türkiye ise FAO'nun (Gıda ve Tarım Örgütü) son 25 yıllık ortalamalarına göre dünya genelindeki domates üretiminde Çin, Amerika ve Hindistan'dan sonra dördüncü sıradadır. Dört mevsimi yaşayan elverişli iklimi ve verimli toprak yapısı, Türkiye'nin domates üretimindeki bu payının en önemli etkenidir. Hem uzaktan algılama teknolojisinin tarım zincirine katkıları hem de domatesin tarımsal üretimdeki payı düşünüldüğünde, farklı bölge kırılımlarında sezonluk domates ekim alanlarının tespitiyle oluşturulan ürün deseni haritaları, üretim planlamaları için büyük bir öneme sahiptir ve yakın gelecekte bu teknoloji kaçınılmaz bir gereklilik olacaktır. Bu gerekliliğe karşın domates bitkisinin aynı bölgelerde yetiştiği çeşitli meyve ve sebzelerle gösterdiği benzer spektral özellikler, uydu görüntüleri ile tespitini zorlaştırmaktadır. Bu nedenle literatürde, uydu görüntüleri ile yüksek doğruluklu domates ekim alanı tespiti konusunda yeterli sayıda çalışma yoktur. Farklı iklim ve toprak yapısına sahip bölgelerde otomatik/yarı otomatik çalışabilecek ürün tipi sınıflandırma algoritmalarının geliştirilmesine ihtiyaç vardır. Geliştirilebilecek yöntemlerin özellikle domates bitkisi için de yüksek doğruluklu sonuç vermesi önemlidir. Bunun için öncelikle domates bitkisinin tespit edilebileceği en uygun veri setleri ile bunların kombinasyonları değerlendirilmeli, yersel çalışmalardan elde edilen veriler ile en uygun sınıflandırma algoritması belirlenmelidir. Bu bağlamda bu tez çalışması, domates üretiminde ihtiyaç duyulan daha doğruluklu tematik harita üretimine yönelik yapılmış olan bir araştırma çalışmasıdır. Çalışmanın temel amacı, uydu görüntüleri ile yüksek doğruluklu domates ekim alanlarının tespitinin yapılmasıdır. Bu amaçla, Türkiye'nin domates yetiştiriciliğinde en önemli bölgelerinden biri olan Karacabey'de, dünyanın en büyük uydu takımlarından biri olan Planet'in yüksek zamansal ve mekansal çözünürlüklü görüntüleri kullanılarak sınıflandırma ve doğruluk değerlendirmesi yapılmıştır. Türkiye'de açık tarla domates üretiminin yapıldığı başlıca bölgeler Bursa, Balıkesir, Manisa ve İzmir'dir. Bursa, domates içerikli işlenmiş ürünlerin üretildiği fabrikalara ev sahipliği yaptığından Türkiye için stratejik bir konumdadır. Karacabey ise Mustafakemalpaşa Ovası ile birlikte Bursa'daki önemli tarımsal üretim bölgelerinden biridir ve bu sebeple çalışma alanı olarak tercih edilmiştir. Diğer yandan yörüngedeki birçok uydusu nedeniyle bitkilerin fenolojik gelişmelerini bilgi kaybı olmadan izlenmesine olanak sağlayan Planet uydu görüntüleri, günümüz tarımsal çalışmalarda ön plana çıkmaya başlamıştır. Aynı zamanda mekansal çözünürlüğü de tarımsal alanların izlenmesi ve takibi için uygundur. Çalışmada Mart ayından Ağustos ayına kadar toplamda 18 uydu görüntüsü göz önüne alınmıştır. Açık alanda yetiştirilen domates bitkisinin Karacabey'deki genel ekim ve hasat tarihleri baz alınarak, ekim öncesinden bitki yeşilliğinin en yoğun olduğu evrenin sonuna kadarki dönem, yani domatesin fenolojik gelişim sürecinin yaklaşık \%80'ini kapsayan gelişme periyodu dikkate alınmıştır. Bu tarih aralığında bulutsuz (atmosferik etki içermeyen) görüntülerin seçimine dikkat edilmiştir. Sınıflandırmada günümüzde çoğu araştırmacı tarafından daha doğruluklu sonuçlar vermesi nedeniyle tercih edilen Rastgele Orman yöntemi kullanılmıştır. Kontrollü bir makine öğrenmesi yöntemi olan Rastgele Orman uygulaması için yersel çalışma yapılarak eğitim veri seti oluşturulmuştur. Eğitim veri seti, bölgede ilgili dönemde yetişen on farklı ürünü içermektedir. Bununla birlikte sınıflandırma doğruluğunu arttırmak amacıyla farklı görüntü özellikleri birer değişken olarak orjinal görüntü veri setine eklenmiştir. Bu özellikler, en yaygın bitki indekslerinden biri olan NDVI ile ASM, Entropy ve MOC2 GLCM doku parametreleridir. NDVI, genel olarak biyokütlenin miktarı ve durumu hakkında bilgi veren spektral bir indekstir. Farklı ürün cinslerinin spektral özelliklerine bağlı olarak indeks değerleri değiştiğinden, NDVI'ın ürün tipi sınıflandırmalarında sıklıkla tercih edilmektedir. Bunun yanı sıra GLCM doku parametrelerinden biri olan ASM, homojenliğin ve tekdüzeliğin ölçüsüdür. Homojen bölgelerde ASM değeri yüksektir. Diğer bir doku olan Entropy ise rastgelelik hakkında bilgi sağlar ve görüntüdeki özelliklerin karmaşıklık durumunu belirler. Son olarak MOC2, korelasyonun ölçüsüdür. Yani dağılım fonksiyonundaki ilişkileri değerlendirerek dokunun karmaşıklığını ve ilgili bölgeden elde edilen bilginin bağımlılığını ölçer. Çalışmada kullanılacak doku özelliklerinin belirlenmesi için öncelikle görüntü veri setindeki 18 görüntüde 13 farklı özellik hesaplanmıştır. Eğitim veri setindeki her bir poligon için içerdiği tüm piksellerin doku değerlerinin ortalaması alınmış, böylece poligon başına ortalama doku değerleri belirlenmiştir. Ardından eğitim setindeki ürünlere ait tüm poligonların doku değerlerinin ortalaması alınarak her bir ürün için bir doku değeri hesaplanmıştır. Son olarak her ürün için tüm tarihlerde hesaplanan doku değerleri, doku değeri-zaman grafiğinde gösterilerek, ürünlerin 13 özellik için zamansal değişimleri karşılaştırılmıştır. Bölgedeki on ürünün zaman içerisinde farklı davranışlar gösterdiği üç özellik belirlenmiş, böylece sınıflandırmaya katkı sağlayabilecek özellikler birer değişken olarak çalışmaya dahil edilmiştir. Aynı zamanda bu özelliklerin tekli ve farklı çoklu kombinasyonları sınıflandırmada göz önüne alınarak, sınıflandırma doğruluğuna olan katkıları ayrı ayrı irdelenmiştir. Diğer yandan domates ekim alanlarının tespitinde görüntü özelliklerinin yanı sıra, tek-zamanlı ve çok-zamanlı uydu görüntülerinin kullanımı da değerlendirilmiştir. Literatürde çeşitli ürünler için farklı veri setleri ile yapılmış çalışmalar mevcuttur. Bu çalışmalarda tek-zamanlı ve çok-zamanlı verilerin kullanıldığı görülmüş, domates ürün sınıflandırması için en uygun olanın belirlenmesi amacıyla her iki veri setiyle de sınıflandırma yapılmıştır. Bunun için birer değişken olarak eklenen görüntü özellikleri ile oluşturulan tekli/çoklu parametre kombinasyonları, hem tek-zamanlı hem de çok-zamanlı veri setlerine uygulanarak, sınıflandırma sonuçları karşılaştırılmıştır. Tek-zamanlı sınıflandırma için 30 Haziran 2019 tarihli görüntü kullanılmıştır. Bu tarihin seçiminde, çalışmada kullanılan üç doku özelliğinin zamansal grafiklerinden yararlanılmıştır. Bunun için domates ile diğer ürünlerin, özellikle en benzer spektral özelliklere sahip olan biber, karpuz ve mısır bitkilerinin farklı değerlere sahip olduğu tarihler belirlenmiş, en yüksek farkın gözlendiği en uygun fenolojik tarih seçilmiştir. Uydu görüntülerinin sınıflandırılmasındaki en önemli aşamalardan biri de doğruluk değerlendirmesidir. Bu ise, seçilen yönteme ve doğruluğun test edilmesinde kullanılan verilerin bölgeyi ne kadar gerçeğe yakın temsil ettiğine bağlı olarak doğruluk değerlendirmesinin farklı sonuçlar vermesinden kaynaklanmaktadır. Sınırlı sayıdaki mevcut veri ile gerçeğe en yakın doğruluk sonucunu elde edebilmek için literatürde çeşitli istatistiksel yöntemler mevcuttur. Bu çalışmada, Rastgele Orman sınıflandırmasının doğruluk değerlendirmesinin yanı sıra hem yersel çalışma hem de görsel yorumlama ile toplanan test verilerinin güvenilirliğini belirlemek için Önyükleme (Bootstrapping) yöntemi tercih edilmiştir. Bu yöntem, çok sayıda doğruluk değerlendirmesini test verisinin farklı kombinasyonları ile yaparak, tek bir veri setine bağlı yanlı sonuçların oluşmasını önler ve aynı zamanda elde edilen doğruluk için bir güven aralığı belirler. Önyükleme yöntemi, test verisini dikkate alır ve yalnızca doğruluk değerlendirmesinde kullanılarak sınıflandırma modelinin çalışmasında etki etmez. Bu çalışmada bu yönem için alt örneklem sayısı test veri setinin sayısına eşit ve tekrar sayısı 1000 olarak alınmıştır. Diğer yandan yersel çalışma ile doğru ve güvenilir veri toplamak zorlu, zaman alıcı ve maliyetli bir süreçtir. Bu yüzden bu çalışmada, yeterli sayıda test verisi toplanamadığı durumda elde edilecek domates ürün sınıflandırması sonuçlarının nasıl değerlendirileceği ve yeterli test verisi olduğu durumda elde edilen doğruluk sonuçlarıyla ne kadar fark göstereceği ortaya konmuştur. Bunun için Katmanlı K-Katlamalı Çaprak Değerlendirmeli (Stratified K-Fold Cross-Validation) Rastgele Orman sınıflandırması yapılmıştır. Çapraz Değerlendirme, istatistikte yaygın olarak kullanılan bir yöntemdir ve farklı çeşitleri mevcuttur. Bu çalışmadaki veri setinin her bir üründen farklı sayıda poligon verisi içermesi sebebiyle orantılı bir dağılım yapılması, yani modelin herhangi bir sınıfa fazla veya az ağırlık verilmesini önlemek için Çapraz Değerlendirme'nin Katmanlı K-Katlamalı alt yöntemi seçilmiştir. Uygulamada, başlangıçta kullanılan eğitim ve test verileri birleştirilerek tek bir veri seti oluşturulmuş, bu veri seti beş eşit parçaya bölünerek her bir parça, test için kullanılana kadar sınıflandırma tekrar edilmiştir. Beş sınıflandırmanın doğruluk değerlendirme sonuçlarının ortalaması alınarak sınıflandırma doğruluğu belirlenmiştir. Tek zamanlı/çok zamanlı veri setlerinin tekli/çoklu parametre kombinasyonları ile yapılan tüm sınıflandırma ve doğruluk değerlendirmesi sonuçlarına bakıldığında, çok-zamanlı 4-bantlı uydu görüntülerine NDVI, ASM ve Entropy özelliklerinin eklendiği kombinasyonun en yüksek doğruluğu verdiği görülmüştür. Diğer yandan MOC2 doku özelliğinin sınıflandırmaya katkısının olmadığı saptanmıştır. Tüm tekli/çoklu kombinasyonlar için yapılan doğruluk değerlendirmelerinde, tek-zamanlı sınıflandırmaların doğruluğu, çok-zamanlı sınıflandırmalardan \%10 ila \%15 daha düşük bulunmuştur. Doğruluk analizi sonuçları ile kullanılan test verisi güvenilirliğinin, en yüksek ihtimalle \%5 güven aralığı içerisinde olduğu görülmüştür. Son olarak, yeterli test verisi olmadığında da aynı veri seti ve değişken kombinasyonunun doğruluğu yüksek bulunduğundan, Çapraz Değerlendirme yönteminin güvenilir olduğu ve test verisi olmadığında da kullanılabileceği sonuçlar bölümünde vurgulanmıştır.
Özet (Çeviri)
The importance of agriculture is significant since the foods produced by agriculture are the fundamental source of human and animal life. However, due to the rapidly increasing population growth, reliable and sustainable agricultural planning is required for sufficient production. Otherwise, food wars that will occur with loss of life due to hunger cannot be prevented. The most effective way to ensure sustainability and reliability in agriculture is to provide developed and emerging technologies to all stakeholders in the agricultural chain and integrate them into each production step. Remote sensing is one of the most suitable technologies that can be integrated into agricultural production. Remote sensing technology, which enables to monitor large areas using imaging sensors, provides a broader perspective to decision-makers by giving them a chance to plan local, regional, and even global production. One of the most important outputs of remote sensing technologies that will contribute to the plans is crop type maps. There are lots of studies in the literature about this topic. Tomato has a vital role around the world with the amount of fresh consumption and industrial production. Turkey ranks fourth place across the globe at tomato production, according to FAO's (Food and Agriculture Organizations of the United Nations) latest 25-year averages. Its fertile soil and favorable climate with having four seasons are the most significant factors of Turkey's share in the tomato production. Considering both the contributions of remote sensing technology to the agricultural chain and the position of tomato in agricultural production, seasonal tomato cultivation maps with several regional breakdowns are of great importance for production planning and will be an inevitable necessity soon. Despite these requirements, it is challenging to detect tomato plantations with satellite imagery due to the similar spectral signatures of tomato and various horticultural products grown together. Therefore, there are not enough studies in the literature regarding the highly-accurate detection of tomato cultivation areas with satellite data. In this context, this thesis study is a research conducted to make more accurate thematic mapping required in tomato production. The main purpose of the study is to make highly-accurate tomato cultivation area detection with satellite images. To this end, classifications and accuracy assessments were done with the Planet images, which is one of the world's largest satellite constellations, having high temporal and spatial resolution. The study area was in Karacabey, which is one of the most significant tomato growing regions of Turkey. A total of 18 satellite images were utilized in the study from March to August. Based on the general sowing and harvesting dates of open-field tomato plant growing in Karacabey, the period from the beginning of the sowing to the peak of tomato plant greenness was taken into consideration. This is the growing period that covers approximately 80\% of tomato crops' phenological development. In this period, the attention was paid to the selection of cloudless (not having any atmospheric effects) images. In the classification, Random Forest (RF), which is one of the most preferred methods by many researchers due to its more accurate results, was used. A fieldwork has been conducted to create a training set for the RF classification, which is a supervised machine learning method that can operate lots of DTs (decision trees). The training set includes ten different crops grown in the region during the relevant period. However, in order to increase the classification accuracy, different image features are integrated into the original image dataset as new variables. The features are NDVI (Normalized Difference Vegetation Index), one of the most common vegetation indices and ASM (Angular Second Moment), Entropy, and MOC2 (Information Measures of Correlation 2) GLCM (Gray Level Co-occurrence Matrix) texture parameters. The contributions of features to the classification accuracy were analyzed independently, considering the classification of single and/or different multiple combinations of these features. On the other hand, as well as image features, the use of mono-temporal and multi-temporal satellite images were evaluated in the tomato crop classification. In order to achieve this, single/multiple feature combinations were created and added as variables to both mono-temporal and multi-temporal datasets. Finally, the classification results were compared. One of the most critical steps in the classification of satellite images is the accuracy assessment. This is because the accuracy assessment gives different results depending on the method chosen and how closely the data used to test accuracy represent the region. Several statistical methods are available in the literature to obtain the most accurate accuracy results with a limited number of available data. In this study, besides the accuracy assessment of the RF classification, the Bootstrapping method was used to determine the reliability of the test data collected by both fieldwork and visual interpretation. This method performs a considerable number of accuracy assessments with different combinations of test data, preventing biased results associated with a single data set and also determining a confidence interval for the obtained accuracy. On the other hand, collecting precise and reliable data with fieldwork is a challenging, time-consuming, and costly process. Therefore, in this study, if sufficient test data could not be collected, how the tomato classification results would be evaluated and how they would differ in the accuracy assessments made with the test data were analyzed. Based on this, Stratified K-Fold Cross-Validation (CV) was performed with RF classification. The training and test data used before were combined, and a single data set was created. The data set was divided into five equal folds, and the classification was iterated until each fold was used for the test. The classification accuracy was determined by averaging the results of each fold. When all classification and accuracy assessment results with single/multiple feature combinations of mono-temporal/multi-temporal datasets were examined, it was seen that the combination of NDVI, ASM, and Entropy with multi-temporal 4-band satellite image gave the highest accuracy. On the other hand, it was concluded that the MOC2 texture feature has not contributed to the classification results. For the results of all single/multiple feature combinations, the accuracy of mono-temporal classifications was found to be 10\% to 15\% lower than multi-temporal classifications. The accuracy analysis results showed that the reliability of the test data used was most likely within the 5\% confidence interval. Finally, it is emphasized in the results section that the CV method is reliable and can be used when there is no test data because it has been found that the same combination of data and features gives the highest accuracy even if there is not enough test data.
Benzer Tezler
- Tarımsal yaz ürünlerin sentinel-2 uydu görüntülerinden rastgele orman algoritması ile nesne-tabanlı sınıflandırılması
Object-based classification of summer crops from sentinel-2 satellite images using random forest algorithm
MESUT YILMAZ
Yüksek Lisans
Türkçe
2018
Jeodezi ve FotogrametriHacettepe ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA TÜRKER
- Aşırı Gradyan Artırma Algoritması kullanarak Sentınel-1 zaman serisi görüntülerinden ürün sınıflandırma
Crop classification from Sentinel-1 time-series images using extreme Gradient Boosting Algorithm
SERHAT ÇABUK
Yüksek Lisans
Türkçe
2021
Jeodezi ve FotogrametriHacettepe ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. MUSTAFA TÜRKER
- Domates hastalıklarının sınıflandırılması için makine öğrenmesi ve derin öğrenme temelli yeni yaklaşımlar
New approaches to classification of tomato diseases based on machine learning and deep learning
HASAN ULUTAŞ
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. VEYSEL ASLANTAŞ
- Nesnelerin interneti mesajlaşma protokollerinde saldırılar ve saldırı sınıflandırılması
Attacks and classification of attacks in internet of things messaging protocols
MUHAMMED MUSTAFA ŞİMŞEK
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEskişehir Osmangazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRAH ATILGAN
- Şifrelenmiş internet trafiğinin makine öğrenmesi yaklaşımı ile sınıflandırılması
Classification of encrypted internet traffic using machine learning approach
MESUT UĞURLU
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgi Güvenliği Mühendisliği Ana Bilim Dalı
DOÇ. DR. İBRAHİM ALPER DOĞRU
DR. ÖĞR. ÜYESİ RECEP SİNAN ARSLAN