Özellik seçimi algoritmaları kullanılarak heyelanda etkili faktörlerin belirlenmesi ve heyelan duyarlılık haritalarının üretilmesi
Determination of effective factors using feature selection algorithms and production of landslide susceptibility maps
- Tez No: 467185
- Danışmanlar: PROF. DR. CENGİZHAN İPBÜKER, PROF. DR. TAŞKIN KAVZOĞLU
- Tez Türü: Doktora
- Konular: Jeodezi ve Fotogrametri, Jeoloji Mühendisliği, Mühendislik Bilimleri, Geodesy and Photogrammetry, Geological Engineering, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: Türkçe
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Geomatik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 253
Özet
Doğal afet, can ve mal kaybına neden olan çeşitli çevresel faktörlerin etkisiyle ani olarak gerçekleşen doğa olaylarıdır. Tarihsel süreç içerisinde insan hayatını olumsuz bir şekilde etkileyen başta depremler olmak üzere, heyelanlar, sel ve taşkınlar, çığ ve kuraklık gibi doğal afetler yaşanmıştır. Özellikle artan dünya nüfusuna paralel olarak doğal dengenin bozulması beraberinde afetlerin sayısını ve afetten etkilenme oranını artırmaktadır. Son yıllarda, depremler, tsunamiler, volkanik patlamalar ve heyelanlar gibi yıkıcı ve şiddetli doğal afetler insanlığa telafi zor zararlar vermiştir. Bu nedenle doğal afetlerden korunmak ve ortaya çıkabilecek hasarların en aza indirgenmesi amacıyla yerel ve küresel ölçekte birçok çalışma gerçekleştirilmektedir. Dünyadaki pek çok ülkede olduğu gibi Türkiye'de başlıca deprem, heyelan ve sel felaketleri yaşanmaktadır. Türkiye genelinde deprem afetinden sonra en sık görülen afet olayı heyelandır. Heyelana eğilimli alanların belirlenmesi ve mekânsal tahmini, yerel yönetimlerin afet azaltma çalışmalarında ve yatırımlarında önemli bir rol oynamaktadır. Heyelanların karakteristik özellikleri ve çevresel etkileri tematik haritalar ile ortaya konulabilmektedir. Tematik haritalar, heyelana eğimli alanlardaki duyarlılık seviyelerinin ölçülmesi ve mekânsal dağılımları hakkında bilgi sağlayan ve birçok risk yönetimi çalışmalarında birincil girdi olarak yaygın bir şekilde kullanılan haritalardır. Bir tematik harita türü olan heyelan duyarlılık haritaları gelecekte oluşabilecek potansiyel heyelan alanlarının tespitinde kullanılır. Bu nedenle risk yönetimi için büyük önem arz eden heyelan duyarlılık haritalarının doğru ve güncel üretilmesi yerel ölçekten küresel ölçeğe kadar birçok çalışma için en önemli esaslardan biridir. Heyelan duyarlılık haritası üretim süreci üç ana işlem adımından oluşur. Birinci işlem adımı, bir bölgedeki heyelan olaylarını kapsamını belgeleyen heyelan envanter verilerini hazırlanması, heyelana neden olan faktörlerin belirlenmesi ve bu faktörlerin üretmesini içeren ön işleme çalışmalarıdır. İkinci işlem adımında eğitim ve test sayısına karar vermek ve harita üretiminde kullanılacak en uygun tahmin yönteminin seçilmesi işlemdir. Heyelan duyarlılık haritası üretimindeki son işlem adımında ise harita doğruluğun belirlenmesi ve model performansının ölçülmesi işlemlerini kapsamaktadır. Bu tez çalışması iki bölümden oluşmaktadır. Tez çalışmasının ilk kısmında teorik, ikinci kısımda ise uygulamaya yönelik bilgiler verilecektir. Tezin ilk kısmı uygulamada yapılan çalışmaya dair zemin oluşturabilecek bilgiler ve açıklamalar içermektedir. Bu kısımlar genel itibariyle; giriş, heyelan tür ve oluşumuna ait teorik bilgiler, heyelan duyarlılık haritaları ve çalışma alanı bilgilerini kapsamaktadır. İkinci bölüm genel itibari ile heyelan duyarlılık haritalarının değerlendirilmesi ve sonuçları ile bulguların açıklanmasıdır. Söz konusu bölümde özellik seçimi, heyelan duyarlılık haritası üretimi, performans değerlendirmesi, sonuçların tartışılması ve referans bölümünden oluşmaktadır. Tez kapsamında gerçekleşen çalışmalar incelendiğinde tezin ilk kısmında tez amacı da dahil olmak üzere tanıtım bölümünden başlayıp, metodoloji ve alt bölümler ile birlikte kapsamlı bir literatür taraması verilmiştir. İkinci kısım heyelanlar, heyelanların çevresel etkileri ve heyelan haritalarının değerlendirilmesi ile ilgili teorik kavramlar anlatılmıştır. Bu bölümde kaya düşmesi, kaya çığları, sığ heyelan kaymaları gibi birçok heyelan türü incelenmiştir. Ayrıca, toprak kaymalarının insan ve insan aktiviteleri üzerindeki etkileri, çevresel etkiler (örneğin, risk, tehlike, hassasiyet, risk değerlendirmesi ve risk analizi) gibi kavramlar bu bölümde verilmiştir. Buna ek olarak, heyelan envanteri haritaları, heyelan tehlike haritaları, heyelan risk haritaları ve heyelan duyarlılık haritaları bölüm 2'de detaylıca tartışılmıştır. Heyelan duyarlılık haritasının üretimi ile ilgili ayrıntılı açıklamalar bölüm 3'de tartışılmıştır. Bölümün ilk alt başlığında heyelan duyarlılık haritalarında kullanılan ölçek türleri verilmiştir. Ayrıca heyelan duyarlılık haritaları üretiminde kullanılan nicel yöntemler ve lojistik regresyon (LR) ile destek vektör makineleri (DVM) gibi nitel yöntemler bu bölüm altında ayrıntılı bir şekilde tartışılmıştır. Yine 3. bölümün alt başlıklarında özellik seçimi algoritmaları özetlenerek, çeşitli filtre ve sarmalayıcı temelli özellik seçimi algoritmaları hakkında bilgiler verilmiştir. Bölümün son alt başlığında ise, heyelan duyarlılığı haritalarında doğruluk ve performans değerlendirme yöntemleri ayrıntılı olarak incelenmiştir. Bu tez çalışmasında Bartın-Ulus ve Trabzon-Araklı olmak üzere iki bölge çalışma alanları olarak belirlenmiştir. Bu nedenle çalışma alanları dördüncü bölümde iki alt başlıkla ele alınmıştır. Bartın-Ulus bölgesinin jeolojik yapısı ve jeolojik özellikler ile heyelan alanları arasındaki ilişkiye ait genel bir bakış sunulmuştur. Benzer şekilde, Trabzon-Araklı çalışma alanı için jeolojik yapı ve jeolojik özellikleri hakkında ayrıntılı bilgi verilmiştir. Ayrıca, her iki çalışma alanı içinde eğim, bakı, yükseklik, litoloji, arazi örtüsü/arazi kullanımı (AÖAK), normalize edilmiş fark bitki indeksi (NDVI), eğrilik, plan eğriliği, profil eğrisi, drenaj yoğunluğu, eğim uzunluğu, akış güç indeksi (AGİ), topoğrafik konum indeksi (TKİ), topoğrafik pürüzlülük indeksi (TPİ), topoğrafik nemlilik indeksi (TNİ), yağış yoğunluğu, çizgisellik, yola olan uzaklık (YOU), akarsuya olan uzaklık (AOU) ve sediment taşıma indeksi (STİ) faktörleri bu bölüm içerisinde açıklanmıştır. Beşinci bölümde, heyelana etkin faktörlerin seçimi ve optimum faktör boyutu belirlenmesi için özellik seçimi algoritmalarından faydalanılarak 18 adet model üretilmiştir. Söz konusu modeller, her iki çalışma alanı içinde belirlenen yirmi faktör için dört özellik seçimi algoritması kullanılarak oluşturulan optimum alt modellerdir. Bu çalışmada, özellik seçim algoritmalarının performansının analizi ve heyelan duyarlılık haritalarında bir model geliştirilmesi için yeni bir model sunulmuştur. Söz konusu modellin geliştirilmesi aşamasındaki heyelan duyarlılık haritalarının üretimi safhasında LR ve DVM yöntemlerinden faydalanılmıştır. Böylelikle bölüm 6'da kullanılan faktörlerin etkisini araştırmak için LR ve DVM kullanılarak 3-20 faktör içeren farklı 18 modelin performansı ile en etkili faktör kümesi tespit edilmiştir. Model performanslarının değerlendirilmesi ve tez kapsamındaki uygulama sonuçlarının tartışılması yedinci bölüm kapsamında değerlendirilmiştir. Özellik seçimi algoritmaları tarafından seçilen alt grupların (faktör kombinasyonları) performansları üretilen modellerle karşılaştırılmıştır. İki farklı model için elde edilen doğruluk farklılıklarının anlamlılıklarının incelenmesinde McNemar's testi kullanılmıştır. Ayrıca model performanslarındaki farklılıkların istatistiksel öneminin değerlendirilmesi için geleneksel doğruluk karşılaştırma ölçütlerinden (örneğin, başarı oranı eğrisi, eğri altında kalan alan (AUC)) faydalanılmıştır. Sonuçlar ve tartışma bölümü (Bölüm 7) içerisinde, özellik seçim algoritmaları ve heyelan duyarlılık haritalarına ait performans karşılaştırmaları, heyelanda etkili faktörlerin analizleri ve optimumun faktör kümesi boyutu karşılaştırılması gibi tüm uygulama sonuçları ayrıntılı bir şekilde verilmiştir. Bu tezin temel amacı, Ki-kare, Fisher, Gini indeksi ve rastgele orman gibi özellik seçim algoritmalarını kullanarak en iyi performansı elde etmek için özellik sayısından bağımsız olarak optimum faktör sayısına sahip modeli bulmaktır. Heyelan duyarlılık haritalarının üretilmesi için, özellik seçimleri algoritmaları tarafından seçilen tüm faktör seti boyutları DVM ve LR yöntemleri ile test edilmiştir. Sonuç olarak, tez uygulamasına dair sonuçlar şöyle özetlenebilir: Birincisi, faktör seçimi sonuçları incelendiğinde, eğim ve litoloji faktörleri özellik seçimi sonuçları dikkate alındığında en etkili faktörler olduğu görülmüştür. İkincisi, doğruluk değerlendirme sonuçları DVM yönteminin, genel doğruluk açısından LR yöntemine göre yaklaşık %10 daha iyi performans sergilediği görülmüştür. Üçüncü olarak, uygun bir özellik seçimi yaklaşımıyla veri seti boyutunun %60 oranında azaltılabileceği ve seçilen özelliklerle oluşturulan modelden optimum sonuçlar elde edilebileceği görülmüştür. Özellik seçim performansları karşılaştırıldığında, Gini indeksi ve rasgele orman algoritmalarının sıralama sonuçlarının her iki çalışma alanı içinde Ki-kare ve Fisher algoritmalarından daha iyi performans gösterdikleri tespit edilmiştir. Heyelanı etkileyen faktörler analiz edildiğinde, topoğrafik, hidrolojik veya jeolojik gibi birçok durumun heyelan duyarlılığı üzerinde etkili olduğu görülmüştür. Bu nedenle, sınırlı sayıda veri kullanmak yerine, tematik haritaların doğruluğunu artırmak için heyelan olaylarını etkileyen optimum bileşenleri dikkate alınması gerekliliği görülmüştür. Dördüncü olarak, elde edilen sonuçlar sonrasında faktör sayısının azaltılması heyelan duyarlılık haritası doğruluğunun iyileşmesine ve modellerinin anlaşılmasına yardımcı olduğu görülmüştür. Ayrıca elde edilen bulgular, çok sayıda faktörün mevcut olduğu koşullarda heyelan duyarlılığı haritası üretiminde kişisel tercihler yerine akıllı otomatik yaklaşımların kullanılması gerektiğini açıkça göstermektedir.
Özet (Çeviri)
A natural hazard is a natural phenomenon that cause a lot of damage to human life and property. Natural disasters such as earthquakes, landslides, floods, hurricanes, avalanche, drought and volcanic eruptions all these are natural phenomena that have occurred throughout the history of humankind. Especially, the weakness of rural and urban populations to natural disaster in developing countries is also growing, due to population increase and inadequate planned urbanization. Destructive and violent natural disasters like earthquakes, tsunamis, volcanic eruptions and landslides have devastated humanity in recent years. Therefore, many studies are being carried out on the local and global scale in order to protect against natural disasters and minimize the damage from these events. As in most countries in the World, Turkey is prone to natural disasters including earthquakes, landslides, and floods. In recent years, landslide is the most effective disaster after earthquake in Turkey. Identification and spatial prediction of landslide-prone areas play an important role for disaster mitigation works and feature investments of local authorities. Thematic maps providing information about landslide-prone areas in terms of susceptibility level and their spatial distributions have been widely used as a primary input in many hazard management studies. Due to its great importance for hazard management, producing accurate and up-to-date landslide susceptibility maps is essential for many local to global scale studies. Landslide susceptibility mapping consists of three major processing steps. First one is the known as pre-processing that includes preparation of landslide inventory data documenting the extent of landslide phenomena in a region, determination of landslide causative factors and producing corresponding data sets. In the production of landslide susceptibility map, many factors are considered for landslide hazard mapping. The selection process of factors and sets are a key function of producing landslide susceptibility maps. However, the number and type of factors used in studies were not analyzed in order to investigate the effect on the accuracy on the maps. It can be said that, there are no universal guidelines regarding the selection of factors in landslide susceptibility mapping. The selection of causal factors therefore needs to consider automatic selection based feature selection algorithm except user-based or similar methods. Consequently, it is necessary that new techniques and processes should be investigated to produce landslide susceptibility mapping. Second is the landslide susceptibility modelling step that includes selecting sufficient number of samples and proper prediction algorithm. The accuracy assessment and performance evaluation are performed in the third step of landslide susceptibility mapping. For this purpose, various strategies, algorithms, improvements, and their combinations have been suggested in the literature. This thesis consists of two parts: Theoretical and Empirical. First part of the thesis describes background and theory; the chapters are introduction, theoretical background of landslides, landslide susceptibility mapping and target area. Second part describes landslide susceptibility assessment and result and discussion. The chapters are feature selection process, production of landslide susceptibility mapping, performance evaluation, discussion of results and references. The thesis starts with introduction part including purpose of the thesis, followed by methodology and extensive literature review including subsections. The second part highlights the key theoretical concepts which landslides, environmental impact of landslides and assessment of landslide maps. The types of landslides discussed in this chapter are rock block sides, rock slides, rock avalanches, shallow and other types. Also, the terms related to the effects of landslides on human activity and the environment (i.e. risk, hazard, vulnerability, risk evaluation and risk analysis) are given here. In addition, landslide inventory maps, landslide hazard maps, landslide risk maps and landslide susceptibility maps were discussed under the section two. The detailed explanation about the production of landslide susceptibility map was discussed in the section three. In the first sub-section, scale issues in landslide susceptibility mapping was given. Moreover, the detail information about the susceptibility mapping methods as qualitative methods and quantitative methods namely, logistic regression and support vector machine were discussed. In addition, feature selection techniques were summarized and the several filter and wrapper based feature selection algorithms were discussed. At the end of this part, the accuracy assessment and performance evaluation methods in landslide susceptibility mapping were analyzed as detailed in this sub-section. In that thesis, the proposed methodology has been implemented in two study areas, Bartın-Ulus and Trabzon-Araklı. Therefore, the study areas were discussed under two sub-sections in section four. The detailed information on the geologic setting of Bartın-Ulus area and an overview of the relation between the geological features and landslide areas were given. Similarly, detailed information on the geologic setting and geological features were given for the study area of Trabzon-Araklı. In the landslide assessment process, as regarded in this thesis so far, the features are called conditioning factors, represented by various thematic inputs, including geological, topographical, hydrological and environmental parameters, reclassification or performing statistical operations over original inputs. For both areas, the causative factors considered here were slope angle, slope aspect, elevation, lithology, land cover/land use (LULC), NDVI, curvature, plan curvature, profile curvature, drainage density, slope length, stream power index, topographic position index, topographic roughness index, topographic wetness index, rainfall density, lineament, distance from road, distance from river and sediment transport index. Survey of the literature reveals that landslide conditioning parameters have been commonly selected based on the user's experience. Due to the variety of the landslide related parameters, it is not clear which combination of parameters produces the best solution for a given landslide susceptibility problem. In addition, when all available parameters are used, it is high likely that correlated and redundant information is considered, which may reduce the accuracy of a resulting map. To overcome this problem, feature selection or dimensionality reduction techniques can be applied. In the section 5, for the selection of relevant factors and defining optimum factor size, four feature selection algorithms were applied to the twenty landslide related factors for both study areas. In this study, a new framework is presented for the analysis of the performance of feature selection algorithms and the development of a model in the landslide susceptibility maps. The methods of logistic regression and support vector machines were used for the production of landslide susceptibility maps. The section 6 focuses on the performances of the models including 3 to 20 factors were evaluated using logistic regression and support vector machines to investigate the effect of varying number of factors and the most effective factors were determined. Evaluation of model performances and discussion part of the thesis was evaluated under the section seven. Prediction performances of the subsets (i.e. factor combinations) selected by the feature selection algorithms were compared with the models produced methods. Differences in prediction accuracies were evaluated based on McNemar's statistical test, assessing the significance of the difference between two dichotomous variables. In addition to the traditional accuracy comparison metrics (e.g. success rate curve, area under curve (AUC)), were used to for the evaluation of statistical significance of differences in model performances. The results and discussion part of the dissertation (Section 7) includes detailed and comparative analysis of the application results, such as comparison of feature selection algorithms and methods produced landslide susceptibility map in terms of their use and performances, analysis of the effective factors and optimum factor set size, thematic map producing and exploring the map accuracy. The main objective of this thesis is to find the best factor set sizes regardless of the number of features needed to obtain that best performance using feature selection algorithms such as Chi-square, Fisher, Gini index and random forest. For producing landslide susceptibility maps, all factor set sizes selected by the feature selection algorithms were tested on support vector machine and logistic regression. All in all, the results from the thesis can be summarized as follows. First, when factor selection results are examined, it can be showed that the slope angle and lithology are the most effective factors considering to selection results. Secondly, accuracy assessment results showed that the SVR method outperformed logistic regression method by about 10% in terms of overall accuracy considering ground reference map. Thirdly, it has been observed that the dataset size can be reduced by 60% using an appropriate feature selection approach instead of using all of the twenty factor datasets. When the feature selection performances were compared, it was found that Gini index and random forest algorithms ordering results outperformed the chi-square and fisher algorithms in both study fields. When the factors that influence stability on landslide were analyzed, it was observed that many types of condition such as topographic, hydrologic or geological, showed effect on the landslide susceptibility. For this reason, instead of using limited number of data, several types of conditioning components of landslide phenomena should be taken into consideration to increase the accuracy of the thematic maps. Fourthly, results showed that reducing the number of features may help to improve the landslide map accuracy and enhance to understanding of computational models. Also, findings clearly indicate that factor selection for landslide susceptibility mapping should be performed by using some intelligent approaches instead of personal choices when a large number of factors are available.
Benzer Tezler
- Predicton of upper body power of cross-country skiers using machine learning methods combined with feature selection algorithms
Nitelik seçme algoritmalarıyla birleştirilmiş makine öğrenme yöntemleri kullanılarak kros kayakçıların üst vücut güç tüketiminin tahmin edilmesi
MUSTAFA MİKAİL ÖZÇİLOĞLU
Doktora
İngilizce
2016
Elektrik ve Elektronik MühendisliğiÇukurova ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET FATİH AKAY
- Estimation of the critical properties of compounds using machine learning algorithms
Makine öğrenmesi algoritmaları kullanılarak bileşiklerin kritik özelliklerinin tayini
ROUA ALHALOUSH
Yüksek Lisans
İngilizce
2023
Kimya MühendisliğiYıldız Teknik ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. HASAN SADIKOĞLU
- Moodle sistemindeki veriler ile makine öğrenmesi algoritmaları kullanılarak öğrencilerin dönem sonu akademik performanslarının tahmin edilmesi
Predicting students academic performance at the end of the semester by using machine learning algorithms with the data in moodle system
BUKET DÖNMEZ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolİSTANBUL BEYKENT ÜNİVERSİTESİBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EGE KİPMAN
- Ağ saldırı tespiti için özellik seçimi temelli makine öğrenmesi algoritmalarının karşılaştırmalı analizi
Comparative analysis of machine learning algorithms based on feature selection for network intrusion detection
EMRE EMİRMAHMUTOĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMilli Savunma ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILMAZ ATAY
- Transfer öğrenme, özellik seçimi ve makine öğrenmesi yöntemlerine dayalı karma bir yaklaşım ile nohut tohumu çeşitlerinin çoklu sınıflandırılması
Multiple classification of chickpea seed varieties with a hybrid approach based on transfer learning, feature selection, and machine learning methods
İBRAHİM KILIÇ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NESİBE YALÇIN