Unveiling the performance of pre-processing approaches in machine learning based flood susceptibility mapping
Makine öğrenmesi tabanlı sel duyarlılık haritalamasında ön işleme yöntemlerinin performansının açıklanması
- Tez No: 916246
- Danışmanlar: DOÇ. DR. ÖMER EKMEKCİOĞLU
- Tez Türü: Yüksek Lisans
- Konular: İnşaat Mühendisliği, Civil Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İnşaat Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Hidrolik ve Su Kaynakları Mühendisliği Bilim Dalı
- Sayfa Sayısı: 83
Özet
Seller, önemli can kaybına, kapsamlı mal hasarına ve önemli ekonomik zorluklara yol açma kapasiteleriyle öne çıkan en yıkıcı doğal afetlerden birini temsil eder. Bu olayların şiddeti, yoğun yağış, artan nüfus yoğunluğu, hızlı kentleşme ve iklim değişikliğinin genel etkileri gibi faktörlerin bir araya gelmesiyle sıklıkla yoğunlaşır. Sel baskınları, son 20 yılda yıllık ortalama 163 olayla en sık karşılaşılan olaylardır. 2000'den 2019'a kadar seller, tüm afet olaylarının %44'ünden sorumludur ve küresel olarak 1,6 milyar kişiyi etkileyerek en yaygın afet türü haline gelmiştir. Sel baskınları, aşırı yağışların barajları ve nehir kanallarını boğması sonucu oluşurken, kıyı bölgelerinde tropikal siklonların ve tsunamilerin dalga dalgalanmalarına yol açmasıyla oluşurlar. Seller, iklim değişkenliği ve aşırı yağış nedeniyle dünyanın farklı bölgelerinde yaygın olarak görülmektedir. Nedenlerine göre çeşitli sel türleri nehir selleri, kentsel yağmur selleri, ani seller ve kıyı selleri kategorilerine ayrılabilmektedir. Nüfusun artışı, kentsel alanların genişlemesi ve tarım faaliyetlerinin yaygınlaşmasıyla birlikte sel riski giderek büyümektedir. Sel baskınları, moloz, kaya, ağaç, araba ve hafif yapılar dahil olmak üzere taşıyabilecekleri çok çeşitli malzemeler nedeniyle çevredeki alanlar için önemli bir tehdit oluşturabilir. Topoğrafya ve su yolları gibi arazinin fiziksel özellikleri, bu sellerin meydana gelmesinde hayati faktörlerdir. Dahası, seller insan varlığı için büyük bir tehlike olabilir ve önemli can kaybına ve ekonomik yıkıma yol açabilen felaket niteliğinde doğal afetlere yol açabilir. Sellerin yoğunluğu, öncelikle yollar, patikalar ve binalar gibi geçirimsiz örtü nedeniyle kentsel alanlarda artar. Arazi kullanım modellerindeki, ekonomik ve sosyal kalkınmadaki ve iklim değişikliğinin etkilerindeki yaklaşan değişiklikler sonucunda sel sıklığının ve şiddetinin artması beklenmektedir. Altyapı ve topluluklar üzerindeki etkiyi en aza indirmek için etkili sel yönetimi çok önemlidir. Afetlerle başa çıkmanın dört aşaması önleme, hazırlık, müdahale ve iyileştirmedir. Aynı şekilde, en yıkıcı afetlerden biri olan sellerde sel yönetiminin temel bileşenleri; hazırlık, önleme, iyileştirme ve müdahale aşamalarını içerir. Selleri tamamen önlemek veya onlara karşı koruma sağlamak imkansız olsa da, yüksek riskli alanları belirleyerek ve etkili azaltma stratejileri uygulayarak sellerin etkisi azaltılabilir. Sel duyarlılığı bölgelerinin belirlenmesi, çevreyi korumayı amaçlayan arazi kullanım karar vericileri için son derece önemlidir. Sel duyarlılığı, yerel koşullar ve katkıda bulunan faktörler nedeniyle belirli bir alanda sel meydana gelme olasılığını ifade eder. Sel duyarlılığı modellemesiyle belirlenen geniş bir bölgedeki sel eğilimli alanlar, karar vericiler ve planlamacılar için olumsuz etkileri azaltmada çok önemlidir. Kentsel alanlar genişledikçe ve daha fazla kişi sele meyilli bölgelere yerleştikçe, selle ilişkili riskler artar ve bu da sel riski değerlendirmesi ve yönetimi için etkili stratejilerin geliştirilmesini gerektirir. Literatürde bu zorluğun üstesinden gelmek için hidrodinamik simülasyon, uzaktan algılama ve Coğrafi Bilgi Sistemi (CBS) ve veri odaklı modeller dahil olmak üzere birden fazla strateji önerilmiştir. Hidrodinamik modeller, zaman alıcı ve hesaplama açısından yoğun yapıları nedeniyle büyük çalışma alanları için pratik değildir. Sonuç olarak, etkinlikleri büyük veya veri kıtlığı olan alanlarda sınırlıdır. Son birkaç yılda, CBS, uzaktan algılama ve makine öğrenmesi alanındaki hızlı ilerleme, bilim insanlarına mekansal sel modellemesinin karmaşıklıklarını ele almak için etkili araçlar sağlamıştır. Son yıllarda, makine öğrenmesi metodolojilerinin dahil edilmesi, sel duyarlılığı modellerinin, haritaların ve erken uyarı sistemlerinin hassasiyetini ve güvenilirliğini artırmak için umut verici bir yaklaşım olarak ortaya çıkmıştır. Makine öğrenmesi ve CBS'nin hibrit bir yaklaşımını kullanmak, geniş bölgelerde sel duyarlılığı haritalaması oluşturmak için etkili bir yöntem olduğunu kanıtlamaktadır. Genel olarak, modellemede makine öğrenmesi algoritmalarını kullanmanın iki yöntemi vardır: bağımsız ve hibrit/toplu yaklaşımlar. Makine öğrenmesi yaklaşımı, birden fazla tehlikeyle ilişkili riskleri tahmin etmek için son teknoloji ve etkili bir teknik olarak kabul görmüştür. Makine öğrenmesi algoritmaları, veri gürültüsünü etkili bir şekilde işleme, tahmin doğruluğunu artırma ve ölçüm hatalarını en aza indirme yetenekleri dahil olmak üzere çeşitli avantajlar sunar. Dahası, ilgili yöntem, geçmiş tehlike bilgilerini ve coğrafi-çevresel verileri kullanarak birden fazla tehlikeyi tahmin eden haritaların oluşturulmasına olanak tanır. Makine öğrenmesi ile ilgili çalışmalar, modelin tüm özelliklerden eşit şekilde faydalanmasını sağlamak, özellik öneminin yanlış yorumlanmasını önlemek ve eğitim süreçlerini iyileştirmek için genellikle çeşitli ön işleme yaklaşımlarını içermektedir. Makine öğrenimi modellerini kullanmadan önce verilerin ön işleme tabi tutulması ve özellik ölçeklendirilmesi, modelin performansını, optimizasyon süreçlerini ve sonuçların doğruluğunu iyileştirmek için kritik bir adımdır. Farklı ölçeklerdeki özellikler, modelin hatalı sonuçlar üretmesine neden olabilir. Büyük ölçekli özellikler küçük ölçekli özelliklere baskın çıkarak modelin öğrenme sürecini olumsuz etkileyebilir. Ayrıca ölçeklendirme, aykırı değerlerin etkisini azaltarak modelin kararlılığını artırır. Bu kapsamda çalışmada kullanılan verilerin standardizasyon, min-maks ölçekleme ve sağlam ölçekleme yöntemleri kullanılarak ölçeklendirilmesi, modelin daha hızlı öğrenmesini ve daha genel ve anlamlı sonuçlar üretmesini sağlar. Bu araştırmanın temel amacı, eXtreme Gradient Boosting (XGBoost) algoritmasını sel duyarlılığını değerlendirmek için kullanılabilecek çeşitli ön işleme tekniklerini keşfetmek üzere bir tahmin çerçevesi olarak kullanmaktır. XGBoost, performans ve hız açısından optimize edilmiş, bağımsız ağaçların ortalamasını almak yerine önceki ağaçların tahmin hatalarını veya kalıntılarını kullanarak bir dizi ardışık karar ağacı inşa eden ölçeklenebilir bir ağaç güçlendirme yöntemidir. Aşırı uyumu azaltmaya ve model doğruluğunu artırmaya yönelik çok sayıda ayarlanabilir parametre sunan bu yöntem, kullanıcıların işleme süresini önemli ölçüde azaltırken en uygun yineleme sayısını belirlemelerine olanak tanır. Çalışma, sel riskleriyle karşı karşıya olan Kaliforniya'daki San Joaquin Nehri Havzası'na odaklanmaktadır. Bu bağlamda, arazi kullanımı, toprak tipi, topografya ve hidrolojik özellikler gibi sel riskini etkileyen 22 kritik sel koşullandırma faktörü belirlenmiştir. Birçok makine öğrenimi algoritması etiketli verileri doğrudan işleyemediğinden ve tüm girdi değişkenlerinin sayısal olmasını gerektirdiğinden, etkili uygulama için önemli bir zorluk teşkil etmektedir. Bu nedenle, kategorik verileri sayısal bir formata dönüştürmek için ek veri ön işleme tekniklerinin kullanılması şarttır. Bu araştırmada, uygulaması kolay yapısı nedeniyle popüler bir algoritma olan one-hot kodlama kullanılmıştır. One-hot kodlama, bir değişkenin her bir kategorisi için ayrı bir ikili özellik üretir ve o kategoriye üyeliği belirtmek için 1, üye olmamayı belirtmek için 0 değerini atar. One-hot kodlama, kategorik özelliklerdeki alt sınıfların sayısına paralel olarak karar matrisinin boyutunu artırsa da, jeoloji ve arazi kullanımı/örtüsü özelliklerinin alt sınıfları arasındaki nominal ilişki, mevcut çalışmayı bu kodlamanın kullanımına yönlendirmektedir. Çalışmanın ön işleme aşamasında, 3 farklı özellik ölçekleme yöntemi (standardizasyon, min-maks ölçekleme ve sağlam ölçekleme) ve 3 eğitim/test bölme oranı (60:40, 70:30 ve 80:20) uygulanarak 9 farklı senaryo oluşturulmuştur. Karşılaştırmalı performans analizi sonucunda, min-maks ölçekleme ve %70 eğitim-%30 test oranını kullanan S4 senaryosunun, sel yaşanma olasılığı yüksek bölgeleri belirlemede diğer senaryolardan üstün olduğu tespit edilmiştir. Ayrıca, one-hot kodlama şeması ile elde edilen niteliklerin permütasyon önemine dayalı bir analiz sonucunda boyut indirgemesi gerçekleştirilmiş ve böylece kapsamlı hesaplama yükünden kaçınılmıştır. Araştırma, özellikle sınıf dengesizliği ve veri kümelerinin yeniden örneklenmesinin sel duyarlılığı haritalaması sonuçları üzerindeki etkisini değerlendirmeyi amaçlamaktadır. San Joaquin Nehri Havzası'nda gerçekleşen 636 tarihi sel olayından elde edilen veriler, eşdeğer sayıda rastgele noktanın sel olmayan noktalar olarak atanmasıyla desteklenmiştir. Bu araştırmada kullanılan metodoloji, sel duyarlılığını modellemek için en etkili yaklaşımı belirlemek üzere 18 farklı senaryoyu inceleyen kapsamlı iki aşamalı bir ön işleme analizini içermektedir. Güvenilir bir sel duyarlılık analizi yapmak için, sel envanteri haritalaması olarak bilinen geçmiş sel kayıtlarını toplamak önemlidir. Bu çalışma, Ulusal Okyanus ve Atmosfer İdaresi'nin (NOAA) Fırtına Olayları Veritabanı'ndan alınan sel envanteri verilerini analiz etmiştir. Söz konusu veritabanı, 1950 yılından bu yana San Joaquin Nehri Havzası'nda selden etkilenen 636 spesifik lokasyonu ortaya koymaktadır. Bu verilere dayanarak, öncelikle sel olaylarının yaşandığı bölgeler haritalandırılmış ve ardından ArcMap yazılımı kullanılarak rastgele sel olmayan noktalar üretilmiştir. Sel olan noktalara 1 değeri atanırken, sel olmayan noktalar 0 değeri ile kodlanmıştır. Literatürde, sel duyarlılığı haritalarının oluşturulmasında genellikle geçmiş sel kayıtları ile eşit sayıda sel olmayan nokta üretilmesine dayalı bir yaklaşım benimsenmektedir. Ancak, bu çalışma gerçek dünya koşullarını daha iyi simüle etmek amacıyla farklı bir yöntem benimsemiştir. Bu yaklaşım, bir yağış olayının belirli bir noktada sele yol açarken, çevresindeki diğer bölgelerde aynı sonuca neden olmayabileceği gerçeğine dayanmaktadır. Dolayısıyla, gerçek dünya koşullarını daha iyi yansıtabilmek adına, geçmiş sel olaylarının sayısına oranla daha fazla sayıda sel olmayan nokta üretilmesi gerektiği sonucuna varılmıştır. Araştırmanın ikinci aşamasında, model genellemesini geliştirmek ve sel olgusunun doğasını daha iyi yansıtmak amacıyla 3 farklı dengesizlik oranı (10x, 25x ve 50x) ile 3 farklı yeniden örnekleme tekniği (Random Under Sampling - RUS, Random Over Sampling - ROS ve Synthetic Minority Oversampling Technique - SMOTE) kullanılarak toplamda 9 ek senaryo (S10-S18) oluşturulmuştur. Performans değerlendirme sonuçlarına göre, S18 senaryosu (10x dengesizlik oranını ve RUS yöntemini birleştiren) sel yaşanma olasılığı yüksek bölgeleri doğru bir şekilde tespit etme açısından en etkili tahmin modelini sağlamıştır. Bu sonuç, çalışmanın temel amacı olan sel duyarlılığının hassas şekilde değerlendirilmesi açısından önemli bir bulgudur. Elde edilen sonuçlar doğrultusunda, S18 senaryosunu temel alarak San Joaquin Nehri Havzası için bir sel duyarlılığı haritası üretilmiştir. Bu analiz sonucunda oluşturulan sel duyarlılığı haritası, San Joaquin Nehri Havzası'nın %20'sinden fazlasının yüksek ila çok yüksek sel riski altında sınıflandırıldığını göstermektedir. Bu bulgular, olası sel etkilerini azaltmak için acil müdahale gerektiren bölgeleri vurgulaması nedeniyle yerel yönetimler ve paydaşlar için kritik önem taşımaktadır. Sonuç olarak, bu araştırma, sel duyarlılığı haritalama konusunda literatüre katkı sağlamakla kalmayıp, sel olaylarının gerçekleşmesinden önce alınması gereken önlemlerin belirlenmesi için de önemli bilgiler sunmaktadır. Ek olarak, her bir bağımsız değişkenin model üzerindeki etkisini değerlendirmek ve değişkenlerin tahmin edilen sel duyarlılığına olan katkılarını daha ayrıntılı analiz etmek için SHAP (SHapley Additive exPlanations) analizi gerçekleştirilmiştir. SHAP analizi, faya olan mesafenin sel duyarlılığı üzerindeki en kritik faktör olduğunu göstermiştir. Bunun yanında, yollara olan mesafenin sel duyarlılığı ile ters korelasyon gösterdiği, yani yollardan uzak bölgelerin daha yüksek sel riski taşıdığı tespit edilmiştir. Araştırma, ayrıca jeolojik özellikler, yol yoğunluğu, arazi sağlamlık indeksi (TRI) ve yoğun yağış olasılığı gibi faktörlerin sel olasılığını artırdığını ortaya koymuştur. Buna karşılık, yükseklik, eğim, akış gücü indeksi (SPI) ve TRI gibi faktörlerin daha düşük sel duyarlılığı ile ilişkili olduğu belirlenmiştir. Bu çalışmada çok çeşitli ön işleme çabalarına rağmen, kullanılan tek öngörücü model XGBoost'tur. Makine öğrenmesi sonuçlarının genelleştirilmesini sınırlama potansiyeline sahip olduğundan, gelecekteki araştırmalar farklı çalışma alanlarında sel analizi için birden fazla veri odaklı teknik benimseyebilir ve bu da karşılaştırmalı analizi daha da kolaylaştırabilir. Ayrıca, farklı ön işleme girişimleri altında hiperparametre ayarlama stratejilerine sahip XGBoost modelinin kullanımı takip eden araştırmalarda incelenebilir. Kullanılan üç veri ölçekleme yaklaşımının ötesinde alternatif ölçekleme yöntemleri de araştırılabilir ve benzer şekilde, model performansları üzerindeki etkilerini daha fazla araştırmak için farklı yeniden örnekleme yöntemleri uygulanabilir. Son olarak, önerilen çerçevelerin çeşitli çalışma alanlarında, özellikle veri kıtlığı özelliği gösteren gelişmekte olan ülkelerde etkinliğini göstermek, ilgili çalışmaların sağlamlığını ve pratik uygulanabilirliğini artırabilir.
Özet (Çeviri)
Floods represent one of the most catastrophic natural disasters, distinguished by their capacity to inflict substantial loss of life, extensive property damage, and considerable economic difficulties. The severity of these events is often intensified by a confluence of factors, including heavy rainfall, increasing population densities, rapid urbanization, and the overarching climate change effects. As urban areas expand and more individuals settle in flood-prone regions, the associated risks of flooding escalate, necessitating the development of effective strategies for flood risk assessment and management. In recent years, the incorporation of machine learning methodologies has emerged as a promising approach to enhance the precision and reliability of flood susceptibility models, maps, and early warning systems. This study concentrates on the San Joaquin River basin in California, a region that has faced significant flooding challenges. The primary aim of this research is to explore various pre-processing techniques that can be utilized to effectively assess flood susceptibility, employing the eXtreme Gradient Boosting (XGBoost) algorithm as the predictive framework. To accomplish this, the study identifies 22 critical flood conditioning factors relevant to the San Joaquin River basin. These factors encompass a diverse array of environmental and anthropogenic variables that influence flood risk, including land use, soil type, topography, and hydrological characteristics. The methodology employed in this research involves a comprehensive two-stage pre-processing analysis, which examines 18 distinct scenarios to ascertain the most effective approach for modeling flood susceptibility. The research findings indicate that the XGBoost model, when applied with robust scaling techniques and a 70/30 train-test split, achieved optimal performance, attaining an Area Under the Receiver Operating Characteristic curve (AUROC) of 0.851. This metric reflects a high degree of accuracy in predicting flood susceptibility. Additionally, the study revealed that utilizing a 10x class imbalance ratio with random under sampling (RUS) during the training phase yielded the most precise results in the testing phases, with an AUROC of 0.835. The flood susceptibility maps produced from this analysis indicate that over 20 percent of the San Joaquin River basin is classified as being at high to very high risk of flooding. This critical information is vital for local authorities and stakeholders, as it underscores areas that necessitate immediate attention and intervention to mitigate potential flood impacts. Furthermore, the research employed SHapley Additive exPlanation (SHAP) values to interpret the model's predictions and identify the most significant factors contributing to flood susceptibility. The analysis highlighted the substantial influence of alluvial presence, proximity to geological faults, and transportation infrastructure. Collectively, these findings will enhance the existing literature on flood susceptibility mapping and inform the necessary precautions to be undertaken prior to the occurrence of flood events in the region.
Benzer Tezler
- Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Unveiling ELT prospective teachers' mindsets, academic buoyancy, self-handicapping, and academic achievement
İngilizce öğretmeni adaylarının zihniyet yapısı, akademik engelleri yürütme becerisi, kendini engelleme ve akademik başarılarının irdelenmesi
BERKAY ERKOÇ
Yüksek Lisans
İngilizce
2025
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiYabancı Diller Eğitimi Ana Bilim Dalı
DOÇ. DR. ŞULE ÇELİK KORKMAZ
- Öz bilgi destekli derin öğrenme yaklaşımları ile hsg gürültü giderme
Self-ınformation empowered deep learning approaches for hsı denoising
ORHAN TORUN
Doktora
Türkçe
2024
Elektrik ve Elektronik MühendisliğiHacettepe ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. SENİHA ESEN YÜKSEL ERDEM
PROF. DR. MEHMET ERKUT ERDEM
- Assessing the performance of molecular dynamics simulations for predicting the conformations of flexible protein-protein complexes
Esnek protein-protein komplekslerinin konformasyonlarını tahmin etmek için moleküler dinamik simülasyonlarının performansının değerlendirilmesi
DİLANUR KAMALI
Yüksek Lisans
İngilizce
2023
BiyoistatistikAcıbadem Mehmet Ali Aydınlar ÜniversitesiMoleküler ve Translasyonel Biyotıp Ana Bilim Dalı
PROF. EMEL TİMUÇİN
- Unveiling the wireless network limitations in federated learning
Kablosuz internet ağlarındaki kısıtların federe öğrenmeye olan etkilerinin ortaya çıkarılması
MÜMTAZ CEM ERİŞ
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SEMA FATMA OKTUĞ
DOÇ. DR. BURAK KANTARCI