Machine learning-based approach for bias correction of satellite-based precipitation products using environmental parameters and ground truth data in Turkiye
Türkiye'de çevresel parametreler ve yer gerçeği verileri kullanılarak uydu tabanlı yağiş ürünlerinin hata düzeltmesi için makine öğrenme tabanlı yaklaşım
- Tez No: 899143
- Danışmanlar: DOÇ. DR. KORAY KAMİL YILMAZ
- Tez Türü: Yüksek Lisans
- Konular: Jeoloji Mühendisliği, Geological Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Jeoloji Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Hidrojeoloji Bilim Dalı
- Sayfa Sayısı: 124
Özet
Uydu yağış verileri hidrolojik çalışmalar için çok önemli olmakla birlikte hatalar içermektedir. Bu çalışmada, XGBoost ve Random Forest makine öğrenimi algoritmaları, yer gözlemleri ve kıyıya uzaklık, yükseklik gibi çevresel parametreleri hata düzeltmek için kullanılmaktadır. Makine öğrenimi modelleri, en doğru ve sağlam sonuçları elde etmek için optimum hiperparametrelerle 2015'ten 2022'ye kadar günlük olarak eğitilmiştir ve sonuçlar yağmurlu günlerde daha temsili olacak şekilde filtrelenmiştir. Makine öğrenimi modelleri genellikle kara kutu olarak kabul edilse de, her bir özelliğin model tahminine katkısını açıklamak ve yorumlamak amacıyla bu çalışmada SHAP değerleri kullanılmıştır. Modellerin performansı, güçlü ve zayıf yönlerini net bir şekilde açıklamak için farklı metrikler kullanılarak incelenmiştir. Filtrelenmiş IMERG (7,08), Rastgele Orman (4,00) ve XGBoost'un (4,33) ortalama RMSE puanları, filtrelenmiş IMERG'in ortalama hatasını yaklaşık 3 mm/gün azalttıkları için makine öğrenimi modellerinin çok daha doğru bir tahmin sağladığını göstermektedir. filtrelenmiş IMERG (-0,28), Random Forest (0,46) ve XGBoost'un (0,47) ortalama KGE puanları ve KGE değerlerindeki olumlu gelişmeler, makine öğrenimi modellerinin yağış değişkenliğini ve tahminlerin doğruluğunu yakalamada daha iyi genel performans gösterdiğini ortaya koymaktadır. Filtrelenmiş IMERG (1.578), Random Forest (-0.068) ve XGBoost'un (-0.071) Ortalama Bias Hataları filtrelenmiş IMERG'nin Ortalama Bias Hatası (0.197) tahminlerini daha yüksek belirttiğine işaret etmektedir. Rastgele Orman (-0,068) ve XGBoost (-0,071) modelleri gözlenen değerleri biraz daha düşük tahmin etmektedir, bu da tahmin performansının doğruluğu ve güvenilirliğinin arttığı anlamına gelmektedir. XGBoost modelleri, verilerdeki değişkenliği yakalamada ve aşırı yağış olaylarını (10 mm/gün veya daha yüksek olaylar) tahmin etmede daha iyidir. Rastgele orman, 1 mm/gün ve 2 mm/gün gibi daha düşük eşik olaylarını tahmin etmede daha iyidir. Modellerin genel davranışı, günlük SHAP değerleri birleştirilerek görselleştirilmiştir. Makine öğrenimi modelleri her yıl özellik önem puanları (FI) ile tutarlıdır ve davranışlarını mevsimsel olarak düzenlerler.SHAP analizi ayrıca, modellerin Akdeniz ve İç Anadolu bölgelerindeki kuraklığı, bu enlemlerde düşük yaz yağışları sağlayarak başarılı bir şekilde yakaladığını, yaz aylarında daha yüksek enlemlerde pozitif SHAP değerlerinin Karadeniz bölgesinde artan yağışlara dönüştüğünü vurgulamaktadır. Yağışın yükseklikle pozitif korelasyonu modellerde açıkça görülürken, yaz aylarında kıyıdan uzaklığın etkisi genel olarak kuru iklim koşulları nedeniyle minimum düzeydedir. SHAP analizi ayrıca modellerin Akdeniz ve Karadeniz bölgelerindeki yüksek kış yağışlarının yanı sıra Orta Anadolu Platosu'nun kuru koşullarını da yakaladığını göstermektedir. Buna ek olarak, modeller, kıyıya uzaklık özelliğinin yağış üzerinde güçlü bir mevsimsel etkisi olduğunu ve kış aylarında kıyı yağışlarını yakalamada üstün bir kabiliyete sahip olduklarını göstererek mevsimselliğe uyum sağlama yeteneklerini ortaya koymaktadır.
Özet (Çeviri)
Satellite precipitation data are very important in hydrological studies, but contain bias. In this study, XGBoost and Random Forest machine learning algorithms are used to correct the bias with ground observations and environmental parameters such as distance to the coast and elevation. The machine learning models were trained daily from 2015 to 2022 with optimal hyperparameters to obtain the most accurate and robust results and results are filtered to be more representative on rainy days. Although machine learning models are generally considered as black box, SHAP values were utilized in this study in an effort to explain and interpret their behavior by showing the contribution of each feature to the model prediction and how these contributions change as a function of space and time. The performance of the models was examined using different metrics to clearly explain their strengths and weaknesses. Average RMSE scores of filtered IMERG (7.08), Random Forest (4.00), and XGBoost (4.33) showing machine learning models provide a much more accurate prediction because they reduce the average RMSE of filtered IMERG by about 3 mm/day. Average KGE scores of filtered IMERG (-0.28), Random Forest (0.46) and XGBoost (0.47) and their positive improvements of KGE values indicating machine learning models perform better in capturing precipitation variability and accuracy of predictions. The Average Mean Bias Error scores of filtered IMERG (0.197) indicates, overestimation of observations, while Random Forest (-0.068) and XGBoost (-0.071) models slightly underestimate the observed values. These results shows that the accuracy and reliability of the prediction performance are improved. It was found that XGBoost models are better to capture variability in data and predicting extreme precipitation events (10 mm/day or higher events). Random forest is better at predicting lower threshold events such as 1 mm/day and 2 mm/day. The overall behavior of the models is visualized by merging their daily SHAP values. Machine learning models are consistent with their feature importance scores (FI) each year and adapt their behavior seasonally. The SHAP analysis further emphasizes that the models successfully capture the aridity over the Mediterranean and Central Anatolian regions by providing low summer precipitation at these latitudes, while positive SHAP values at higher latitudes in summer translate into increased precipitation in the Black Sea region. The clear positive correlation of precipitation with elevation is evident in the models, while the effect of distance from the coast in summer is minimal due to generally dry climatic conditions. The SHAP analysis also shows that the models capture the high winter precipitation in the Mediterranean and Black Sea regions, as well as the dry conditions of the Central Anatolian Plateau. In addition, the models show a strong seasonal influence of the distance to coast feature on precipitation, with a superior ability to capture coastal precipitation in winter, demonstrating their ability to adapt to seasonality.
Benzer Tezler
- Yazım kurallarına uygun yazılmamış türkçe metinleri makine çevirisi yöntemleriyle normalleştirme
Normalizing non-canonical turkish texts using machine translation approaches
TALHA ÇOLAKOĞLU
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Investigating the vertical tropical forest structure using digital elevation models and machine learning methods
Düşey tropikal orman yapısının sayısal yükseklik modelleri ve makine öğrenme yöntemleri ile incelenmesi
ELAHEH ZADBAGHER
Doktora
İngilizce
2023
Jeodezi ve FotogrametriZonguldak Bülent Ecevit ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYCAN MURAT MARANGOZ
PROF. DR. KAZİMİERZ BECEK
- İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti
Anomaly detection with machine learning on air conditioning systems
REFİK KİBAR
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK
DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR
- Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi
Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method
İLKER İLTER
Yüksek Lisans
Türkçe
2023
Endüstri ve Endüstri MühendisliğiSakarya ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. SAFİYE SENCER
- Mezo ölçek model rüzgar şiddeti öngörü sonuçlarının yapay sinir ağları ve k en yakın komşu algoritması ile iyileştirilmesi
Artificial neural networks and k nearest neighborhood algorithm approach to improving wind speed prediction of the mesoscale forecast model results
DUYGU AKYIL
Yüksek Lisans
Türkçe
2019
Meteorolojiİstanbul Teknik ÜniversitesiMeteoroloji Mühendisliği Ana Bilim Dalı
PROF. DR. ŞÜKRAN SİBEL MENTEŞ