Geri Dön

Machine learning-based approach for bias correction of satellite-based precipitation products using environmental parameters and ground truth data in Turkiye

Türkiye'de çevresel parametreler ve yer gerçeği verileri kullanılarak uydu tabanlı yağiş ürünlerinin hata düzeltmesi için makine öğrenme tabanlı yaklaşım

  1. Tez No: 899143
  2. Yazar: GÖKHAN SEVİNÇ
  3. Danışmanlar: DOÇ. DR. KORAY KAMİL YILMAZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Jeoloji Mühendisliği, Geological Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Jeoloji Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Hidrojeoloji Bilim Dalı
  13. Sayfa Sayısı: 124

Özet

Uydu yağış verileri hidrolojik çalışmalar için çok önemli olmakla birlikte hatalar içermektedir. Bu çalışmada, XGBoost ve Random Forest makine öğrenimi algoritmaları, yer gözlemleri ve kıyıya uzaklık, yükseklik gibi çevresel parametreleri hata düzeltmek için kullanılmaktadır. Makine öğrenimi modelleri, en doğru ve sağlam sonuçları elde etmek için optimum hiperparametrelerle 2015'ten 2022'ye kadar günlük olarak eğitilmiştir ve sonuçlar yağmurlu günlerde daha temsili olacak şekilde filtrelenmiştir. Makine öğrenimi modelleri genellikle kara kutu olarak kabul edilse de, her bir özelliğin model tahminine katkısını açıklamak ve yorumlamak amacıyla bu çalışmada SHAP değerleri kullanılmıştır. Modellerin performansı, güçlü ve zayıf yönlerini net bir şekilde açıklamak için farklı metrikler kullanılarak incelenmiştir. Filtrelenmiş IMERG (7,08), Rastgele Orman (4,00) ve XGBoost'un (4,33) ortalama RMSE puanları, filtrelenmiş IMERG'in ortalama hatasını yaklaşık 3 mm/gün azalttıkları için makine öğrenimi modellerinin çok daha doğru bir tahmin sağladığını göstermektedir. filtrelenmiş IMERG (-0,28), Random Forest (0,46) ve XGBoost'un (0,47) ortalama KGE puanları ve KGE değerlerindeki olumlu gelişmeler, makine öğrenimi modellerinin yağış değişkenliğini ve tahminlerin doğruluğunu yakalamada daha iyi genel performans gösterdiğini ortaya koymaktadır. Filtrelenmiş IMERG (1.578), Random Forest (-0.068) ve XGBoost'un (-0.071) Ortalama Bias Hataları filtrelenmiş IMERG'nin Ortalama Bias Hatası (0.197) tahminlerini daha yüksek belirttiğine işaret etmektedir. Rastgele Orman (-0,068) ve XGBoost (-0,071) modelleri gözlenen değerleri biraz daha düşük tahmin etmektedir, bu da tahmin performansının doğruluğu ve güvenilirliğinin arttığı anlamına gelmektedir. XGBoost modelleri, verilerdeki değişkenliği yakalamada ve aşırı yağış olaylarını (10 mm/gün veya daha yüksek olaylar) tahmin etmede daha iyidir. Rastgele orman, 1 mm/gün ve 2 mm/gün gibi daha düşük eşik olaylarını tahmin etmede daha iyidir. Modellerin genel davranışı, günlük SHAP değerleri birleştirilerek görselleştirilmiştir. Makine öğrenimi modelleri her yıl özellik önem puanları (FI) ile tutarlıdır ve davranışlarını mevsimsel olarak düzenlerler.SHAP analizi ayrıca, modellerin Akdeniz ve İç Anadolu bölgelerindeki kuraklığı, bu enlemlerde düşük yaz yağışları sağlayarak başarılı bir şekilde yakaladığını, yaz aylarında daha yüksek enlemlerde pozitif SHAP değerlerinin Karadeniz bölgesinde artan yağışlara dönüştüğünü vurgulamaktadır. Yağışın yükseklikle pozitif korelasyonu modellerde açıkça görülürken, yaz aylarında kıyıdan uzaklığın etkisi genel olarak kuru iklim koşulları nedeniyle minimum düzeydedir. SHAP analizi ayrıca modellerin Akdeniz ve Karadeniz bölgelerindeki yüksek kış yağışlarının yanı sıra Orta Anadolu Platosu'nun kuru koşullarını da yakaladığını göstermektedir. Buna ek olarak, modeller, kıyıya uzaklık özelliğinin yağış üzerinde güçlü bir mevsimsel etkisi olduğunu ve kış aylarında kıyı yağışlarını yakalamada üstün bir kabiliyete sahip olduklarını göstererek mevsimselliğe uyum sağlama yeteneklerini ortaya koymaktadır.

Özet (Çeviri)

Satellite precipitation data are very important in hydrological studies, but contain bias. In this study, XGBoost and Random Forest machine learning algorithms are used to correct the bias with ground observations and environmental parameters such as distance to the coast and elevation. The machine learning models were trained daily from 2015 to 2022 with optimal hyperparameters to obtain the most accurate and robust results and results are filtered to be more representative on rainy days. Although machine learning models are generally considered as black box, SHAP values were utilized in this study in an effort to explain and interpret their behavior by showing the contribution of each feature to the model prediction and how these contributions change as a function of space and time. The performance of the models was examined using different metrics to clearly explain their strengths and weaknesses. Average RMSE scores of filtered IMERG (7.08), Random Forest (4.00), and XGBoost (4.33) showing machine learning models provide a much more accurate prediction because they reduce the average RMSE of filtered IMERG by about 3 mm/day. Average KGE scores of filtered IMERG (-0.28), Random Forest (0.46) and XGBoost (0.47) and their positive improvements of KGE values indicating machine learning models perform better in capturing precipitation variability and accuracy of predictions. The Average Mean Bias Error scores of filtered IMERG (0.197) indicates, overestimation of observations, while Random Forest (-0.068) and XGBoost (-0.071) models slightly underestimate the observed values. These results shows that the accuracy and reliability of the prediction performance are improved. It was found that XGBoost models are better to capture variability in data and predicting extreme precipitation events (10 mm/day or higher events). Random forest is better at predicting lower threshold events such as 1 mm/day and 2 mm/day. The overall behavior of the models is visualized by merging their daily SHAP values. Machine learning models are consistent with their feature importance scores (FI) each year and adapt their behavior seasonally. The SHAP analysis further emphasizes that the models successfully capture the aridity over the Mediterranean and Central Anatolian regions by providing low summer precipitation at these latitudes, while positive SHAP values at higher latitudes in summer translate into increased precipitation in the Black Sea region. The clear positive correlation of precipitation with elevation is evident in the models, while the effect of distance from the coast in summer is minimal due to generally dry climatic conditions. The SHAP analysis also shows that the models capture the high winter precipitation in the Mediterranean and Black Sea regions, as well as the dry conditions of the Central Anatolian Plateau. In addition, the models show a strong seasonal influence of the distance to coast feature on precipitation, with a superior ability to capture coastal precipitation in winter, demonstrating their ability to adapt to seasonality.

Benzer Tezler

  1. Yazım kurallarına uygun yazılmamış türkçe metinleri makine çevirisi yöntemleriyle normalleştirme

    Normalizing non-canonical turkish texts using machine translation approaches

    TALHA ÇOLAKOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Investigating the vertical tropical forest structure using digital elevation models and machine learning methods

    Düşey tropikal orman yapısının sayısal yükseklik modelleri ve makine öğrenme yöntemleri ile incelenmesi

    ELAHEH ZADBAGHER

    Doktora

    İngilizce

    İngilizce

    2023

    Jeodezi ve FotogrametriZonguldak Bülent Ecevit Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYCAN MURAT MARANGOZ

    PROF. DR. KAZİMİERZ BECEK

  3. İklimlendirme sistemleri üzerinde makine öğrenmesi ile anomali tespiti

    Anomaly detection with machine learning on air conditioning systems

    REFİK KİBAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMED FATİH ADAK

    DR. ÖĞR. ÜYESİ KEVSER OVAZ AKPINAR

  4. Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi

    Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method

    İLKER İLTER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAFİYE SENCER

  5. Mezo ölçek model rüzgar şiddeti öngörü sonuçlarının yapay sinir ağları ve k en yakın komşu algoritması ile iyileştirilmesi

    Artificial neural networks and k nearest neighborhood algorithm approach to improving wind speed prediction of the mesoscale forecast model results

    DUYGU AKYIL

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Meteorolojiİstanbul Teknik Üniversitesi

    Meteoroloji Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞÜKRAN SİBEL MENTEŞ