Comparison of missing data imputation methods applied to daily temperature and precipitation data in Turkey
Türkiye'de günlük sıcaklık ve yağış verilerine uygulanan kayıp veri atama yöntemlerinin karşılaştırılması
- Tez No: 826433
- Danışmanlar: PROF. DR. CEYLAN YOZGATLIGİL
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 144
Özet
Bir çok veri analizinde kullanılan verilerin önemli bir kısmı eksik değerler içermekte ve özellikle zaman bağımlı verilerde gözlem sırasının önemli olduğu durumlarda anlamlı sonuçların elde edilmesini engellemektedir. Bu durum, meteoroloji ve ekonomi gibi alanlarda uygulanan istatistiksel analizlerde güvenilmez sonuçlara yol açmaktadır. Bu zorluğun üstesinden gelmek için zaman serisi verilerinde eksik değerlerin titizlikle ele alınması gerekmektedir. Bu tez çalışmasında, Türkiye Meteoroloji Genel Müdürlüğünden elde edilen günlük ortalama sıcaklık ve toplam yağış verileri kullanılmıştır. Temel amaç, bu veri setlerindeki eksik değerleri çeşitli yöntemlerle tamamlamak ve performanslarını karşılaştırmaktır. Sıcaklık ve yağış verilerine kasıtlı olarak eksik değerler eklenmiştir. Kayıp verileri doldurmak için kullanılan yöntemler arasında Basit Aritmetik Ortalama Yöntemi (SAA), K-En Yakın Komşu Yöntemi (KNN), Rastgele Orman Yöntemi (RF), Zincir Denklemle Çoklu Tamamlama Yöntemi (MICE) ve Genelleştirilmiş Rakip Tamamlama Ağı (GAIN) yer almaktadır. Sonuçlar, Kök Ortalama Kare Hatası (RMSE), Kök Ortalama Kare Hatasının Değişim Katsayısı (CVRMSE) ve Nash-Sutcliffe Verimliliği (NSE) temel alınarak değerlendirilmiştir. Sonuçlar, çoğu durumda Rastgele Ormanların üstün performans sergilediğini, onu KNN ve GAIN yöntemlerinin takip ettiğini göstermiştir.
Özet (Çeviri)
A significant portion of the data under analysis contains missing values, which hinders the generation of meaningful results, particularly when dealing with time-dependent data where the order of observations is crucial. This issue leads to unreliable outcomes in statistical analyses applied in fields such as meteorology and economy. To address this challenge, handling missing values meticulously in time-dependent data is imperative. In this thesis, daily average temperature and total precipitation data, obtained from the General Directorate of Meteorology of Turkey, were utilized. The primary objective was to impute the missing values in these datasets using various methods and subsequently compare their performance. Missing values were intentionally introduced into the temperature and precipitation data. The methods employed for imputation included Simple Arithmetic Average Method (SAA), K-Nearest Neighbor Method (KNN), Random Forest Method (RF), Multiple Imputation by Chained Equation Method (MICE), and Generalized Adversarial Imputation Network (GAIN). The outcomes were assessed based on the Root Mean Square Error (RMSE), Coefficient of Variation of Root Mean Square Error (CVRMSE), and Nash-Sutcliffe Efficiency (NSE). The results indicated that Random Forests exhibited superior performance in most cases, followed by KNN and GAIN.
Benzer Tezler
- Yüksek boyutlu verilerde eksik veri değer atama yöntemlerinin sınıflandırma performansına etkisinin simülasyonla karşılaştırılması
Comparison the effects of missing data imputation methods on classification performance in high dimensional data through simulation
BUĞRA VAROL
Doktora
Türkçe
2023
BiyoistatistikAydın Adnan Menderes ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. İMRAN KURT ÖMÜRLÜ
- Kayıp veri ile baş etme yöntemlerinin güvenirlik kestirimleri üzerine etkisi
Comparison of influence of the missing data handling methods on reliability estimation
İZEL BAYRAM
Yüksek Lisans
Türkçe
2020
Eğitim ve ÖğretimHacettepe ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. BURCU ATAR
- Veri kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma algoritmalarının performanslarınınkarşılaştırılması
Comparison of performances data mining classificationalgorithms when data quality is defective
SAYGIN DİLER
Doktora
Türkçe
2023
İstatistikVan Yüzüncü Yıl Üniversitesiİstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILDIRIM DEMİR
- Sıklıkla kullanılan kayıp veri yöntemlerinin betimsel istatistik güvenirlik ve geçerlik açısından karşılaştırılması
Evaluation of commonly used missing data methods in terms of descriptive statistics, reliability and validity
MERVE ŞAHİN KÜRŞAD
Yüksek Lisans
Türkçe
2014
Eğitim ve ÖğretimAbant İzzet Baysal ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. ZEKERİYA NARTGÜN
- Predicting the preference of liking using fNIRS and machine learning algorithms
fNIRS ve makine öğrenmesi algoritmaları ile beğeni tahmini
MEHMET YİĞİT KÖKSAL
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMEF ÜNİVERSİTESİBilişim Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUNA ÇAKAR