Rastgele kayıp veri deseninde klasik istatistiksel metotlar ve denetimli makine öğrenmesi ile yapılan atamaların performanslarının değerlendirilmesi
Performance evaluation of imputations made using classical statistical methods and supervised machine learning in random missing data pattern
- Tez No: 964594
- Danışmanlar: PROF. DR. YASEMİN YAVUZ
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Ankara Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Biyoistatistik Bilim Dalı
- Sayfa Sayısı: 138
Özet
Eksik veri, birçok disiplinden araştırmacıların yaptıkları çalışmalarda yaygın olarak karşılaştıkları ve kaçınılması zor bir problemdir. Veri girişi ve verinin yönetimi aşamalarındaki eksikliklerden kaynaklı olarak karşılaşılan eksik veri probleminin, araştırmacılar tarafından çok titiz bir şekilde değerlendirilmesi gerekmektedir. Eksik veri mevcudiyeti çalışmanın sonuçları üzerinde olumsuz etki oluşturarak elde edilen sonuçların güvenirliğini olumsuz etkilemektedir. Araştırmalarda karşılaşılan eksik verilerin, hangi yöntemle başa çıkılacağının tespit edilmesi yerine, ilk olarak eksik veri oluşumunun altında yatan nedenin incelenmesi gerekmektedir. Çalışmada karşılaşılan eksik verinin hangi mekanizmadan geldiğinin ortaya koyulması ve bundan sonra kullanılacak yöntemin seçilmesi oldukça önemli bir süreçtir. Gerçek veri seti üzerinden benzetim çalışması kullanılarak yapılan bu çalışmada, bağımlı değişkende bir tane bağımsız değişkene ve birden fazla bağımsız değişkene bağlı olarak rastgele kayıp veri oluşturularak, farklı imputasyon yöntemlerinin performansları değerlendirilmiştir. İmputasyon performanslarının değerlendirilmesi için sadece yöntemlerin değil bunun yanında kayıp veri oranının, gözlem sayısının ve oluşturulan eksik veri yapısının tek ve çok değişkene bağlı oluşunun da etkisi incelenmiştir. Çalışmadan elde edilen bulgulara göre, imputasyon performansı üzerindeki en önemli faktörün kullanılan imputasyon yötemi olduğu görülmüştür. Burada denetimli makine öğrenmesi yöntemlerinin, klasik istatistiksel yöntemlerden daha üstün olduğu görülmüştür. Denetimli makine öğrenmesi yöntemlerinden ise xgboost, elasticnet ve lasso regresyon yöntemlerinin, çalışmadaki değer makine öğrenmesi yöntemlerinden oldukça üstün performans gösterdiği görülmüştür. Doğrusal regresyon yönteminin artan gözlem sayısında performansının arttığı görülürken, karar ağacı regresyon yönteminin kayıp veri oranının artmasıyla birlikte tahmin doğruluğunda belirgin bir düşüş sergilediği görülmüştür. Çalışmada klasik yöntemlerle yapılan imputasyonların, tüm senaryolarda model bazlı yöntemlere kıyasla daha düşük doğrulukta tahminler ürettiği ve özellikle yüksek kayıp oranlarında belirgin şekilde negatif ayrıştığı gözlemlenmiştir. Araştırmacılara yüksek boyutlu veri setleriyle çalıştıkları durumlarda gözlem sayısı yeterli olsun ya da olmasın eksik veri problemini gidermek amacıyla, genelleme performansı güçlü ve esnek yapılarıyla öne çıkan XGBoost ve ElasticNet regresyon yöntemlerini tercih etmeleri önerilmektedir.
Özet (Çeviri)
Missing data is a typical issue that researchers from several fields have in their studies, and it is difficult to avoid. Researchers must carefully analyze the problem of missing data, which occurs as a result of flaws in the data entry and data management stages. Missing data has a detrimental effect on the study's outcomes and reduces the reliability of the collected results. Instead of deciding which strategy would be utilized to deal with missing data in research, the fundamental cause of missing data should first be investigated. In the study, it is critical to understand which mechanism is causing the missing data and then select the strategy to be employed. In this study, which was done using a simulation study on a real data set, the efficacy of several imputation methods was examined by producing random missing data based on one independent variable in the dependent variable as well as many independent variables. To assess imputation performance, not only the methodologies but also the impacts of the missing data rate, the number of observations, and the missing data structure generated based on a single or many variables were investigated. The study's findings revealed that the most important element influencing imputation performance was the imputation technique utilized. In this case, supervised machine learning approaches outperformed conventional statistical methods. Among the supervised machine learning techniques, xgboost, elasticnet, and lasso regression performed much better than the value machine learning methods in the research. While the linear regression approach's performance improved with the number of observations, the decision tree regression method performed poorly as the missing data rate grew. The study revealed that imputation using classical approaches yielded inferior accuracy estimates compared to model-based methods across all scenarios, with a notable negative divergence particularly at elevated missing rates. Researchers are advised to utilize XGBoost and ElasticNet regression methods due to their robust generalization capabilities and adaptable frameworks, to address the issue of missing data in high-dimensional datasets, regardless of the adequacy of observations.
Benzer Tezler
- Building energy efficiency: A data-driven machine learning approach for energy optimization
Bina enerji verimliliği: Enerji optimizasyonu için veriye dayalı makine öğrenmesi yaklaşımı
AHMAD REZA DARABI
Yüksek Lisans
İngilizce
2025
Enerjiİstanbul Teknik ÜniversitesiEnerji Bilim ve Teknoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA BERKER YURTSEVEN
- Developing a process mining-based model for detecting patient safety errors in healthcare
Sağlık sektöründe, hasta güvenliğine yönelik hataların tespit edilmesinde süreç madenciliğine dayalı bir model geliştirilmesi
AHMET MURAT SÜMER
Doktora
İngilizce
2025
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. CEMİL CEYLAN
- Senaryo tabanlı eğitimin ortaokul öğrencilerinin afetlere ilişkin bilgi ve tutum düzeylerine etkisi
The effects of scenario based training on disaster related information and attitude levels of secondary school students
UĞUR ÇAKIR
Yüksek Lisans
Türkçe
2017
Eğitim ve ÖğretimGazi ÜniversitesiSosyal Bilgiler ve Türkçe Eğitimi Ana Bilim Dalı
YRD. DOÇ. BAHADIR KILCAN
- Aı autonomous vehıcles: Advancements, challenges and future dırectıons
Ai otonom araçlar: Gelişmeler, zorluklar ve gelecek yönleri̇
DARAR KALID AHMED DARAR KALID AHMED
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. FATİH VEHBİ ÇELEBİ
- Age and gender classification from ear images
Kulak imgelerinden yaş ve cinsiyet sınıflandırma
DOĞUCAN YAMAN
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HAZIM KEMAL EKENEL