Geri Dön

Rastgele kayıp veri deseninde klasik istatistiksel metotlar ve denetimli makine öğrenmesi ile yapılan atamaların performanslarının değerlendirilmesi

Performance evaluation of imputations made using classical statistical methods and supervised machine learning in random missing data pattern

  1. Tez No: 964594
  2. Yazar: SEMİH ERGİŞİ
  3. Danışmanlar: PROF. DR. YASEMİN YAVUZ
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Ankara Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Biyoistatistik Bilim Dalı
  13. Sayfa Sayısı: 138

Özet

Eksik veri, birçok disiplinden araştırmacıların yaptıkları çalışmalarda yaygın olarak karşılaştıkları ve kaçınılması zor bir problemdir. Veri girişi ve verinin yönetimi aşamalarındaki eksikliklerden kaynaklı olarak karşılaşılan eksik veri probleminin, araştırmacılar tarafından çok titiz bir şekilde değerlendirilmesi gerekmektedir. Eksik veri mevcudiyeti çalışmanın sonuçları üzerinde olumsuz etki oluşturarak elde edilen sonuçların güvenirliğini olumsuz etkilemektedir. Araştırmalarda karşılaşılan eksik verilerin, hangi yöntemle başa çıkılacağının tespit edilmesi yerine, ilk olarak eksik veri oluşumunun altında yatan nedenin incelenmesi gerekmektedir. Çalışmada karşılaşılan eksik verinin hangi mekanizmadan geldiğinin ortaya koyulması ve bundan sonra kullanılacak yöntemin seçilmesi oldukça önemli bir süreçtir. Gerçek veri seti üzerinden benzetim çalışması kullanılarak yapılan bu çalışmada, bağımlı değişkende bir tane bağımsız değişkene ve birden fazla bağımsız değişkene bağlı olarak rastgele kayıp veri oluşturularak, farklı imputasyon yöntemlerinin performansları değerlendirilmiştir. İmputasyon performanslarının değerlendirilmesi için sadece yöntemlerin değil bunun yanında kayıp veri oranının, gözlem sayısının ve oluşturulan eksik veri yapısının tek ve çok değişkene bağlı oluşunun da etkisi incelenmiştir. Çalışmadan elde edilen bulgulara göre, imputasyon performansı üzerindeki en önemli faktörün kullanılan imputasyon yötemi olduğu görülmüştür. Burada denetimli makine öğrenmesi yöntemlerinin, klasik istatistiksel yöntemlerden daha üstün olduğu görülmüştür. Denetimli makine öğrenmesi yöntemlerinden ise xgboost, elasticnet ve lasso regresyon yöntemlerinin, çalışmadaki değer makine öğrenmesi yöntemlerinden oldukça üstün performans gösterdiği görülmüştür. Doğrusal regresyon yönteminin artan gözlem sayısında performansının arttığı görülürken, karar ağacı regresyon yönteminin kayıp veri oranının artmasıyla birlikte tahmin doğruluğunda belirgin bir düşüş sergilediği görülmüştür. Çalışmada klasik yöntemlerle yapılan imputasyonların, tüm senaryolarda model bazlı yöntemlere kıyasla daha düşük doğrulukta tahminler ürettiği ve özellikle yüksek kayıp oranlarında belirgin şekilde negatif ayrıştığı gözlemlenmiştir. Araştırmacılara yüksek boyutlu veri setleriyle çalıştıkları durumlarda gözlem sayısı yeterli olsun ya da olmasın eksik veri problemini gidermek amacıyla, genelleme performansı güçlü ve esnek yapılarıyla öne çıkan XGBoost ve ElasticNet regresyon yöntemlerini tercih etmeleri önerilmektedir.

Özet (Çeviri)

Missing data is a typical issue that researchers from several fields have in their studies, and it is difficult to avoid. Researchers must carefully analyze the problem of missing data, which occurs as a result of flaws in the data entry and data management stages. Missing data has a detrimental effect on the study's outcomes and reduces the reliability of the collected results. Instead of deciding which strategy would be utilized to deal with missing data in research, the fundamental cause of missing data should first be investigated. In the study, it is critical to understand which mechanism is causing the missing data and then select the strategy to be employed. In this study, which was done using a simulation study on a real data set, the efficacy of several imputation methods was examined by producing random missing data based on one independent variable in the dependent variable as well as many independent variables. To assess imputation performance, not only the methodologies but also the impacts of the missing data rate, the number of observations, and the missing data structure generated based on a single or many variables were investigated. The study's findings revealed that the most important element influencing imputation performance was the imputation technique utilized. In this case, supervised machine learning approaches outperformed conventional statistical methods. Among the supervised machine learning techniques, xgboost, elasticnet, and lasso regression performed much better than the value machine learning methods in the research. While the linear regression approach's performance improved with the number of observations, the decision tree regression method performed poorly as the missing data rate grew. The study revealed that imputation using classical approaches yielded inferior accuracy estimates compared to model-based methods across all scenarios, with a notable negative divergence particularly at elevated missing rates. Researchers are advised to utilize XGBoost and ElasticNet regression methods due to their robust generalization capabilities and adaptable frameworks, to address the issue of missing data in high-dimensional datasets, regardless of the adequacy of observations.

Benzer Tezler

  1. Building energy efficiency: A data-driven machine learning approach for energy optimization

    Bina enerji verimliliği: Enerji optimizasyonu için veriye dayalı makine öğrenmesi yaklaşımı

    AHMAD REZA DARABI

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Enerjiİstanbul Teknik Üniversitesi

    Enerji Bilim ve Teknoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA BERKER YURTSEVEN

  2. Developing a process mining-based model for detecting patient safety errors in healthcare

    Sağlık sektöründe, hasta güvenliğine yönelik hataların tespit edilmesinde süreç madenciliğine dayalı bir model geliştirilmesi

    AHMET MURAT SÜMER

    Doktora

    İngilizce

    İngilizce

    2025

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. CEMİL CEYLAN

  3. Senaryo tabanlı eğitimin ortaokul öğrencilerinin afetlere ilişkin bilgi ve tutum düzeylerine etkisi

    The effects of scenario based training on disaster related information and attitude levels of secondary school students

    UĞUR ÇAKIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Eğitim ve ÖğretimGazi Üniversitesi

    Sosyal Bilgiler ve Türkçe Eğitimi Ana Bilim Dalı

    YRD. DOÇ. BAHADIR KILCAN

  4. Aı autonomous vehıcles: Advancements, challenges and future dırectıons

    Ai otonom araçlar: Gelişmeler, zorluklar ve gelecek yönleri̇

    DARAR KALID AHMED DARAR KALID AHMED

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Yıldırım Beyazıt Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FATİH VEHBİ ÇELEBİ

  5. Age and gender classification from ear images

    Kulak imgelerinden yaş ve cinsiyet sınıflandırma

    DOĞUCAN YAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. HAZIM KEMAL EKENEL