Veri kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma algoritmalarının performanslarınınkarşılaştırılması
Comparison of performances data mining classificationalgorithms when data quality is defective
- Tez No: 807724
- Danışmanlar: DR. ÖĞR. ÜYESİ YILDIRIM DEMİR
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Van Yüzüncü Yıl Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 146
Özet
Bu tez çalışmasında, veri madenciliği sınıflandırma algoritmalarının veri kalitesinin bozuk olduğu durumlarda nasıl performans gösterdikleri ve veri kalitesinden nasıl etkilendikleri incelenmiştir. Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada, veri kalitesini bozan etmenler arasında yer alan sansür veri, eksik veri ve çoklu doğrusal bağlantının veri setinde bulunması durumunda veri madenciliği sınıflandırma algoritmalarının performansları incelenmiştir. Naive Bayes (NB), Lojistik Regresyon (LR), K-En Yakın Komşu (kNN), Destek Vektör Makineleri (SVM) ve Aşırı Gradyan Arttırma (XGBoost) sınıflandırma algoritmaları ile uygulama gerçekleştirilmiştir. Sansürlü verilerinin etkisini veri setinde gösterilmesi amacı ile kNN imputasyon yöntemi kullanılmış ve daha sonra uygulamalar gerçekleştirilmiştir. Eksik veri setleri için, tam veri setleri sırası ile tamamen rastgele eksik (MCAR) yapısında %5, %15 ve %30 eksiltilerek uygulama gerçekleştirilmiştir. Çoklu doğrusal bağlantı bulunan veri setleri için korelasyon matrisleri ile koşul indeksi belirtildikten sonra uygulama gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için farklı örneklemlerde hem gerçek ver setleri hem de simülasyon çalışmaları ile ayrı ayrı uygulama yapılmıştır. Çalışma sonuçlarına göre, sansür veri için SVM ve Lojistik Regresyon algoritmasının, eksik veri ve çoklu doğrusal bağlantı varlığında büyük örneklemli veri setlerinde XGBoost algoritmasının çalışmada kullanılan algoritmalara kıyasla etkin performans sergilediği söylenebilir.
Özet (Çeviri)
In this thesis, the performance of data mining classification algorithms and their sensitivity to data quality issues are examined when the data is of poor quality. Modeling studies using data mining algorithms have increased with the advancement of computer technology. However, data quality plays an important role in the classification performance achieved in studies using these algorithms. In this study, the impact of factors that affect data quality, such as censored data, missing data, and multicollinearity, on the performance of data mining classification algorithms is investigated. The classification algorithms Naive Bayes (NB), Logistic Regression (LR), K-Nearest Neighbor (kNN), Support Vector Machines (SVM), and Extreme Gradient Boosting (XGBoost) are applied. To demonstrate the impact of censored data on the dataset, the kNN algorithm is used with an imputation method, and then the applications are performed. For missing data sets, complete data sets are randomly reduced at rates of 5%, 15%, and 30% using the Missing Completely At Random (MCAR) structure, and the applications are performed. For data sets with multicollinearity, after condition indices are specified using correlation matrices, the applications are performed. To examine the performance of the methods, applications are performed separately on both real data sets and simulation studies in different samples. According to the results of the study, it can be said that the SVM and Logistic Regression algorithm for censored data, and the XGBoost algorithm for large sample datasets in the presence of missing data and multicollinearity show effective performance compared to the algorithms used in the study.
Benzer Tezler
- Behçet hastalarındaki yaşam kalitesi, cinsel sorunlar, anksiyete ve depresyon düzeylerinin psoriyazis hastaları ve sağlıklı gönüllüler ile karşılaştırılması
The quality of life, sexual disorders and the anxiety and depression levels of behçet?s patients comparison between psoriasis patients and healty volunteers
YAŞAR YILMAZ
Tıpta Uzmanlık
Türkçe
2011
DermatolojiDokuz Eylül ÜniversitesiDeri ve Zührevi Hast. Ana Bilim Dalı
DOÇ. DR. TURNA İLKNUR
- Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Panik bozuklukta yaşam kalitesi
Quality of life in panic disorder
NAZLI ÇÖLKESEN ALCAN
Tıpta Uzmanlık
Türkçe
2004
PsikiyatriÇukurova ÜniversitesiPsikiyatri Ana Bilim Dalı
PROF. DR. BEKİR AYDIN LEVENT
- I. II. ve III trimester gebelerde uyku kalitesi ve uyku kalitesinin gebelik sürecine etkisi
In I. II. and III. trimester pregrancy and the effect of SLEEP quality on the pregnancy process
ELİFSENA CANAN ALP ARICI
Tıpta Uzmanlık
Türkçe
2023
Kadın Hastalıkları ve DoğumNecmettin Erbakan ÜniversitesiKadın Hastalıkları ve Doğum Ana Bilim Dalı
PROF. KAZIM GEZGİNÇ
- 18-24 yaş arası bireylerin beden algısının ve benlik saygısının incelenmesi
Başlık çevirisi yok
TUĞÇE AKBAŞ
Tıpta Uzmanlık
Türkçe
2023
Aile HekimliğiSağlık Bilimleri ÜniversitesiAile Hekimliği Ana Bilim Dalı
DOÇ. DR. GÜZİN ZEREN ÖZTÜRK