Geri Dön

Veri kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma algoritmalarının performanslarınınkarşılaştırılması

Comparison of performances data mining classificationalgorithms when data quality is defective

  1. Tez No: 807724
  2. Yazar: SAYGIN DİLER
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YILDIRIM DEMİR
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Van Yüzüncü Yıl Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 146

Özet

Bu tez çalışmasında, veri madenciliği sınıflandırma algoritmalarının veri kalitesinin bozuk olduğu durumlarda nasıl performans gösterdikleri ve veri kalitesinden nasıl etkilendikleri incelenmiştir. Veri madenciliği algoritmaları ile gerçekleştirilen modelleme çalışmaları bilgisayar teknolojisinin gelişmesiyle birlikte artış göstermiştir. Ancak bu algoritmalar ile yapılan çalışmalarda veri kalitesinin bozulması elde edilecek sınıflandırma performanslarında önemli rol oynamaktadır. Bu çalışmada, veri kalitesini bozan etmenler arasında yer alan sansür veri, eksik veri ve çoklu doğrusal bağlantının veri setinde bulunması durumunda veri madenciliği sınıflandırma algoritmalarının performansları incelenmiştir. Naive Bayes (NB), Lojistik Regresyon (LR), K-En Yakın Komşu (kNN), Destek Vektör Makineleri (SVM) ve Aşırı Gradyan Arttırma (XGBoost) sınıflandırma algoritmaları ile uygulama gerçekleştirilmiştir. Sansürlü verilerinin etkisini veri setinde gösterilmesi amacı ile kNN imputasyon yöntemi kullanılmış ve daha sonra uygulamalar gerçekleştirilmiştir. Eksik veri setleri için, tam veri setleri sırası ile tamamen rastgele eksik (MCAR) yapısında %5, %15 ve %30 eksiltilerek uygulama gerçekleştirilmiştir. Çoklu doğrusal bağlantı bulunan veri setleri için korelasyon matrisleri ile koşul indeksi belirtildikten sonra uygulama gerçekleştirilmiştir. Yöntemlerin performanslarının incelenmesi için farklı örneklemlerde hem gerçek ver setleri hem de simülasyon çalışmaları ile ayrı ayrı uygulama yapılmıştır. Çalışma sonuçlarına göre, sansür veri için SVM ve Lojistik Regresyon algoritmasının, eksik veri ve çoklu doğrusal bağlantı varlığında büyük örneklemli veri setlerinde XGBoost algoritmasının çalışmada kullanılan algoritmalara kıyasla etkin performans sergilediği söylenebilir.

Özet (Çeviri)

In this thesis, the performance of data mining classification algorithms and their sensitivity to data quality issues are examined when the data is of poor quality. Modeling studies using data mining algorithms have increased with the advancement of computer technology. However, data quality plays an important role in the classification performance achieved in studies using these algorithms. In this study, the impact of factors that affect data quality, such as censored data, missing data, and multicollinearity, on the performance of data mining classification algorithms is investigated. The classification algorithms Naive Bayes (NB), Logistic Regression (LR), K-Nearest Neighbor (kNN), Support Vector Machines (SVM), and Extreme Gradient Boosting (XGBoost) are applied. To demonstrate the impact of censored data on the dataset, the kNN algorithm is used with an imputation method, and then the applications are performed. For missing data sets, complete data sets are randomly reduced at rates of 5%, 15%, and 30% using the Missing Completely At Random (MCAR) structure, and the applications are performed. For data sets with multicollinearity, after condition indices are specified using correlation matrices, the applications are performed. To examine the performance of the methods, applications are performed separately on both real data sets and simulation studies in different samples. According to the results of the study, it can be said that the SVM and Logistic Regression algorithm for censored data, and the XGBoost algorithm for large sample datasets in the presence of missing data and multicollinearity show effective performance compared to the algorithms used in the study.

Benzer Tezler

  1. Behçet hastalarındaki yaşam kalitesi, cinsel sorunlar, anksiyete ve depresyon düzeylerinin psoriyazis hastaları ve sağlıklı gönüllüler ile karşılaştırılması

    The quality of life, sexual disorders and the anxiety and depression levels of behçet?s patients comparison between psoriasis patients and healty volunteers

    YAŞAR YILMAZ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2011

    DermatolojiDokuz Eylül Üniversitesi

    Deri ve Zührevi Hast. Ana Bilim Dalı

    DOÇ. DR. TURNA İLKNUR

  2. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  3. Panik bozuklukta yaşam kalitesi

    Quality of life in panic disorder

    NAZLI ÇÖLKESEN ALCAN

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2004

    PsikiyatriÇukurova Üniversitesi

    Psikiyatri Ana Bilim Dalı

    PROF. DR. BEKİR AYDIN LEVENT

  4. I. II. ve III trimester gebelerde uyku kalitesi ve uyku kalitesinin gebelik sürecine etkisi

    In I. II. and III. trimester pregrancy and the effect of SLEEP quality on the pregnancy process

    ELİFSENA CANAN ALP ARICI

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Kadın Hastalıkları ve DoğumNecmettin Erbakan Üniversitesi

    Kadın Hastalıkları ve Doğum Ana Bilim Dalı

    PROF. KAZIM GEZGİNÇ

  5. 18-24 yaş arası bireylerin beden algısının ve benlik saygısının incelenmesi

    Başlık çevirisi yok

    TUĞÇE AKBAŞ

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Aile HekimliğiSağlık Bilimleri Üniversitesi

    Aile Hekimliği Ana Bilim Dalı

    DOÇ. DR. GÜZİN ZEREN ÖZTÜRK