Geri Dön

Veri madenciliğinde farklı karar ağaçları ve k-en yakın komşuluk yöntemlerinin incelenmesi: kadın hastalıkları ve doğum verisinde bir uygulama

Investigation of different decision trees and k-nearest neighbor methods in data mining: An application on gynecology and birth data

  1. Tez No: 549742
  2. Yazar: SADİ ELASAN
  3. Danışmanlar: PROF. DR. SIDDIK KESKİN
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Çapraz Geçerlik, Denetimli Yöntemler, Öklid Uzaklığı, Risk Tahmini, Sınıflama, Cross Validation, Supervised Methods, Euclidean Distance, Risk Estimation, Classification
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Van Yüzüncü Yıl Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 97

Özet

Veri madenciliğinde, sınıflandırma amacıyla kullanılan algoritmalar genel olarak;“denetimsiz (unsupervised)”ve“denetimli (supervised)”olmak üzere iki başlık altında incelenebilir. Denetimli veri madenciliğinde“karar ağaçları (decision trees)”ve“k-en yakın komşu (k-nearest neighbor | KNN)”algoritmaları; parametrik olmayan yöntemler arasında olup, tahmin edici özelliğe sahiptir. Sınıflandırma amacıyla uygulanan bu algoritmalarla, çalışmadaki cevap değişkeni (bebeklerin doğum ağırlığı) üzerine etkili olan açıklayıcı değişkenler belirlenmiştir. Karar ağaçlarından;“CART, CHAID, Ayrıntılı CHAID, QUEST, Rastgele Orman ve C4.5”algoritmaları kullanılmıştır. K-en yakın komşu algoritmasında;“Öklid”ve“Manhattan (City block)”uzaklık ölçüleri kullanılarak uygulama yapılmıştır. Sınıflandırma performansları göz önüne alınarak, en iyi tahmin değerini veren algoritmalar belirlenmeye çalışılmıştır. Bu sonuçlara göre; Duyarlık (Sensitivity) ölçütü bakımından en yüksek tahmin oranı %88.4 ile“CART”algoritmasında gözlenmiştir. Özgüllük (Specificity) ölçütü bakımından en yüksek tahmin oranı %98.2 ile“Rasgele Orman”algoritmasında görülmüştür. Genel doğruluk ölçütü bakımından ise en yüksek tahmin oranı %94.5 ile“C4.5”algoritmasında gözlenmiştir. Risk (hata) tahmin ölçütü bakımından en düşük algoritma, %5.6 ile“C4.5”algoritması olmuştur. Genel olarak sonuçlar incelendiğinde; tüm algoritmaların“iyi sınıflandırma, yüksek tahmin ve düşük hata oranı”ile çalıştığı söylenebilir. Ayrıca bu çalışma, yeni doğacak bebeklerin doğum ağırlığının, düşük doğum ağırlığında olup olmayacağına erken karar verme ve böylece koruyucu tedbirlerin alınması açısından araştırmacılara katkı sağlayabilir.

Özet (Çeviri)

In data mining, the algorithms used for classification can generally be examined under two headings as“unsupervised”and“supervised”.“Decision trees”and“k-nearest neighbor (KNN)”algorithms in supervised data mining; nonparametric methods and has predictive feature. With these algorithms applied for classification purposes, explanatory variables which are most effective on the answer variable in the study (birth weight of babies) have been determined. From decision trees;“CART, CHAID, exhaustive CHAID, QUEST, Random Forest and C4.5”algorithms have been used. In k-nearest neighbor algorithm;“Euclidean”and“Manhattan (City block)”distance measurements have been applied. Considering the classification performances, it has been tried to determine optimal estimation algorithms. According to these results; the highest estimation rate in terms of sensitivity has been observed in the“CART”algorithm with 88.4%. The highest estimation rate in terms of specificity criterion has been seen 98.2% in the“Random Forest”algorithm. The highest estimation rate in terms of accuracy criterion has been seen 94.5% in the“C4.5”algorithm. The lowest rate in terms of the risk estimate has been observed in the“C4.5”of 5.6%. When the results are examined in general; it can be said that all algorithms work with“good classification, high estimation and low error rate”. In addition, this study may contribute to early investigations of the birth weight of newborn babies, whether it is low birth weight or not, and thus taking preventive measures.

Benzer Tezler

  1. Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

    Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

    KEZİBAN SEÇKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Siyasal BilimlerSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ERMAN COŞKUN

  2. Kamu hizmetlerinde veri madenciliği: Çözüm masası verileri temelinde bir araştırma

    Data mining in public services: A research on municipality help desk data

    YILMAZ DEMİRCİ

    Doktora

    Türkçe

    Türkçe

    2018

    Kamu YönetimiSakarya Üniversitesi

    Siyaset Bilimi ve Kamu Yönetimi Ana Bilim Dalı

    DOÇ. DR. ÖZER KÖSEOĞLU

  3. Veri madenciliğinde hibrit model yaklaşımı

    Hybrid model approach in data mining

    BATUHAN BAKIRARAR

    Doktora

    Türkçe

    Türkçe

    2021

    BiyoistatistikAnkara Üniversitesi

    Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı

    PROF. DR. ATİLLA HALİL ELHAN

  4. Veri madenciliği yöntemlerini kullanarak anemi sınıflandırılmasına yönelik bir uygulama

    Classification of anemia using data mining methods: An application

    BETÜL MERVE FAKI

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. BAŞAR ÖZTAYŞİ

  5. Pertübasyon yöntemi ile hassas veri güvenliğine yönelik çok değişkenli veriler için tahmin analizi

    Prediction analysis for multivariate data with respect to sensitive data security using the perturbation method

    İLKER İLTER

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Endüstri ve Endüstri MühendisliğiSakarya Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SAFİYE SENCER