Geri Dön

Karar ağaçları ile lojistik regresyon analizinin performanslarının simülasyon çalışması ile karşılaştırılması

Comparison of decision trees and logistic regression analysis performances by a simulation study

  1. Tez No: 365151
  2. Yazar: MEHMET KARADAĞ
  3. Danışmanlar: PROF. DR. NECDET SÜT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: CART, CHAID, C4.5 (J48), Logistic Regression (LR), Simulation
  7. Yıl: 2014
  8. Dil: Türkçe
  9. Üniversite: Trakya Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 78

Özet

Çalışmamızın amacı karar ağacı yöntemlerinden olan CART, CHAID ve C4.5 (Java uygulaması J48) ile Lojistik Regresyon analizinin performanslarını simülasyon verileri kullanarak karşılaştırılmasıdır. Simülasyon verileri oluşturulurken bağımsız değişkenler tümü kategorik, tümü sürekli ve hem sürekli hem kategorik şekilde oluşturulmuş ve her bir yapıdan 30'lu, 100' lük ve 1000'li denemeler şeklinde simülasyonlar yapılmıştır. Yapılan simülasyonlar R programı ile CART, CHAID, J48 ve Lojistik Regresyon yöntemleri ile analiz edilmiştir. Performans değerlendirmemizde duyarlılık, özgüllük, pozitif kestirim değeri, negatif kestirim değeri, doğruluk oranı ve ROC eğrisi altında kalan alan değeri esas alınmıştır. Yapılan simülasyon çalışmalarında; tümü kategorik yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışmasına göre, dört algoritma arasında en düşük duyarlılık oranı (%79.92) CART yönteminde gözlenirken diğer üç yöntemin duyarlılık oranlarının birbirine yakın değerler (J48-%85.89, CHAID-%85.00, Lojistik Regresyon-%82.50) aldığı bulunmuştur. 5 kategorik, 5 sürekli yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışması sonuçlarına göre, dört yöntem arasında sürekli değişkenlerden 3 değişkenin F dağılımından, 2 değişkenin normal dağılımdan türetilen bağımsız olan değişkenler göz önüne alındığında en düşük duyarlılık oranı Lojistik Regresyon yönteminde (%79,19) gözlenirken, CART yönteminde (%81,94), CHAID yönteminde (%84,85), en yüksek değer ise J48 yönteminde (%91,80) gözlenmiştir. Sürekli yapıda olan bağımsız değişkenler için 1000 denemelik simülasyon çalışması sonuçlarına göre, dört yöntem arasında sürekli değişkenlerden 3 değişkenin F dağılımından, 2 değişkenin normal dağılımdan türetilen bağımsız olan değişkenler göz önüne alındığında en düşük duyarlılık oranı Lojistik Regresyon yönteminde (%75,64) gözlenirken, CART yönteminde (%79,67), CHAID yönteminde (%84,75), en yüksek değer ise J48 yönteminde (%93,17) gözlenmiştir. Sonuç olarak bağımsız değişkenin yapısı ve simülasyon deneme sayısı değişse de sonuçlarda dikkat çekici bir farkla J48 (C4.5 java uygulaması) yöntemi diğer yöntemlerden daha yüksek bir performans göstermiştir. Anahtar Kelimler: CART, CHAID, C4.5 (J48), Lojistik Regresyon (LR), Simülasyon

Özet (Çeviri)

The aim of the study is to compare performances of CART, CHAID and C4.5 (java application J48) decision tree methods with Logistic Regression (LR) analysis by simulation data. In the simulation processes, independent variables were classified as all categorical, all continuous, both continuous and categorical, and they were simulated 30, 100 and 1000 trials. The simulations and analysis (CART, CHAID, J48 and LR methods) were done using the R program. Sensitivity, specificity, positive predictive value, negative predictive value, accuracy rate, and area under the ROC curve were used for performance evaluation. In accordance with simulations consisting of 1000 trials, while the lowest sensitivity rate among the four methods was observed in CART (79.92%), it was found that the sensitivity rates of the other three methods had closer rates to each other (J48-85.89%, CHAID-85.00%, Logistic Regression-82,50%) for all independent variables in categorical forms in simulation studies. According to the results of simulation of 1000 trials for 5 categorical and 5 continuous independent variables, it was observed that the lowest sensitivity ratio belonged to Logistic Regression (79,19%), CART method (81,94%), CHAID method (84,85%) and the highest ratio was in J48 (91,80%) when among four methods 3 variables of continuous variables derived from F distribution and 2 variables derived from normal distribution were taken into account. According to the results of simulation of 1000 trials for continuous independent variables, it was observed that the lowest sensitivity ratio belonged to Logistic Regression (75,64%), CART method (79,67%), CHAID method (84,75%) and the highest ratio was in J48 (93,17%) when among four methods 3 variables of continuous variables derived from F distribution and 2 variables derived from normal distribution were taken into account. As a result, though the structure of independent variable and the number of trials changed, J48 (C4.5 java application) turned out to perform considerably higher than the other methods in the results.

Benzer Tezler

  1. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  2. Derin öğrenme yöntemleri ile EEG tabanlı motor imgeleme sinyallerinin sınıflandırılması

    Classification of motor imagery EEG signals using deep learning methods

    UMUT ÖZFİDAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolİSTANBUL NİŞANTAŞI ÜNİVERSİTESİ

    Yazılım Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜLSÜM ŞANAL

    DR. ÖĞR. ÜYESİ KÜBRA EROĞLU

  3. Cyber tools as foreign policy instruments in trilateral relations: Analysing cyber-attacks targeting the United Kingdom

    Üçlü ilişkilerde dış politika aracı olarak siber araçlar: Birleşik Krallık'ı hedef alan siber saldırıların analizi

    ATAKAN YILMAZ

    Doktora

    İngilizce

    İngilizce

    2024

    Siyasal BilimlerGalatasaray Üniversitesi

    Uluslararası İlişkiler Ana Bilim Dalı

    DOÇ. DR. MENENT SAVAŞ CAZALA

  4. Lojistik regresyon ve CART analizi teknikleriyle Sosyal Güvenlik Kurumu İlaç Provizyon Sistemi verileri üzerinde bir uygulama

    An application on Pharmacy Provision System data of Social Security Institution by logistic regression and CART analysis technics

    ZEYNEP BURCU KIRAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    İstatistikGazi Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. NECLA GÜNDÜZ TEKİN

  5. Çok kriterli karar verme ve veri madenciliği yöntemleri ile tedarikçi seçimi ve seviyelendirmesi

    Supplier selection and scoring with multi - criteria decision making and data mining techniques

    EDA TANSU KARAGÖZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Endüstri ve Endüstri MühendisliğiBursa Uludağ Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ YURDUN ORBAK