Lojistik regresyon ve farklı sınıflama modellerinin performanslarının karşılaştırılması
Comparing the logistic regression and different classification models
- Tez No: 531109
- Danışmanlar: DOÇ. DR. YAŞAR SERTDEMİR
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Lojistik Regresyon, Prevalans, doğrusallık, Karar Ağacı, Logistic Regression, Prevalence, Linearity, Decision Tree
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Çukurova Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 149
Özet
Sağlık alanında sınıflama modelleri hastalıkların seyrinin tahmin edilmesinde ve tanı koymada sık kullanılan modellerdir. Bu modeller arasında en sık kullanılan ve en iyi bilineni Lojistik regresyon(LR) dur ancak son yıllarda kullanımı artan sınıflama modellerinin performansları konusunda henüz yeterli bilgiye sahip değiliz. Bu tezde kullanılan Karar Ağacı(KA), Random Forest(RF), Destek Vektör Makineleri(DVM) ve Naive Bayes(NB) sınıflama modelleri yanıt değişkenin iki değerli ve açıklayıcı değişkenlerin kategorik ve/veya sürekli olabildiği modellerden seçilmiştir. Bu tezde, LR yöntemi ile diğer yöntemlerin farklı örnek büyüklüğü, prevelans, açıklayıcı değişken tipi ve tanımlayıcılık katsayısı durumunda, etkileşim terimlerini bulunduran ve etkileşim terimlerini bulundurmayan 2 farklı model ile veri setleri üretilerek sınıflama modellerinin performanslarının karşılaştırılması amaçlanmıştır. Ayrıca literatürden alınan 12 gerçek veri seti için performansları karşılaştırılmıştır. Genel olarak etkileşim terimlerini bulundurmayan modelde NB yönteminin performansı diğer yöntemlerden daha yüksek ve LR yöntemi ile benzer sonuçlar verdiği gözlenmiştir. Etkileşim terimlerini bulunduran modelde, düşük örnek büyüklüğünde NB yönteminin diğer yöntemlerden daha iyi performans göstermiştir. Orta ve büyük veri setlerinde DVM ve RF yöntemlerinin daha iyi performans göstermektedir. Bunula birlikte KA ve DVM yöntemleri düşük prevalans, düşük tanımlayıcılık katsayısı ve küçük örnek büyüklüğünde sınıflama yapamadığı durumların çok fazla olduğu(%50) gözlenmiştir. Gerçek veri setleri analizlerde DVM ve RF yöntemleri daha iyi performans gösterdiği gözlenmiştir.
Özet (Çeviri)
In this thesis we aimed to compare the performance of classification models by simulating data sets using 2 different models (with and without interaction terms) where sample size, prevalence, and coefficient of determination combinations changed. In addition, their performances were compared for 12 real data sets from the literature. In simulations without interaction terms, the performance of the NB method was higher than the other methods and comparable with the LR method. In simulations with interaction terms, the NB method performed better than the other methods at low sample size but SVM and RF methods performed better in medium and large data sets. We observed that DT and SVM methods were not able to make classifications (50%) in simulation settings with low prevalence and low coefficient of determination and small sample size. Real data set analysis showed that SVM and RF methods perform better than LR, DT and NB in some real data sets.
Benzer Tezler
- Lojistik regresyon analizi ile elde edilen beta katsayısına, odds oranına ve makine öğrenme algoritmaları ile elde edilen ağırlıklandırılmış skorlara dayalı klinik tahmin modellerinin başarılarının karşılaştırılması
Comparison of success of clinical prediction models based on beta coefficient, odds ratio obtained by logistic regression analysis and weighted scores obtained by machine learning algorithms
GÜLÇİN AYDOĞDU
Doktora
Türkçe
2023
BiyoistatistikAnkara ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. YASEMİN YAVUZ
- İkili lojistik regresyonda model seçim yöntemlerinin performanslarının değerlendirilmesi
Evaluation of performance of model selection methods in binary logistic regression
İBRAHİM ŞAHİN
Doktora
Türkçe
2024
BiyoistatistikBursa Uludağ ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. İLKER ERCAN
- Using machine learning techniques to enhance teaching and performance prediction of students with autism spectrum disorders
Yapay öğrenme yöntemleri ile otizm spektrum bozukluğu olan öğrencilerin öğretiminin ve öğretim performansı tahmininin iyileştirilmesi
AKRAM M.M. RADWAN
Doktora
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ZEHRA ÇATALTEPE
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Finansal başarısızlık ve finansal başarısızlığın tahmini: Hisse senetleri İstanbul Menkul Kıymetler Borsasında işlem gören sınai işletmeler üzerinde bir uygulama
Financial failure and prediciton of financial failure: An application on industry companies trading in Istanbul Stock Exchange
ÜMİT DOĞRUL