Veri madenciliği sınıflama yöntemlerinin başarılarının; bağımlı değişken prevelansı, örneklem büyüklüğü ve bağımsız değişkenler arası ilişki yapısına göre karşılaştırılması
Comparison of the performances of data mining classification methods based on prevalence of the dependent variable, sample size and the correlation of the independent variables
- Tez No: 375002
- Danışmanlar: PROF. DR. OSMAN SARAÇBAŞI
- Tez Türü: Doktora
- Konular: Bilim ve Teknoloji, Biyoistatistik, İstatistik, Science and Technology, Biostatistics, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2014
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 100
Özet
Karar Ağaçları, Bayesci Ağlar ve Destek Vektör Makinaları literatürde ve uygulamalarda en çok kullanılan istatistiksel ve veri madenciliği kökenli sınıflama yöntemleri arasında yer almaktadır. Bu yöntemler kullanılırken bağımsız değişkenlerin ölçüm seviyesi (sürekli, kesikli vb.), bağımsız değişkenlerin dağılımı (simetrik, çarpık, vb.), bağımlı değişkenin dağılımı (simetrik, çarpık, vb.) bağımsız değişkenler arasındaki ilişki miktarı (düşük, orta veya yüksek ilişki), örneklem hacmi gibi başlıca önemli unsurların model başarısına ve yöntemler üzerine olan etkileri göz ardı edilmektedir. Bu nedenle çalışmada, bağımlı ve bağımsız değişkenlerin farklı yapılarının; Karar Ağaçları, Bayesci Ağlar ve Destek Vektör Makinaları yöntemlerinin başarıları üzerine olan etkileri benzetim çalışması yardımıyla karşılaştırılmıştır. Benzetim çalışmasında, bağımsız değişkenler arasındaki ilişki miktarı için üç farklı seçenek, bağımsız değişken sayısı için üç farklı seçenek, örneklem hacmi için üç farklı seçenek, bağımsız değişkenler ile bağımlı değişken arasındaki ilişki miktarı için üç farklı seçenek, bağımlı değişken prevelansı için de üç farklı seçenek dikkate alınarak toplamda 243 farklı kombinasyon kullanılmıştır. Her bir senaryo 1000 kez tekrar edilmiş, her bir tekrarda sözü edilen sınıflama yöntemleri uygulanmış ve her bir modelin model başarı kriterleri elde edilerek karşılaştırılmıştır. Elde edilen sonuçlar ışığında, araştırmacılara bağımlı ve bağımsız değişkenlerin farklı yapıda olduğu durumlarda hangi sınıflama yöntemini kullanmaları veya hangi yöntemden kaçınmaları konusunda bilgi verilmiştir.
Özet (Çeviri)
Decision Trees, Bayesian Networks, and Support Vector Machines are the most commonly used statistical and data mining based methods of classification in the literature and practice. While using these methods, the impact of important factors on the model success, such as, the measuring level of the independent variables (i.e., continuous, discrete, etc.), the distribution of the independent variables (i.e., symmetric, skewed, etc.), the amount of correlation between independent variables (i.e., low, medium or strong relationship), and the sample size are often ignored. Therefore, in this study, the impact of different structures of dependent and independent variables on the model performances of Decision Trees, Bayesian Networks, Support Vector Machines methods are compared by a simulation study. A total of 243 different simulation scenarios were obtained by taking into account three levels for the degree of correlation between independent variables, three levels for the number of independent variables in a model, three levels for the sample size, three levels for the amount of the correlation between dependent and independent variables, and three levels for the prevalence of the dependent variable. Each scenario was repeated 1000 times, for each repetition mentioned classification methods are applied and they were compared by their model success criteria. At the end of the thesis, some general suggestions are given to the researchers on which classification method should be used or avoided under different structures of dependent and independent variables.
Benzer Tezler
- Tıbbi karar destek sisteminin veri madenciliği yöntemleriyle gerçekleştirilmesi
Verifying medical decision support system with the methods of data mining
TUBA PALA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiElektronik-Bilgisayar Eğitimi Ana Bilim Dalı
PROF. DR. A. YILMAZ ÇAMURCU
- Ağ saldırı veri kümelerinin sınıflandırılmasında dengeleme işleminin etkisi
The effect of balancing process on classifying intrusion detection dataset
SAMARA KHAMEES JWAIR JWAIR
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ERSİN KAYA
- Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi
The effect of feature selection methods on the success of classification methods in microarray gene expression data
ÖZLEM ARIK
Doktora
Türkçe
2020
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT
- Transkriptom veri seti üzerinde derin öğrenme yöntemi ile klasik veri madenciliği yöntemlerinin sınıflama performanslarının karşılaştırılması
Comparison of classification performance for deep learning method and classical data mining methods on transcriptome data set
MERVE KAŞIKCI
Yüksek Lisans
Türkçe
2019
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT
- Bulanık çıkarsama sistemleri ile veri madenciliği yöntemlerinin sınıflama performansının benzetim çalışması ile karşılaştırılması ve sağlık alanında uygulanması
A comparison of classification performance of fuzzy inference system with data mining methods using simulation study and application in medicine
İREM KAR
Yüksek Lisans
Türkçe
2017
BiyoistatistikAnkara ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. SERDAL KENAN KÖSE