Gerçek veri setlerinde sınıflandırma yöntemlerinin performanslarının karşılaştırılması
Comparision of performance of classfication methods in real data sets
- Tez No: 668266
- Danışmanlar: DOÇ. DR. NEVİN GÜLER DİNCER
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Muğla Sıtkı Koçman Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 99
Özet
Veri madenciliğinde sınıflandırma, çıktı(sınıf) değerleri bilinen gözlemler kullanılarak makine öğrenmesi yöntemleri ile bir model oluşturulması ve bu modelin daha sonra sınıf değeri bilinmeyen gözlemlerin sınıf değerlerini tahmin etmek amacıyla kullanılması olarak tanımlanabilir. Bu süreçte uygulanabilecek farklı sınıflandırma algoritmaları bulunur ve bu algoritmaların başarılarını farklı kriterler üzerinden incelemek mümkündür. Sınıflandırma, tahmine dayalı bir yöntem olduğu için en güçlü kriterin algoritmanın bir sınıfı doğru tahmin etme olasılığı olduğunu söylemek mümkündür. Bu yüzden tüm test gözlemleri içerisinde doğru sınıflandırılmış gözlem oranlarını incelemek sınıflandırma başarısını gösteren en önemli kriterlerden biridir. Bu çalışmanın ana konusu, doğruluk kriteri kullanılarak WEKA veri madenciliği yazılımında bulunan 41 farklı sınıflandırma yönteminin gerçek ve simulasyon çalışması ile üretilen veri setlerini sınıflandırmadaki performanslarını karşılaştırmaktadır. Bu amaca yönelik olarak farklı alanlara ait değişik gözlem, değişken ve sınıf sayılarına sahip 100 gerçek veri seti, yine farklı yapılarda üretilen 100 simulasyon veri seti kullanılmıştır. Bu çalışma sonucunda, hiçbir sınıflandırıcının her veri seti için en iyi performansı sergilemediği ve tüm veri setlerinde en iyi performansı yakalamak amacıyla farklı sınıflandırıcıların test edilmesi gerektiği görülmüştür. Ancak tüm sınıflandırıcılar içerisinde doğru sınıflandırılmış örnek oranları içerisinde değişimi en az olan ve en optimal şekilde en iyi sonuçları veren algoritmaların karar ağaçları tabanlı bir sınıflandırma algoritması olan Random Forest, karar ağaçları ve lojistiğin birleştirildiği bir algoritma olan LMT ve lojistik tabanlı bir sınıflandırıcı olan Logit Boost algoritması olduğu görülmüştür. Aynı zamanda gerçek veri setlerinin başarılarının simulasyon veri setlerinin başarılarından daha üstün olduğu görülmüştür.
Özet (Çeviri)
Classification in data mining can be defined as creating a model with machine learning methods using observations with known output(class) values, and then using this model to predict the class values of observations with unknown class values. There are different classification algorithms that can be applied in this process and it is possible to examine the success of these algorithms on different criteria. Since the classification is a method based on prediction, it is possible to say that the most powerful criterion is the probability of the algorithm to correctly predict a class. Therefore, examining the proportion of correctly classified observations among all test observations is one of the most important criteria showing the success of classification. The main subject of this thesis is to compare the performances of 41 different classification methods existed in WEKA data mining software in classifying the real data sets and the data sets generated via simulation studies by using accuracy criterion. For this purpose, 100 real data sets with different number of observations, variables and class and 100 simulation data sets generated in different structures are used. As a result of this study, it is seen that no classifier has the best performance for each data set and different classifiers should be tested in order to achieve the best performance in all data sets. However, it is seen that Random Forest, which is a decision tree-based classification algorithm, LMT, which is an algorithm combining decision trees and logistics, and Logit Boost algorithm, which is a logistics-based classifier have the least deviation among correctly classified sample rates among all classifiers. At the same time, it was observed that the success of real data sets is superior to the success of simulation data sets.
Benzer Tezler
- Sınıf dengesizliği sorununu çözmek için kullanılan algoritmaların farklı sınıflandırma yöntemlerinde performanslarının karşılaştırılması
Comparing the performance of the algorithms usedto solve class imbalance problem in different methods of classification
DUYGU AYDIN HAKLI
Doktora
Türkçe
2018
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Bilim Dalı
PROF. DR. ERDEM KARABULUT
- Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması
Classification with ensemble methods on missing and imbalanced data
ENİS GÜMÜŞTAŞ
Yüksek Lisans
Türkçe
2019
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. AYÇA ÇAKMAK PEHLİVANLI
- Boruta ve Elastik Ağ Algoritmalarının Gen Seçim Performanslarının RNA Dizileme Veri Setleri Üzerinde Karşılaştırılması: Bir Monte Carlo Benzetim Çalışması
Comparison of Gene Selection Performances of Boruta and Elastic Net Algorithms on RNA Sequencing Data: A Monte Carlo Simulation Study
ÖZGÜR SAMAN
Yüksek Lisans
Türkçe
2023
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. OSMAN DAĞ
- Parametrik olmayan bilişsel tanılama, yapay sinir ağı ve DINO Modelinin sınıflandırma performanslarının karşılaştırılması
Comparison of classification performances of non-parametric cognitive diagnosis, artificial neural network and DINO Model
EMİNE YAVUZ
Doktora
Türkçe
2021
Eğitim ve ÖğretimGazi ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. HAKAN YAVUZ ATAR
- Veri kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma algoritmalarının performanslarınınkarşılaştırılması
Comparison of performances data mining classificationalgorithms when data quality is defective
SAYGIN DİLER
Doktora
Türkçe
2023
İstatistikVan Yüzüncü Yıl Üniversitesiİstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILDIRIM DEMİR