Gerçek veri setlerinde sınıflandırma yöntemlerinin performanslarının karşılaştırılması

Comparision of performance of classfication methods in real data sets

PDF İndir

Tez No: 668266
Yazar: RAMAZAN AYÖZ
Danışmanlar: DOÇ. DR. NEVİN GÜLER DİNCER
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Muğla Sıtkı Koçman Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 99

Özet

Veri madenciliğinde sınıflandırma, çıktı(sınıf) değerleri bilinen gözlemler kullanılarak makine öğrenmesi yöntemleri ile bir model oluşturulması ve bu modelin daha sonra sınıf değeri bilinmeyen gözlemlerin sınıf değerlerini tahmin etmek amacıyla kullanılması olarak tanımlanabilir. Bu süreçte uygulanabilecek farklı sınıflandırma algoritmaları bulunur ve bu algoritmaların başarılarını farklı kriterler üzerinden incelemek mümkündür. Sınıflandırma, tahmine dayalı bir yöntem olduğu için en güçlü kriterin algoritmanın bir sınıfı doğru tahmin etme olasılığı olduğunu söylemek mümkündür. Bu yüzden tüm test gözlemleri içerisinde doğru sınıflandırılmış gözlem oranlarını incelemek sınıflandırma başarısını gösteren en önemli kriterlerden biridir. Bu çalışmanın ana konusu, doğruluk kriteri kullanılarak WEKA veri madenciliği yazılımında bulunan 41 farklı sınıflandırma yönteminin gerçek ve simulasyon çalışması ile üretilen veri setlerini sınıflandırmadaki performanslarını karşılaştırmaktadır. Bu amaca yönelik olarak farklı alanlara ait değişik gözlem, değişken ve sınıf sayılarına sahip 100 gerçek veri seti, yine farklı yapılarda üretilen 100 simulasyon veri seti kullanılmıştır. Bu çalışma sonucunda, hiçbir sınıflandırıcının her veri seti için en iyi performansı sergilemediği ve tüm veri setlerinde en iyi performansı yakalamak amacıyla farklı sınıflandırıcıların test edilmesi gerektiği görülmüştür. Ancak tüm sınıflandırıcılar içerisinde doğru sınıflandırılmış örnek oranları içerisinde değişimi en az olan ve en optimal şekilde en iyi sonuçları veren algoritmaların karar ağaçları tabanlı bir sınıflandırma algoritması olan Random Forest, karar ağaçları ve lojistiğin birleştirildiği bir algoritma olan LMT ve lojistik tabanlı bir sınıflandırıcı olan Logit Boost algoritması olduğu görülmüştür. Aynı zamanda gerçek veri setlerinin başarılarının simulasyon veri setlerinin başarılarından daha üstün olduğu görülmüştür.

Özet (Çeviri)

Classification in data mining can be defined as creating a model with machine learning methods using observations with known output(class) values, and then using this model to predict the class values of observations with unknown class values. There are different classification algorithms that can be applied in this process and it is possible to examine the success of these algorithms on different criteria. Since the classification is a method based on prediction, it is possible to say that the most powerful criterion is the probability of the algorithm to correctly predict a class. Therefore, examining the proportion of correctly classified observations among all test observations is one of the most important criteria showing the success of classification. The main subject of this thesis is to compare the performances of 41 different classification methods existed in WEKA data mining software in classifying the real data sets and the data sets generated via simulation studies by using accuracy criterion. For this purpose, 100 real data sets with different number of observations, variables and class and 100 simulation data sets generated in different structures are used. As a result of this study, it is seen that no classifier has the best performance for each data set and different classifiers should be tested in order to achieve the best performance in all data sets. However, it is seen that Random Forest, which is a decision tree-based classification algorithm, LMT, which is an algorithm combining decision trees and logistics, and Logit Boost algorithm, which is a logistics-based classifier have the least deviation among correctly classified sample rates among all classifiers. At the same time, it was observed that the success of real data sets is superior to the success of simulation data sets.

Benzer Tezler

Tez No
513534
Sınıf dengesizliği sorununu çözmek için kullanılan algoritmaların farklı sınıflandırma yöntemlerinde performanslarının karşılaştırılması
Comparing the performance of the algorithms usedto solve class imbalance problem in different methods of classification
DUYGU AYDIN HAKLI
Doktora
Türkçe
2018
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Bilim Dalı
PROF. DR. ERDEM KARABULUT
Tez No
562198
Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması
Classification with ensemble methods on missing and imbalanced data
ENİS GÜMÜŞTAŞ
Yüksek Lisans
Türkçe
2019
İstatistik Mimar Sinan Güzel Sanatlar Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. AYÇA ÇAKMAK PEHLİVANLI
Tez No
817127
Boruta ve Elastik Ağ Algoritmalarının Gen Seçim Performanslarının RNA Dizileme Veri Setleri Üzerinde Karşılaştırılması: Bir Monte Carlo Benzetim Çalışması
Comparison of Gene Selection Performances of Boruta and Elastic Net Algorithms on RNA Sequencing Data: A Monte Carlo Simulation Study
ÖZGÜR SAMAN
Yüksek Lisans
Türkçe
2023
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
DOÇ. DR. OSMAN DAĞ
Tez No
664112
Parametrik olmayan bilişsel tanılama, yapay sinir ağı ve DINO Modelinin sınıflandırma performanslarının karşılaştırılması
Comparison of classification performances of non-parametric cognitive diagnosis, artificial neural network and DINO Model
EMİNE YAVUZ
Doktora
Türkçe
2021
Eğitim ve Öğretim Gazi Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
PROF. DR. HAKAN YAVUZ ATAR
Tez No
807724
Veri kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma algoritmalarının performanslarınınkarşılaştırılması
Comparison of performances data mining classificationalgorithms when data quality is defective
SAYGIN DİLER
Doktora
Türkçe
2023
İstatistik Van Yüzüncü Yıl Üniversitesi
İstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YILDIRIM DEMİR

Geri Dön