Geri Dön

Gerçek veri setlerinde sınıflandırma yöntemlerinin performanslarının karşılaştırılması

Comparision of performance of classfication methods in real data sets

  1. Tez No: 668266
  2. Yazar: RAMAZAN AYÖZ
  3. Danışmanlar: DOÇ. DR. NEVİN GÜLER DİNCER
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Muğla Sıtkı Koçman Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 99

Özet

Veri madenciliğinde sınıflandırma, çıktı(sınıf) değerleri bilinen gözlemler kullanılarak makine öğrenmesi yöntemleri ile bir model oluşturulması ve bu modelin daha sonra sınıf değeri bilinmeyen gözlemlerin sınıf değerlerini tahmin etmek amacıyla kullanılması olarak tanımlanabilir. Bu süreçte uygulanabilecek farklı sınıflandırma algoritmaları bulunur ve bu algoritmaların başarılarını farklı kriterler üzerinden incelemek mümkündür. Sınıflandırma, tahmine dayalı bir yöntem olduğu için en güçlü kriterin algoritmanın bir sınıfı doğru tahmin etme olasılığı olduğunu söylemek mümkündür. Bu yüzden tüm test gözlemleri içerisinde doğru sınıflandırılmış gözlem oranlarını incelemek sınıflandırma başarısını gösteren en önemli kriterlerden biridir. Bu çalışmanın ana konusu, doğruluk kriteri kullanılarak WEKA veri madenciliği yazılımında bulunan 41 farklı sınıflandırma yönteminin gerçek ve simulasyon çalışması ile üretilen veri setlerini sınıflandırmadaki performanslarını karşılaştırmaktadır. Bu amaca yönelik olarak farklı alanlara ait değişik gözlem, değişken ve sınıf sayılarına sahip 100 gerçek veri seti, yine farklı yapılarda üretilen 100 simulasyon veri seti kullanılmıştır. Bu çalışma sonucunda, hiçbir sınıflandırıcının her veri seti için en iyi performansı sergilemediği ve tüm veri setlerinde en iyi performansı yakalamak amacıyla farklı sınıflandırıcıların test edilmesi gerektiği görülmüştür. Ancak tüm sınıflandırıcılar içerisinde doğru sınıflandırılmış örnek oranları içerisinde değişimi en az olan ve en optimal şekilde en iyi sonuçları veren algoritmaların karar ağaçları tabanlı bir sınıflandırma algoritması olan Random Forest, karar ağaçları ve lojistiğin birleştirildiği bir algoritma olan LMT ve lojistik tabanlı bir sınıflandırıcı olan Logit Boost algoritması olduğu görülmüştür. Aynı zamanda gerçek veri setlerinin başarılarının simulasyon veri setlerinin başarılarından daha üstün olduğu görülmüştür.

Özet (Çeviri)

Classification in data mining can be defined as creating a model with machine learning methods using observations with known output(class) values, and then using this model to predict the class values of observations with unknown class values. There are different classification algorithms that can be applied in this process and it is possible to examine the success of these algorithms on different criteria. Since the classification is a method based on prediction, it is possible to say that the most powerful criterion is the probability of the algorithm to correctly predict a class. Therefore, examining the proportion of correctly classified observations among all test observations is one of the most important criteria showing the success of classification. The main subject of this thesis is to compare the performances of 41 different classification methods existed in WEKA data mining software in classifying the real data sets and the data sets generated via simulation studies by using accuracy criterion. For this purpose, 100 real data sets with different number of observations, variables and class and 100 simulation data sets generated in different structures are used. As a result of this study, it is seen that no classifier has the best performance for each data set and different classifiers should be tested in order to achieve the best performance in all data sets. However, it is seen that Random Forest, which is a decision tree-based classification algorithm, LMT, which is an algorithm combining decision trees and logistics, and Logit Boost algorithm, which is a logistics-based classifier have the least deviation among correctly classified sample rates among all classifiers. At the same time, it was observed that the success of real data sets is superior to the success of simulation data sets.

Benzer Tezler

  1. Sınıf dengesizliği sorununu çözmek için kullanılan algoritmaların farklı sınıflandırma yöntemlerinde performanslarının karşılaştırılması

    Comparing the performance of the algorithms usedto solve class imbalance problem in different methods of classification

    DUYGU AYDIN HAKLI

    Doktora

    Türkçe

    Türkçe

    2018

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Bilim Dalı

    PROF. DR. ERDEM KARABULUT

  2. Kayıp gözlem içeren dengesiz veri setlerinin topluluk öğrenme algoritmaları ile sınıflandırılması

    Classification with ensemble methods on missing and imbalanced data

    ENİS GÜMÜŞTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. AYÇA ÇAKMAK PEHLİVANLI

  3. Boruta ve Elastik Ağ Algoritmalarının Gen Seçim Performanslarının RNA Dizileme Veri Setleri Üzerinde Karşılaştırılması: Bir Monte Carlo Benzetim Çalışması

    Comparison of Gene Selection Performances of Boruta and Elastic Net Algorithms on RNA Sequencing Data: A Monte Carlo Simulation Study

    ÖZGÜR SAMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. OSMAN DAĞ

  4. Parametrik olmayan bilişsel tanılama, yapay sinir ağı ve DINO Modelinin sınıflandırma performanslarının karşılaştırılması

    Comparison of classification performances of non-parametric cognitive diagnosis, artificial neural network and DINO Model

    EMİNE YAVUZ

    Doktora

    Türkçe

    Türkçe

    2021

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. HAKAN YAVUZ ATAR

  5. Veri kalitesinin bozulduğu durumlarda veri madenciliği sınıflandırma algoritmalarının performanslarınınkarşılaştırılması

    Comparison of performances data mining classificationalgorithms when data quality is defective

    SAYGIN DİLER

    Doktora

    Türkçe

    Türkçe

    2023

    İstatistikVan Yüzüncü Yıl Üniversitesi

    İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YILDIRIM DEMİR