Geri Dön

Veri madenciliğinde veri dönüştürme yöntemlerinin sınıflandırma algoritmalarının performanslarına olan etkisi

The impact of data transforming methods on performances of classification algorithms in data mining

  1. Tez No: 616591
  2. Yazar: FATMA BETÜL ÖRS
  3. Danışmanlar: PROF. DR. NECDET SÜT
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: Trakya Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Biyoistatistik Bilim Dalı
  13. Sayfa Sayısı: 173

Özet

Tez çalışmasında, sınıflandırma öncesi uygulanan normalizasyon ve gözetimsiz diskritizasyon yaklaşımlarının naif Bayes (NB), C5.0 ve destek vektör makineleri (DVM) algoritmaları üzerindeki etkilerini incelemek amacıyla simülasyon çalışması gerçekleştirildi. Normalizasyon ve diskritizasyon yöntemlerinin üç algoritma üzerindeki etkilerinde farklılıklar gözlendi. Normalizasyon yöntemleri, C5.0 karar ağacı algoritması ve NB algoritmasında performansı artırmada genellikle etkisiz kaldı. DVM algoritmasında ise normalizasyon yöntemleri ile performans ölçülerinde artış sağlandı. DVM performanslarını artırmada en etkili normalizasyon yöntemi araştırıldığında, cevabın verilerin dağılımına, gözlem sayısına ve sınıfların dağılım oranlarına bağlı olarak değiştiği görüldü. Gözetimsiz diskritizasyon yöntemleri, C5.0 algoritmasının performansında genellikle artış sağlamazken NB ve DVM ile daha iyi sonuçlar almada yardımcı oldu. Diskritizasyon yöntemleri, NB'de yalnızca F dağılımından üretilen verilerde etkili olurken DVM'de tüm örneklem dağılımlarında etkili oldu. Çalışmada, C5.0 algoritması veri dönüşümlerinden en az etkilenirken DVM en çok etkilenen algoritma oldu. Genel performanslar açısından algoritmaları karşılaştırdığımızda, normal ve F dağılımından üretilen verilerin sınıflandırılmasında NB, ki-kare dağılımından üretilen verilerin sınıflandırılmasında ise DVM daha iyi performans gösterdi.

Özet (Çeviri)

In this thesis, a simulation study was performed to investigate the effects of normalization and unsupervised discretization methods on naive Bayes (NB), C5.0 and support vector machine (SVM) algorithms. The effects of normalization and discretization methods on the three algorithms were found to be change. Normalization methods were generally ineffective in improving the performance of the C5.0 decision tree algorithm and the NB algorithm. Performance measures of the SVM algorithm were increased with normalization methods. When the most effective normalization method was investigated, it was observed that the response varies depending on the distribution of data, the number of observations and the distribution rates of the classes. Unsupervised discretization methods have generally not improved performance of the C5.0 algorithm, but have helped to achieve better results with NB and SVM. Unsupervised discretization methods increased NB performance only in classification of the datas produced from the F distribution, whereas SVM performance increased for datas produced from all sampling distributions. In the study, the C5.0 algorithm was least affected by data transformations, while SVM was the most affected algorithm. According to the overall performance of the algorithms, NB showed higher performance in classification of datas produced from normal and F distributions, whereas SVM performed better in classification of datas generated from chi-square distribution than the other methods.

Benzer Tezler

  1. Genetik programlama kullanılarak iki sınıflı tıbbi verilerin sınıflandırılması

    Classification of medical data with two classes by using genetic programming

    MUSBEHA AMAN BATO

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    BiyomühendislikErciyes Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET EMİN YÜKSEL

  2. Applying classification methods on traffic dataset

    Trafik verisi üzerinde sınıflandırma yöntemlerinin kullanılması

    MUSTAFA ÇIRKA

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolErciyes Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. METE ÇELİK

  3. Veri madenciliği sınıflandırma yöntemlerinden karar ağaçları ve bir uygulama

    Data mining classification method decision trees and an application

    NURİYE TOPYILDIZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikSelçuk Üniversitesi

    İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUNUS AKDOĞAN

  4. İkili gri kurt optimizasyon algoritmasının ikili optimizasyon problemlerine uygulanması

    Application of binary grey wolf optimization algorithm to binary optimization problems

    FEYZA ERDOĞAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ŞABAN GÜLCÜ

  5. Müşteri yaşam boyu değeri endeksi ve veri madenciliğine dayalı bir karar destek modeli: Bir firma uygulaması

    A decision support model based on customer lifetime value index and data mining: A case study

    İNANÇ KABASAKAL

    Doktora

    Türkçe

    Türkçe

    2017

    İşletmeEge Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. HALUK SOYUER