Geri Dön

Aykırı değerler varlığında sınıflandırma yöntemleri

Classification methods in the presence of outliers

  1. Tez No: 798863
  2. Yazar: CEMİLE AŞLAR KIRMIZI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ONUR TOKA
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Veri madenciliğinde denetimli öğrenme başlığı altında yer alan sınıflandırma tekniklerinin önemi, sürekli değişen, çeşitlenen ve çoğalan verilerin hızıyla beraber artmaktadır. Verilerdeki bu değişkenlik, sınıflandırma tekniklerinin de değişim ve gelişimi ihtiyacını doğurmaktadır. Temel sınıflandırma teknikleri altında önerilen sağlam (robust) sınıflandırma teknikleri, yanlış sınıflandırma oranlarının düşmesi için geliştirilmektedir. Verilerdeki gelişim ve değişimlerin meydana getirdiği aykırı değerlerin varlığında, doğru sınıflandırma yönteminin bulunabilmesi gün geçtikçe önemini arttırmaktadır. Bu çalışmada makine öğrenmesi başlığı altında toplanan bazı sınıflandırma teknikleri incelenmiştir. Literatürde en çok kullanılan ve kaynaklarda başarılı olarak nitelendirilen algoritmalar ile benzetim ve gerçek veri kümeleri üzerinde analizler yapılmış ve yorumlanmıştır. Sınıflandırma algoritmalarının tahmin hatalarını sayısallaştırarak yorumlayabilmek için Eşik Değerleri (Threshold Metrics) kullanılmıştır. Sınıflandırma algoritmalarının başarıları duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerileri hesaplanarak, bu veriler üzerinden değerlendirilmiştir. Değerlendirme çeşitlendirilerek 4 tip benzetim veri kümesi ve 2 farklı gerçek veri üzerinden analizler yapılmıştır. Yapılan analiz sonuçları tablolaştırılmış, yorumlanmış ve F1-değerlerinin grafiksel gösterimlerinden faydalanılmıştır. Benzetim veri kümeleri ile analizlerde lojistik regresyon, benzer özelliğe sahip olan sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, sağlam doğrusal ayrıştırıcı (Robust Linear Discriminant Analysis - RLDA) ve sağlam karesel ayrıştırıcı ((Robust Quadratic Discriminant Analysis - RQDA), OGK (Ortogonolize Gnanadesikan- Kettenring) kestiricili sağlam doğrusal ayrıştırıcının (RLDA-OGK) başarıları ön plana çıkmıştır. Gerçek veri kümelerinin çalışıldığı analiz sonuçlarında ise lojistik regresyon, sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerlerinin tümü göz önüne alındığında önemli bir farkla başarılı bulunmuşlardır.

Özet (Çeviri)

In the field of data mining, the importance of classification techniques categorized under supervised learning is increasing with the constantly changing, diversifying and multiplying data. This variety in data creates the need for change and advancement of classification techniques. Robust classification techniques under basic classification techniques are being developed in order to reduce misclassification rates. In the presence of outliers caused by advancements and changes in the data, finding the right classification method increases its importance day by day. In this study, some classification techniques gathered under machine learning were examined. Analyzes were made and interpreted on simulation and real data sets with algorithms that are most used in the literature and described as successful in the sources. Threshold Metrics were used to interpret the prediction errors of classification algorithms by digitizing them. The success of classification algorithms was evaluated based on these data by calculating sensitivity, specificity, overall accuracy and F1-scores. By diversifying the evaluation, analyzes were made on 4 types of simulation data sets and 2 different real data. The results of the analysis were charted, interpreted and graphical representations of the F1-scores were used. In the analyzes using simulation datasets, the successes of logistic regression, robust logistic regression with similar features, tangentboost, gudermannianboost algorithms, robust linear discriminant analysis (RLDA) and robust quadratic discriminant analysis (RQDA), robust linear discriminant analysis with OGK estimator (RLDA-OGK) came forward. In the analysis results where real datasets were studied, logistic regression, robust logistic regression, tangentboost, gudermannianboost algorithms, sensitivity, specificity, overall accuracy and F1-scores were all found to be successful with a significant margin.

Benzer Tezler

  1. Skaler-fonksiyon lojistik regresyon modelinin tahmini için dirençli bir kestirim yöntemi

    A robust estimation method for scalar-on-function logistic regression model

    BERKAY AKTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    İstatistikMarmara Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. UFUK BEYAZTAŞ

  2. Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

    Forecasting the spread of covid-19 using deep learning and big data analytics methods

    CYLAS KIGANDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  3. Demokratik sistemde baskı grupları (Türkiye örneği)

    Oppression groups in democratic system

    HALİL GÖZEL

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Siyasal BilimlerMarmara Üniversitesi

    Sosyoloji ve Antropoloji Ana Bilim Dalı

    PROF. DR. YÜMNİ SEZEN

  4. Aykırı değerler varlığında farklı örnek büyüklükleri için basit doğrusal regresyon modelinde bazı tahmin yöntemlerinin karşılaştırmalı olarak incelenmesi

    A comparative study of some estimation methods in simple linear regression model for different sample sizes in presence of outliers

    SAMET HASAN ABACI

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    BiyoistatistikOndokuz Mayıs Üniversitesi

    Zootekni Ana Bilim Dalı

    DOÇ. DR. SONER ÇANKAYA

  5. Aykırı değer varlığında genelleştirilmiş eklemeli modeller ve bir uygulama

    Generalized additive models and an application in outlier entity

    TALOUTOU YARI DRAMANE

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    İstatistikNecmettin Erbakan Üniversitesi

    İstatistik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AHMET PEKGÖR