Aykırı değerler varlığında sınıflandırma yöntemleri
Classification methods in the presence of outliers
- Tez No: 798863
- Danışmanlar: DR. ÖĞR. ÜYESİ ONUR TOKA
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 81
Özet
Veri madenciliğinde denetimli öğrenme başlığı altında yer alan sınıflandırma tekniklerinin önemi, sürekli değişen, çeşitlenen ve çoğalan verilerin hızıyla beraber artmaktadır. Verilerdeki bu değişkenlik, sınıflandırma tekniklerinin de değişim ve gelişimi ihtiyacını doğurmaktadır. Temel sınıflandırma teknikleri altında önerilen sağlam (robust) sınıflandırma teknikleri, yanlış sınıflandırma oranlarının düşmesi için geliştirilmektedir. Verilerdeki gelişim ve değişimlerin meydana getirdiği aykırı değerlerin varlığında, doğru sınıflandırma yönteminin bulunabilmesi gün geçtikçe önemini arttırmaktadır. Bu çalışmada makine öğrenmesi başlığı altında toplanan bazı sınıflandırma teknikleri incelenmiştir. Literatürde en çok kullanılan ve kaynaklarda başarılı olarak nitelendirilen algoritmalar ile benzetim ve gerçek veri kümeleri üzerinde analizler yapılmış ve yorumlanmıştır. Sınıflandırma algoritmalarının tahmin hatalarını sayısallaştırarak yorumlayabilmek için Eşik Değerleri (Threshold Metrics) kullanılmıştır. Sınıflandırma algoritmalarının başarıları duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerileri hesaplanarak, bu veriler üzerinden değerlendirilmiştir. Değerlendirme çeşitlendirilerek 4 tip benzetim veri kümesi ve 2 farklı gerçek veri üzerinden analizler yapılmıştır. Yapılan analiz sonuçları tablolaştırılmış, yorumlanmış ve F1-değerlerinin grafiksel gösterimlerinden faydalanılmıştır. Benzetim veri kümeleri ile analizlerde lojistik regresyon, benzer özelliğe sahip olan sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, sağlam doğrusal ayrıştırıcı (Robust Linear Discriminant Analysis - RLDA) ve sağlam karesel ayrıştırıcı ((Robust Quadratic Discriminant Analysis - RQDA), OGK (Ortogonolize Gnanadesikan- Kettenring) kestiricili sağlam doğrusal ayrıştırıcının (RLDA-OGK) başarıları ön plana çıkmıştır. Gerçek veri kümelerinin çalışıldığı analiz sonuçlarında ise lojistik regresyon, sağlam lojistik regresyon, tanjantboost, gudermannianboost algoritmaları, duyarlılık (sensitivity), belirlilik/özgüllük (specificity), genel doğruluk oranı ve F1-değerlerinin tümü göz önüne alındığında önemli bir farkla başarılı bulunmuşlardır.
Özet (Çeviri)
In the field of data mining, the importance of classification techniques categorized under supervised learning is increasing with the constantly changing, diversifying and multiplying data. This variety in data creates the need for change and advancement of classification techniques. Robust classification techniques under basic classification techniques are being developed in order to reduce misclassification rates. In the presence of outliers caused by advancements and changes in the data, finding the right classification method increases its importance day by day. In this study, some classification techniques gathered under machine learning were examined. Analyzes were made and interpreted on simulation and real data sets with algorithms that are most used in the literature and described as successful in the sources. Threshold Metrics were used to interpret the prediction errors of classification algorithms by digitizing them. The success of classification algorithms was evaluated based on these data by calculating sensitivity, specificity, overall accuracy and F1-scores. By diversifying the evaluation, analyzes were made on 4 types of simulation data sets and 2 different real data. The results of the analysis were charted, interpreted and graphical representations of the F1-scores were used. In the analyzes using simulation datasets, the successes of logistic regression, robust logistic regression with similar features, tangentboost, gudermannianboost algorithms, robust linear discriminant analysis (RLDA) and robust quadratic discriminant analysis (RQDA), robust linear discriminant analysis with OGK estimator (RLDA-OGK) came forward. In the analysis results where real datasets were studied, logistic regression, robust logistic regression, tangentboost, gudermannianboost algorithms, sensitivity, specificity, overall accuracy and F1-scores were all found to be successful with a significant margin.
Benzer Tezler
- Skaler-fonksiyon lojistik regresyon modelinin tahmini için dirençli bir kestirim yöntemi
A robust estimation method for scalar-on-function logistic regression model
BERKAY AKTÜRK
Yüksek Lisans
Türkçe
2023
İstatistikMarmara Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. UFUK BEYAZTAŞ
- Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
- Demokratik sistemde baskı grupları (Türkiye örneği)
Oppression groups in democratic system
HALİL GÖZEL
Yüksek Lisans
Türkçe
1998
Siyasal BilimlerMarmara ÜniversitesiSosyoloji ve Antropoloji Ana Bilim Dalı
PROF. DR. YÜMNİ SEZEN
- Aykırı değerler varlığında farklı örnek büyüklükleri için basit doğrusal regresyon modelinde bazı tahmin yöntemlerinin karşılaştırmalı olarak incelenmesi
A comparative study of some estimation methods in simple linear regression model for different sample sizes in presence of outliers
SAMET HASAN ABACI
Yüksek Lisans
Türkçe
2013
BiyoistatistikOndokuz Mayıs ÜniversitesiZootekni Ana Bilim Dalı
DOÇ. DR. SONER ÇANKAYA
- Aykırı değer varlığında genelleştirilmiş eklemeli modeller ve bir uygulama
Generalized additive models and an application in outlier entity
TALOUTOU YARI DRAMANE
Yüksek Lisans
Türkçe
2022
İstatistikNecmettin Erbakan Üniversitesiİstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET PEKGÖR