Geri Dön

Aykırı değerlerin tespit yöntemleri

Outlier detection methods

  1. Tez No: 751875
  2. Yazar: MAHMUT ATEŞ
  3. Danışmanlar: DR. ÖĞR. ÜYESİ JALE BALİBEYOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 61

Özet

Verilerin analiz edilmeye ve yorumlanmaya başlandığı dönemlerden bu yana aykırı değerlerin varlığı, analize dahil edilip edilmemesi gibi noktalar tartışma konusu olmuştur. Aykırı değerlerin tespit edilmesi ve veri setinden çıkarılıp çıkarılmaması kararları bir temele dayandırılmaya çalışılmıştır. Bu sebeple zamanla birçok aykırı değer tespit yöntemi ortaya çıkmıştır. Bu doğrultuda bu çalışmanın amacı, ortaya çıkan bu tespit yöntemlerinden bazılarını açıklayıp veri seti üzerinde uygulamalar yaparak aykırı değer tespiti konusunda hassasiyetini ölçmektir. Çalışmada yöntemler tek değişkenli ve çok değişkenli olmak üzere iki ana gruba ayrılmıştır. Seçilen yöntemler araştırmacı tarafından R programlama dili ile üretilen yapay veri setlerine ve gerçek veri setlerine R programlama dili kullanılarak uygulanmıştır. Yapılan analizler sonucu simülasyonla üretilen simetrik veri setinde tek değişkenli aykırı değer tespit yöntemlerinden kutu grafiği yöntemi, düzeltilmiş kutu grafiği yöntemi ve 2 MADE yönteminin; simetrik olmayan veri setinde tek değişkenli aykırı değer tespit yöntemlerinden kutu grafiği yöntemi ve MADE yöntemlerinin en hassas aykırı değer tespit etme yöntemleri olduğu bulunmuştur. Tek değişkenli yöntemlerin gerçek ve simetrik veri setine uygulanması sonucunda ise standart sapma yöntemlerinden 2S yönteminin diğer yöntemlere göre daha hassas olduğu; gerçek ve simetrik olmayan veri setinde ise 2S yönteminin ve düzeltilmiş kutu grafiği yönteminin aykırı değer tespiti açısından daha duyarlı yöntemler oldukları belirlenmiştir. Çok değişkenli simetrik ve simetrik olmayan ve simülasyonla üretilen her iki veri setinde çok değişkenli aykırı değer tespit yöntemlerinden Mahalanobis MCD yönteminin en hassas aykırı değer tespit etme yöntemi olduğu bulunmuştur. Çok değişkenli aykırı değer tespit yöntemleri, gerçek veri setine uygulandığında simetrik veri setlerinde Cook uzaklığı yönteminin ve simetrik olmayan veri setinde ise Mahalanobis MCD yönteminin aykırı değerlerin belirlenmesinde daha hassas yöntemler olduğu tespit edilmiştir.

Özet (Çeviri)

The existence of outliers and their inclusion in the analysis have been the subject of discussion since the beginning of the analysis and interpretation of the data. Decisions of detecting outliers and removing them from the data set have been tried to be based on a basis. For this reason, many outlier detection methods have emerged over time. In this direction, the aim of this study is to explain some of these detection methods and to measure the sensitivity of outlier detection by implementing on the data set. Methods in the study were divided into two main groups as univariate and multivariate. The selected methods were applied to the data sets generated with the R programming language by the researcher and real data sets using the R programming language. As a result of the analysis, in symmetrical data set generated by simulation it was determined that boxplot method, adjusted boxplot method and 2 MADE methods from univariate outlier detection methods; in asymmetrical dataset generated by simulation boxplot method and MADE method from univariate outlier detection methods were found to be the most sensitive outlier detection methods. On the other hand, in real symmetrical univariate data set, 2S method, one of the standart deviation methods, was more sensitive method than the others; in real asymmetrical data set, 2S method and adjusted boxplot methods were determined more sensitive than the others. In both multivariate symmetric and asymmetrical data sets generated by simulation, Mahalanobis MCD method, which is one of the multivariate outlier detection methods, was determined to be the most sensitive outlier detection method. When multivariate outlier detection methods were applied to the real data sets, Cook distance method in symmetrical data sets and the Mahalanobis MCD method in asymmetrical data sets were found to be more sensitive methods in determining outliers.

Benzer Tezler

  1. İstatistikte aykırı değer tespit yöntemleri: Ekonomik özgürlükler verisi üzerine bir uygulama

    Outlier detection methods in statistics: An Application on economic freedom data

    MERVE GÖK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    EkonometriSivas Cumhuriyet Üniversitesi

    Ekonometri Ana Bilim Dalı

    PROF. DR. NECATİ ALP ERİLLİ

  2. Robust and efficient density based outlier detection methods for streaming data

    Akış verileri için gürbüz ve verimli yoğunluk tabanlı aykırı değer tespit yöntemleri

    ALİ DEĞİRMENCİ

    Doktora

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiAnkara Yıldırım Beyazıt Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÖMER KARAL

  3. Comperative evaluation of unsupervised fraud detection algorithms with feature extraction and scaling in purchasing domain

    Satın alma alanında özellik çıkarma ve ölçekleme ile denetimsiz sahtekarlık tespit algoritmalarının karşılaştırmalı değerlendirmesi

    YİĞİT CAN TAŞOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Veri Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MEHMET ALİ ERGÜN

  4. Metasezgisel algoritmalar ile veri madenciliğinde aykırı değerlerin tespiti uygulamaları

    Outliers detection in data mining by metaheuristic algorithms

    MERVE GİTMEZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHarran Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. İBRAHİM BERKAN AYDİLEK

  5. Genetic algorithm based outlier detection using information criterion

    Bilgi kriterleri kullanarak genetik algoritma tabanlı aykırı değer tespiti

    ÖZLEM GÜRÜNLÜ ALMA

    Doktora

    İngilizce

    İngilizce

    2009

    İstatistikDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. SERDAR KURT