Geri Dön

Regresyonda aykırı değer tespit etme yöntemlerinin karşılaştırılması

The comparison of the outlier detection methods in regression

  1. Tez No: 767949
  2. Yazar: BERFİN SARAÇOĞLU
  3. Danışmanlar: DOÇ. DR. HAKAN SAVAŞ SAZAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 42

Özet

Veri setinde bulunan aykırı değerler regresyon modelini etkileyebilir ve veriden elde edilen analiz sonuçlarını saptırabilir. Bu nedenle aykırı değerlerin tespiti regresyon analizinde büyük önem taşımaktadır. Bu tez çalışmasında regresyon modellerindeki aykırı değerlerin tespiti için sıklıkla kullanılan dört yöntemin simülasyon ve gerçek hayat verisi uygulamaları ile karşılaştırılması hedeflenmiştir. Çalışmada Cook uzaklığı, Studentleştirilmiş artıklar, DFFITS ve Hadi'nin ölçüsü yöntemleri aykırı değerleri doğru tespit etme ve yanlış tespit etme yüzdeleri açısından karşılaştırılmıştır. Simülasyonlar için kullanılan tüm yöntemlerin programları R programlama dili kullanılarak yazılmıştır. Gerçekleştirilen simülasyon çalışmaları sonucunda karşılaştırılan dört yöntemin de y yönünde aykırı değer tespitinde x yönündekine kıyasla daha başarılı oldukları görülmüştür. Hadi'nin ölçüsünün x yönündeki aykırı değer tespitinde diğer yöntemlere kıyasla daha başarılı olduğu, y yönündeki aykırı değer tespitinde ise DFFITS ve Hadi'nin ölçüsünün diğer iki yönteme kıyasla başarılı olduğu sonucuna varılmıştır. Çalışmanın sonunda verilen iki gerçek hayat uygulaması sonucunda Hadi'nin ölçüsünün aykırı değer tespitinde uç aykırı değerlerin yanı sıra sınır aykırı değerleri de tespit edebilen tek yöntem olduğu görülmüştür. Ayrıca karşılaştırılan dört yöntem arasında maskeleme etkisinden en az etkilenen yöntemin DFFITS olduğu gözlemlenirken, bataklık etkisi incelendiğinde dört yöntemin de başarısız olduğu sonucuna ulaşılmıştır.

Özet (Çeviri)

Outliers in the data set can affect the regression model and analysis results obtained from the data. Therefore, it is very important to detect outliers in regression analysis. In this thesis, it is aimed to compare four methods that are frequently used for the detection of outliers in regression models with simulation and real life data applications. In the study, Cook's distance, Studentized residuals, DFFITS and Hadi's measure methods were compared in terms of the percentages of correct and false detection of outliers. The programs of all methods used for simulations are written by using the R programming language. As a result of the simulation studies, it was seen that all four methods compared were more successful in detecting outliers in the y direction compared to the ones in the x direction. It was concluded that Hadi's measure was more successful in detecting outliers in the x direction compared to other methods while DFFITS and Hadi's measure were successful in detecting outliers in the y direction compared to the other two methods. As a result of the two real life applications given at the end of the study, it was seen that Hadi's measure is the only method that can detect border outliers as well as extreme outliers in outlier detection. In addition, it was observed that DFFITS was the method least affected by the masking effect among the four methods compared while when the swamp effect was examined, it was concluded that all four methods were unsuccessful.

Benzer Tezler

  1. Aykırı değer tespit yöntemlerinin karşılaştırılması: Türkiye dış ticaret verileri üzerine bir uygulama

    A comparison of the outlier detecting methods: An application on Turkish foreign trade data

    AYLİN KOLBAŞI

    Doktora

    Türkçe

    Türkçe

    2018

    EkonometriGazi Üniversitesi

    Ekonometri Ana Bilim Dalı

    PROF. DR. AYDIN ÜNSAL

  2. A hybrid prediction approach using multiple linear regression and decision tree

    Çoklu doğrusal regresyon ve karar ağacı kullanarak hibrit tahmin yaklaşım

    MARYAM ARIF AZEEZ AZEEZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KAYHAN AYAR

  3. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  4. Hileli finansal raporlama: Muhasebe manipülasyonu ile karlılık oranları ilişkisine yönelik ampirik bir araştırma

    Fraud financial reporting: An empirical research on the relationship of accounting manipulation and profitability ratios

    İLHAN ACAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    İşletmeGalatasaray Üniversitesi

    İşletme Ana Bilim Dalı

    PROF. DR. İDİL KAYA

  5. Hücresel ve durumsal aykırı değerlerle sağlam regresyon modellerinin karşılaştırılması

    Comparison of robust regression methods in the presence of cellwise and casewise outliers

    GÜVEN PEKDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    İstatistikEskişehir Osmangazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ÖZLEM ALPU