Regresyonda aykırı değer tespit etme yöntemlerinin karşılaştırılması
The comparison of the outlier detection methods in regression
- Tez No: 767949
- Danışmanlar: DOÇ. DR. HAKAN SAVAŞ SAZAK
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 42
Özet
Veri setinde bulunan aykırı değerler regresyon modelini etkileyebilir ve veriden elde edilen analiz sonuçlarını saptırabilir. Bu nedenle aykırı değerlerin tespiti regresyon analizinde büyük önem taşımaktadır. Bu tez çalışmasında regresyon modellerindeki aykırı değerlerin tespiti için sıklıkla kullanılan dört yöntemin simülasyon ve gerçek hayat verisi uygulamaları ile karşılaştırılması hedeflenmiştir. Çalışmada Cook uzaklığı, Studentleştirilmiş artıklar, DFFITS ve Hadi'nin ölçüsü yöntemleri aykırı değerleri doğru tespit etme ve yanlış tespit etme yüzdeleri açısından karşılaştırılmıştır. Simülasyonlar için kullanılan tüm yöntemlerin programları R programlama dili kullanılarak yazılmıştır. Gerçekleştirilen simülasyon çalışmaları sonucunda karşılaştırılan dört yöntemin de y yönünde aykırı değer tespitinde x yönündekine kıyasla daha başarılı oldukları görülmüştür. Hadi'nin ölçüsünün x yönündeki aykırı değer tespitinde diğer yöntemlere kıyasla daha başarılı olduğu, y yönündeki aykırı değer tespitinde ise DFFITS ve Hadi'nin ölçüsünün diğer iki yönteme kıyasla başarılı olduğu sonucuna varılmıştır. Çalışmanın sonunda verilen iki gerçek hayat uygulaması sonucunda Hadi'nin ölçüsünün aykırı değer tespitinde uç aykırı değerlerin yanı sıra sınır aykırı değerleri de tespit edebilen tek yöntem olduğu görülmüştür. Ayrıca karşılaştırılan dört yöntem arasında maskeleme etkisinden en az etkilenen yöntemin DFFITS olduğu gözlemlenirken, bataklık etkisi incelendiğinde dört yöntemin de başarısız olduğu sonucuna ulaşılmıştır.
Özet (Çeviri)
Outliers in the data set can affect the regression model and analysis results obtained from the data. Therefore, it is very important to detect outliers in regression analysis. In this thesis, it is aimed to compare four methods that are frequently used for the detection of outliers in regression models with simulation and real life data applications. In the study, Cook's distance, Studentized residuals, DFFITS and Hadi's measure methods were compared in terms of the percentages of correct and false detection of outliers. The programs of all methods used for simulations are written by using the R programming language. As a result of the simulation studies, it was seen that all four methods compared were more successful in detecting outliers in the y direction compared to the ones in the x direction. It was concluded that Hadi's measure was more successful in detecting outliers in the x direction compared to other methods while DFFITS and Hadi's measure were successful in detecting outliers in the y direction compared to the other two methods. As a result of the two real life applications given at the end of the study, it was seen that Hadi's measure is the only method that can detect border outliers as well as extreme outliers in outlier detection. In addition, it was observed that DFFITS was the method least affected by the masking effect among the four methods compared while when the swamp effect was examined, it was concluded that all four methods were unsuccessful.
Benzer Tezler
- Aykırı değer tespit yöntemlerinin karşılaştırılması: Türkiye dış ticaret verileri üzerine bir uygulama
A comparison of the outlier detecting methods: An application on Turkish foreign trade data
AYLİN KOLBAŞI
- A hybrid prediction approach using multiple linear regression and decision tree
Çoklu doğrusal regresyon ve karar ağacı kullanarak hibrit tahmin yaklaşım
MARYAM ARIF AZEEZ AZEEZ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KAYHAN AYAR
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Hileli finansal raporlama: Muhasebe manipülasyonu ile karlılık oranları ilişkisine yönelik ampirik bir araştırma
Fraud financial reporting: An empirical research on the relationship of accounting manipulation and profitability ratios
İLHAN ACAR
- Hücresel ve durumsal aykırı değerlerle sağlam regresyon modellerinin karşılaştırılması
Comparison of robust regression methods in the presence of cellwise and casewise outliers
GÜVEN PEKDEMİR
Yüksek Lisans
Türkçe
2024
İstatistikEskişehir Osmangazi Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. ÖZLEM ALPU