Geri Dön

Robust bootstrap procedures in the presence of outliers

Aykırı değerlerin varlığında dayanıklı bootstrap yöntemleri

  1. Tez No: 897110
  2. Yazar: UĞUR BİNZAT
  3. Danışmanlar: DOÇ. DR. ENGİN YILDIZTEPE
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 90

Özet

Aykırı değerler, veri setinin büyük çoğunluğundan önemli ölçüde sapma gösteren ve anormal davranış sergileyen veri noktalarıdır. Bu tür anomaliler, teknik sorunlar, sistem davranışındaki değişiklikler, dolandırıcılık eylemleri, insan hataları veya doğal varyasyonlar gibi çeşitli nedenlerden kaynaklanabilir. Bağlama bağlı olarak, aykırı değerler ya altta yatan olguya ilişkin değerli bilgiler sunar ya da dikkatli şekilde yönetilmesi gereken gürültü ve hataları temsil eder. Aykırı değerlerle başa çıkarken, geleneksel yaklaşımlar genellikle yetersiz kalırken, yöntemler bu tür durumlar için daha uygundur. Tezin ilk katkısı histogram tabanlı denetimsiz aykırı değer tespit yöntemi geliştirilmesidir. Histogram tabanlı aykırı değer puanı, statik veya dinamik kutu genişliğine sahip histogram kullanılarak hesaplanabilir. Histogramda kutular arası büyük boşluklar olduğunda, statik kutu genişliği yaklaşımı yerine dinamik kutu genişliği yaklaşımı daha iyi sonuçlar vermektedir. Histogramdaki kutular arası boşluklar gerçek verilerin geldiği çeşitli dağılımların bir sonucu olarak ortaya çıkabilmektedir. Statik histogram ile çalışırken, aykırı değerler ve olağan değerler arasında daha iyi bir ayrım elde etmek için bu boşluklardan yararlanılabilir. Bu çalışmada, yoğunluk kestirimi öncesinde komşu kutuları da dikkate alan düzeltilmiş histogram tabanlı aykırı değer puanı yöntemi önerilmiştir. Benzetim çalışması ve gerçek veri uygulamasından elde edilen sonuçlar, düzeltilmiş histogram tabanlı aykırı değer puanı yönteminin yalnızca yapay verilerde değil, aynı zamanda farklı türlerde gerçek verilerde de daha iyi bir performans sağladığını göstermektedir. Bu tezde dayanıklı bootstrap yöntemleri incelenmiştir. Dayanıklı bootstrap yaklaşımları dayanıklı tahmin ediciler ile bootstrap uygulamasına alternatif olarak önerilmiştir. Dayanıklı tahmin ediciler ile bootstrap uygulamaları yaygın olsa da, bu uygulamalarda aykırı değerlerin varlığı sorun çıkarabilmektedir. Burada en önemli sorunlardan biri bootstrap örneklemlerinin orjinal örneklemdeki aykırı değerlerden daha fazla aykırı değer içerebilmesidir. Ayrıca bazı dayanıklı kestiricilerin yinelemeli teknikler ile elde edilmesi bootstrap kullanımlarında süre ve hesaplama maliyetlerini artırmaktadır. Bu sebeple Etki Fonksiyonu Bootstrap (IFB) ve Hızlı ve Dayanıklı Bootstrap (FRB) gibi yöntemler önerilmiştir. Bu çalışmada, FRB ve IFB yöntemlerini birleştiren ve Ağırlıklı Hızlı ve Dayanıklı Bootstrap (WFRB) olarak adlandırılan yeni bir yaklaşım tanıtılmaktadır. Önerilen yöntemin performansı, benzetim çalışmaları ve gerçek hayat verileri ile belirlenmiştir. Çeşitli benzetim çalışması ve gerçek hayat verilerinin analizi sonucunda, önerilen yöntemin geleneksel yöntemlere kıyasla, bazı durumlarda, daha düşük hata kareler ortalaması ve daha kısa güven aralığı genişliği sağladığı görülmüştür. Ayrıca, orta büyüklükteki örneklemlerde ve farklı senaryolarda tutarlı bir şekilde Bradley'in liberal kriterini karşılamaktadır.

Özet (Çeviri)

Outliers are data points that deviate significantly from the majority of a dataset and show abnormal behavior. They can occur for a variety of reasons, including technical issues, changes in system behavior, fraudulent actions, human mistakes, or natural variances. Depending on the context, outliers can either offer valuable insights into underlying phenomena or represent noise and errors that necessitate careful management. Traditional approaches often prove inadequate when handling outliers, whereas robust methods are better suited for such cases. The first contribution of this thesis is the development of a new histogram-based unsupervised outlier detection method. When a histogram contains large gaps, the dynamic bin-width approach is preferred over the static bin-width approach. These gaps in a histogram usually occur as a result of various distributions in real data. When working with a static bin-width histogram, gaps can be utilized to acquire better distinction between outliers and inliers. In this study, we propose an adjusted version of the histogram-based outlier score named adjusted histogram-based outlier score, which considers neighboring bins prior to density estimation. Results from a simulation study and real data application indicate that the adjusted histogram-based outlier score yields a better performance not only in the simulated data but also for various types of real-life data. This thesis investigates robust bootstrap methods, especially in regression models. Robust bootstrap methods are suggested as an alternative to bootstrapping robust estimators. Bootstrapping robust estimators has gained popularity for solving various issues; however, challenges remain, particularly with outliers. Bootstrap samples can contain more outliers than the original sample, and calculating robust estimators can be costly due to their iterative processes. Influence Function Bootstrap (IFB) and Fast and Robust Bootstrap (FRB) have emerged to address these issues. In this study, we introduce a new approach, Weighted Fast and Robust Bootstrap (WFRB), which combines IFB and FRB to increase the robustness of the bootstrap procedure. The performance of the proposed method is determined through simulation studies and real-life datasets. Through the application of several simulation studies and analysis of real-life datasets, the results indicate that the proposed method achieves lower mean squared error and shorter confidence interval lengths compared to conventional methods in some cases. Furthermore, it consistently satisfies Bradley's liberal criterion across moderate sample sizes and various scenarios.

Benzer Tezler

  1. Type-M robust measures of correlation

    M-tipi dayanıklı ilişki ölçüleri

    KÜBRANUR ERGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    İstatistikDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. ABDULLAH FIRAT ÖZDEMİR

  2. Robust optimizasyon yöntemi ile portföy analizi: BİST100 hisseleriyle bir uygulama

    Portfolio analysis with robust optimization method: An application on BIST100 stocks

    SALİH ÇAM

    Doktora

    Türkçe

    Türkçe

    2022

    EkonometriÇukurova Üniversitesi

    Ekonometri Ana Bilim Dalı

    PROF. DR. SÜLEYMAN BİLGİN KILIÇ

  3. 1980 sonrası Türkiye'de reel faiz oranı serilerinin özellikleri ve politika etkileri

    After 1980 properties of Turkish real interest rates and their policy implications

    KORHAN K. GÖKMENOĞLU

    Doktora

    Türkçe

    Türkçe

    2012

    EkonomiSelçuk Üniversitesi

    İktisat Ana Bilim Dalı

    DOÇ. DR. ZEYNEP KARAÇOR

  4. Robust two sample tests applications by using statistical programming language R

    İstatistiksel programlama dili R ile dayanıklı iki örneklem testleri uygulamaları

    MUSTAFA BİNAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2011

    İstatistikDokuz Eylül Üniversitesi

    İstatistik Bölümü

    YRD. DOÇ. DR. ABDULLAH FIRAT ÖZDEMİR

  5. Robust scale estimators in statistical quality control: Robust control charts

    İstatistiksel kalite kontrolünde dayanıklı ölçek kestiricileri: Dayanıklı kontrol grafikleri

    ALP GİRAY ÖZEN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    Endüstri ve Endüstri MühendisliğiDokuz Eylül Üniversitesi

    İstatistik Ana Bilim Dalı

    YRD. DOÇ. DR. A. FIRAT ÖZDEMİR