Hücresel ve durumsal aykırı değerlerle sağlam regresyon modellerinin karşılaştırılması
Comparison of robust regression methods in the presence of cellwise and casewise outliers
- Tez No: 901256
- Danışmanlar: PROF. DR. ÖZLEM ALPU
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Eskişehir Osmangazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Teorisi Bilim Dalı
- Sayfa Sayısı: 76
Özet
2000'li yıllara kadar veri analizinin ön işleme adımında, satırların gözlem ve sütunların değişkenler olduğu bir veri matrisinde durum bazlı (satır bazlı, satırsal, durumsal, casewise) aykırı değerler üzerine yoğunlaşılmıştı. 2000'li yılların başından itibaren ise veri matrisindeki her bir hücrenin potansiyel aykırı değer olarak değerlendirildiği ve tüm bir gözlemin dikkate alınmadığı hücresel aykırı değerler gündeme gelmiştir. Bu tip aykırı değerlerin veri kümelerinde durum bazında aykırı değerlerle birlikte ortaya çıkması muhtemeldir. Çok değişkenli veri analizinin temel taşları olan konum ve dağılım matrisinin tahmini ve çıkarım için regresyon katsayılarını tahmin etmek bu noktada büyük önem taşımaktadır. Bu tezde THCM ve ICM modelleri altında hücresel ve durumsal aykırı değerleri tespit ederek çok değişkenli veri setlerinde hücresel ve durumsal aykırı değer olması durumunda kullanılan değer atama (imputasyon) yöntemleri ile bu gözlemlerden daha az etkilenecek sağlam istatistiksel yöntemler birleştirilerek karşılaştırılmıştır. Son dönemlerde veri analizi ile ilgili çalışmalarda ise verilerin kontamine olmamış kısmından azami ölçüde faydalanmak amacıyla, uygulamada aykırı değerlerin durum bazında incelenmesinden ziyade hücre bazında tespit edilmesi tercih edilmektedir. Ayrıca hücresel aykırı değerlerin tespitinden sonra parametre tahmininde yerine koyma yöntemleri ve/veya sağlam tahmin edicilerden faydalanılması için algoritmalar önerilmektedir. Çalışmada öncelikle aykırı değer kavramı ile durumsal ve hücresel aykırı değer türleri ele alınıp, bu aykırı değerlerin oluşma mekanizmaları incelenmiştir. Ardından bu iki tip aykırı değeri teşhis etme yöntemleri ve teşhis sonrası parametre tahmininde kullanılan sağlam tahmin edicilerin regresyon analizindeki performansları Automobile veri seti üzerinde ve simülasyon çalışması ile incelenmiş ve karşılaştırılmıştır.
Özet (Çeviri)
Until the 2000s, the preprocessing stage of data analysis focused on casewise (rowwise) outliers in a data matrix where rows are observations and columns are variables. Since the early 2000s, cellwise outliers have been introduced, where each cell in the data matrix is considered as a potential outlier. Such outliers are likely to appear in datasets together with casewise outliers. Cellwise outliers are relatively likely to occur in datasets along with rowwise outliers. Estimation of the location and dispersion matrix, which are the cornerstones of multivariate data analysis, and estimation of regression coefficients for inference are of great importance at this point. In this paper, imputation methods used in multivariate data sets in the presence of cellwise and row outliers by detecting cellwise and row outliers under THCM and ICM models are compared with robust statistical methods that will be less affected by these observations. In recent studies on data analysis, in order to make maximum use of the uncontaminated part of the data, it is preferred to detect outliers on a cell-by-cell basis rather than on a case-by-case basis. Moreover, algorithms are proposed to utilize substitution methods and/or robust estimators for parameter estimation after cellwise outlier detection. In this study, firstly, the concept of outliers and the types of situational and cellwise outliers are discussed and the mechanisms of these outliers are analyzed. Then, the methods of identifying these two types of outliers and the performances of robust estimators used in parameter estimation after identification in regression analysis are examined and compared on Automobile dataset and simulation study.
Benzer Tezler
- The quantification of fibrosis in cleared human and mouse liver tissues by light-sheet fluorescence microscope using a slide-free approach
Fibrozun şeffaflaştırılmış insan ve fare karaciğer dokularında slaytsız bir yöntem kullanarak ışık tabakalı floresan mikroskobu ile kantifikasyonu
BUKET ALPDOĞAN
Doktora
İngilizce
2022
GastroenterolojiKoç ÜniversitesiSağlık Bilimleri Ana Bilim Dalı
PROF. DR. MÜJDAT ZEYBEL
- Generation and characterization of tumor spheroids from gastric cancer cell lines, SNU-484 and NCI-N87
Gastrik kanser hücre hatları, SNU-484 ve NCI-N87'den tümör sferoidlerinin üretimi ve karakterizasyonu
HİLAL TAŞKIRAN
Yüksek Lisans
İngilizce
2023
Moleküler TıpKoç ÜniversitesiHücresel ve Moleküler Tıp Bilim Dalı
PROF. DR. KEMAL BAYSAL
- Optimization of epigenome-wide CRISPR-CAS9 knockout screen analysis to prioritize cancer therapeutics
Kanser tedavilerine öncelik vermek için epigenom genelinde crispr-CAS9 tekniğinin analizinin optimizasyonu
EZGİ KURT
Yüksek Lisans
İngilizce
2023
BiyolojiKoç ÜniversitesiHücresel ve Moleküler Tıp Ana Bilim Dalı
PROF. DR. TUĞBA BAĞCI ÖNDER
DR. ÖĞR. ÜYESİ HAMZAH SYED
- Selective and sensitive determination of real-time Butyrylcholinesterase activity via Phenoxy 1,2-dioxetane-based chemiluminescent probe
Fenoksi 1,2-dioksetan temelli kemilüminesan ajan kullanımıyla gerçek zamanlı Butirilkolinesteraz aktivitesinin seçici ve hassas tayini
ALPEREN ACARI
Yüksek Lisans
İngilizce
2023
BiyolojiKoç ÜniversitesiSağlık Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SAFACAN KÖLEMEN
- Identification of epigenetic changes in prostate tissues with premalignant characteristics
Premalign özellikli prostat dokularında epigenetik değişikliklerin karakterizasyonu
CEREN ŞEREF
Doktora
İngilizce
2020
Moleküler TıpKoç ÜniversitesiSağlık Bilimleri Ana Bilim Dalı
DOÇ. DR. NATHAN LACK