Geri Dön

Temel bileşenler regresyonu ve bir uygulaması

Principal components regression and its application

  1. Tez No: 947400
  2. Yazar: SUAT SÖNMEZ
  3. Danışmanlar: DOÇ. DR. SADİ ELASAN, DR. ÖĞR. ÜYESİ YUSUF DİLBİLİR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Van Yüzüncü Yıl Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 56

Özet

Çoklu doğrusal regresyon (ÇDR) analizlerinde sıkça karşılaşılan çoklu doğrusal bağlantı (ÇDB) problemi, parametre tahminlerinin varyansını artırarak modelin güvenilirliğini ve yorumlanabilirliğini azaltmaktadır. Bu tez çalışmasının amacı, ÇDB sorununa bir çözüm alternatifi sunan Temel Bileşenler Regresyonu (TBR) yöntemini teorik olarak incelemek, bir biyoistatistik uygulama ile pratik etkinliğini göstermek ve sonuçlarını standart En Küçük Kareler (EKK) yöntemi ile karşılaştırmaktır. Çalışmada, açık kaynaklı bir klinik veri seti (n=1003) kullanılarak C-Reaktif Protein (CRP) düzeyi, 28 adet biyokimyasal ve hematolojik parametre ile modellenmiştir. Veri standardizasyonu sonrası, ÇDB teşhisi (VIF değerleri), EKK regresyonu, Temel Bileşenler Analizi (TBA) ve TBR analizleri IBM SPSS Statistics 26.0 programı ile gerçekleştirilmiştir. EKK modelinde VIF değerlerinin kabul edilebilir sınırların çok üzerinde olduğu (bazıları >1000) ve ciddi ÇDB bulunduğu tespit edilmiştir. Korelasyon matrisi üzerinden yapılan TBA sonucunda, özdeğeri 1.5'ten büyük olan ilk 6 temel bileşen seçilmiş ve bu bileşenler orijinal değişkenlerdeki toplam varyansın %60.8'ini açıklamıştır. Seçilen 6 temel bileşen kullanılarak kurulan TBR modelinde, VIF değerlerinin 1 olmasıyla ÇDB probleminin tamamen ortadan kalktığı görülmüştür. TBR modeli (R²=0.587), EKK modeline (R²=0.402) göre CRP'deki varyansın daha büyük bir kısmını açıklamıştır, ancak düzeltilmiş R² değeri daha düşük bulunmuştur (0.340 vs 0.385). Sonuç olarak, TBR'nin, ÇDB varlığında EKK'ye göre daha kararlı ve geçerli bir model sunduğu, boyut indirgeme sağladığı ancak bilgi kaybı ve yorumlama zorluğu gibi dezavantajları olduğu görülmüştür. TBR, ÇDB probleminin yaygın olduğu biyoistatistik veri analizlerinde değerli bir alternatif yöntem olarak önerilmektedir.

Özet (Çeviri)

The problem of multicollinearity (MC), frequently encountered in multiple linear regression (MLR) analyses, compromises the reliability and interpretability of the model by inflating the variance of parameter estimates. The objective of this thesis is to theoretically examine the Principal Component Regression (PCR) method, which presents an alternative solution to the multicollinearity problem, to demonstrate its practical applicability via a biostatistical application, and to compare its results with the standard Ordinary Least Squares (OLS) method. In this study, C-Reactive Protein (CRP) levels were modeled using an open-source clinical dataset (n=1003) with 28 biochemical and hematological parameters as independent variables. Following data standardization, multicollinearity diagnostics (VIF values), OLS regression, Principal Component Analysis (PCA), and PCR analyses were conducted using IBM SPSS Statistics 26.0. The OLS model revealed Variance Inflation Factor (VIF) values significantly exceeding acceptable limits (some >1000), indicating the presence of severe multicollinearity. Based on PCA conducted via the correlation matrix, the first 6 principal components (PCs) with eigenvalues greater than 1.5 were selected; these components accounted for 60.8% of the total variance in the original variables. In the PCR model constructed using the selected 6 PCs, the multicollinearity problem was completely eliminated, as evidenced by all VIF values being exactly 1.0. The PCR model (R²=0.587) accounted for a larger proportion of the variance in CRP compared to the OLS model (R²=0.402); however, its adjusted R² value was found to be lower (0.340 vs. 0.385). Consequently, PCR was found to offer a more stable and valid model than OLS in the presence of multicollinearity and provided dimensionality reduction, although it presented drawbacks such as information loss and interpretational challenges. PCR is therefore recommended as a valuable alternative method for biostatistical data analyses where multicollinearity is prevalent.

Benzer Tezler

  1. Determining the relationship between some linear type measurements and milk production for breeder selection in dairy cows

    Süt ineklerinde damızlık seçimi için bazı linear tip ölçüleri ile süt verimi arasındaki ilişkinin belirlenmesi

    SIGID PRABOWO SIGID PRABOWO

    Doktora

    İngilizce

    İngilizce

    2023

    MorfolojiSelçuk Üniversitesi

    Zootekni (Veterinerlik) Ana Bilim Dalı

    PROF. DR. MUSTAFA GARİP

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. Bazı yanlı tahmin tekniklerinin incelenmesi ve OECD ülkelerindeki 5 yaş altı çocuk ölüm sayılarının modellenmesinde kullanılması

    Examining of some biased estimation techniques and their use in modelling of the number of deaths of children under five years old in OECD countries

    DENİZ GÜNER

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    İstatistikEskişehir Osmangazi Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. HATİCE ŞAMKAR

  4. Türkiye'de büyük şehir alanlarında yaşam kalitesinin değerlendirilmesine yönelik bir yöntem denemesi

    A methodological essay to evaluate quality of life in metrepolitan areas of Turkey

    A.NİLAY EVCİL TÜRKSEVER

    Doktora

    Türkçe

    Türkçe

    2001

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    PROF. DR. GÜNDÜZ ATALIK

  5. PLSR ve PCR tekniklerinin Monte Carlo simülasyonu ile karşılaştırılması

    Comparison of PLSR and PCR techniques with Monte Carlo simulation

    GAMZE GÜVEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    İstatistikEskişehir Osmangazi Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. HATİCE ŞAMKAR