Geri Dön

Variable selection and classification for longitudinal binary data through three-step sparse boosting

Üç aşamalı seyrek yükseltme metodu ile ikili sonucu olan uzunlamasına verilerin değişken seçimi ve sınıflandırılması

  1. Tez No: 735213
  2. Yazar: DENİZ ESİN EMER
  3. Danışmanlar: PROF. DR. ÖZLEM İLK DAĞ
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 218

Özet

Teknolojinin hızlı gelişimi ile tek bir deneyde binlerce genin gen ifade düzeylerini elde etmek artık mümkün. Bu deneylerde, numune boyutunun nispeten küçük olmasının yanında incelenen değişkenlerin sayısı son derece fazladır, buna karşın yalnızca az sayıda gen ifadesi, ilgilenilen sonuçla ilgili olabilmektedir. Bu nedenle, model tahmini ile birlikte neden ilişkisi olan değişkenlerin seçimine ihtiyaç artmıştır. Bu tezde biz, bireylerin ikili sınıflandırılması amacıyla, en önemli değişkenleri tespit etmek için sağlam ve aynı zamanda uzamsal ve zamansal korelasyonu göz önünde bulunduran, üç aşamalı seyrek bir yükseltme modeli öneriyoruz. Yue, Li and Cheng (2019) makalesindeki fikri takiben, ilk aşamada, gözlemlerin bağımsız olduğu varsayılır ve yükseltme metodu kullanılarak, ikili çapraz entropi kaybının doğrudan en aza indirilmesiyle lojistik regresyonun katsayılarının tahmini elde edilir. Daha sonra, ikinci aşamada, birinci aşamada yapılan hatalara dayalı olarak oluşturulan bir ağırlık matrisi yürütülerek zamansal korelasyon dikkate alınır. Son olarak üçüncü aşamada, korelasyon yapısı dikkate alınarak bir ağırlık matrisi aracılığıyla uzamsal korelasyon eklenir. Bir Monte Carlo Simülasyon Çalışması tasarlanmış ve paralel hesaplama yöntemleri kullanılarak dokuz farklı zamansal ve uzamsal korelasyon yapısı senaryosu çalıştırılmıştır. Önerilen model, anlamlı olan bütün değişkenleri doğru bir şekilde anlamlı olarak belirlerken, yanlışlıkla anlamlı olarak belirlenen değişkenlerin sayısını azaltmıştır. Sınıflandırma performansı ise uzamsal ve zamansal korelasyon yükseldikçe yükselmektedir. Ayrıca, Boruta (RF), Ridge Regresyon, Lasso Regresyon ve Elastic Net algoritmalarını içeren bir karşılaştırma çalışması yapılmış ve şu sonuçlar elde edilmiştir, i) diğer algoritmalar çok sayıda yanlışlıkla anlamlı olarak seçilmiş değişkenleri dikkate alırken, önerilen algoritma, sadece gerçek anlamlı değişkenleri tanımlamanın yanında, en fazla bir değişkeni yanlışlıkla anlamlı olarak seçmiştir , ii) Üç Aşamalı Seyrek Yükseltme algoritması, simülasyon çalışmasında özgüllük ve kesinlik metrikleri açısından en iyi performansı göstermiştir. Ayrıca algoritma, Tip 1 Diyabet Tahmin ve Önleme (DIPP) çalışmasının gerçek yaşam veri seti üzerinde hem dengeli hem de dengesiz kümeler kullanılarak uygulanmıştır. Algoritma, birkaç önemli geni anlamlı olarak tanımlamıştır, bu sayıda genin tanımlanması da zaman ve para açısından faydalı olabilecektir. Karşılaştırma sonuçları, Üç Aşamalı Seyrek Yükseltme algoritması değişken seçimi, parametre kestirimi ve sınıflandırma açısından iyi performans gösterdiğinin kabul edilebileceğini göstermiştir.

Özet (Çeviri)

With the rapid evolution of technology, it is now possible to obtain the gene expression levels of thousands of genes in a single experiment. In these experiments, the sample size is relatively small but the number of covariates under consideration is extremely large, whereas only a small number of expressions may be related to the outcome of interest. Hence, the selection of causal features is much-needed along with the model estimation. In this thesis, we propose a three-step sparse boosting model for detecting the most important covariates that classify the individuals into binary groups considering the longitudinal data having spatial and temporal correlations. Following the idea of Yue, Li and Cheng (2019), in the first step, the independence of the observations is assumed and the estimation of coefficients of logistic regression is obtained by directly minimizing the binary-cross entropy loss using boosting method. Then, in the second step, the temporal correlation is considered by executing a weight matrix constructed based on the errors made in the first step. Finally, in the third step, the spatial correlation is added via a weight matrix considering the correlation structure. A Monte Carlo Simulation Study was designed and nine different temporal and spatial correlation structure scenario were run using parallel computing methods. The proposed model decreased the number of mistakenly chosen significant covariates while establishing all the true ones as significant. As the classification performance, it got higher when the spatial and temporal correlations got higher. Also, a comparison study, including Boruta (RF), Support Vector Machine (SVM), Logistic Regression, Ridge Regression, Lasso Regression and Elastic Net algorithms, showed that i) they considered very large number of mistakenly chosen significant covariates, whereas our proposed algorithm identified at most one along with the true significant variables and, ii) Three-Step Sparse Boosting algorithm performs the best in terms of specificity and precision metrics in the simulation study. In addition, the algorithm had been applied on a real life data set of Type 1 Diabetes Prediction and Prevention (DIPP) study, using both balanced and unbalanced sets. Our algorithm identified a few numbers of genes as significant which can be beneficial regarding time and money. The comparison results showed that The Three-Step Sparse Boosting technique can be considered as performing well in terms of variable selection, estimation and classification.

Benzer Tezler

  1. Yüksek riskli sınavlarda başarıyla ilişkili değişkenlerin veri madenciliği yöntemleriyle incelenmesi

    Evaluating the variables related to success in high-stakes exams by using data mining methods

    AYŞEGÜL BOZDAĞ KASAP

    Doktora

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimGazi Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    PROF. DR. DİLARA BAKAN KALAYCIOĞLU

  2. Endüstrileşmiş toplu konutta farklı kullanıcı gereksinmelerini karşılayıcı çözümler doğrultusunda bir mimari tasarım araştırması

    An Architectural design analysis for achieving a solution in meeting the requirements of different user needs in industrialized mass housing

    H.ALEV BUĞDAY

    Yüksek Lisans

    Türkçe

    Türkçe

    1991

    Mimarlıkİstanbul Teknik Üniversitesi

    PROF.DR. EROL KULAKSIZOĞLU

  3. Kademeli ve düz kiriş yapılarının termal etki altındaki titreşim davranışının incelenmesi

    Investigation of the vibrational behavior of stepped and straight beam structures under thermal effect

    FURKAN ALTINTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Uçak Mühendisliğiİstanbul Teknik Üniversitesi

    Uçak ve Uzay Mühendisliği Ana Bilim Dalı

    PROF. DR. METİN ORHAN KAYA

  4. Çok katlı yapılarda üniform olmayan burulma etkilerinin hesabı için bir yöntem

    A method to determine the effects of nonuniform torsion on multistory buildings

    TUNCAY AYDOĞUŞ

    Doktora

    Türkçe

    Türkçe

    2014

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. YUSUF ALPAY ÖZGEN

  5. Geniş ambar ağızlı gemilerin mukavemet yönünden incelenmesi

    Structural analysis of ships with large deck openings

    YALÇIN ÜNSAN

    Doktora

    Türkçe

    Türkçe

    1995

    Gemi Mühendisliğiİstanbul Teknik Üniversitesi

    PROF.DR. MESUT SAVCI