Variable selection and classification for longitudinal binary data through three-step sparse boosting
Üç aşamalı seyrek yükseltme metodu ile ikili sonucu olan uzunlamasına verilerin değişken seçimi ve sınıflandırılması
- Tez No: 735213
- Danışmanlar: PROF. DR. ÖZLEM İLK DAĞ
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 218
Özet
Teknolojinin hızlı gelişimi ile tek bir deneyde binlerce genin gen ifade düzeylerini elde etmek artık mümkün. Bu deneylerde, numune boyutunun nispeten küçük olmasının yanında incelenen değişkenlerin sayısı son derece fazladır, buna karşın yalnızca az sayıda gen ifadesi, ilgilenilen sonuçla ilgili olabilmektedir. Bu nedenle, model tahmini ile birlikte neden ilişkisi olan değişkenlerin seçimine ihtiyaç artmıştır. Bu tezde biz, bireylerin ikili sınıflandırılması amacıyla, en önemli değişkenleri tespit etmek için sağlam ve aynı zamanda uzamsal ve zamansal korelasyonu göz önünde bulunduran, üç aşamalı seyrek bir yükseltme modeli öneriyoruz. Yue, Li and Cheng (2019) makalesindeki fikri takiben, ilk aşamada, gözlemlerin bağımsız olduğu varsayılır ve yükseltme metodu kullanılarak, ikili çapraz entropi kaybının doğrudan en aza indirilmesiyle lojistik regresyonun katsayılarının tahmini elde edilir. Daha sonra, ikinci aşamada, birinci aşamada yapılan hatalara dayalı olarak oluşturulan bir ağırlık matrisi yürütülerek zamansal korelasyon dikkate alınır. Son olarak üçüncü aşamada, korelasyon yapısı dikkate alınarak bir ağırlık matrisi aracılığıyla uzamsal korelasyon eklenir. Bir Monte Carlo Simülasyon Çalışması tasarlanmış ve paralel hesaplama yöntemleri kullanılarak dokuz farklı zamansal ve uzamsal korelasyon yapısı senaryosu çalıştırılmıştır. Önerilen model, anlamlı olan bütün değişkenleri doğru bir şekilde anlamlı olarak belirlerken, yanlışlıkla anlamlı olarak belirlenen değişkenlerin sayısını azaltmıştır. Sınıflandırma performansı ise uzamsal ve zamansal korelasyon yükseldikçe yükselmektedir. Ayrıca, Boruta (RF), Ridge Regresyon, Lasso Regresyon ve Elastic Net algoritmalarını içeren bir karşılaştırma çalışması yapılmış ve şu sonuçlar elde edilmiştir, i) diğer algoritmalar çok sayıda yanlışlıkla anlamlı olarak seçilmiş değişkenleri dikkate alırken, önerilen algoritma, sadece gerçek anlamlı değişkenleri tanımlamanın yanında, en fazla bir değişkeni yanlışlıkla anlamlı olarak seçmiştir , ii) Üç Aşamalı Seyrek Yükseltme algoritması, simülasyon çalışmasında özgüllük ve kesinlik metrikleri açısından en iyi performansı göstermiştir. Ayrıca algoritma, Tip 1 Diyabet Tahmin ve Önleme (DIPP) çalışmasının gerçek yaşam veri seti üzerinde hem dengeli hem de dengesiz kümeler kullanılarak uygulanmıştır. Algoritma, birkaç önemli geni anlamlı olarak tanımlamıştır, bu sayıda genin tanımlanması da zaman ve para açısından faydalı olabilecektir. Karşılaştırma sonuçları, Üç Aşamalı Seyrek Yükseltme algoritması değişken seçimi, parametre kestirimi ve sınıflandırma açısından iyi performans gösterdiğinin kabul edilebileceğini göstermiştir.
Özet (Çeviri)
With the rapid evolution of technology, it is now possible to obtain the gene expression levels of thousands of genes in a single experiment. In these experiments, the sample size is relatively small but the number of covariates under consideration is extremely large, whereas only a small number of expressions may be related to the outcome of interest. Hence, the selection of causal features is much-needed along with the model estimation. In this thesis, we propose a three-step sparse boosting model for detecting the most important covariates that classify the individuals into binary groups considering the longitudinal data having spatial and temporal correlations. Following the idea of Yue, Li and Cheng (2019), in the first step, the independence of the observations is assumed and the estimation of coefficients of logistic regression is obtained by directly minimizing the binary-cross entropy loss using boosting method. Then, in the second step, the temporal correlation is considered by executing a weight matrix constructed based on the errors made in the first step. Finally, in the third step, the spatial correlation is added via a weight matrix considering the correlation structure. A Monte Carlo Simulation Study was designed and nine different temporal and spatial correlation structure scenario were run using parallel computing methods. The proposed model decreased the number of mistakenly chosen significant covariates while establishing all the true ones as significant. As the classification performance, it got higher when the spatial and temporal correlations got higher. Also, a comparison study, including Boruta (RF), Support Vector Machine (SVM), Logistic Regression, Ridge Regression, Lasso Regression and Elastic Net algorithms, showed that i) they considered very large number of mistakenly chosen significant covariates, whereas our proposed algorithm identified at most one along with the true significant variables and, ii) Three-Step Sparse Boosting algorithm performs the best in terms of specificity and precision metrics in the simulation study. In addition, the algorithm had been applied on a real life data set of Type 1 Diabetes Prediction and Prevention (DIPP) study, using both balanced and unbalanced sets. Our algorithm identified a few numbers of genes as significant which can be beneficial regarding time and money. The comparison results showed that The Three-Step Sparse Boosting technique can be considered as performing well in terms of variable selection, estimation and classification.
Benzer Tezler
- Yüksek riskli sınavlarda başarıyla ilişkili değişkenlerin veri madenciliği yöntemleriyle incelenmesi
Evaluating the variables related to success in high-stakes exams by using data mining methods
AYŞEGÜL BOZDAĞ KASAP
Doktora
Türkçe
2024
Eğitim ve ÖğretimGazi ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
PROF. DR. DİLARA BAKAN KALAYCIOĞLU
- Endüstrileşmiş toplu konutta farklı kullanıcı gereksinmelerini karşılayıcı çözümler doğrultusunda bir mimari tasarım araştırması
An Architectural design analysis for achieving a solution in meeting the requirements of different user needs in industrialized mass housing
H.ALEV BUĞDAY
- Kademeli ve düz kiriş yapılarının termal etki altındaki titreşim davranışının incelenmesi
Investigation of the vibrational behavior of stepped and straight beam structures under thermal effect
FURKAN ALTINTAŞ
Yüksek Lisans
Türkçe
2022
Uçak Mühendisliğiİstanbul Teknik ÜniversitesiUçak ve Uzay Mühendisliği Ana Bilim Dalı
PROF. DR. METİN ORHAN KAYA
- Çok katlı yapılarda üniform olmayan burulma etkilerinin hesabı için bir yöntem
A method to determine the effects of nonuniform torsion on multistory buildings
TUNCAY AYDOĞUŞ
Doktora
Türkçe
2014
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. YUSUF ALPAY ÖZGEN
- Geniş ambar ağızlı gemilerin mukavemet yönünden incelenmesi
Structural analysis of ships with large deck openings
YALÇIN ÜNSAN