Mikrodizilim gen ifade çalışmalarında genelleştirme yöntemlerinin regresyon modelleri üzerine etkisi

The effects of generalization methods on regression models in microarray gene expression studies

PDF İndir

Tez No: 366082
Yazar: SELEN YILMAZ IŞIKHAN
Danışmanlar: PROF. DR. CELAL REHA ALPAR
Tez Türü: Doktora
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2014
Dil: Türkçe
Üniversite: Hacettepe Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
Bilim Dalı: Biyoistatistik Bilim Dalı
Sayfa Sayısı: 154

Özet

Genetik araştırmalarda az sayıda hastaya ait binlerce gen verisi bulunması, klasik istatistiksel yöntemlerin (doğrusal regresyon vb.) kullanımında sorunlar ortaya çıkarmaktadır. Ancak yakın zamanda mikrodizilim gen ifade çalışmalarında çok fazla sayıdaki genin aynı anda analizi destek vektör makinaları (DVM), karar ağaçları, boosted tree gibi veri madenciliği yöntemlerinin de kullanılmasıyla mümkün hale gelmiştir. Bu çalışmada veri yapısı hakkında varsayım gerektirmeyen ve çok sayıda kestiriciyi modelleyebilen bu yöntemlerin gen verisi ile kestirim performansları incelenmiştir. Gen ifade verilerinde gerçekleştirilen analizler için en temel adımlardan biri analiz modellerinin genelleştirilmesidir. Bağımsız bir test verisi bulunmuyor ise, kestirim doğruluğunu belirlemek için, orijinal verinin yeniden örneklenmesi gibi yaklaşımlar kullanılmalıdır. Çalışmanın diğer amacı, genelleştirme yöntemlerinden bootstrap, çapraz geçerlik ve birini dışarıda bırakma yöntemlerinin DVR ve regresyon ağacı model performansları üzerine etkisini karşılaştırmaktır. Regresyon modellerinin genelleştirme yöntemleri ile performans karşılaştırmasında iki farklı Monte Carlo benzetim çalışması gerçekleştirilmiştir. Genel olarak bootstrap çapraz geçerlikten daha iyi performans vermiştir. Verilen bir model kurma tekniğinin kestirim performansını geliştirmede kullanılan araçlar ise model birleştirme (ensemble) yöntemleridir. Çalışmada ayrıca bagging ve boosting yöntemlerinin incelenen regresyon yöntemleri üzerinde performansı karşılaştırılmıştır. Bagging, gözlem sayısı n≥25 olan veri setleri için RA'da gelişme sağlamıştır. Gerçek gen verileri uygulaması benzetim çalışması ile uyumlu sonuçlar göstermiştir.

Özet (Çeviri)

The presence of thousands of gene data belonging to a few number of patients in genetic researches leads to problems in the use of classical statistical methods (linear regression analysis etc.). However, analysis of large number of genes in microarray gene expression studies simultaneously has become possible recently by using data mining methods such as support vector machine, decision tree and boosted tree. In this study, prediction performances of these methods which don't require assumptions about the data structure and can model a large number of predictors were examined on gene data. One of the basic steps for analyses which were performed on gene expression data is generalization of models of analysis. If an independent test data is not available, the approaches such as resampling the original data should be used to estimate the accuracy of prediction. Another purpose of the study is to compare the effect of bootstrap and cross validation generalization methods on model performances of support vector regression and regression trees. Two different Monte Carlo simulations were carried out for performance comparison of regression models with generalization methods. Overall, bootstrap has given more optimistic performance than cross validation. The tools that are used in the development of prediction performance of a given model building technique are model aggregating (ensemble) methods. In this study, the performances of bagging and boosting methods were also compared on the examined regression methods. Bagging has provided the improvement of regression tree for datasets having at least a number of 25 observations,“i.e.”n≥25. The application of real gene data has shown consistent results with the simulation study.

Benzer Tezler

Tez No
641382
SYMPES yöntemiyle kanser hastalıklarında önemli genlerin saptanması ve kanser türlerinin sınıflandırılması
Detection of significant genes in cancer diseases and classification of cancer types by SYMPES method
ALİ SARIKAŞ
Doktora
Türkçe
2020
Biyomühendislik İstanbul Üniversitesi-Cerrahpaşa
Biyomedikal Mühendisliği Ana Bilim Dalı
PROF. DR. BEKİR SIDDIK BİNBOĞA YARMAN
DR. ZELİHA GÖRMEZ
Tez No
389749
Renal parankimal tümörlere genomik yaklaşımlar
Genomic approach to renal parenchymal tumors
KUDRET ESEN GÜMÜŞLÜ
Doktora
Türkçe
2013
Genetik Kocaeli Üniversitesi
Tıbbi Genetik ve Moleküler Biyoloji Ana Bilim Dalı
YRD. DOÇ. DR. NACİ ÇİNE
Tez No
315291
Molecular characterization of ethanol resistance in Saccharomyces cerevisiae
Saccharomyces cerevisiae'de etanol direncinin moleküler karakterizasyonu
ARMAN AKŞİT
Yüksek Lisans
İngilizce
2012
Biyoteknoloji İstanbul Teknik Üniversitesi
İleri Teknolojiler Ana Bilim Dalı
PROF. DR. ZEYNEP PETEK ÇAKAR
Tez No
392371
Yüksek boyutlu kanser sınıflama probleminde bilgi karmaşıklığı kriteri ile aykırı gözlem tespiti ve boyut indirgeme
Dimension reduction and detection of outliers in cancer classification using information complexity for undersized samples
ESRA PAMUKÇU
Doktora
Türkçe
2015
Biyoistatistik Fırat Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. SİNAN ÇALIK
PROF. DR. HAMPARSUM BOZDOĞAN
Tez No
575688
Effects of miR-376 family miRNAs on CHRNA5 depleted MCF7 cell line model and co-culture competition studies
CHRNA5 ifadesi düşürülmüş MCF7 meme kanseri hücre hattı modelinde miR-376 familya mikroRNA'larının etkileri ve ko-kültür rekabet çalışmaları
RAFED SAİD TİRYAKİ
Yüksek Lisans
İngilizce
2019
Biyokimya İhsan Doğramacı Bilkent Üniversitesi
Moleküler Biyoloji ve Genetik Ana Bilim Dalı
DOÇ. DR. ÖZLEN KONU KARAKAYALI

Geri Dön