Development and application of novel machine learning approaches for RNA-seq data classification
RNA dizileme verilerinin siniflandirilmasinda yeni makine öğrenimi yaklaşimlarinin geliştirilmesi ve uygulanmasi
- Tez No: 396425
- Danışmanlar: DOÇ. DR. ERDEM KARABULUT, DOÇ. DR. AHMET ÖZTÜRK
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biyoloji, Moleküler Tıp, Biostatistics, Biology, Molecular Medicine
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 138
Özet
RNA dizileme, transkriptom karakterizasyonu ve nicelleştirmesinde yeni nesil dizileme teknolojisinin imkânlarını kullanan güncel ve etkin bir tekniktir. Bu teknik mikrodizin teknolojisine olan önemli avantajları ile gen ifadesi profillemesinde önemli gelişmeler kaydetmiştir: (i) daha az tutarsız veri üretme, (ii) yeni transkript ve izoformalarını tespit edebilme ve (iii) ilgilenilen transkriptler için ön hazırlık gerektirmeme. Gen ifadesi verisi kullanılarak yapılan önemli işlemlerden biri genlerin küçük bir alt setinin belirlenmesi ve özellikle kanser hastalıklarında tanı amaçlı verinin sınıflandırılmasıdır. RNA dizileme verilerinin kesikli veri yapısından dolayı, mikrodizin temelli sınıflandırıcılar doğrudan kullanılamamaktadır. Aşırı yaygınlık diğer bir problem olup, RNA dizileme verisinin ortalama ve varyans ilişkisinin dikkatli modellemesini gerektirmektedir. Voom, log-sayma değerlerinin ortalama ve varyans ilişkisini tahmin eden ve izleyen analizlerde kullanılmak üzere her gözlem için ağırlık katsayıları üreten güncel bir yöntemdir. Bu çalışmada biz güçlü bir mikrodizin sınıflandırıcısı olan en yakın küçültülmüş merkezler ve voom yaklaşımlarını bir araya getiren voomNSC yöntemini geliştirdik. VoomNSC ortalama ve varyans ilişkisini voom yöntemi ile modelleyen, voom yöntemi çıktılarını (log-cpm değerleri ve ağırlık katsayıları) ağırlıklandırılmış istatistikler kullanarak en yakın küçültülmüş merkezler yöntemine dâhil eden spars bir sınıflandırıcıdır. Ayrıca biz köşegenel doğrusal ve karesel ayırma analizlerinin RNA dizileme sınıflandırmasındaki uyarlamaları olan voomDLDA ve voomDQDA spars olmayan sınıflandırıcılarını da sağladık. Geliştirilen yaklaşımların performanslarının değerlendirilmesi için kapsamlı bir benzetim çalışması tasarladık ve dört adet gerçek veri seti kullandık. Bulgular, voomNSC yönteminin en spars sınıflandırıcı olduğunu, ayrıca üs dönüşümü uygulanmış Poisson doğrusal ayırma analizi, ve rlog dönüşümü uygulanmış destek vektör makineleri ve random forests yöntemleri ile birlikte en doğru sonuçları ürettiğini göstermiştir. Sonuç olarak, voomNSC, tıp alanında tanı biyobelirteçlerinin tespiti ve sınıflandırılma probleminde başarıyla uygulanabilir hızlı, tutarlı ve spars bir sınıflandırıcıdır. Ayrıca, bu algoritma gelişim farklılıklarının ayırt edilmesi, stres ajanlarına karşı hücresel yanıtın tespiti gibi çeşitli fenotiplerin ayrımında da kullanılabilir. İnteraktif web uygulamasına
Özet (Çeviri)
RNA-Seq is a recent and efficient technique that uses the capabilities of next-generation sequencing technology in characterizing and quantifying transcriptomes. This technique has revolutionized the gene-expression profiling with major advantages over microarrays: (i) providing less noisy data, (ii) detecting novel transcripts and isoforms, and (iii) unnecessity of prearranged transcripts of interest. One important task using gene-expression data is to identify a small subset of genes and classify the data for diagnostic purposes, particularly for cancer diseases. Microarray based classifiers are not directly applicable due to the discrete nature of RNA-Seq data. Overdispersion is another problem that requires careful modeling of mean and variance relationship of the RNA-Seq data. Voom is a recent method that estimates the mean and variance relationship of the log-counts and provides precision weights for each observation to be used for further analysis. In this study, we developed VoomNSC method, which brings together voom and a powerful microarray classifier nearest shrunken centroids approaches for the purpose of“gene-expression based classification”. VoomNSC is a sparse classifier that models the mean and variance relationship using voom method, incorporates the outputs of voom method (i.e. log-cpm values and precision weights) into NSC using weighted statistics. We also provided two non-sparse classifiers voomDLDA and voomDQDA, the extensions of diagonal linear and quadratic discriminant classifiers for RNA-Seq classification. A comprehensive simulation study is designed and four real datasets are used to assess the performance of developed approaches. Results revealed that voomNSC method performs as the sparsest classifier, also provides the most accurate results with power transformed Poisson linear discriminant analysis, and rlog transformed support vector machines and random forests algorithms. In conclusion, voomNSC is a fast, accurate and sparse classifier that can successfully be applied for diagnostic biomarker discovery and classification problems in medicine. This algorithm can also be used in other transcriptomics studies, such as separating developmental differences, cellular responses against stressors, or diverse phenotypes. An interactive web application is freely available at
Benzer Tezler
- Makine öğrenmesi yöntemleriyle kanser ile ilgili yeni biyobelirteçlerin tespit edilmesi
Identification of novel systems biomarkers for cancer diagnosis using machine learning techniques
FIRAT KURT
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA AĞAOĞLU
PROF. DR. KAZIM YALÇIN ARĞA
- Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Performance of laminated glass subjected to blast and impact loading
Patlama ve darbe yüklemesine maruz kalan lamine camın yapısal performansı
MOHELDEEN HEJAZI
Doktora
İngilizce
2024
Makine Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ SARI
- Development of operation and maintenance strategies for offshore wind industry based on big data management
Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi
UWE LUETZEN
Doktora
İngilizce
2024
Enerjiİstanbul Teknik ÜniversitesiGemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR BEJİ
- Evaluating performance of different remote sensing techniques and various interpolation approaches for soil salinity assessment
Toprak tuzluluğu değerlendirmesi için farklı uzaktan algılama teknikleri ve çeşitli interpolasyon yaklaşımlarının performansının değerlendirilmesi
TAHA GORJI
Doktora
İngilizce
2021
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. AYŞE GÜL TANIK