Geri Dön

Development and application of novel machine learning approaches for RNA-seq data classification

RNA dizileme verilerinin siniflandirilmasinda yeni makine öğrenimi yaklaşimlarinin geliştirilmesi ve uygulanmasi

  1. Tez No: 396425
  2. Yazar: GÖKMEN ZARARSIZ
  3. Danışmanlar: DOÇ. DR. ERDEM KARABULUT, DOÇ. DR. AHMET ÖZTÜRK
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biyoloji, Moleküler Tıp, Biostatistics, Biology, Molecular Medicine
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2015
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 138

Özet

RNA dizileme, transkriptom karakterizasyonu ve nicelleştirmesinde yeni nesil dizileme teknolojisinin imkânlarını kullanan güncel ve etkin bir tekniktir. Bu teknik mikrodizin teknolojisine olan önemli avantajları ile gen ifadesi profillemesinde önemli gelişmeler kaydetmiştir: (i) daha az tutarsız veri üretme, (ii) yeni transkript ve izoformalarını tespit edebilme ve (iii) ilgilenilen transkriptler için ön hazırlık gerektirmeme. Gen ifadesi verisi kullanılarak yapılan önemli işlemlerden biri genlerin küçük bir alt setinin belirlenmesi ve özellikle kanser hastalıklarında tanı amaçlı verinin sınıflandırılmasıdır. RNA dizileme verilerinin kesikli veri yapısından dolayı, mikrodizin temelli sınıflandırıcılar doğrudan kullanılamamaktadır. Aşırı yaygınlık diğer bir problem olup, RNA dizileme verisinin ortalama ve varyans ilişkisinin dikkatli modellemesini gerektirmektedir. Voom, log-sayma değerlerinin ortalama ve varyans ilişkisini tahmin eden ve izleyen analizlerde kullanılmak üzere her gözlem için ağırlık katsayıları üreten güncel bir yöntemdir. Bu çalışmada biz güçlü bir mikrodizin sınıflandırıcısı olan en yakın küçültülmüş merkezler ve voom yaklaşımlarını bir araya getiren voomNSC yöntemini geliştirdik. VoomNSC ortalama ve varyans ilişkisini voom yöntemi ile modelleyen, voom yöntemi çıktılarını (log-cpm değerleri ve ağırlık katsayıları) ağırlıklandırılmış istatistikler kullanarak en yakın küçültülmüş merkezler yöntemine dâhil eden spars bir sınıflandırıcıdır. Ayrıca biz köşegenel doğrusal ve karesel ayırma analizlerinin RNA dizileme sınıflandırmasındaki uyarlamaları olan voomDLDA ve voomDQDA spars olmayan sınıflandırıcılarını da sağladık. Geliştirilen yaklaşımların performanslarının değerlendirilmesi için kapsamlı bir benzetim çalışması tasarladık ve dört adet gerçek veri seti kullandık. Bulgular, voomNSC yönteminin en spars sınıflandırıcı olduğunu, ayrıca üs dönüşümü uygulanmış Poisson doğrusal ayırma analizi, ve rlog dönüşümü uygulanmış destek vektör makineleri ve random forests yöntemleri ile birlikte en doğru sonuçları ürettiğini göstermiştir. Sonuç olarak, voomNSC, tıp alanında tanı biyobelirteçlerinin tespiti ve sınıflandırılma probleminde başarıyla uygulanabilir hızlı, tutarlı ve spars bir sınıflandırıcıdır. Ayrıca, bu algoritma gelişim farklılıklarının ayırt edilmesi, stres ajanlarına karşı hücresel yanıtın tespiti gibi çeşitli fenotiplerin ayrımında da kullanılabilir. İnteraktif web uygulamasına

Özet (Çeviri)

RNA-Seq is a recent and efficient technique that uses the capabilities of next-generation sequencing technology in characterizing and quantifying transcriptomes. This technique has revolutionized the gene-expression profiling with major advantages over microarrays: (i) providing less noisy data, (ii) detecting novel transcripts and isoforms, and (iii) unnecessity of prearranged transcripts of interest. One important task using gene-expression data is to identify a small subset of genes and classify the data for diagnostic purposes, particularly for cancer diseases. Microarray based classifiers are not directly applicable due to the discrete nature of RNA-Seq data. Overdispersion is another problem that requires careful modeling of mean and variance relationship of the RNA-Seq data. Voom is a recent method that estimates the mean and variance relationship of the log-counts and provides precision weights for each observation to be used for further analysis. In this study, we developed VoomNSC method, which brings together voom and a powerful microarray classifier nearest shrunken centroids approaches for the purpose of“gene-expression based classification”. VoomNSC is a sparse classifier that models the mean and variance relationship using voom method, incorporates the outputs of voom method (i.e. log-cpm values and precision weights) into NSC using weighted statistics. We also provided two non-sparse classifiers voomDLDA and voomDQDA, the extensions of diagonal linear and quadratic discriminant classifiers for RNA-Seq classification. A comprehensive simulation study is designed and four real datasets are used to assess the performance of developed approaches. Results revealed that voomNSC method performs as the sparsest classifier, also provides the most accurate results with power transformed Poisson linear discriminant analysis, and rlog transformed support vector machines and random forests algorithms. In conclusion, voomNSC is a fast, accurate and sparse classifier that can successfully be applied for diagnostic biomarker discovery and classification problems in medicine. This algorithm can also be used in other transcriptomics studies, such as separating developmental differences, cellular responses against stressors, or diverse phenotypes. An interactive web application is freely available at

Benzer Tezler

  1. Makine öğrenmesi yöntemleriyle kanser ile ilgili yeni biyobelirteçlerin tespit edilmesi

    Identification of novel systems biomarkers for cancer diagnosis using machine learning techniques

    FIRAT KURT

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMarmara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA AĞAOĞLU

    PROF. DR. KAZIM YALÇIN ARĞA

  2. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  3. Performance of laminated glass subjected to blast and impact loading

    Patlama ve darbe yüklemesine maruz kalan lamine camın yapısal performansı

    MOHELDEEN HEJAZI

    Doktora

    İngilizce

    İngilizce

    2024

    Makine Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ SARI

  4. Development of operation and maintenance strategies for offshore wind industry based on big data management

    Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi

    UWE LUETZEN

    Doktora

    İngilizce

    İngilizce

    2024

    Enerjiİstanbul Teknik Üniversitesi

    Gemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı

    PROF. DR. SERDAR BEJİ

  5. Evaluating performance of different remote sensing techniques and various interpolation approaches for soil salinity assessment

    Toprak tuzluluğu değerlendirmesi için farklı uzaktan algılama teknikleri ve çeşitli interpolasyon yaklaşımlarının performansının değerlendirilmesi

    TAHA GORJI

    Doktora

    İngilizce

    İngilizce

    2021

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. AYŞE GÜL TANIK