Geri Dön

RNA-dizileme verilerinin kümelenmesinde yeni istatistiksel yaklaşımlar

Novel statistical approaches in clustering RNA-sequencing data

  1. Tez No: 614296
  2. Yazar: AHU DURMUŞÇELEBİ
  3. Danışmanlar: DOÇ. DR. GÖKMEN ZARARSIZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Gen ifade verisi, Kümeleme, RNA-dizileme, Voom, Yeni nesil dizileme, Gene expression data, Clustering, RNA-sequencing, Voom, Next generation sequencing
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 203

Özet

Gen ifade verilerinin veri boyutunun giderek artması ile birlikte mevcut istatistiksel yöntemler bu tür verileri analiz etmede yetersiz kalmaktadır. Gen ifade verilerinin analizinde mikrodizi teknolojisi yaygın olarak kullanılmıştır. Ancak, mikrodizi teknolojisinin gürültülü veri ile başa çıkamaması, analizin ön işleme sürecinde transkriptlerin belirlenmesi aşamasını atlayamaması ve yeni kodlama alanlarını belirleyememesi gibi dezavantajlarından dolayı, mikrodizi teknolojisi yerine yeni geliştirilen RNA-dizileme teknolojisi kullanılmaya başlanmıştır. Yeni nesil dizileme teknolojilerinden olan RNA-dizileme, gen ifade verilerinin analizlerini çok hızlı bir şekilde yapabilen, maliyeti düşük, performansı yüksek yeni bir transkriptom aracıdır. RNA-dizileme verilerinin yorumlanmasında, sınıf karşılaştırması ve sınıf tahmini konularında yapılan çalışmaların yanında, gen ifade verilerindeki yeni hasta alt sınıflarının belirlenmesi için örneklerin kümelenmesi problemlerini inceleyen sınıf keşfi çalışmaları da yapılmaktadır. Sınıf keşfi alanında birçok mikrodizi çalışması bulunmasına rağmen, bu çalışmalarda kullanılan yöntemler RNA-dizileme verilerine uygulanamamaktadır. Çünkü, RNA-dizileme verileri sürekli veri içeren mikrodizi verilerinden farklı olarak, kesikli sayma değerlerinden oluşur ve bu değerler aşırı-yaygınlık göstermektedir. Bu nedenle, RNA-dizileme verilerine analiz uygulamadan önce ortalama-varyans ilişkisinin anlaşılması gerekmektedir. RNA-dizileme verilerinin kümelenmesi konusunda yapılan ilk çalışmalarda, RNA-dizileme verileri dönüştürülerek mikrodizi verilerine benzer hale getirilmiş ve bu dönüştürülen verilere mikrodizi analizlerinde kullanılan yöntemler uygulanmıştır. Daha sonraki RNA-dizileme çalışmalarında, kesikli sayma değerleri için özel olarak oluşturulan Poisson ve negatif Binom gibi dağılımlar kullanılmıştır. Ancak, bu kesikli dağılımlar normal dağılıma göre daha az çözümlenebilir oldukları için RNA-dizileme verilerinin analizini sınırlandırmaktadır. Bu çalışmada, log dönüşümü uygulanan RNA-dizileme verilerinin ortalama-varyans ilişkisi tahmin edildikten sonra ağırlık değerleri üreten ve normal dağılımı kullanan voom yöntemi ile mevcut kümeleme algoritmaları birleştirilerek yeni kümeleme algoritmalarının geliştirilmesi amaçlanmaktadır. Voom dönüşümünün mevcut kümeleme algoritmalarında kullanılmasıyla iki yeni algoritma oluşturulmuştur. Bunlardan ilki, voom dönüşümü sonrası her gözlem için elde edilen log-cpm dönüşümlü değerler ve kesinlik ağırlık değerlerini kullanan voomPW algoritmasıdır. İkincisi ise, voom dönüşümü sonrası her bir gözlem için elde edilen log-cpm dönüşümlü değerler ve her örneğe ait kalite ağırlık değerlerini kullanan voomQW yöntemidir. Bu iki algoritma, hem ham RNA-dizileme verilerine hem de çeşitli normalleştirme ve dönüşüm uygulanan RNA-dizileme verilerine de uygulanmıştır. Daha sonra elde edilen ağırlıklı uzaklık matrislerine aşamalı kümeleme, k-ortalamalar kümelemesi ve k-medoid kümeleme yöntemleri uygulanmıştır. Ayrıca, bu verilere, yöntem karşılaştırması amacıyla rlog dönüşümlü kümeleme, vst dönüşümlü kümeleme, Poisson kümeleme, model-tabanlı kümeleme ve edgeR negatif Binom kümeleme yöntemleri de uygulanmıştır. Kümeleme performansları Rand ve düzeltilmiş Rand istatistiği ile karşılaştırılmıştır. Analizler 10 adet benzetim ve 6 adet gerçek RNA-dizileme veri setine uygulanmıştır. Tüm uygulamalar R (https://www.r-project.org) ve Python (https://www.python.org/) programlama dillerinin çeşitli paketlerinde gerçekleştirilmiştir. Yeni geliştirilen bu iki kümeleme algoritması bazı durumlarda diğer yöntemlerden daha iyi, bazı durumlarda ise benzer performans göstermiştir. Sonuç olarak, literatüre, bu iki yeni kümeleme yaklaşımının gen ifade verilerine dayalı olarak hastalık alt sınıflarını belirleyebileceği yeni algoritmalar kazandırılmıştır.

Özet (Çeviri)

As the size of the gene expression data increases more and more, the current statistical methods are inadequate to analyse such data. Microarray technology has been widely used in the analysis of gene expression data. However, due to the disadvantages of the microarray technology that cannot cope with the noisy data, cannot bypass the step of determining the transcripts in the pre-processing analysis and cannot determine the new coding areas, the newly developed RNA-sequencing technology has been used instead of the microarray technology. RNA-sequencing, a new generation of sequencing technologies, is a new, low-cost and high performance transcriptome tool that can analyse the gene expression data very quickly. In addition to the studies on class comparison and class prediction in the interpretation of RNA-sequencing data, there are also class discovery studies examining the clustering problems of the samples to determine new sub-classes of the gene expression data. Although there are many microarray studies in the field of class discovery, the methods used in these studies cannot be applied to RNA-sequencing data. Because RNA-sequencing data are composed of discrete counting values, which differ from the microarray data containing continuous data, and these values are over-dispersion. Therefore, it is necessary to understand the mean-variance relationship before applying the analysis to the RNA-sequencing data. In the previous clustering studies based on RNA-sequencing, RNA-sequencing data were transformed in microarray data form, then the methods used the microarray analysis are applied. In subsequent RNA-sequencing studies, distributions such as Poisson and negative Binomial, which were specifically created for discrete counting values, were used. However, these discrete distributions limit the analysis of RNA-sequencing data because they are less soluble than the normal distribution. In this study, it is aimed to develop new clustering algorithms by estimating the mean-variance relationship after the log transformation of the RNA-sequencing data and combining existing clustering algorithms with the voom method which produces weight values and uses the normal distribution. The new two algorithms have been created using voom transformation in current clustering algorithms. The first one is the voomPW algorithm that uses log-cpm conversion values and precision weight values obtained for each observation after the voom transformation. The second is the voomQW method, which uses the log-cpm conversion values obtained for each observation after the voom transformation and the quality weight values for each sample. These two algorithms were applied to the raw RNA-sequencing data as well as to various RNA-sequencing data that were applied to various normalization and transformation. Then, hierarchical clustering, k-means clustering and k-medoid clustering methods were applied to the weighted distance matrices obtained. In addition, rlog transformed clustering, vst transformed clustering, Poisson clustering, model-based clustering, and edgeR negative Binomial clustering methods were also applied to these data. The clustering performances were compared with Rand and adjusted Rand statistics. The proposed algorithms were applied to ten simulations and six real RNA-sequencing data sets. All applications were performed using various packages of programming languages R (https://www.r-project.org) and Python (https://www.python.org/). While newly developed two clustering algorithms have shown better performance in some cases than other methods, in some cases have shown similar performance. As a result, new algorithms have been introduced to the literature in which these two new clustering approaches can determine disease subclasses based on gene expression data.

Benzer Tezler

  1. Count based clustering and classification of RNA-seq data

    RNA dizileme verilerinin kesikli yöntemler ile sınıflandırılması ve kümelendirilmesi

    DİNÇER GÖKSÜLÜK

    Doktora

    İngilizce

    İngilizce

    2019

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. AHMET ERGUN KARAAĞAOĞLU

  2. Novel statistical approaches in survival analysis of RNA-sequencing data

    RNA-dizileme verilerinin sağkalım analizlerinde yeni istatistikselyaklaşımlar

    AHU CEPHE

    Doktora

    İngilizce

    İngilizce

    2024

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ERDEM KARABULUT

    DOÇ. DR. GÖKMEN ZARARSIZ

  3. Development and application of novel machine learning approaches for RNA-seq data classification

    RNA dizileme verilerinin siniflandirilmasinda yeni makine öğrenimi yaklaşimlarinin geliştirilmesi ve uygulanmasi

    GÖKMEN ZARARSIZ

    Doktora

    İngilizce

    İngilizce

    2015

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. ERDEM KARABULUT

    DOÇ. DR. AHMET ÖZTÜRK

  4. A network alignment approach for integrating multiple single-cell RNA-sequencing datasets

    Tek hücre RNA dizileme veri setlerinin entegrasyonu için ağ hizalama tabanlı bir yöntem geliştirilmesi

    YACINE MAROUF

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAntalya Bilim Üniversitesi

    Elektrik ve Bilgisayar Ana Bilim Dalı

    DOÇ. DR. HİLAL KAZAN

    PROF. DR. CESİM ERTEN

  5. Genome-scale metabolic characterization of Alzheimer's disease brain with multi-omics data analysis

    Multi-omik veri analizi ile Alzheimer hastalığı olan beyinin genom ölçekli metabolik karakterizasyonu

    HATİCE BÜŞRA LÜLECİ

    Doktora

    İngilizce

    İngilizce

    2024

    BiyoistatistikGebze Teknik Üniversitesi

    Biyoinformatik Sistemler Biyolojisi Ana Bilim Dalı

    PROF. DR. TUNAHAN ÇAKIR