RNA-dizileme verilerinin kümelenmesinde yeni istatistiksel yaklaşımlar

Novel statistical approaches in clustering RNA-sequencing data

PDF İndir

Tez No: 614296
Yazar: AHU DURMUŞÇELEBİ
Danışmanlar: DOÇ. DR. GÖKMEN ZARARSIZ
Tez Türü: Yüksek Lisans
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Gen ifade verisi, Kümeleme, RNA-dizileme, Voom, Yeni nesil dizileme, Gene expression data, Clustering, RNA-sequencing, Voom, Next generation sequencing
Yıl: 2019
Dil: Türkçe
Üniversite: Erciyes Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 203

Özet

Gen ifade verilerinin veri boyutunun giderek artması ile birlikte mevcut istatistiksel yöntemler bu tür verileri analiz etmede yetersiz kalmaktadır. Gen ifade verilerinin analizinde mikrodizi teknolojisi yaygın olarak kullanılmıştır. Ancak, mikrodizi teknolojisinin gürültülü veri ile başa çıkamaması, analizin ön işleme sürecinde transkriptlerin belirlenmesi aşamasını atlayamaması ve yeni kodlama alanlarını belirleyememesi gibi dezavantajlarından dolayı, mikrodizi teknolojisi yerine yeni geliştirilen RNA-dizileme teknolojisi kullanılmaya başlanmıştır. Yeni nesil dizileme teknolojilerinden olan RNA-dizileme, gen ifade verilerinin analizlerini çok hızlı bir şekilde yapabilen, maliyeti düşük, performansı yüksek yeni bir transkriptom aracıdır. RNA-dizileme verilerinin yorumlanmasında, sınıf karşılaştırması ve sınıf tahmini konularında yapılan çalışmaların yanında, gen ifade verilerindeki yeni hasta alt sınıflarının belirlenmesi için örneklerin kümelenmesi problemlerini inceleyen sınıf keşfi çalışmaları da yapılmaktadır. Sınıf keşfi alanında birçok mikrodizi çalışması bulunmasına rağmen, bu çalışmalarda kullanılan yöntemler RNA-dizileme verilerine uygulanamamaktadır. Çünkü, RNA-dizileme verileri sürekli veri içeren mikrodizi verilerinden farklı olarak, kesikli sayma değerlerinden oluşur ve bu değerler aşırı-yaygınlık göstermektedir. Bu nedenle, RNA-dizileme verilerine analiz uygulamadan önce ortalama-varyans ilişkisinin anlaşılması gerekmektedir. RNA-dizileme verilerinin kümelenmesi konusunda yapılan ilk çalışmalarda, RNA-dizileme verileri dönüştürülerek mikrodizi verilerine benzer hale getirilmiş ve bu dönüştürülen verilere mikrodizi analizlerinde kullanılan yöntemler uygulanmıştır. Daha sonraki RNA-dizileme çalışmalarında, kesikli sayma değerleri için özel olarak oluşturulan Poisson ve negatif Binom gibi dağılımlar kullanılmıştır. Ancak, bu kesikli dağılımlar normal dağılıma göre daha az çözümlenebilir oldukları için RNA-dizileme verilerinin analizini sınırlandırmaktadır. Bu çalışmada, log dönüşümü uygulanan RNA-dizileme verilerinin ortalama-varyans ilişkisi tahmin edildikten sonra ağırlık değerleri üreten ve normal dağılımı kullanan voom yöntemi ile mevcut kümeleme algoritmaları birleştirilerek yeni kümeleme algoritmalarının geliştirilmesi amaçlanmaktadır. Voom dönüşümünün mevcut kümeleme algoritmalarında kullanılmasıyla iki yeni algoritma oluşturulmuştur. Bunlardan ilki, voom dönüşümü sonrası her gözlem için elde edilen log-cpm dönüşümlü değerler ve kesinlik ağırlık değerlerini kullanan voomPW algoritmasıdır. İkincisi ise, voom dönüşümü sonrası her bir gözlem için elde edilen log-cpm dönüşümlü değerler ve her örneğe ait kalite ağırlık değerlerini kullanan voomQW yöntemidir. Bu iki algoritma, hem ham RNA-dizileme verilerine hem de çeşitli normalleştirme ve dönüşüm uygulanan RNA-dizileme verilerine de uygulanmıştır. Daha sonra elde edilen ağırlıklı uzaklık matrislerine aşamalı kümeleme, k-ortalamalar kümelemesi ve k-medoid kümeleme yöntemleri uygulanmıştır. Ayrıca, bu verilere, yöntem karşılaştırması amacıyla rlog dönüşümlü kümeleme, vst dönüşümlü kümeleme, Poisson kümeleme, model-tabanlı kümeleme ve edgeR negatif Binom kümeleme yöntemleri de uygulanmıştır. Kümeleme performansları Rand ve düzeltilmiş Rand istatistiği ile karşılaştırılmıştır. Analizler 10 adet benzetim ve 6 adet gerçek RNA-dizileme veri setine uygulanmıştır. Tüm uygulamalar R (https://www.r-project.org) ve Python (https://www.python.org/) programlama dillerinin çeşitli paketlerinde gerçekleştirilmiştir. Yeni geliştirilen bu iki kümeleme algoritması bazı durumlarda diğer yöntemlerden daha iyi, bazı durumlarda ise benzer performans göstermiştir. Sonuç olarak, literatüre, bu iki yeni kümeleme yaklaşımının gen ifade verilerine dayalı olarak hastalık alt sınıflarını belirleyebileceği yeni algoritmalar kazandırılmıştır.

Özet (Çeviri)

As the size of the gene expression data increases more and more, the current statistical methods are inadequate to analyse such data. Microarray technology has been widely used in the analysis of gene expression data. However, due to the disadvantages of the microarray technology that cannot cope with the noisy data, cannot bypass the step of determining the transcripts in the pre-processing analysis and cannot determine the new coding areas, the newly developed RNA-sequencing technology has been used instead of the microarray technology. RNA-sequencing, a new generation of sequencing technologies, is a new, low-cost and high performance transcriptome tool that can analyse the gene expression data very quickly. In addition to the studies on class comparison and class prediction in the interpretation of RNA-sequencing data, there are also class discovery studies examining the clustering problems of the samples to determine new sub-classes of the gene expression data. Although there are many microarray studies in the field of class discovery, the methods used in these studies cannot be applied to RNA-sequencing data. Because RNA-sequencing data are composed of discrete counting values, which differ from the microarray data containing continuous data, and these values are over-dispersion. Therefore, it is necessary to understand the mean-variance relationship before applying the analysis to the RNA-sequencing data. In the previous clustering studies based on RNA-sequencing, RNA-sequencing data were transformed in microarray data form, then the methods used the microarray analysis are applied. In subsequent RNA-sequencing studies, distributions such as Poisson and negative Binomial, which were specifically created for discrete counting values, were used. However, these discrete distributions limit the analysis of RNA-sequencing data because they are less soluble than the normal distribution. In this study, it is aimed to develop new clustering algorithms by estimating the mean-variance relationship after the log transformation of the RNA-sequencing data and combining existing clustering algorithms with the voom method which produces weight values and uses the normal distribution. The new two algorithms have been created using voom transformation in current clustering algorithms. The first one is the voomPW algorithm that uses log-cpm conversion values and precision weight values obtained for each observation after the voom transformation. The second is the voomQW method, which uses the log-cpm conversion values obtained for each observation after the voom transformation and the quality weight values for each sample. These two algorithms were applied to the raw RNA-sequencing data as well as to various RNA-sequencing data that were applied to various normalization and transformation. Then, hierarchical clustering, k-means clustering and k-medoid clustering methods were applied to the weighted distance matrices obtained. In addition, rlog transformed clustering, vst transformed clustering, Poisson clustering, model-based clustering, and edgeR negative Binomial clustering methods were also applied to these data. The clustering performances were compared with Rand and adjusted Rand statistics. The proposed algorithms were applied to ten simulations and six real RNA-sequencing data sets. All applications were performed using various packages of programming languages R (https://www.r-project.org) and Python (https://www.python.org/). While newly developed two clustering algorithms have shown better performance in some cases than other methods, in some cases have shown similar performance. As a result, new algorithms have been introduced to the literature in which these two new clustering approaches can determine disease subclasses based on gene expression data.

Benzer Tezler

Tez No
535890
Count based clustering and classification of RNA-seq data
RNA dizileme verilerinin kesikli yöntemler ile sınıflandırılması ve kümelendirilmesi
DİNÇER GÖKSÜLÜK
Doktora
İngilizce
2019
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. AHMET ERGUN KARAAĞAOĞLU
Tez No
862521
Novel statistical approaches in survival analysis of RNA-sequencing data
RNA-dizileme verilerinin sağkalım analizlerinde yeni istatistiksel yaklaşımlar
AHU CEPHE
Doktora
İngilizce
2024
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT
DOÇ. DR. GÖKMEN ZARARSIZ
Tez No
396425
Development and application of novel machine learning approaches for RNA-seq data classification
RNA dizileme verilerinin siniflandirilmasinda yeni makine öğrenimi yaklaşimlarinin geliştirilmesi ve uygulanmasi
GÖKMEN ZARARSIZ
Doktora
İngilizce
2015
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
DOÇ. DR. ERDEM KARABULUT
DOÇ. DR. AHMET ÖZTÜRK
Tez No
742511
A network alignment approach for integrating multiple single-cell RNA-sequencing datasets
Tek hücre RNA dizileme veri setlerinin entegrasyonu için ağ hizalama tabanlı bir yöntem geliştirilmesi
YACINE MAROUF
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Antalya Bilim Üniversitesi
Elektrik ve Bilgisayar Ana Bilim Dalı
DOÇ. DR. HİLAL KAZAN
PROF. DR. CESİM ERTEN
Tez No
956673
Comparative next generation sequencing data analysis
Karşılaştırmalı yeni nesil dizileme verisi analizi
MEHMET ARİF ERGÜN
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET BAYSAN

Geri Dön