Count based clustering and classification of RNA-seq data

RNA dizileme verilerinin kesikli yöntemler ile sınıflandırılması ve kümelendirilmesi

PDF İndir

Tez No: 535890
Yazar: DİNÇER GÖKSÜLÜK
Danışmanlar: PROF. DR. AHMET ERGUN KARAAĞAOĞLU
Tez Türü: Doktora
Konular: Biyoistatistik, Genetik, Biostatistics, Genetics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2019
Dil: İngilizce
Üniversite: Hacettepe Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 101

Özet

Gen ifade çalışmaları sıklıkla farklı dokularda ve hücre yapılarında genlerin aktivasyon düzeylerini ölçmek amacıyla kullanılmaktadır. Gen ifade verileri gen ekspresyonu, sınıflama ve kümeleme gibi farklı amaçlar için kullanılabilir. Bu tez kapsamında RNA dizilemeden elde edilen gen ifade verilerinin kümelenmesi ve sınıflanması üzerinde durulmuştur. Poisson (PDAA) ve negatif binom (NBDAA) doğrusal ayırma analizleri kesikli, en yakın küçültülmüş küme merkezleri (KKM) ise sürekli yöntemler olarak seçilmiştir. Ayrıca, NBDAA yönteminin bir uzantısı olarak seyrek NBDAA algoritması bu tez kapsamında geliştirilmiştir. Kümeleme analizinde ise k-en yakın kümeler ve hiyerarşik kümeleme algoritmaları sürekli, Poisson ve negatif binom kümeleme algoritmaları ise kesikli algoritmalar olarak seçilmiştir. Sınıflama analizi için farklı senaryolar altında kapsamlı bir benzetim çalışması yapılmıştır. Ayrıca, üç farklı gerçek veri seti kullanılmıştır. Benzetim çalışması aşırı yayılım parametresinin performanslar üzerinde önemli bir etkisi olduğunu göstermiştir. Genel olarak kesikli dağılımlar daha iyi sınıflama performansı göstermiştir. NBDAA yöntemi aşırı yaygın veri setlerinde PDAA yöntemine göre daha iyi performans göstermiştir. Geliştirdiğimiz seyrek NBDAA yöntemi ise NBDAA yöntemine göre sınıflama performansı ve modeldeki değişken sayısı bakımından daha iyi performans göstermiştir. Aynı sınıflama algoritmaları gerçek veri setlerine de uygulanmış ve benetim çalışmasını destekleyici sonuçlar elde edilmiştir. Kümeleme performansları iki gerçek veri setinde kesikli ve sürekli dağılımlar için benzer sonuçlar vermiştir. Kümeleme analizi için hesaplama sürelerinin çok yüksek olması ve on binlerce değişken içeren veri setlerinde uzaklık matrislerinin hesaplanamaması gibi sebeplerden dolayı benzetim çalışması yapılamamıştır. Bu nedenle kümeleme analizi sonuçları için bir genelleme yapılamamıştır. Sonuç olarak, kesikli dağılımlara dayalı yaklaşımlar RNA dizileme verilerinin sınıflamasında öncelikli olarak tercih edilmelidir. Kümeleme analizinde ise kesikli veya sürekli dağılımlar isteğe göre tercih edilebilir. Ancak, kümeleme analizinde verilerin görselleştirilmesi amaçlanıyor ise dönüşüm uygulanması daha iyi grafiksel sonuçlar elde edilmesini sağlayabilir.

Özet (Çeviri)

In molecular biology, gene-expression based studies are frequently used for examining transcriptional activities in different tissue samples or cell populations. Gene expression data can be used for different tasks; e.g differential expression, classification and clustering. In this thesis we focused on clustering and classification of gene expression data obtained from RNA sequencing experiment. Poisson (PLDA) and negative binomial (NBLDA) linear discriminant analyses are selected as discrete, and nearest shrunken centroids (NSC) are selected as continuous classifiers in classification part. We proposed an extension of NBLDA as sparse classifier and compared its performance with other classifiers. In clustering part, we used k-means and hierarchical clustering as continuous, and Poisson and negative binomial clustering as discrete approaches. A comprehensive simulation study is conducted for classification part under different scenarios. Furthermore, we used three different real data sets. Simulation results showed that overdispersion has an important effect on model performances. Overall, discrete models performed better in classification. Among discrete classifiers, NBLDA outperformed PLDA when data set is highly overdispersed. Moreover, our proposed algorithm performed better than NBLDA algorithm in terms of prediction accuracy and sparsity. We also applied the same classifiers to three real data sets and found that results agree with the simulation results. Clustering, on the other hand, is applied to real data sets only. Unlike classification, discrete and continuous clustering approaches performed similar on two real data sets. We did not perform a simulation study for clustering scenarios due to several reasons: (i) simulations were computationally intensive, and (ii) dissimilarity matrices cannot be calculated when data set had several thousands of features. Therefore, we were not able to generalize clustering results. In conclusion, discrete statistical approaches should be preferred for classification while discrete or continuous approaches can be preferred for clustering purpose. However, if visualizing data is of interest in clustering, data should be transformed for better graphical results.

Benzer Tezler

Tez No
883472
Node clustering and fusion for moving target localization in distributed seismic sensor networks
Dağıtık sismik sensör ağlarında hareketli hedef konumlandırma için sensör kümelemesi ve füzyonu
ERDEM KÖSE
Doktora
İngilizce
2024
Elektrik ve Elektronik Mühendisliği Gebze Teknik Üniversitesi
Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALİ KÖKSAL HOCAOĞLU
Tez No
888530
Development of operation and maintenance strategies for offshore wind industry based on big data management
Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi
UWE LUETZEN
Doktora
İngilizce
2024
Enerji İstanbul Teknik Üniversitesi
Gemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR BEJİ
Tez No
692525
TV ve set üstü cihaz arayüz kullanılabilirlik ölçümü
Usability evaluation of TV and set-top box interfaces
AYCAN PEKPAZAR
Doktora
Türkçe
2021
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM ALTIN GÜMÜŞSOY
Tez No
427835
Image processing algorithms for histopathological images
Histopatolojik imgeler için imge işleme algoritmaları
OĞUZHAN OĞUZ
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik Mühendisliği İhsan Doğramacı Bilkent Üniversitesi
Elektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET ENİS ÇETİN
Tez No
381422
Çevrimiçi öğrenme ortamındaki etkileşim verilerine göre öğrencilerin akademik performanslarının veri madenciliği yaklaşımı ile modellenmesi
A data mining approach to students' academic performance modeling in online learning environment based on their interaction data
GÖKHAN AKÇAPINAR
Doktora
Türkçe
2014
Eğitim ve Öğretim Hacettepe Üniversitesi
Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
PROF. DR. ARİF ALTUN

Geri Dön