Count based clustering and classification of RNA-seq data
RNA dizileme verilerinin kesikli yöntemler ile sınıflandırılması ve kümelendirilmesi
- Tez No: 535890
- Danışmanlar: PROF. DR. AHMET ERGUN KARAAĞAOĞLU
- Tez Türü: Doktora
- Konular: Biyoistatistik, Genetik, Biostatistics, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 101
Özet
Gen ifade çalışmaları sıklıkla farklı dokularda ve hücre yapılarında genlerin aktivasyon düzeylerini ölçmek amacıyla kullanılmaktadır. Gen ifade verileri gen ekspresyonu, sınıflama ve kümeleme gibi farklı amaçlar için kullanılabilir. Bu tez kapsamında RNA dizilemeden elde edilen gen ifade verilerinin kümelenmesi ve sınıflanması üzerinde durulmuştur. Poisson (PDAA) ve negatif binom (NBDAA) doğrusal ayırma analizleri kesikli, en yakın küçültülmüş küme merkezleri (KKM) ise sürekli yöntemler olarak seçilmiştir. Ayrıca, NBDAA yönteminin bir uzantısı olarak seyrek NBDAA algoritması bu tez kapsamında geliştirilmiştir. Kümeleme analizinde ise k-en yakın kümeler ve hiyerarşik kümeleme algoritmaları sürekli, Poisson ve negatif binom kümeleme algoritmaları ise kesikli algoritmalar olarak seçilmiştir. Sınıflama analizi için farklı senaryolar altında kapsamlı bir benzetim çalışması yapılmıştır. Ayrıca, üç farklı gerçek veri seti kullanılmıştır. Benzetim çalışması aşırı yayılım parametresinin performanslar üzerinde önemli bir etkisi olduğunu göstermiştir. Genel olarak kesikli dağılımlar daha iyi sınıflama performansı göstermiştir. NBDAA yöntemi aşırı yaygın veri setlerinde PDAA yöntemine göre daha iyi performans göstermiştir. Geliştirdiğimiz seyrek NBDAA yöntemi ise NBDAA yöntemine göre sınıflama performansı ve modeldeki değişken sayısı bakımından daha iyi performans göstermiştir. Aynı sınıflama algoritmaları gerçek veri setlerine de uygulanmış ve benetim çalışmasını destekleyici sonuçlar elde edilmiştir. Kümeleme performansları iki gerçek veri setinde kesikli ve sürekli dağılımlar için benzer sonuçlar vermiştir. Kümeleme analizi için hesaplama sürelerinin çok yüksek olması ve on binlerce değişken içeren veri setlerinde uzaklık matrislerinin hesaplanamaması gibi sebeplerden dolayı benzetim çalışması yapılamamıştır. Bu nedenle kümeleme analizi sonuçları için bir genelleme yapılamamıştır. Sonuç olarak, kesikli dağılımlara dayalı yaklaşımlar RNA dizileme verilerinin sınıflamasında öncelikli olarak tercih edilmelidir. Kümeleme analizinde ise kesikli veya sürekli dağılımlar isteğe göre tercih edilebilir. Ancak, kümeleme analizinde verilerin görselleştirilmesi amaçlanıyor ise dönüşüm uygulanması daha iyi grafiksel sonuçlar elde edilmesini sağlayabilir.
Özet (Çeviri)
In molecular biology, gene-expression based studies are frequently used for examining transcriptional activities in different tissue samples or cell populations. Gene expression data can be used for different tasks; e.g differential expression, classification and clustering. In this thesis we focused on clustering and classification of gene expression data obtained from RNA sequencing experiment. Poisson (PLDA) and negative binomial (NBLDA) linear discriminant analyses are selected as discrete, and nearest shrunken centroids (NSC) are selected as continuous classifiers in classification part. We proposed an extension of NBLDA as sparse classifier and compared its performance with other classifiers. In clustering part, we used k-means and hierarchical clustering as continuous, and Poisson and negative binomial clustering as discrete approaches. A comprehensive simulation study is conducted for classification part under different scenarios. Furthermore, we used three different real data sets. Simulation results showed that overdispersion has an important effect on model performances. Overall, discrete models performed better in classification. Among discrete classifiers, NBLDA outperformed PLDA when data set is highly overdispersed. Moreover, our proposed algorithm performed better than NBLDA algorithm in terms of prediction accuracy and sparsity. We also applied the same classifiers to three real data sets and found that results agree with the simulation results. Clustering, on the other hand, is applied to real data sets only. Unlike classification, discrete and continuous clustering approaches performed similar on two real data sets. We did not perform a simulation study for clustering scenarios due to several reasons: (i) simulations were computationally intensive, and (ii) dissimilarity matrices cannot be calculated when data set had several thousands of features. Therefore, we were not able to generalize clustering results. In conclusion, discrete statistical approaches should be preferred for classification while discrete or continuous approaches can be preferred for clustering purpose. However, if visualizing data is of interest in clustering, data should be transformed for better graphical results.
Benzer Tezler
- Node clustering and fusion for moving target localization in distributed seismic sensor networks
Dağıtık sismik sensör ağlarında hareketli hedef konumlandırma için sensör kümelemesi ve füzyonu
ERDEM KÖSE
Doktora
İngilizce
2024
Elektrik ve Elektronik MühendisliğiGebze Teknik ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALİ KÖKSAL HOCAOĞLU
- Development of operation and maintenance strategies for offshore wind industry based on big data management
Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi
UWE LUETZEN
Doktora
İngilizce
2024
Enerjiİstanbul Teknik ÜniversitesiGemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR BEJİ
- TV ve set üstü cihaz arayüz kullanılabilirlik ölçümü
Usability evaluation of TV and set-top box interfaces
AYCAN PEKPAZAR
Doktora
Türkçe
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ÇİĞDEM ALTIN GÜMÜŞSOY
- Image processing algorithms for histopathological images
Histopatolojik imgeler için imge işleme algoritmaları
OĞUZHAN OĞUZ
Yüksek Lisans
İngilizce
2016
Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET ENİS ÇETİN
- A system implementation for analyzing and tracking motile objects in biomedical images
Biyomedikal görüntülerde hareketli nesnelerin analizi ve takibi için bir sistem gerçeklemesi
HAMZA OSMAN İLHAN
Doktora
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN AYDIN