Geri Dön

Count based clustering and classification of RNA-seq data

RNA dizileme verilerinin kesikli yöntemler ile sınıflandırılması ve kümelendirilmesi

  1. Tez No: 535890
  2. Yazar: DİNÇER GÖKSÜLÜK
  3. Danışmanlar: PROF. DR. AHMET ERGUN KARAAĞAOĞLU
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Genetik, Biostatistics, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 101

Özet

Gen ifade çalışmaları sıklıkla farklı dokularda ve hücre yapılarında genlerin aktivasyon düzeylerini ölçmek amacıyla kullanılmaktadır. Gen ifade verileri gen ekspresyonu, sınıflama ve kümeleme gibi farklı amaçlar için kullanılabilir. Bu tez kapsamında RNA dizilemeden elde edilen gen ifade verilerinin kümelenmesi ve sınıflanması üzerinde durulmuştur. Poisson (PDAA) ve negatif binom (NBDAA) doğrusal ayırma analizleri kesikli, en yakın küçültülmüş küme merkezleri (KKM) ise sürekli yöntemler olarak seçilmiştir. Ayrıca, NBDAA yönteminin bir uzantısı olarak seyrek NBDAA algoritması bu tez kapsamında geliştirilmiştir. Kümeleme analizinde ise k-en yakın kümeler ve hiyerarşik kümeleme algoritmaları sürekli, Poisson ve negatif binom kümeleme algoritmaları ise kesikli algoritmalar olarak seçilmiştir. Sınıflama analizi için farklı senaryolar altında kapsamlı bir benzetim çalışması yapılmıştır. Ayrıca, üç farklı gerçek veri seti kullanılmıştır. Benzetim çalışması aşırı yayılım parametresinin performanslar üzerinde önemli bir etkisi olduğunu göstermiştir. Genel olarak kesikli dağılımlar daha iyi sınıflama performansı göstermiştir. NBDAA yöntemi aşırı yaygın veri setlerinde PDAA yöntemine göre daha iyi performans göstermiştir. Geliştirdiğimiz seyrek NBDAA yöntemi ise NBDAA yöntemine göre sınıflama performansı ve modeldeki değişken sayısı bakımından daha iyi performans göstermiştir. Aynı sınıflama algoritmaları gerçek veri setlerine de uygulanmış ve benetim çalışmasını destekleyici sonuçlar elde edilmiştir. Kümeleme performansları iki gerçek veri setinde kesikli ve sürekli dağılımlar için benzer sonuçlar vermiştir. Kümeleme analizi için hesaplama sürelerinin çok yüksek olması ve on binlerce değişken içeren veri setlerinde uzaklık matrislerinin hesaplanamaması gibi sebeplerden dolayı benzetim çalışması yapılamamıştır. Bu nedenle kümeleme analizi sonuçları için bir genelleme yapılamamıştır. Sonuç olarak, kesikli dağılımlara dayalı yaklaşımlar RNA dizileme verilerinin sınıflamasında öncelikli olarak tercih edilmelidir. Kümeleme analizinde ise kesikli veya sürekli dağılımlar isteğe göre tercih edilebilir. Ancak, kümeleme analizinde verilerin görselleştirilmesi amaçlanıyor ise dönüşüm uygulanması daha iyi grafiksel sonuçlar elde edilmesini sağlayabilir.

Özet (Çeviri)

In molecular biology, gene-expression based studies are frequently used for examining transcriptional activities in different tissue samples or cell populations. Gene expression data can be used for different tasks; e.g differential expression, classification and clustering. In this thesis we focused on clustering and classification of gene expression data obtained from RNA sequencing experiment. Poisson (PLDA) and negative binomial (NBLDA) linear discriminant analyses are selected as discrete, and nearest shrunken centroids (NSC) are selected as continuous classifiers in classification part. We proposed an extension of NBLDA as sparse classifier and compared its performance with other classifiers. In clustering part, we used k-means and hierarchical clustering as continuous, and Poisson and negative binomial clustering as discrete approaches. A comprehensive simulation study is conducted for classification part under different scenarios. Furthermore, we used three different real data sets. Simulation results showed that overdispersion has an important effect on model performances. Overall, discrete models performed better in classification. Among discrete classifiers, NBLDA outperformed PLDA when data set is highly overdispersed. Moreover, our proposed algorithm performed better than NBLDA algorithm in terms of prediction accuracy and sparsity. We also applied the same classifiers to three real data sets and found that results agree with the simulation results. Clustering, on the other hand, is applied to real data sets only. Unlike classification, discrete and continuous clustering approaches performed similar on two real data sets. We did not perform a simulation study for clustering scenarios due to several reasons: (i) simulations were computationally intensive, and (ii) dissimilarity matrices cannot be calculated when data set had several thousands of features. Therefore, we were not able to generalize clustering results. In conclusion, discrete statistical approaches should be preferred for classification while discrete or continuous approaches can be preferred for clustering purpose. However, if visualizing data is of interest in clustering, data should be transformed for better graphical results.

Benzer Tezler

  1. Node clustering and fusion for moving target localization in distributed seismic sensor networks

    Dağıtık sismik sensör ağlarında hareketli hedef konumlandırma için sensör kümelemesi ve füzyonu

    ERDEM KÖSE

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik MühendisliğiGebze Teknik Üniversitesi

    Elektronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ KÖKSAL HOCAOĞLU

  2. Development of operation and maintenance strategies for offshore wind industry based on big data management

    Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi

    UWE LUETZEN

    Doktora

    İngilizce

    İngilizce

    2024

    Enerjiİstanbul Teknik Üniversitesi

    Gemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı

    PROF. DR. SERDAR BEJİ

  3. TV ve set üstü cihaz arayüz kullanılabilirlik ölçümü

    Usability evaluation of TV and set-top box interfaces

    AYCAN PEKPAZAR

    Doktora

    Türkçe

    Türkçe

    2021

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ÇİĞDEM ALTIN GÜMÜŞSOY

  4. Image processing algorithms for histopathological images

    Histopatolojik imgeler için imge işleme algoritmaları

    OĞUZHAN OĞUZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2016

    Elektrik ve Elektronik Mühendisliğiİhsan Doğramacı Bilkent Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET ENİS ÇETİN

  5. A system implementation for analyzing and tracking motile objects in biomedical images

    Biyomedikal görüntülerde hareketli nesnelerin analizi ve takibi için bir sistem gerçeklemesi

    HAMZA OSMAN İLHAN

    Doktora

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NİZAMETTİN AYDIN