A Bayesian approach to the clustering problem with application to gene expression analysis
Öbekleme problemine Bayesci bir yaklaşım ve gen ifadesi analizinde uygulanması
- Tez No: 433928
- Danışmanlar: DOÇ. DR. ALİ TAYLAN CEMGİL
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 101
Özet
Bu tezde gen ifadesi zaman serisi verisinden bilgi çıkarılması için yöntemler araştırılmıştır. Bu zaman serileri altta yatan biyolojik mekanizmalara dair dolaylı ölçümler sağlar, bu yüzden analizlerde istatistiksel modelleme tekniklerine yoğunca başvurulur. Özellikle popüler bir analiz yaklaşımı, ifade profili benzerliklerine göre genleri öbeklemektir. Fakat bilimsel veri analizi açısından öbekleme güçlü bir metodoloji gerektirir ve Bayesci nonparametri bu konuda gelecek vaat eden bir çerçeve sağlar. Bu bağlamda, iki yeni model geliştirildi: Standart sonsuz karışım modelini genişleten Sonsuz Çokyönlü Karışım (IMM); ve karışım bileşenlerinde gen ifadesi zaman serilerine uyarlanmış özgül bir yapıyı varsayım alan Parçalı Doğrusal Dizilerin Sonsuz Karışımı (IMPLS). Bayesci paradigmada gen analizi için anahtar nesne, model ve gözlemler verildiğinde, bölüntüler üzerindeki sonsal dağılımdır. Fakat, bölüntüler üzerinde bir sonsal dağılım oldukça karmaşık bir nesnedir. Burada Markov zinciri Monte Carlo çıkarımı uygulayarak gen bölüntülerinin sonsal dağılımından bir örneklem elde ediyoruz, ve sezgisel bir yöntemle genleri öbekliyoruz. Bölüntüler üzerindeki dağılımların analizi için entropi toplaşması (EA) adını verdiğimiz alternatif, yeni bir yaklaşım da geliştirildi. EA'nın kullanımı, edebi bir metne (Ulysses, James Joyce) uygulanan öbekleme deneyiyle gösterildi. Biyoenformatik uygulamamız olan CLUSTERnGO'da (CnG) sonuçta çıkan öbeklerin amaca uygunluğunu değerlendirmek için standart çoklu hipotez testi uygulanır, bir gen ontolojisine ait terimlerle kodlanmış önceki biyolojik bilgilerle karşılaştırılır. CnG'nin süreç akışı dört fazdan oluşur (Yapılandırma, Çıkarım, Öbekleme, Değerlendirme).
Özet (Çeviri)
This thesis investigates methods for extraction of information from gene expression time series data. These time series provide indirect measurements about the underlying biological mechanisms, hence their analysis heavily depends on statistical modelling techniques. One particularly popular analysis approach is clustering genes by their similarity of expression profiles. However, for scientific data analysis, clustering requires a rigorous methodology and Bayesian nonparametrics provides a promising framework. In this context, two novel models were developed: Infinite Multiway Mixture (IMM) that extends the standard infinite mixture model; and Infinite Mixture of Piecewise Linear Sequences (IMPLS) that assumes a specific structure for its mixture components, tailored towards gene expression time series. In the Bayesian paradigm, the key object for gene analysis is the posterior distribution over partitionings, given the model and observed data. However, a posterior distribution over partitionings is a highly complicated object. Here, we apply Markov Chain Monte Carlo (MCMC) inference to obtain a sample from the posterior distribution of gene partitionings, and cluster genes by a heuristic algorithm. An alternative, novel approach for the analysis of distributions over partitions is also developed, that we named as entropy agglomeration (EA). We demonstrate the use of EA by a clustering experiment on a literary text, Ulysses by James Joyce. In our bioinformatics application CLUSTERnGO (CnG), the relevance of resulting clusters are evaluated by applying standard multiple hypothesis testing to compare them against previous biological knowledge encoded in terms of a Gene Ontology. The complete workflow of CnG consists of a four-phase pipeline (Configuration, Inference, Clustering, Evaluation).
Benzer Tezler
- Towards adaptive brain-computer interfaces: Statistical inference for mental state recognition
Uyarlanabilir beyin-bilgisayar arayüzlerine doğru: Zihinsel durum tanıma için istatistiksel çıkarım
MASTANEH TORKAMANI AZAR
Doktora
İngilizce
2020
BiyomühendislikSabancı ÜniversitesiElektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MÜJDAT ÇETİN
Prof. Dr. SELİM SAFFET BALCISOY
- Bayes ağları ile uluslararası rekabetçilik ölçümü
Measuring international competitiveness with Bayesian network
RABİA YILMAZ
Yüksek Lisans
Türkçe
2024
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. SEÇKİN POLAT
- Perceptual audio source separation by subspace learning
Altuzay öğrenme ile algısal ses kaynak ayrıştırma
SERAP KIRBIZ
Doktora
İngilizce
2013
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL
- Dendritic spine shape analysis based on two-photon microscopy images
İki foton mikroskobik görüntüleri kullanarak dendritik diken şekil analizi
MUHAMMAD USMAN GHANI
Yüksek Lisans
İngilizce
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. MÜJDAT ÇETİN
- Sequential Monte Carlo samplers for nonparametric bayesian mixture models
Parametrik olmayan bayesçi karışım modelleri için ardışık Monte Carlo örnekleyiciler
YENER ÜLKER
Doktora
İngilizce
2012
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. BİLGE GÜNSEL