Methodologies for prediction of transcription factors in transcriptional regulatory mechanisms in biocatalysis of reactions in yeast central pathways
Mayaların merkezi tepkime yolizlerindeki reaksiyonların biyokatalizinde transkripsiyonel regülasyon mekanizmalarındaki transkripsiyon faktörlerinin tahminlenmesi için metodolojiler
- Tez No: 757028
- Danışmanlar: PROF. DR. PINAR ÇALIK
- Tez Türü: Yüksek Lisans
- Konular: Biyokimya, Biyoteknoloji, Kimya Mühendisliği, Biochemistry, Biotechnology, Chemical Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Kimya Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 165
Özet
Bu tezde amaç, maya hücrelerindeki transkripsiyon faktörü baglanma konumlarını tahmin etmek için metodolojiler önermektir. Bu amaca ulasmak için, ilk olarak P. pastoris merkezi karbon metabolizmasındaki reaksiyonları katalizleyen enzimlerin genlerinin promotorlar üzerindeki ba ̆glanma bölgeleri filogenetik ayakizi kullanarak modellenmistir. Ikinci olarak, S. cerevisiae transkripsiyon faktörlerinin 8-merlere baglanma afinitesi çesitli makine ögrenme algoritmaları, Rastgele Orman, XGBoost ve Derin Ögrenme, kullanarak modellenmistir. Tezde önce, DNA dizileriyle birlikte herhangi bir sayıda ortolog promotor çifti ve transkripsiyon faktörü ba ̆glanma motiflerini içeren veri tabanını girdi olarak gerektiren bir filogenetik ayakizi algoritması betimlenmi ̧stir. Model ilk önce referans promotoru ba ̆glanma bölgeleri için tarama yapar, ardından ikili dizi hizalamayı kullanarak hedef promotorda korunmu ̧s transkripsiyon faktörü ba ̆glanma bölgelerini belirler. Algoritma merkezi karbon metabolizması üzerindeki tepkimeleri katalizleyen enzimlerin genleri için 58 S. cerevisiae ve onlara kar ̧sılık belirlenen 52 ortolog P. pastoris promotorlarının kar ̧sıla ̧stırmasını yapmı ̧stır. Transkripsiyon faktörleri ba ̆glanma ko- numlarının filogenetik ayakizi tahminleri, P. pastoris merkezi yolizlerindeki transkripsiyon faktörlerini tahminlenmesine olanak vermistir. Tezin ikinci bölümünde, yedi makine ö ̆grenme algoritmik modeli (bes Yapay Sinir Agları, bir XGBoost ve bir Rastgele Orman), S. cerevisiae transkripsiyon faktörleri için yüksek afiniteli (ilk %1) 8-merleri tahminlemek için e ̆gitilmi ̧stir. 8-merler, belirlenen 5 özellik ile sayısal dizilere gömülü temsil edilmi ̧stir. Farklı transkripsiyon faktörleri farklı özellikleri tanıyabilece ̆ginden, en iyi Matthews Korelasyon Katsayısını (MCC) veren, her bir transkripsiyon faktörü için en iyi özellik havuzu, model kombinasyonunu seçecek açgözlü bir yakla ̧sım benimsenmi ̧stir. Böylece, tüm transkripsiyon faktörleri üzerinde yüksek afiniteli ba ̆glanma bölgeleri ortalama 0.873 MCC skoruyla tahminlenmiştir.
Özet (Çeviri)
In this MSc thesis, the aim is to propose methodologies for predicting transcription factor binding sites in yeast cells. This aim is achieved, first, by modeling P. pastoris central carbon metabolism genes using phylogenetic footprinting; and next, by modelling S. cerevisiae transcription factors' affinity towards 8-mers using the Machine Learning algorithmic models, i.e., Random Forest, XGBoost, and Deep Learning. In the first part of the thesis, a novel phylogenetic footprinting algorithm is introduced, which requires any number of orthologous promoter pairs with their DNA sequences, and a database that contains the transcription factor binding motifs as input. The model first scans the reference promoter for TF binding sites, and then using pairwise alignment, determines the conserved transcription factor binding sites in the target promoter. The algorithm was used to compare 58 S. cerevisiae promoters of the genes in the central carbon metabolism with the predicted 52 orthologous P. pastoris promoters. The presented phylogenetic footprinting predictions of transcription factor binding sites enabled annotation of 116 P. pastoris transcription factors in the central pathways. In the second part of the thesis, seven Machine Learning algorithmic models (five based on Neural Networks, one based on XGBoost, and one based on Random Forest) were trained to predict high affinity 8-mers for S. cerevisiae transcription factors. The 8-mers were represented embedded into numerical arrays with using the predetermined five features that can represent sequence specificities of the transcription factor binding sites. Since different transcription factors may recognize different features, A greedy approach was designed, which selectively picks the best pool of features and makes the model combination for each transcription factor that gives the best Matthews Correlation Coefficient (MCC) score on test data. The presented novel approach yielded an average MCC score of 0.873 in predicting high-affinity binding sites for all the transcription factors.
Benzer Tezler
- Metabolism-oriented multiomics data integration
Farklı omı̇k verı̇lerı̇n metabolı̇zma odaklı entegrasyonu
AYCAN ŞAHİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. ALİ ÇAKMAK
- Prediction of non-coding driver mutations using ensemble learning
Topluluk öğrenmesi kullanarak kodlayıcı olmayan sürücü mutasyonlarının tahmini
SANA BASHARAT
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiVeri Bilimi Ana Bilim Dalı
YRD. DOÇ. DR. BURÇAK OTLU SARITAŞ
- Finansal krizler ve erken uyarı sistemleri: Türkiye uygulaması (1988-2012)
Financial crises and early warning systems: An application to Turkey (1988-2012)
FULYA SEYREK
- Predicting the disease of alzheimer (AD) with SNP biomarkers and clinical data based decision support system using data mining classification approaches
Alzheimer (AD) hastalığının veri madenciliği sınıflandırma yaklaşımları kullanarak SNP biyolojik göstergeleri ve klinik verilerle karar destek sistemlerine dayalı tahmin edilmesi
ONUR ERDOĞAN
Yüksek Lisans
İngilizce
2012
BiyoistatistikOrta Doğu Teknik ÜniversitesiSağlık Bilişimi Ana Bilim Dalı
YRD. DOÇ. DR. YEŞİM AYDIN SON
- Sosyoekonomik etki değerlendirme çalışmalarında yeni bir yaklaşım
Başlık çevirisi yok
BABE CEBECİ
Yüksek Lisans
Türkçe
1998
Çevre Mühendisliğiİstanbul Teknik ÜniversitesiÇevre Mühendisliği Ana Bilim Dalı
PROF. DR. İ. ETHEM GÖNENÇ