Geri Dön

Methodologies for prediction of transcription factors in transcriptional regulatory mechanisms in biocatalysis of reactions in yeast central pathways

Mayaların merkezi tepkime yolizlerindeki reaksiyonların biyokatalizinde transkripsiyonel regülasyon mekanizmalarındaki transkripsiyon faktörlerinin tahminlenmesi için metodolojiler

  1. Tez No: 757028
  2. Yazar: OĞUZ ULAŞ YAMAN
  3. Danışmanlar: PROF. DR. PINAR ÇALIK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyokimya, Biyoteknoloji, Kimya Mühendisliği, Biochemistry, Biotechnology, Chemical Engineering
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Kimya Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 165

Özet

Bu tezde amaç, maya hücrelerindeki transkripsiyon faktörü baglanma konumlarını tahmin etmek için metodolojiler önermektir. Bu amaca ulasmak için, ilk olarak P. pastoris merkezi karbon metabolizmasındaki reaksiyonları katalizleyen enzimlerin genlerinin promotorlar üzerindeki ba ̆glanma bölgeleri filogenetik ayakizi kullanarak modellenmistir. Ikinci olarak, S. cerevisiae transkripsiyon faktörlerinin 8-merlere baglanma afinitesi çesitli makine ögrenme algoritmaları, Rastgele Orman, XGBoost ve Derin Ögrenme, kullanarak modellenmistir. Tezde önce, DNA dizileriyle birlikte herhangi bir sayıda ortolog promotor çifti ve transkripsiyon faktörü ba ̆glanma motiflerini içeren veri tabanını girdi olarak gerektiren bir filogenetik ayakizi algoritması betimlenmi ̧stir. Model ilk önce referans promotoru ba ̆glanma bölgeleri için tarama yapar, ardından ikili dizi hizalamayı kullanarak hedef promotorda korunmu ̧s transkripsiyon faktörü ba ̆glanma bölgelerini belirler. Algoritma merkezi karbon metabolizması üzerindeki tepkimeleri katalizleyen enzimlerin genleri için 58 S. cerevisiae ve onlara kar ̧sılık belirlenen 52 ortolog P. pastoris promotorlarının kar ̧sıla ̧stırmasını yapmı ̧stır. Transkripsiyon faktörleri ba ̆glanma ko- numlarının filogenetik ayakizi tahminleri, P. pastoris merkezi yolizlerindeki transkripsiyon faktörlerini tahminlenmesine olanak vermistir. Tezin ikinci bölümünde, yedi makine ö ̆grenme algoritmik modeli (bes Yapay Sinir Agları, bir XGBoost ve bir Rastgele Orman), S. cerevisiae transkripsiyon faktörleri için yüksek afiniteli (ilk %1) 8-merleri tahminlemek için e ̆gitilmi ̧stir. 8-merler, belirlenen 5 özellik ile sayısal dizilere gömülü temsil edilmi ̧stir. Farklı transkripsiyon faktörleri farklı özellikleri tanıyabilece ̆ginden, en iyi Matthews Korelasyon Katsayısını (MCC) veren, her bir transkripsiyon faktörü için en iyi özellik havuzu, model kombinasyonunu seçecek açgözlü bir yakla ̧sım benimsenmi ̧stir. Böylece, tüm transkripsiyon faktörleri üzerinde yüksek afiniteli ba ̆glanma bölgeleri ortalama 0.873 MCC skoruyla tahminlenmiştir.

Özet (Çeviri)

In this MSc thesis, the aim is to propose methodologies for predicting transcription factor binding sites in yeast cells. This aim is achieved, first, by modeling P. pastoris central carbon metabolism genes using phylogenetic footprinting; and next, by modelling S. cerevisiae transcription factors' affinity towards 8-mers using the Machine Learning algorithmic models, i.e., Random Forest, XGBoost, and Deep Learning. In the first part of the thesis, a novel phylogenetic footprinting algorithm is introduced, which requires any number of orthologous promoter pairs with their DNA sequences, and a database that contains the transcription factor binding motifs as input. The model first scans the reference promoter for TF binding sites, and then using pairwise alignment, determines the conserved transcription factor binding sites in the target promoter. The algorithm was used to compare 58 S. cerevisiae promoters of the genes in the central carbon metabolism with the predicted 52 orthologous P. pastoris promoters. The presented phylogenetic footprinting predictions of transcription factor binding sites enabled annotation of 116 P. pastoris transcription factors in the central pathways. In the second part of the thesis, seven Machine Learning algorithmic models (five based on Neural Networks, one based on XGBoost, and one based on Random Forest) were trained to predict high affinity 8-mers for S. cerevisiae transcription factors. The 8-mers were represented embedded into numerical arrays with using the predetermined five features that can represent sequence specificities of the transcription factor binding sites. Since different transcription factors may recognize different features, A greedy approach was designed, which selectively picks the best pool of features and makes the model combination for each transcription factor that gives the best Matthews Correlation Coefficient (MCC) score on test data. The presented novel approach yielded an average MCC score of 0.873 in predicting high-affinity binding sites for all the transcription factors.

Benzer Tezler

  1. Metabolism-oriented multiomics data integration

    Farklı omı̇k verı̇lerı̇n metabolı̇zma odaklı entegrasyonu

    AYCAN ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. ALİ ÇAKMAK

  2. Prediction of non-coding driver mutations using ensemble learning

    Topluluk öğrenmesi kullanarak kodlayıcı olmayan sürücü mutasyonlarının tahmini

    SANA BASHARAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Veri Bilimi Ana Bilim Dalı

    YRD. DOÇ. DR. BURÇAK OTLU SARITAŞ

  3. Finansal krizler ve erken uyarı sistemleri: Türkiye uygulaması (1988-2012)

    Financial crises and early warning systems: An application to Turkey (1988-2012)

    FULYA SEYREK

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    EkonomiAnadolu Üniversitesi

    İktisat Ana Bilim Dalı

    PROF. DR. İLYAS ŞIKLAR

  4. Predicting the disease of alzheimer (AD) with SNP biomarkers and clinical data based decision support system using data mining classification approaches

    Alzheimer (AD) hastalığının veri madenciliği sınıflandırma yaklaşımları kullanarak SNP biyolojik göstergeleri ve klinik verilerle karar destek sistemlerine dayalı tahmin edilmesi

    ONUR ERDOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2012

    BiyoistatistikOrta Doğu Teknik Üniversitesi

    Sağlık Bilişimi Ana Bilim Dalı

    YRD. DOÇ. DR. YEŞİM AYDIN SON

  5. Sosyoekonomik etki değerlendirme çalışmalarında yeni bir yaklaşım

    Başlık çevirisi yok

    BABE CEBECİ

    Yüksek Lisans

    Türkçe

    Türkçe

    1998

    Çevre Mühendisliğiİstanbul Teknik Üniversitesi

    Çevre Mühendisliği Ana Bilim Dalı

    PROF. DR. İ. ETHEM GÖNENÇ