Geri Dön

Graph embeddings on protein interaction networks

Protein etkileşim ağlarında çizge gömülümleri

  1. Tez No: 539405
  2. Yazar: HALİL İBRAHİM KURU
  3. Danışmanlar: YRD. DOÇ. DR. ABDULLAH ERCÜMENT ÇİÇEK, YRD. DOÇ. DR. ÖZNUR TAŞTAN OKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 110

Özet

Protein-protein etkileşimi (PPE) ağları, proteinleri ve dolayısı ile onları kodlayan genler arasındaki olası etkileşimler kümesini temsil eder. Mutasyonlar veya değişken ifade örüntüleri gibi tek tek genlerden gelen sinyalleri entegre edilmesini olanaklı kılarak PPE ağları günüze dek çeşitli biyolojik keşiflere vesile olmuştur. Ayrıca, bu tür ağlardaki proteinlerin bağlantı örüntülerinin, proteinleri veya genleri içeren çeşitli tahmin görevleri için oldukça bilgilendirici olduğu kanıtlanmıştır. Ancak, bu görevler göreve özel öznitelik mühendisliği gerektirmektedir. Ağdaki düğümlerin derin bir gösterimini öğrenen çizge gömülüm teknikleri, bu konuda güçlü bir alternatif sağlamakta ve söz konusu ağ için duyulan kapsamlı öznitelik mühendisliği ihtiyacını ortadan kaldırmaktadır. Bu çalışmada, biz çizge gömülme tekniklerini iki bağımsız makine öğrenmesi görevinde kullanıyoruz. Mevcut çalışmanın ilk kısmı, gen esaslılığını tahmin etmeye odaklanıyor. Bu bölümde, iki farklı düğüm gömülme tekniği, node2vec ve DeepWalk kullanarak, girdi olarak yalnızca düğüm gömülme kullanıldığında, insan genlerinin gerekliliğini tahmin etmede % 88'e varan AUC alabileceğini gösteriyoruz. Tezin ikinci kısmı, protein ifade değerlerinin çiftli sıralamaları ve protein etkileşimlerine dayalı, açılımını PRER olarak kısalttığımız özgün bir hasta gösterimi önermektedir. Daha spesifik olarak, proteinlerin ifade değerlerini kullanıyor ve bir proteinin kendi komşuluk bölgesindeki diğer proteinlerle nispi ifadesini temsil eden hastaya özgü bir gen gömülmesi üretiyoruz. Komşuluk bölgesi PPE ağında yanlı rastgele yürüme stratejisi kullanılarak türetiliyor. öncelikle, belirli bir proteinin spesifik bir tümör için komşuluk bölgesindeki diğer proteinlere kıyasla daha az veya daha fazla ifade edilip edilmediğini kontrol ediyoruz. Buna dayanarak, sadece proteinler arasındaki düzensizlik örüntülerini yakalayan değil, aynı zamanda moleküler etkileşimleri de hesaba katan bir gösterim üretiyoruz. Bu gösterimin etkinliğini test etmek için, PRER'i hasta sağkalım tahmin problemi için kullanıyoruz. Hastaların bireysel protein ifade özellikleriyle gösterimine kıyasla, PRER gösterimi 10 kanser türünden 8'inde istatiski olarak anlamlı bir şekilde üstün tahmin performansı gösteriyor. Bireysel ifade değerlerinin aksine PRER'de önemli olarak ortaya çıkan proteinler, yüksek prognostik değeri olan değerli bir biyobelirteç seti sağlıyor. Ek olarak, düzensizlik desenleri için daha fazla araştırılması gereken diğer proteinleri de vurguluyor.

Özet (Çeviri)

Protein-protein interaction (PPI) networks represent the possible set of interactions among proteins and thereby the genes that code for them. By integrating isolated signals on single genes such as mutations or differential expression patterns, PPI networks have enabled various biological discoveries so far. Furthermore, even the connectivity patterns of proteins in such networks have been proven to be highly informative for various prediction tasks involving proteins or genes. These tasks; however, require task specific feature engineering. Graph embedding techniques that learn a deep representation of the nodes on the network, provides a powerful alternative and obviate the need for this extensive feature engineering on the network. In this study we use graph embedding techniques on PPI networks in two independent machine learning tasks. The first part of the present work focuses on predicting gene essentiality. Using two different node embedding techniques, node2vec and DeepWalk, we present a classifier which only uses node embeddings as input and show that it can achieve up to 88 % AUC score in predicting human gene essentiality. The second part of the thesis proposes a novel representation of patients based on pairwise rank order of patient protein expression values and protein interactions, which we abbreviate as PRER. Specifically, we use the protein expression values of proteins, and generate a patient specific gene embedding to represent relative expression of a protein with other proteins in the neighborhood of that protein. The neighborhood is derived using a biased random-walk strategy. We first check whether a given protein is less or more expressed compared to the other proteins in their neighborhood for a specific tumor. Based on this we generate a representation that not only captures the dysregulation patterns among the proteins but also accounts for the molecular interactions. To test the effectiveness of this representation, we use PRER for the problem of patient survival prediction. When compared against the representation of patients with their individual protein expression features, PRER representation demonstrates significantly superior predictive performance in 8 out of 10 cancer types. Proteins that emerge as important in the PRER as opposed to individual expression values provide a valuable set of biomarkers with high prognostic value. Additionally, they highlight other proteins that should be further investigated for the dysregulation patterns.

Benzer Tezler

  1. Boosting large-scale graph embedding with multi-level graph coarsening

    Büyük ölçekli çizge gömme işlemlerini iyileştirmek için çok katmanlı çizge indirgeme

    TAHA ATAHAN AKYILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KAMER KAYA

  2. Novel centrality, topology and hierarchical-aware link prediction in dynamic networks

    Dinamik ağlarda merkezilik, topoloji ve hiyerarşik tabanlı bağlanti tahmini

    ABUBAKHARI SSERWADDA

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

    YRD. DOÇ. ALPER ÖZCAN

  3. Biyolojik çizge madenciliği: Alt çizge örüntülerinin bulunması ve etkileşim tahmininde kullanılması

    Biological graph mining: Discovery of subgraph paterns and their utilization in interaction prediction

    MEHMET EMİN TURANALP

    Doktora

    Türkçe

    Türkçe

    2008

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. SAADETDİN HERDEM

  4. Drug-target interaction prediction by transfer learning for proteins with few bioactive compound data

    Az biyoaktif bileşik verisi olan proteinler için aktarım yolu ile öğrenerek ilaç-hedef ilişki tahmini

    ALPEREN DALKIRAN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET VOLKAN ATALAY

  5. Proteinlerin subselüler yerleşimlerinin görüntü, sekans ve interaktom verisi tabanlı tahmini

    Image, sequence and interactome based prediction of subcellular localization of proteins

    ECEM KUŞCUOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    BiyoistatistikHacettepe Üniversitesi

    Biyoenformatik Ana Bilim Dalı

    PROF. DR. TUNCA DOĞAN