Geri Dön

Coevolution based prediction of protein-protein interactions with reduced training data

Protein-protein etkileşimlerinin küçültülmüş öğrenme verisi ile birlikte evrimleşmeye dayalı tahmini

  1. Tez No: 238709
  2. Yazar: BAHAR PAMUK
  3. Danışmanlar: YRD. DOÇ. TOLGA CAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2009
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
  12. Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  13. Sayfa Sayısı: 77

Özet

Bir hücre içerisinde aynı görevi gerçekleştiren proteinler çoğunlukla birbirleriyle etkileştikleri için protein-protein etkileşim ağları proteinlerin fonksiyonlarının bulunmasında önemli rol oynarlar. Protein çiftlerinin bir kısmı bilinen bir protein etkileşim ağında, henüz belirlenmemiş protein çiftleri makina ögrenme algoritmaları vasıtasıyla bilinen kısım kullanılarak bulunabilir. Ancak protein ağlarının çok sayıda protein çifti içerdigi bir durumda makina ögrenme algoritmasının ögrenme süresi oldukça uzun olacaktir. Bu tez çalışmasında etkileşimlerinin bir kısmının bilindiği bir etkileşim ağının bilinmeyen kısmını bulmayı deneyler yoluyla gerçekleştirmeyi amaçladik. Makina öğrenme algoritması olarak Destek Vektör Makinalari (DVM)'nı ve bir ağ içerisinde bilinen protein çiftlerini kullandik. Evrimsel açıdan iki proteinin birbirine yakın olması, bu iki proteinin etkileşimleri hakkında iyi bir değerlendirme vereceği için, öğrenici için gerekli olan öznitelik vektörü olarak proteinlerin filogenetik profillerini kullandık. Büyük boyuttaki veriler için Destek Vektör Makinalarının ögrenme süreleri uzun olacağindan veriyi doğruluk oranlarını koruyarak makul bir şekilde küçülttük.İki kategorili bir çati altında veriyi küçültmek amacıyla en sembolik veriyi seçmek için bazı kümeleme tekniklerini uyguladık. Verinin iki boyutlu bir matris olduğunu göz önünde bulundurarak, veri küçültme metotlarını iki boyutta da uyguladık (hem verinin boyutunda hem öznitelik vektörünün boyutunda). K-means tekniği ile kümelenen veri kümelerinin tahmin doğruluklarında veriyi SVM ögrenmesi için küçülten başka bir kümeleme algoritmasına kıyasla daha üstün sonuçlar verdiğini gözlemledik. Yine de iki algoritma tarafından da oluşturulan öğrenme verisinin TPR-FPR değerleri, hangi metodun daha üstün olduğu konusunda tatmin edici sonuçlar vermedi. Diğer yandan, ögrenme verilerinin özellik vektörleri üzerinde biyolojik ya da istatistiksel anlamda en sembolik özellikleri seçmek için özellik seçme metotlarini uyguladık. Evrimsel olarak en önemli olan organizmaları belirlemek için organizmaların filogenetik ağaçlarını kullandık. Ayrıca, istatistiksel olarak en sembolik özellikleri seçmek için Fisher's test metodunu uyguladık. Özellik seçme metotlarından elde edilen doğruluk ve TPR-FPR değerleri performans kıyaslaması yapmak konusunda kesin bir ayrım yapmayi saglayamadı. Yine de, filogenetik ağaç metodunun Fisher's test ile kiyaslandığında kabul edilebilir tahmin değerleri verdiği söylenebilir.

Özet (Çeviri)

Protein-protein interactions are important for the prediction of protein functions since two interacting proteins usually have similar functions in a cell. Available protein interaction networks are incomplete; but, they can be used to predict new interactions in a supervised learning framework. However, in the case that the known protein network includes large number of protein pairs, the training time of the machine learning algorithm becomes quitelong. In this thesis work, our aim is to predict protein-protein interactions with a known portion of the interaction network. We used Support Vector Machines (SVM) as the machine learning algoritm and used the already known protein pairs in the network. We chose to use phylogenetic profiles of proteins to form the feature vectors required for the learner since the similarity of two proteins in evolution gives a reasonable rating about whether the twoproteins interact or not. For large data sets, the training time of SVM becomes quite long, therefore we reduced the data size in a sensible way while we keep approximately the same prediction accuracy.We applied a number of clustering techniques to extract the most representative data and features in a two categorical framework. Knowing that the training data set is a two dimensional matrix, we applied data reduction methods in both dimensions, i.e., both in data size and in feature vector size. We observed that the data clustered by the k-means clustering technique gave superior results in prediction accuracies compared to another data clustering algorithm which was also developed for reducing data size for SVM training. Still the true positiveand false positive rates (TPR-FPR) of the training data sets constructed by the two clustering methods did not give satisfying results about which method outperforms the other. On the other hand, we applied feature selection methods on the feature vectors of training data byselecting the most representative features in biological and in statistical meaning. We used phylogenetic tree of organisms to identify the organisms which are evolutionarily significant. Additionally we applied Fisher?s test method to select the features which are most representativestatistically. The accuracy and TPR-FPR values obtained by feature selection methods could not provide to make a certain decision on the performance comparisons. However it can be mentioned that phylogenetic tree method resulted in acceptable prediction valueswhen compared to Fisher?s test.

Benzer Tezler

  1. Novel centrality, topology and hierarchical-aware link prediction in dynamic networks

    Dinamik ağlarda merkezilik, topoloji ve hiyerarşik tabanlı bağlanti tahmini

    ABUBAKHARI SSERWADDA

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. YUSUF YASLAN

    YRD. DOÇ. ALPER ÖZCAN

  2. Protein dynamics in deleterious and compensatory mutations

    Zararlı ve telafi edici mutasyonlarda protein dinamiği

    YİĞİT KUTLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    BiyofizikBoğaziçi Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. TÜRKAN HALİLOĞLU

  3. Derin öğrenme yaklaşımı ile protein reprezantasyonunu temel alan yeni bir varyant etki tahmin modeli

    A novel variant effect prediction model based on protein representation with deep learning architecture

    GÜLBAHAR MERVE ŞILBIR

    Doktora

    Türkçe

    Türkçe

    2024

    BiyoistatistikKaradeniz Teknik Üniversitesi

    Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı

    DOÇ. DR. BURÇİN KURT

  4. Graph representation learning for histopathological images

    Histopatolojik görüntüler için çizge temsil öğrenimi

    ESRA TEPE

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. GÖKHAN BİLGİN

  5. Adaptive-predictive control and simulation studies on a distillation column

    Distilasyon kolonunda tahminli-ayarlamalı kontrol ve simulasyon çalışmaları

    FARİBA KARBASİ

    Yüksek Lisans

    İngilizce

    İngilizce

    1993

    Kimya MühendisliğiOrta Doğu Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. BİLGİN KISAKÜREK