Coevolution based prediction of protein-protein interactions with reduced training data

Protein-protein etkileşimlerinin küçültülmüş öğrenme verisi ile birlikte evrimleşmeye dayalı tahmini

PDF İndir

Tez No: 238709
Yazar: BAHAR PAMUK
Danışmanlar: YRD. DOÇ. TOLGA CAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2009
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Bölümü
Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Sayfa Sayısı: 77

Özet

Bir hücre içerisinde aynı görevi gerçekleştiren proteinler çoğunlukla birbirleriyle etkileştikleri için protein-protein etkileşim ağları proteinlerin fonksiyonlarının bulunmasında önemli rol oynarlar. Protein çiftlerinin bir kısmı bilinen bir protein etkileşim ağında, henüz belirlenmemiş protein çiftleri makina ögrenme algoritmaları vasıtasıyla bilinen kısım kullanılarak bulunabilir. Ancak protein ağlarının çok sayıda protein çifti içerdigi bir durumda makina ögrenme algoritmasının ögrenme süresi oldukça uzun olacaktir. Bu tez çalışmasında etkileşimlerinin bir kısmının bilindiği bir etkileşim ağının bilinmeyen kısmını bulmayı deneyler yoluyla gerçekleştirmeyi amaçladik. Makina öğrenme algoritması olarak Destek Vektör Makinalari (DVM)'nı ve bir ağ içerisinde bilinen protein çiftlerini kullandik. Evrimsel açıdan iki proteinin birbirine yakın olması, bu iki proteinin etkileşimleri hakkında iyi bir değerlendirme vereceği için, öğrenici için gerekli olan öznitelik vektörü olarak proteinlerin filogenetik profillerini kullandık. Büyük boyuttaki veriler için Destek Vektör Makinalarının ögrenme süreleri uzun olacağindan veriyi doğruluk oranlarını koruyarak makul bir şekilde küçülttük.İki kategorili bir çati altında veriyi küçültmek amacıyla en sembolik veriyi seçmek için bazı kümeleme tekniklerini uyguladık. Verinin iki boyutlu bir matris olduğunu göz önünde bulundurarak, veri küçültme metotlarını iki boyutta da uyguladık (hem verinin boyutunda hem öznitelik vektörünün boyutunda). K-means tekniği ile kümelenen veri kümelerinin tahmin doğruluklarında veriyi SVM ögrenmesi için küçülten başka bir kümeleme algoritmasına kıyasla daha üstün sonuçlar verdiğini gözlemledik. Yine de iki algoritma tarafından da oluşturulan öğrenme verisinin TPR-FPR değerleri, hangi metodun daha üstün olduğu konusunda tatmin edici sonuçlar vermedi. Diğer yandan, ögrenme verilerinin özellik vektörleri üzerinde biyolojik ya da istatistiksel anlamda en sembolik özellikleri seçmek için özellik seçme metotlarini uyguladık. Evrimsel olarak en önemli olan organizmaları belirlemek için organizmaların filogenetik ağaçlarını kullandık. Ayrıca, istatistiksel olarak en sembolik özellikleri seçmek için Fisher's test metodunu uyguladık. Özellik seçme metotlarından elde edilen doğruluk ve TPR-FPR değerleri performans kıyaslaması yapmak konusunda kesin bir ayrım yapmayi saglayamadı. Yine de, filogenetik ağaç metodunun Fisher's test ile kiyaslandığında kabul edilebilir tahmin değerleri verdiği söylenebilir.

Özet (Çeviri)

Protein-protein interactions are important for the prediction of protein functions since two interacting proteins usually have similar functions in a cell. Available protein interaction networks are incomplete; but, they can be used to predict new interactions in a supervised learning framework. However, in the case that the known protein network includes large number of protein pairs, the training time of the machine learning algorithm becomes quitelong. In this thesis work, our aim is to predict protein-protein interactions with a known portion of the interaction network. We used Support Vector Machines (SVM) as the machine learning algoritm and used the already known protein pairs in the network. We chose to use phylogenetic profiles of proteins to form the feature vectors required for the learner since the similarity of two proteins in evolution gives a reasonable rating about whether the twoproteins interact or not. For large data sets, the training time of SVM becomes quite long, therefore we reduced the data size in a sensible way while we keep approximately the same prediction accuracy.We applied a number of clustering techniques to extract the most representative data and features in a two categorical framework. Knowing that the training data set is a two dimensional matrix, we applied data reduction methods in both dimensions, i.e., both in data size and in feature vector size. We observed that the data clustered by the k-means clustering technique gave superior results in prediction accuracies compared to another data clustering algorithm which was also developed for reducing data size for SVM training. Still the true positiveand false positive rates (TPR-FPR) of the training data sets constructed by the two clustering methods did not give satisfying results about which method outperforms the other. On the other hand, we applied feature selection methods on the feature vectors of training data byselecting the most representative features in biological and in statistical meaning. We used phylogenetic tree of organisms to identify the organisms which are evolutionarily significant. Additionally we applied Fisher?s test method to select the features which are most representativestatistically. The accuracy and TPR-FPR values obtained by feature selection methods could not provide to make a certain decision on the performance comparisons. However it can be mentioned that phylogenetic tree method resulted in acceptable prediction valueswhen compared to Fisher?s test.

Benzer Tezler

Tez No
901275
Novel centrality, topology and hierarchical-aware link prediction in dynamic networks
Dinamik ağlarda merkezilik, topoloji ve hiyerarşik tabanlı bağlanti tahmini
ABUBAKHARI SSERWADDA
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. YUSUF YASLAN
YRD. DOÇ. ALPER ÖZCAN
Tez No
920772
Assessment of the protein assembly modeling strategies
Protein kompleks modelleme yaklaşımlarının değerlendirmesi
BURCU ÖZDEN YÜCEL
Doktora
İngilizce
2024
Biyoloji Dokuz Eylül Üniversitesi
Moleküler Biyoloji ve Genetik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EZGİ KARACA EREK
Tez No
609436
Protein dynamics in deleterious and compensatory mutations
Zararlı ve telafi edici mutasyonlarda protein dinamiği
YİĞİT KUTLU
Yüksek Lisans
İngilizce
2020
Biyofizik Boğaziçi Üniversitesi
Kimya Mühendisliği Ana Bilim Dalı
PROF. DR. TÜRKAN HALİLOĞLU
Tez No
865191
Derin öğrenme yaklaşımı ile protein reprezantasyonunu temel alan yeni bir varyant etki tahmin modeli
A novel variant effect prediction model based on protein representation with deep learning architecture
GÜLBAHAR MERVE ŞILBIR
Doktora
Türkçe
2024
Biyoistatistik Karadeniz Teknik Üniversitesi
Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
DOÇ. DR. BURÇİN KURT
Tez No
770656
Graph representation learning for histopathological images
Histopatolojik görüntüler için çizge temsil öğrenimi
ESRA TEPE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. GÖKHAN BİLGİN

Geri Dön