Geri Dön

Prediction of protein-protein interaction sites using an ensemble learning method

Topluluk öğrenme yöntemi kullanılarak protein-protein etkileşim bölgelerinin tahmini

  1. Tez No: 754222
  2. Yazar: ENGİN AYBEY
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ÖZGÜR GÜMÜŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoistatistik, Biyokimya, Computer Engineering and Computer Science and Control, Biostatistics, Biochemistry
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: İngilizce
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Sağlık Biyoinformatiği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 160

Özet

Proteinler canlı organizmalarda hayati faaliyetleri gerçekleştiren, amino asitlerden oluşan pek çok polipeptitten meydana gelen moleküllerdir. Proteinler işlevlerini genellikle diğer protein ve moleküllerle etkileşerek gerçekleştirirler. Dahası bir proteindeki hangi amino asidin diğer proteinlerle etkileşime girdiğinin belirlenmesi, o proteinin işlevsel mekanizmasının anlaşılması açısından önem arz etmektedir. Protein-protein etkileşim bölgelerinin (PPEB) tespit etmek için deneysel yöntemler olmasına karşın, bunlar maliyetli, zaman alıcı ve uzmanlık gerektirmektedir. Bu nedenle, bu tür araştırmalara ivme kazandırmak için birçok hesaplamalı yöntem önerilmiş, ancak bunlar genellikle PPEB'leri doğru bir şekilde tahmin etmek için yetersiz kalmıştır. Bundan dolayı bu alanda halen çalışma yapılması gerekliliği mevcuttur. Bu çalışmada, yeni bir PPEB tahmin yöntemi önerilmektedir. Bu yöntem, RNN, CNN, GRU diziden diziye (GRUs2s), dikkat katmanına sahip GRU diziden diziye katmanı (GRUs2satt) ve çok katmanlı algılayıcı sınıflandırıcı modellerinin birleşiminden oluşan bir topluluk derin öğrenme modelini ihtiva eden bir dizi tabanlı yığma topluluk derin öğrenme yöntemidir. Yöntemin tahmin performansını iyileştirmek için mevcut 12 özelliğe ek olarak ikincil yapı ve protein dizi bilgisi eklenmiştir. İki ekstra özellik olmadan eğitim veri kümesi üzerinde eğitilen SENSDeep, bazı bağımsız test veri kümelerinde, literatürdeki diğer yöntemlerden, özellikle duyarlılık, F1, MCC ve AUPRC'nin puanlama metriklerinde, sırasıyla %63.5, %19.3, %18.5, %11.4'e varan artışlarla daha iyi bir performans elde etmiştir. Eklenen ekstra özelliklerin, bu eklenen özellikler olmayan eğitim veri kümesiyle eğitilen modelle neredeyse aynı performansa daha az veri ile sahip olarak yöntemin performansını iyileştirdiği gösterilmiştir. Öte yandan, veri kümeleri üzerinde farklı boyutlarda kayan pencere denenmiş ve SENSDeep için uygun bir kayan pencere boyutunun olduğu tespit edilmiştir. Her iki veri setiyle eğitilerek elde edilen SENSDeep kullanılarak, bu eğitim veri setlerinde olmayan bazı proteinlerin PPEB'lerini tahminleme örnekleri de sunulmuştur. Ayrıca, SENSDeep ve alt modelleri için yürütme süreleri gösterilmiştir. Ek olarak, SENSDeep'de kullanılan aynı veri setleri üzerinde eğitilip aynı bağımsız test setleri üzerinde test edilerek elde edilen bazı gradyan artırma algoritmalarının sonuçları SENSDeep'in ve diğer önceden yayınlanmış yöntemlerin sonuçları ile karşılaştırılmıştır. Burada kullanılan gradyan artırma algoritmaları XGBoost, LightGBM ve CatBoost algoritmalarıdır. Bu algoritmalar, bağımsız test veri setlerinde SENSDeep ile benzer bir performans grafiği çizmiştir. Ancak, bu algoritmalar için en iyi performans veren kayan pencere boyutu, SENSDeep'in sahip olduğundan farklıdır. Yine, bu algoritmalar için veri kaybı pahasına eğitim veri kümesine yeni özellikler eklemek, eklenmemiş sürümle aynı veya biraz daha iyi sonuçlar verdiği görülmüştür. Bu gradyan artırma sınıflandırıcıları için yürütme süreleri de sunulmuştur. Kaynak kodları https://github.com/enginaybey/SENSDeep adresinde bulunmaktadır.

Özet (Çeviri)

Proteins are molecules that carry out vital activities in living organisms and are formed of many polypeptides consisting of amino acids. Proteins usually perform their functions by interacting with other proteins and molecules. The determination of which amino acid in a protein interacts with other proteins is important in understanding the functional mechanism of that protein. Although there are experimental methods to detect protein-protein interaction sites (PPISs), these are costly, time consuming and require expertise. Therefore, many computational methods have been proposed to accelarate this type of researches, but they are generally insufficient to predict PPISs accurately. There is a need for development in this field. In this study, a new PPISs prediction method is proposed. This method is a sequence-based Stacking ENSemble Deep (SENSDeep) learning method that have an ensemble learning model including the models of RNN, CNN, GRU sequence to sequence (GRUs2s), GRU sequence to sequence with an attention layer (GRUs2satt) and a multilayer perceptron. Two embedded features, secondary structure and protein sequence information, are added to the training dataset in addition to twelve existing features to improve the prediction performance of the method. SENSDeep trained on the training dataset without two extra features obtains a better performance on some of independent testing datasets than that of the other methods in the literature, especially on scoring metrics of sensitivity, F1, MCC and AUPRC, having increments up to 63.5%, 19.3%, 18.5%, 11.4% respectively. It is shown that the added extra features improve the performance of the method by having almost the same performance with less data as the method trained on the dataset without these added features. On the other hand, different sizes of sliding window are tried on the datasets and an optimal sliding window size for SENSDeep is found. Using SENSDeep obtained by training with both training datasets, PPISs prediction examples of various proteins that are not in these training datasets are also presented. Furthermore, execution times for SENSDeep and its submodels are shown. In addition, some other popular ensemble methods, which are the gradient boosting algorithms, XGBoost, LightGBM and CatBoost, are also studied and the results of these boosting algorithms, which are trained on the same datasets and tested on the same independent testing datasets used in SENSDeep, are compared with the results of SENSDeep and other previously published methods. These algorithms can obtain a similar performance with SENSDeep on the independent testing datasets. However, the best-performing sliding window size for these algorithms is different from what SENSDeep has. Again, adding new features to the training dataset at the expense of loss of data for these algorithms also gives the same or slightly better results than non-added version. Execution times for these boosting classifiers are also presented. The source codes are available at https://github.com/enginaybey/SENSDeep.

Benzer Tezler

  1. Prediction of non-coding driver mutations using ensemble learning

    Topluluk öğrenmesi kullanarak kodlayıcı olmayan sürücü mutasyonlarının tahmini

    SANA BASHARAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Veri Bilimi Ana Bilim Dalı

    YRD. DOÇ. DR. BURÇAK OTLU SARITAŞ

  2. Prediction of allosteric key residues and their role in protein folding

    Alosterik anahtar reziduların tahmin edilmesi ve protein katlanmasındaki rolü

    ŞÖLEN EKESAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Kimya MühendisliğiBoğaziçi Üniversitesi

    Kimya Mühendisliği Bölümü

    PROF. TÜRKAN HALİLOĞLU

  3. Predicting the binding affinities of drug-protein interaction by analyzing the images of binding sites

    Bağlanma alanlarının görüntülerini inceleyerek ilaç-protein etkileşiminin bağlanma eğiliminin tahmin edilmesi

    ÖZLEM ERDAŞ

    Doktora

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. FERDANUR ALPASLAN

    PROF. DR. MEHMET ERDEM BÜYÜKBİNGÖL

  4. Identification of the interaction partners of anti-apoptotic BAG-1M isoform in breast cancer and breast epithelial cells

    Anti-apoptotik BAG-1M izoformunun etkileşim partnerlerinin meme kanseri ve meme epitel hücrelerinde tanımlanması

    NİSAN DENİZCE CAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Biyolojiİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. GİZEM DİNLER DOĞANAY

  5. Identification of interaction sites of G protein-coupled receptors using machine learning techniques

    Makine öğrenme teknikleri kullanılarak g protein-kenetli reseptörlerin etkileşim bölgelerinin tespit edilmesi

    MEHMET EMRE ŞAHİN

    Doktora

    İngilizce

    İngilizce

    2014

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TOLGA CAN