Geri Dön

Enzyme prediction with word embedding approach

Kelime yerleştirme yaklaşımı ile enzim tahmini

  1. Tez No: 582709
  2. Yazar: ERKAN AKIN
  3. Danışmanlar: PROF. DR. MEHMET VOLKAN ATALAY
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 98

Özet

Moleküler fonksiyon, biyolojik işlem ve hücresel lokalizasyon gibi bilgiler protein sekansından çıkarılabilir. Bununla birlikte, protein sekanslarının uzunluğu değişir. Bu nedenle, desen tanıma ve makine öğrenme algoritmaları sabit uzunluklu özellik vektörleri gerektirdiğinden, sekans bu algoritmalar için doğrudan bir özellik vektörü olarak kullanılamaz. Belirli bir protein sekansının vektör gösterimini oluşturmak için Word2vec modelinin, daha spesifik olarak sürekli atlamalı modelin kullanımına dayanan bir yaklaşımı tarif ediyoruz. Word2vec modelinde, bir protein sekansı belge ya da cümle olarak ele alınır ve onun alt sekansları kelimelere karşılık gelir. Sürekli atlama modeli, bir alt sekansı çevreleyen alt sekansları tahmin etmek için kullanılan bir Word2vec modelidir. Word2vec modelindeki özellik vektörleri, sekanstan bilgi almak için sınıflandırıcılarla birleştirilebilir. Örnek bir uygulama için, bir protein sekansının enzim olup olmadığını belirleme sorununu ele alıyoruz. 19,155 enzim ve enzim olmayan protein sekansı içeren örnek bir veri seti için, bu dizilerin 20%'si test için ayrılmış ve 80%' i 5'li çapraz validasyon için kullanılmıştır. En iyi performans sonuçları, Word2vec modelinin parametreleri için 100 vektör büyüklüğü, 25 pencere boyutu ve 180 tekrarlama sayısı kullanılmış ve Rassal Orman sınıflandırıcısı için Precision, Recall, F1 ve Doğruluk sonuçları 0.93 ve Matthews korelasyon katsayısı 0.97 olarak bulunmuştur. Ayrıca, Word2vec modeli için kullanılan aynı parametreleri kullanarak ilk seviye Enzim Komisyonu sınıfları için vektör gösterimleri üretiyoruz. Her bir sınıfın vektör gösterimleri için ikili sınıflandırma uygulanır ve Rassas Orman sınıflandırıcısını kullanarak ortalama performans Matthews korelasyon katsayısı için 0.70 ve Precision, Recall, F1 ve Doğruluk sonuçları için 0.86 olarak elde edilir.

Özet (Çeviri)

Information such as molecular function, biological process, and cellular localization can be inferred from the protein sequence. However, protein sequences vary in length. Therefore, the sequence itself cannot be used directly as a feature vector for pattern recognition and machine learning algorithms since these algorithms require fixed length feature vectors. We describe an approach based on the use of the Word2vec model, more specifically continuous skip-gram model to generate the vector representation of a given protein sequence. In the Word2vec model, a protein sequence is treated as a document or a sentence and its subsequences correspond to words. The continuous skip-gram model is a supervised Word2vec model to predict the surrounding subsequences from a subsequence. Feature vectors from the Word2vec model can be coupled with classifiers to infer information from the sequence. As a sample application, we consider the problem of determining whether a given protein sequence is an enzyme or not. For a sample dataset that contains 19,155 of enzyme and non-enzyme protein sequences, for which 20% of these sequences are put apart for test and 80% is used for 5-fold cross-validation. The best performance scores are obtained as 0.97 for Precision, Recall, F1, accuracy and 0.93 for Matthews correlation coefficient by the Word2vec model with vector size of 100, the window size of 25 and number of epochs as 180 and for the Random Forest classifier. Also, we generate vector representations for the first level of Enzyme Commission classes by using the same hyper-parameter set for the Word2vec model. For vector representations of each class, binary classification is applied and the average performance scores are obtained as 0.87 for Precision, Recall, F1, accuracy and 0.70 for Matthews correlation coefficient by using the Random Forest classifier.

Benzer Tezler

  1. HIV-1 proteaz enzimine ait kesme konumlarının fizikokimyasal özelliklere dayalı yeni bir kodlama yaklaşımı ile oluşturulmuş veri seti ile tahmin edilmesi

    HIV-1 protease cleavage site prediction with generating dataset using a new encoding scheme based on physicochemical properties

    METİN YANGIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. AYÇA ÇAKMAK PEHLİVANLI

  2. Geobacillus kaustophilus alfa-glukuronidaz enziminin in-siliko yaklaşımlar ile protein mühendisliğinin gerçekleştirilmesi

    Protein engineering of Geobacillus kaustophilus alfa-glucuronidase enzyme by in-silico approaches

    ELİF ALTUNKÜLAH

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyomühendislikKafkas Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUNUS ENSARİ

  3. Prediction of enzymatic properties of protein sequences based on the enzyme commission nomenclature

    Protein sekanslarının enzimatik özelliklerinin enzim komisyonu terminolojisine dayalı tahmini

    ALPEREN DALKIRAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET VOLKAN ATALAY

    PROF. DR. RENGÜL ATALAY

  4. Prediction of enzyme classes in a hierarchical approach by using SPMap

    SPMap kullanarak enzim sınıflarının hiyerarşik yaklaşımla tahmini

    AYŞE GÜL YAMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. VOLKAN ATALAY

  5. Hızlı ventriküler yanıtlı atriyal fibrilasyon ile acil servise gelen hastaların tedavilerinde diltiazem etkinliğinin CYP2D6 gen polimorfizmi ilişkisi

    The relationship of diltiazem activity with CYP2D6 gene polymorphism in patients presenting to the emergency service with rapid ventricular response atrial fibrillation

    MEHMET ULUTÜRK

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2022

    Acil TıpPamukkale Üniversitesi

    Acil Tıp Ana Bilim Dalı

    DOÇ. DR. ATAKAN YILMAZ