Enzyme prediction with word embedding approach
Kelime yerleştirme yaklaşımı ile enzim tahmini
- Tez No: 582709
- Danışmanlar: PROF. DR. MEHMET VOLKAN ATALAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 98
Özet
Moleküler fonksiyon, biyolojik işlem ve hücresel lokalizasyon gibi bilgiler protein sekansından çıkarılabilir. Bununla birlikte, protein sekanslarının uzunluğu değişir. Bu nedenle, desen tanıma ve makine öğrenme algoritmaları sabit uzunluklu özellik vektörleri gerektirdiğinden, sekans bu algoritmalar için doğrudan bir özellik vektörü olarak kullanılamaz. Belirli bir protein sekansının vektör gösterimini oluşturmak için Word2vec modelinin, daha spesifik olarak sürekli atlamalı modelin kullanımına dayanan bir yaklaşımı tarif ediyoruz. Word2vec modelinde, bir protein sekansı belge ya da cümle olarak ele alınır ve onun alt sekansları kelimelere karşılık gelir. Sürekli atlama modeli, bir alt sekansı çevreleyen alt sekansları tahmin etmek için kullanılan bir Word2vec modelidir. Word2vec modelindeki özellik vektörleri, sekanstan bilgi almak için sınıflandırıcılarla birleştirilebilir. Örnek bir uygulama için, bir protein sekansının enzim olup olmadığını belirleme sorununu ele alıyoruz. 19,155 enzim ve enzim olmayan protein sekansı içeren örnek bir veri seti için, bu dizilerin 20%'si test için ayrılmış ve 80%' i 5'li çapraz validasyon için kullanılmıştır. En iyi performans sonuçları, Word2vec modelinin parametreleri için 100 vektör büyüklüğü, 25 pencere boyutu ve 180 tekrarlama sayısı kullanılmış ve Rassal Orman sınıflandırıcısı için Precision, Recall, F1 ve Doğruluk sonuçları 0.93 ve Matthews korelasyon katsayısı 0.97 olarak bulunmuştur. Ayrıca, Word2vec modeli için kullanılan aynı parametreleri kullanarak ilk seviye Enzim Komisyonu sınıfları için vektör gösterimleri üretiyoruz. Her bir sınıfın vektör gösterimleri için ikili sınıflandırma uygulanır ve Rassas Orman sınıflandırıcısını kullanarak ortalama performans Matthews korelasyon katsayısı için 0.70 ve Precision, Recall, F1 ve Doğruluk sonuçları için 0.86 olarak elde edilir.
Özet (Çeviri)
Information such as molecular function, biological process, and cellular localization can be inferred from the protein sequence. However, protein sequences vary in length. Therefore, the sequence itself cannot be used directly as a feature vector for pattern recognition and machine learning algorithms since these algorithms require fixed length feature vectors. We describe an approach based on the use of the Word2vec model, more specifically continuous skip-gram model to generate the vector representation of a given protein sequence. In the Word2vec model, a protein sequence is treated as a document or a sentence and its subsequences correspond to words. The continuous skip-gram model is a supervised Word2vec model to predict the surrounding subsequences from a subsequence. Feature vectors from the Word2vec model can be coupled with classifiers to infer information from the sequence. As a sample application, we consider the problem of determining whether a given protein sequence is an enzyme or not. For a sample dataset that contains 19,155 of enzyme and non-enzyme protein sequences, for which 20% of these sequences are put apart for test and 80% is used for 5-fold cross-validation. The best performance scores are obtained as 0.97 for Precision, Recall, F1, accuracy and 0.93 for Matthews correlation coefficient by the Word2vec model with vector size of 100, the window size of 25 and number of epochs as 180 and for the Random Forest classifier. Also, we generate vector representations for the first level of Enzyme Commission classes by using the same hyper-parameter set for the Word2vec model. For vector representations of each class, binary classification is applied and the average performance scores are obtained as 0.87 for Precision, Recall, F1, accuracy and 0.70 for Matthews correlation coefficient by using the Random Forest classifier.
Benzer Tezler
- HIV-1 proteaz enzimine ait kesme konumlarının fizikokimyasal özelliklere dayalı yeni bir kodlama yaklaşımı ile oluşturulmuş veri seti ile tahmin edilmesi
HIV-1 protease cleavage site prediction with generating dataset using a new encoding scheme based on physicochemical properties
METİN YANGIN
Yüksek Lisans
Türkçe
2019
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. AYÇA ÇAKMAK PEHLİVANLI
- Geobacillus kaustophilus alfa-glukuronidaz enziminin in-siliko yaklaşımlar ile protein mühendisliğinin gerçekleştirilmesi
Protein engineering of Geobacillus kaustophilus alfa-glucuronidase enzyme by in-silico approaches
ELİF ALTUNKÜLAH
Yüksek Lisans
Türkçe
2023
BiyomühendislikKafkas ÜniversitesiBiyomühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUNUS ENSARİ
- Prediction of enzymatic properties of protein sequences based on the enzyme commission nomenclature
Protein sekanslarının enzimatik özelliklerinin enzim komisyonu terminolojisine dayalı tahmini
ALPEREN DALKIRAN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET VOLKAN ATALAY
PROF. DR. RENGÜL ATALAY
- Prediction of enzyme classes in a hierarchical approach by using SPMap
SPMap kullanarak enzim sınıflarının hiyerarşik yaklaşımla tahmini
AYŞE GÜL YAMAN
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. VOLKAN ATALAY
- Hızlı ventriküler yanıtlı atriyal fibrilasyon ile acil servise gelen hastaların tedavilerinde diltiazem etkinliğinin CYP2D6 gen polimorfizmi ilişkisi
The relationship of diltiazem activity with CYP2D6 gene polymorphism in patients presenting to the emergency service with rapid ventricular response atrial fibrillation
MEHMET ULUTÜRK