Prediction of enzyme classes in a hierarchical approach by using SPMap
SPMap kullanarak enzim sınıflarının hiyerarşik yaklaşımla tahmini
- Tez No: 255094
- Danışmanlar: PROF. DR. VOLKAN ATALAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2009
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 73
Özet
Enzimler biyokimyasal reaksiyonlarda katalizör olarak önemli rol oynayan proteinlerdir. Enzimler, Uluslararası Enzim Komisyonu tarafından, katalize ettikleri reaksiyona bağlı olarak hiyerarşik bir düzende sınıflandırılmışlardır. Bu hiyerarşik şema dört seviyeli bir ağaç yapısı şeklinde ifade edilir ve her bir enzim sınıfı tek bir sayıya atanır. En üst seviyede, yürüttükleri reaksiyona göre başlıca altı sınıf bulunur ve daha aşağı seviyelerdeki alt sınıflar bu sınıfların daha ileri spesifik reaksiyonlarıdır. Bu tezin amacı, Enzim Komisyonu sınıflarının hiyerarşik yapısını kullanarak üç seviyeli bir sınıflandırma modeli inşa etmektir. Enzim Komisyonu sınıf bilgileri ve bu sınıflara ait enzimler ENZYME veritabanı kullanılarak elde edildi. Öznitelikleri oluşturmak için UniProtKB/Swiss-Prot veritabanından çıkarılan enzimlerin birincil dizileri kullanıldı. Bu çalışmada altdizilere dayalı bir öznitelik çıkarma yöntemi olan altdizi profili eşlemesi kullanıldı. Altdizi profili eşlemesi, pozitif ve negatif örnekler arasındaki farkları açıkça modelleyen bir yöntemdir. Bu yöntemde, aynı sınıfa ait protein dizilerinin korunmuş altdizileri dikkate alınır. Her bir protein dizisinin öznitelik vektörü, öğrenme veri kümesindeki benzer altdiziler gruplandırılarak hesaplanan olasılıklı profil matrisine göre proteinin sabit uzunluklu altdizi olasılıkları ile oluşturulur. Bu çalışmada, ağaç yapısındaki her bir seviyedeki her bir sınıf için pozitif ve negatif veri kümeleri hazırlandı. Öznitelikleri çıkarmak için alt dizi profili eşlemesi, sınıflandırma için destek vektör makinaları kullanıldı. Sistemin performansını test etmek için beşli çapraz geçerleme kullanıldı. Başlıca altı Enzim Komisyonu sınıfı için elde edilen genel duyarlılık, özgüllük ve ROC eğrisinin altındaki alan değerleri sırayla, 93.08%, 98.95% ve 0.993' tür. İkinci ve üçüncü seviyelerdeki sonuçlar da umut vericidir.
Özet (Çeviri)
Enzymes are proteins that play an important role in biochemical reactions as catalysts. They are classified based on the reaction they catalyzed, in a hierarchical scheme by International Enzyme Commission (EC). This hierarchical scheme is expressed as a four-level tree structure and a unique number is assigned to each enzyme class. There are six major classes at the top level according to the reaction they carried out and sub-classes at the lower levels are further specific reactions of these classes. The aim of this thesis is to build a three-level classification model based on the hierarchical structure of EC classes. ENZYME database is used to extract the information of EC classes and enzymes are assigned to these EC classes.Primary sequences of enzymes extracted from UniProtKB/Swiss-Prot database are used to extract features. A subsequence based feature extraction method, Subsequence Profile Map (SPMap) is used in this study. SPMap is a method that explicitly models the differences between positive and negative examples. SPMap pays attention to the conserved subsequences of protein sequences in the same class. SPMap generates the feature vector of each sample protein as a probability of fixed-length subsequences of this protein with respect to a probabilistic profile matrix calculated by clustering similar subsequences in the training dataset. In our case, positive and negative training datasets are prepared for each class, at each level of the tree structure. Subsequence Profile Map (SPMap) is used for feature extraction and Support Vector Machines (SVMs) are used for classification. Five-fold cross validation is used to test the performance of the system. The overall sensitivity, specificity and AUC values for the six major EC classes are 93.08%, 98.95% and 0.993, respectively. The results at the second- and third- levels are also promising.
Benzer Tezler
- Prediction of enzymatic properties of protein sequences based on the enzyme commission nomenclature
Protein sekanslarının enzimatik özelliklerinin enzim komisyonu terminolojisine dayalı tahmini
ALPEREN DALKIRAN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET VOLKAN ATALAY
PROF. DR. RENGÜL ATALAY
- Alt sekans profil haritaları kullanılarak protein katlanması tanıma
Protein fold recognition using subsequence profile maps
RUŞEN HALEPMOLLASI
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ÖMER SİNAN SARAÇ
- Enzyme prediction with word embedding approach
Kelime yerleştirme yaklaşımı ile enzim tahmini
ERKAN AKIN
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET VOLKAN ATALAY
- Machine learning techniques for estimation of human tiredness level from brain electrical activity
Başlık çevirisi yok
SAAD SHABAN
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OSMAN NURİ UÇAN
- Organik bileşiklerin akuatik toksisitelerinin in siliko yöntemlerle araştırılması ve tahmini
Investigation and prediction of aquatic toxicity of organic compounds via in silico methods
ELİF MERVE EMİNOĞLU
Doktora
Türkçe
2024
KimyaMarmara ÜniversitesiKimya Ana Bilim Dalı
PROF. DR. SAFİYE ERDEM
PROF. DR. MELEK TÜRKER SAÇAN