Classification of proteins using sequential and structural features
Proteinlerin dizisel ve yapısal özelliklerinin kullanılarak sınıflandırılması
- Tez No: 309412
- Danışmanlar: DOÇ. DR. UĞUR SEZERMAN
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biyomühendislik, Biyoteknoloji, Biostatistics, Bioengineering, Biotechnology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2011
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoloji Bilimleri ve Biyomühendislik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 141
Özet
Proteinlerin sınıflandırılması biyoinformatik araştırmalarında kullanılan önemli bir yöntemdir. Bu tez de proteinlerin yüksek doğrulukuta sınıflandırılması için üç farklı yöntem geliştirilmiştir. İlk olarak, farklı yapısal alt türlere sahip protein aileleri kümeleme ile sınıflandırma yöntemi ile Göreceli Zorluk Değeri (GZD) ve Sadeleştirilmiş Protein Alfabeleri (SPA) kullanılarak sınıflandırılmıştır. Bu geliştirilen yöntem ile Çoklu Dizi Sıralama yöntemini kullanmaksızın yüksek doğrulukta sınıflandırma yapılması sağlanmıştır. İkinci olarak, sabit uzunluktaki dizi motifleri ve SPA kombinasyonları dizileri tanımlamada özellik olarak kullanılmış ve sıcaklığa karşı dirençleri farklı olan proteinler sınıflandırılmıştır. T-test ile hipotez sınaması yapılarak özellik sayısı azaltılmış ve bu seçilen özellikler kullanılarak Destek Vektör Sınıflandırıcıları geliştirilmiştir. Bu yöntem ile proteinler normal protein alfabesine kıyasla daha az özellik kullanılarak doğruluk değerleri yüksek sınıflandırma sonuçlar elde edilmiştir. Üçüncü olarak, aşırı sıcağa dayanıklı, normal sıcağa dayanıklı ve orta derecede sıcağa dayanıklı homolog olmayan proteinlerden oluşan yeni bir veri kümesi oluşturulmuştur. Daha sonra bu veri kümesi üzerinde proteinlerin sıçağa karşı dayanıklı olmaları ile ilintili özelliklerini ayırt edebilmek için kapsamlı bir istatistiksel analiz yapılmış ve bilgisayarlı öğrenme yöntemleri kullanılarak proteinler sınıflandırılmıştır. Bu tez çalışması sonucunda yeni dizisel ve yapısal özelliklerin birlikte kullanılmasının proteinleri sıcağa karşı direncinin tahmin edilmesinde sadece dizisel yada yapısal özelliklerin kullanılmasından daha iyi sonuçlar alındığı gösterilmiştir. Ayrıca, proteinleri ayırmak için kullanılan bilgisayarlı öğrenme yöntemlerinin doğru sınıflandırma kapasitesinin kullanılan SPA'lere bağlı olduğu gösterilmiştir.
Özet (Çeviri)
Classification of proteins is an important process in many areas of bioinformatics research. In this thesis, we devised three different strategies to classify proteins with high accuracy that may have implications for function and attribute annotation. First, protein families were classified into different functional subtypes using a classification-via-clustering approach by using relative complexity measure with reduced amino acid alphabets (RAAA). The devised procedure does not require multiple alignment of sequences and produce high classification accuracies. Second, different fixed-length motif and RAAA combinations were used as features to represent proteins from different thermostability classes. A T-test based dimensionality reduction scheme was applied to reduce the number of features and those features were used to develop support vector machine classifiers. The devised procedure produced better results with less number of features than purely using native protein alphabet. Third, a non-homologous protein structure dataset containing hyperthermophilic, thermophilic, and mesophilic proteins was assembled de novo. Comprehensive statistical analyses of the dataset were carried out to highlight novel features correlated with increased thermostability and machine learning approaches were used to discriminate the proteins. For the first time, our results strongly indicate that combined sequential and structural features are better predictors of protein thermostability than purely sequential or structural features. Furthermore, the discrimination capability of machine learning models strongly depends on RAAAs.
Benzer Tezler
- SARS-CoV-2 proteini ile insan proteini arasindaki etkileşimlerin makine öğrenmesi yöntemleri ile tahmini
Prediction of interactions between SARS-CoV-2 protein and human protein using machine learning methods
FİRDES GÜL KORKUT
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MURAT GÖK
- Identification of the interaction partners of anti-apoptotic BAG-1M isoform in breast cancer and breast epithelial cells
Anti-apoptotik BAG-1M izoformunun etkileşim partnerlerinin meme kanseri ve meme epitel hücrelerinde tanımlanması
NİSAN DENİZCE CAN
Yüksek Lisans
İngilizce
2017
Biyolojiİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
DOÇ. DR. GİZEM DİNLER DOĞANAY
- Protein fold classification and motif retrieval methods by using the primary and secondary structures
Primer ve sekonder yapılar kullanılarak proteinlerin fold düzeyinde sınıflandırılması ve motif çıkarımı
ÖZLEM POLAT
Doktora
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. ZÜMRAY DOKUR ÖLMEZ
- HIV-1 proteaz enzimine ait kesme konumlarının fizikokimyasal özelliklere dayalı yeni bir kodlama yaklaşımı ile oluşturulmuş veri seti ile tahmin edilmesi
HIV-1 protease cleavage site prediction with generating dataset using a new encoding scheme based on physicochemical properties
METİN YANGIN
Yüksek Lisans
Türkçe
2019
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. AYÇA ÇAKMAK PEHLİVANLI
- Alt sekans profil haritaları kullanılarak protein katlanması tanıma
Protein fold recognition using subsequence profile maps
RUŞEN HALEPMOLLASI
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ÖMER SİNAN SARAÇ