Geri Dön

Classification of proteins using sequential and structural features

Proteinlerin dizisel ve yapısal özelliklerinin kullanılarak sınıflandırılması

  1. Tez No: 309412
  2. Yazar: AYDIN ALBAYRAK
  3. Danışmanlar: DOÇ. DR. UĞUR SEZERMAN
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biyomühendislik, Biyoteknoloji, Biostatistics, Bioengineering, Biotechnology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2011
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoloji Bilimleri ve Biyomühendislik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 141

Özet

Proteinlerin sınıflandırılması biyoinformatik araştırmalarında kullanılan önemli bir yöntemdir. Bu tez de proteinlerin yüksek doğrulukuta sınıflandırılması için üç farklı yöntem geliştirilmiştir. İlk olarak, farklı yapısal alt türlere sahip protein aileleri kümeleme ile sınıflandırma yöntemi ile Göreceli Zorluk Değeri (GZD) ve Sadeleştirilmiş Protein Alfabeleri (SPA) kullanılarak sınıflandırılmıştır. Bu geliştirilen yöntem ile Çoklu Dizi Sıralama yöntemini kullanmaksızın yüksek doğrulukta sınıflandırma yapılması sağlanmıştır. İkinci olarak, sabit uzunluktaki dizi motifleri ve SPA kombinasyonları dizileri tanımlamada özellik olarak kullanılmış ve sıcaklığa karşı dirençleri farklı olan proteinler sınıflandırılmıştır. T-test ile hipotez sınaması yapılarak özellik sayısı azaltılmış ve bu seçilen özellikler kullanılarak Destek Vektör Sınıflandırıcıları geliştirilmiştir. Bu yöntem ile proteinler normal protein alfabesine kıyasla daha az özellik kullanılarak doğruluk değerleri yüksek sınıflandırma sonuçlar elde edilmiştir. Üçüncü olarak, aşırı sıcağa dayanıklı, normal sıcağa dayanıklı ve orta derecede sıcağa dayanıklı homolog olmayan proteinlerden oluşan yeni bir veri kümesi oluşturulmuştur. Daha sonra bu veri kümesi üzerinde proteinlerin sıçağa karşı dayanıklı olmaları ile ilintili özelliklerini ayırt edebilmek için kapsamlı bir istatistiksel analiz yapılmış ve bilgisayarlı öğrenme yöntemleri kullanılarak proteinler sınıflandırılmıştır. Bu tez çalışması sonucunda yeni dizisel ve yapısal özelliklerin birlikte kullanılmasının proteinleri sıcağa karşı direncinin tahmin edilmesinde sadece dizisel yada yapısal özelliklerin kullanılmasından daha iyi sonuçlar alındığı gösterilmiştir. Ayrıca, proteinleri ayırmak için kullanılan bilgisayarlı öğrenme yöntemlerinin doğru sınıflandırma kapasitesinin kullanılan SPA'lere bağlı olduğu gösterilmiştir.

Özet (Çeviri)

Classification of proteins is an important process in many areas of bioinformatics research. In this thesis, we devised three different strategies to classify proteins with high accuracy that may have implications for function and attribute annotation. First, protein families were classified into different functional subtypes using a classification-via-clustering approach by using relative complexity measure with reduced amino acid alphabets (RAAA). The devised procedure does not require multiple alignment of sequences and produce high classification accuracies. Second, different fixed-length motif and RAAA combinations were used as features to represent proteins from different thermostability classes. A T-test based dimensionality reduction scheme was applied to reduce the number of features and those features were used to develop support vector machine classifiers. The devised procedure produced better results with less number of features than purely using native protein alphabet. Third, a non-homologous protein structure dataset containing hyperthermophilic, thermophilic, and mesophilic proteins was assembled de novo. Comprehensive statistical analyses of the dataset were carried out to highlight novel features correlated with increased thermostability and machine learning approaches were used to discriminate the proteins. For the first time, our results strongly indicate that combined sequential and structural features are better predictors of protein thermostability than purely sequential or structural features. Furthermore, the discrimination capability of machine learning models strongly depends on RAAAs.

Benzer Tezler

  1. SARS-CoV-2 proteini ile insan proteini arasindaki etkileşimlerin makine öğrenmesi yöntemleri ile tahmini

    Prediction of interactions between SARS-CoV-2 protein and human protein using machine learning methods

    FİRDES GÜL KORKUT

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYalova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MURAT GÖK

  2. Identification of the interaction partners of anti-apoptotic BAG-1M isoform in breast cancer and breast epithelial cells

    Anti-apoptotik BAG-1M izoformunun etkileşim partnerlerinin meme kanseri ve meme epitel hücrelerinde tanımlanması

    NİSAN DENİZCE CAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Biyolojiİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. GİZEM DİNLER DOĞANAY

  3. Protein fold classification and motif retrieval methods by using the primary and secondary structures

    Primer ve sekonder yapılar kullanılarak proteinlerin fold düzeyinde sınıflandırılması ve motif çıkarımı

    ÖZLEM POLAT

    Doktora

    İngilizce

    İngilizce

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. ZÜMRAY DOKUR ÖLMEZ

  4. HIV-1 proteaz enzimine ait kesme konumlarının fizikokimyasal özelliklere dayalı yeni bir kodlama yaklaşımı ile oluşturulmuş veri seti ile tahmin edilmesi

    HIV-1 protease cleavage site prediction with generating dataset using a new encoding scheme based on physicochemical properties

    METİN YANGIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. AYÇA ÇAKMAK PEHLİVANLI

  5. Alt sekans profil haritaları kullanılarak protein katlanması tanıma

    Protein fold recognition using subsequence profile maps

    RUŞEN HALEPMOLLASI

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ÖMER SİNAN SARAÇ