Geri Dön

Computational representation of protein sequences for homology detection and classification

Protein dizilimlerinin homoloji sezimi ve sınıflandırma amaçlı bilişimsel gösterimi

  1. Tez No: 180820
  2. Yazar: HASAN OĞUL
  3. Danışmanlar: Y.DOÇ.DR. ERKAN MUMCUOĞLU
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: n-peptid bileşimi, en büyük benzersiz eşleşme, olasılıksal sonekağacı, uzak homoloji, hücresel konumlanma.vii, n-peptide composition, maximal unique match, probabilistic suffix tree, remote homology, subcellular localization.v
  7. Yıl: 2006
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Bilişim Sistemleri Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 112

Özet

ÖZPROTEİN DİZİLİMLERİNİN HOMOLOJİ SEZİMİ VE SINIFLANDIRMAAMAÇLI BİLİŞİMSEL GÖSTERİMİOğul, HasanDoktora, Bilişim Sistemleri A.B.DTez Yöneticisi: Yrd. Doç. Dr. Erkan Ü. MUMCUOĞLUOcak 2006, 102 sayfaOtomatik öğrenme yöntemleri bilişimsel biyolojide sınıflandırma problemleri içinsıkça kullanılmaktadır. Bu yöntemlerin girdilerinin sabit uzunlukta özellikvektörlerinden oluşması gerekir. Proteinler farklı uzunluklarda olabileceği için,protein dizilimlerini sabit sayıdaki özelliklerle temsil edecek yöntemlere ihtiyaçduyulmaktadır. Bu tezde bu amaçla üç farklı yöntem sunulmaktadır. Bunlardanbirincisi azaltıltılmış alfabelerle n-peptid bileşimi, ikincisi en büyük benzersizeşleşmelere göre ikili benzerlik değerleri, ve üçüncüsü ise olasılıksal sonek ağaçlarıile ikili benzerlik değerleridir.viTezde tarif edilen yeni dizilim gösterim yöntemleri, probleme özgü değişiklilerlebirlikte, bilişimsel biyolojinin üç önemli problemi üzerinde uygulanmıştır; uzakhomoloji sezimi, hücresel konumlanma tahmini, çözgen erişebilirlik tahmini. Herproblem için, ortak kıyaslama kümeleri üzerinde yapılan deneyler sonucunda,mevcut yöntemlerle yeni yöntemler arasında karşılaştırma analizleri sunulmuştur.Uzak homoloji sezimi testlerinde, üç yeni yöntemin hepsi mevcut en iyiyöntemlerle karşılaştırılabilir doğruluk değerleri elde ederken, bunların çok dahaverimli çalıştıkları gözlenmiştir. Yeni yöntemlerin bir kombinasyonu, proteinlerinhücresel konumlanmalarını tahmin eden PredLOC isimli sistemi geliştirmek içinkullanılmış ve bu sistem iki farklı ökaryotik protein kümesi için test edilmiştir.PredLOC her iki veri kümesi için de şu ana kadar elde edilen en iyi doğrulukdeğerine ulaşmıştır. En büyük benzersiz eşleşmelerin kullanımı, çözgen erişebilirliktahmininde az miktarda iyileştirme sağlayabilmiştir.

Özet (Çeviri)

ABSTRACTCOMPUTATIONAL REPRESENTATION OF PROTEIN SEQUENCES FORHOMOLOGY DETECTION AND CLASSIFICATIONOğul, HasanPh.D., Department of Information SystemsSupervisor: Assist. Prof. Dr. Erkan Ü. MUMCUOĞLUJanuary 2006, 102 pagesMachine learning techniques have been widely used for classification problems incomputational biology. They require that the input must be a collection of fixed-length feature vectors. Since proteins are of varying lengths, there is a need for ameans of representing protein sequences by a fixed-number of features. This thesisintroduces three novel methods for this purpose: n-peptide compositions withreduced alphabets, pairwise similarity scores by maximal unique matches, andpairwise similarity scores by probabilistic suffix trees.ivNew sequence representations described in the thesis are applied on threechallenging problems of computational biology: remote homology detection,subcellular localization prediction, and solvent accessibility prediction, with someproblem-specific modifications. Rigorous experiments are conducted on commonbenchmarking datasets, and a comparative analysis is performed between the newmethods and the existing ones for each problem.On remote homology detection tests, all three methods achieve competitiveaccuracies with the state-of-the-art methods, while being much more efficient. Acombination of new representations are used to devise a hybrid system, calledPredLOC, for predicting subcellular localization of proteins and it is tested on twodistinct eukaryotic datasets. To the best of author?s knowledge, the accuracyachieved by PredLOC is the highest one ever reported on those datasets. Themaximal unique match method is resulted with only a slight improvement insolvent accessibility predictions.

Benzer Tezler

  1. Artificial intelligence based methods for the solution of protein folding problem by using coarse-grained lattice and off-lattice models

    Protein katlanma probleminin çözümü için kaba-taneli kafes ve kafes-dışı modelleri kullanan yapay zeka tabanlı yöntemler

    BERAT DOĞAN

    Doktora

    İngilizce

    İngilizce

    2015

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. TAMER ÖLMEZ

  2. Prediction of protein-protein interactions through sequence based contrastive representation learning method

    Sekans tabanlı ayrımsal temsil öğrenmesi yöntemi ile protein-protein etkileşimlerinin tahmini

    DUYGU GEÇKİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Elektrik ve Elektronik MühendisliğiDokuz Eylül Üniversitesi

    Biyomedikal Teknolojiler Ana Bilim Dalı

    DOÇ. DR. GÜLESER KALAYCI DEMİR

  3. Derin öğrenme ağları kullanılarak protein metal bağlanma yerlerinin analizi

    Analysis of protein metal-binding sites using deep neural networks

    İSMAİL HABERAL

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBaşkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. HASAN OĞUL

  4. Prediction of pathogen-host interactions with protein sequence embeddings using deep learning

    Patojen-konak etkileşimlerinin derin öğrenme yöntemleri kullanılarak tahmin edilmesi

    BÜŞRA OĞUZOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

  5. Improving deepkinzero with protein languages models and transductive learning

    Protein dil modelleri ve transdüktif öğrenme ile deepkinzero'yu iyileştirme

    EMİNE AYŞE SUNAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. ÖZNUR TAŞTAN OKAN

    DOÇ. RAMAZAN GÖKBERK CİNBİŞ