Geri Dön

Protein homoloji tespitinde bir üst sınıflandırma yaklaşımı

A data fusion approach in protein homology detection

  1. Tez No: 199497
  2. Yazar: AYDIN CAN POLATKAN
  3. Danışmanlar: PROF.DR. HAYRİ SEVER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoteknoloji, Computer Engineering and Computer Science and Control, Biotechnology
  6. Anahtar Kelimeler: Protein Homoloji Tespiti, N-peptit Birleşimler, Destek VektörMakineleri, Sınıflandırma, Üst Sınıflandırma, Protein Homology Detection, N-peptite Compositions, Support VectorMachines, Classification, Data Fusion
  7. Yıl: 2007
  8. Dil: Türkçe
  9. Üniversite: Başkent Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 139

Özet

ÖZETPROTEİN HOMOLOJİ TESPİTİNDE BİR ÜST SINIFLANDIRMA YAKLAŞIMIAydın Can POLATKANBaşkent Üniversitesi Fen Bilimleri EnstitüsüBilgisayar Mühendisliği Anabilim DalıHesaplamalı biyoloji alanında sınıflandırma problemleri için makine-öğrenmeteknikleri sıkça ve geniş şekilde kullanılmaktadır. Bu teknikler, girdi olarak sabituzunluklu nitelik vektörleri istemektedir. Proteinler farklı uzunluklara sahipolduklarından, tüm protein dizilimlerini sabit sayıda nitelik ile göstermek gerekir.Bu amaçla geliştirilen etkili yöntemlerden biri protein dizilimlerinin n-peptitbirleşimleridir. Yöntem n uzunluktaki her alt dizginin dizilim içerisindeki görülmeyüzdesini ifade eder. Alan karmaşıklığını azaltmak amacıyla, n'nin artan değerleriiçin, kullanılan aminoasit alfabesi, sonuç vektörün günümüz bellek kaynaklarıylauyumlu olmasını sağlayacak şekilde düzenli olarak küçültülmüştür.Kullanılan çözümde birleşime ait bütün özellik girdileri sadece bir sınıflandırıcıya topluolarak verilmekteydi. Bu tezde, özellik girdileri n-peptit birleşimlere ve küçültülenamino asit alfabelerine göre farklı gruplara ayrılıp, farklı sınıflandırıcılara verilmiştirböylece soyutlanarak daraltılan arama uzayında, gezinen birden fazla tekniğe, bir üstsınıflandırma yaklaşımı denenmiştir. Amaç doğru şekilde yakınsanan, bizi birbirindenfarklı çözüm bölgelerine ulaştıran tekniklere üstsel sınıflandırma yaklaşımı ile daha iyisonuçlar alabilmektir. Bu yaklaşımda farklı sınıflandırıcıların çıktı değerlerinideğerlendirmek üzere ortalama alma, ağırlıklı ortalama alma, öğrenme kümesinde enbaşarılı olanı seçme gibi değişik durumlar karşılaştırılmıştır.Herbir yöntem hesaplamalı biyolojinin önemli ve güncel problemlerinden biri olanuzak homoloji tespiti üzerinde test edilmiş, sonuçlar karşılaştırmalı olaraksunulmuştur.Sonuçlara bakıldığında eğitim kümesinde en başarılı olan sınıflandırıcının sonucunundoğru kabul edildiği durumun en etkili olduğu gözlenmiştir. Sonuçlar arasındakiistatistiksel anlamlılığı dikkatlice incelemek için yöntemler arasında öğrenci T-testleriyapılmış, testlerin sonuçları yorumlanmıştır. Denenen üst sınıflandırma yaklaşımlarıyalnız bir sınıflandırıcı kullanılan duruma göre daha etkili bellek kullanımına sahiptir.Destek vektör makineleriyle test edilen üst sınıflandırma yaklaşımının diğersınıflandırma problemlerinde de başarılı olacağı düşünülmektedir.

Özet (Çeviri)

ABSTRACTA DATA FUSION APPROACH IN PROTEIN HOMOLOGY DETECTIONAydın Can POLATKANBaskent UniversityComputer EngineeringMachine learning techniques are frequently and extensively used for classifyingproblems in the field of computational biology. These techniques require constantlength feature vectors as inputs. As far as it is known that proteins are in differentlengths, therefore all proteins are needed to be represented with a constant numberof features.One of the effective methods developed for this goal is n-peptite combinations of theprotein strings. These methods are represented with the availability percentage ofeach of the n-length substrings inside the sequence. To reduce the spacecomplexity, for increasing values of n, amino acid alphabet is reduced regularly forthe resulting feature vectors to conform available memory resources today.In this solution, all feature inputs were given to a single classifier. In this thesis, thesefeature inputs are classified into specific significant groups, according to the n-peptitecompositions and reduced amino alphabets. These groups are given to severaldifferent classifiers to achieve a data fusion approach with a few techniques that arewandering in the narrowed search space by abstraction. Aim is to have better resultswith techniques that are converging in exact and leading to different regions of asolution. In that approach, to evaluate the output values of different classifiers,various cases like averaging, weighted averaging and choosing the most successfulone in the training set are compared.Each of these methods was tested on remote homology detection problem which isone of the major and actual problems of computational biology and results arepresented relatively.As the results are considered, the case in which the output of the most successfultraining set is granted, observed as the more accurate one. To explore the statisticalsignificance of differences between results, paired samples T-tests were carried outbetween all methods. Furthermore, all data fusion approaches tested, through out thethesis has more efficient memory usage according to the single classifier case. Thedata fusion approach which has been tested with support vector machines is alsothought to be efficient for not only protein homology detection problems but alsoother problems of classification.

Benzer Tezler

  1. Structural pattern detection and domain recognition for protein function prediction

    Protein fonksiyon tayini için yapısal örüntü ve domen tanınması

    SÜVEYDA YENİTERZİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    DOÇ. DR. UGUR SEZERMAN

  2. Purification, characterization, crystallization and preliminary x-ray structure determination of scytalidium thermophilum bifunctional catalase and identification of its catechol oxidase activity

    Scytalıdıum thermophılum çift fonksiyonlu katalazının saflaştırılması, karakterizasyonu, kristalizasyonu, ilk aşama x-ışını yapısının belirlenmesi ve katekol oksidaz aktivitesinin tanımlanması

    DİDEM SUTAY

    Doktora

    İngilizce

    İngilizce

    2007

    Kimya MühendisliğiOrta Doğu Teknik Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. UFUK BAKIR

    PROF. ZÜMRÜT BEGÜM ÖGEL

  3. Brucella melitensis Rev.1 ΔOmp 19 marker aşı geliştirilmesi

    Obtaining Brucella melitensis Rev 1 ΔOmp 19 as a marker vaccine

    ALİ USLU

    Doktora

    Türkçe

    Türkçe

    2020

    Allerji ve İmmünolojiSelçuk Üniversitesi

    Mikrobiyoloji (Veterinerlik) Ana Bilim Dalı

    PROF. DR. OSMAN ERGANİŞ

  4. Erkek sıçan (Rattus norvegicus) böbrek prolaktin reseptör mRNA çeşitliliğinin belirlenmesi

    Determination of male rat (rattus norvegicus) kidney prolactin receptor mRNA diversity

    MESUT CİHAN AYDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    BiyolojiAkdeniz Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. MEHMET AKİF KILIÇ

  5. Sıcak su kaynaklarından bakteri izolasyonu, tanımlanması ve Alicyclobacillus acidocaldarius subsp. Rittmanii'nin b-galaktozidaz enziminin saflaştırılması

    Identification, isolation of bacteria from the hot spring and the purification of ß-galactosidase in Alicyclobacillus acidocaldarius subspecies Rittmanii

    REYHAN GÜL GÜVEN

    Doktora

    Türkçe

    Türkçe

    2007

    BiyolojiDicle Üniversitesi

    Biyoloji Ana Bilim Dalı

    PROF. DR. ERHAN ÜNLÜ