Geri Dön

Unsupervised clustering and its application to discovery of motifs in protein sequences

Değişik kümeleme teknikleri ve bu teknikler ile protein motiflerinin bulunması

  1. Tez No: 112116
  2. Yazar: ERSİN BAŞARAN
  3. Danışmanlar: DOÇ. DR. ETHEM ALPAYDIN, DR. UĞUR SEZERMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2001
  8. Dil: İngilizce
  9. Üniversite: Boğaziçi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 103

Özet

IV ÖZET Değişik kümeleme teknikleri ve bu teknikler ile protein motiflerinin bulunması Proteinler yaşamın temelini oluştururlar. Moleküler biyolojinin önemli amaçla rından biri de belli bir fonksiyona sahip proteinleri üretmektir. Bir proteinin fonksiyo nunu o proteinin motif adı verilen kısımları belirler. Benzer fonksiyonlara sahip proteinlerin motif adı verilen bu kısımlarının birbir lerine çok benzedikleri araştırmacılar tarafından bulunmuştur. Bu çalışmadaki amaç, verilen proteinlerdeki motiflerin bir ön bilgiye sahip olunmaksızın bulunmasıdır. Bunun için parametrik olarak EM metodunu kullandık. EM reel uzay üzerinde çalıştığı için aminoasitleri MDS metotlarıyla vektörlere çevirdik. Bu sayede protein dizilerini reel vektörler olarak ifade edebildik. Bunun yanısıra parametrik olmayan metotlar da kullanıldı. Bilinen protein dizileri üzerindeki sonuçlar diğer motif algoritmalarıyla karşılaştırıldı. MDS metodunun protein motiflerinin bulunmasında bilgi kaybına yol açmadığı ve elde edilen amino asit vektörlerinin, amino asitlerin bazı fiziksel ve kimyasal özelliklerini koruduğu gözlendi. Proteinlerin fonksiyonunu belirleyen motifler sunulan yöntemler tarafından başarıyla bulundu.

Özet (Çeviri)

Ill ABSTRACT UNSUPERVISED CLUSTERING AND ITS APPLICATION TO DISCOVERY OF MOTIFS IN PROTEIN SEQUENCES Proteins have a major role in living organisms. Designing a protein becomes a major topic in biological engineering. The aim here is to design the protein for the desired function. Subparts of proteins determine their function. These parts are called motifs. In this work the aim is to find an efficient algorithm to find the motifs in a set of protein sequences. Unsupervised vector quantization techniques are used in the motif discovery part. We use Expectation-Maximization (EM) method to find motifs, which is a parametric method. EM in these cases works on discrete domain. To extend the problem onto real domain, amino acids are mapped into continuous vectors using multidimensional scaling (MDS), that allows us to represent protein sequences and subsequences as real vectors. We also used non parametric clustering techniques. The results are compared with the existing algorithms on several well-known datasets. Our results indicate that there is not much information lost if continuous vectors for amino acids obtained from MDS methods are used instead of similarity matrices to solve motif discovery problem. It is shown that MDS also preserves some physio- chemical properties of amino acids. Proposed algorithms are able to detect functionally important motifs.

Benzer Tezler

  1. HotRegion v2.0: A new method to predict hot regions in protein-protein interfaces

    HotRegion v2.0: Protein-protein etkileşim arayüzlerindeki sıcak bölgeleri tahmin etmek için yeni bir yöntem

    DAMLA ÖVEK

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    BiyolojiKoç Üniversitesi

    Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı

    PROF. DR. ATTİLA GÜRSOY

    PROF. DR. ZEHRA ÖZLEM KESKİN ÖZKAYA

  2. Clustering analysis of young isolated neutron stars on p − ṗ space

    Genç izole nötron yıldızlarının p − ṗ parametre uzayında kümeleme analizi

    FAHRETTİN AY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Astronomi ve Uzay Bilimleriİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKHAN İNCE

    PROF. DR. KAZIM YAVUZ EKŞİ

  3. Spot 6 uydu görüntüleri üzerinde uzaktan algılama sınıflandırma yöntemleriyle orman arazisinde azalma tespiti

    Determination of forest area clearcutting on optical satellite imagery with classification techniques in remote sensing

    GÜLŞAH BAYHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. SEDEF KENT PINAR

  4. Integrating fuzzy logic into deep autoencoders for interpretability and clustering

    Yorumlanabilirlik ve öbekleme için bulanık mantığın derin özkodlayıcılara entegre edilmesi

    KUTAY BÖLAT

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Kontrol ve Otomasyon Mühendisliği Ana Bilim Dalı

    DOÇ. DR. TUFAN KUMBASAR

  5. Development of operation and maintenance strategies for offshore wind industry based on big data management

    Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi

    UWE LUETZEN

    Doktora

    İngilizce

    İngilizce

    2024

    Enerjiİstanbul Teknik Üniversitesi

    Gemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı

    PROF. DR. SERDAR BEJİ