Unsupervised clustering and its application to discovery of motifs in protein sequences
Değişik kümeleme teknikleri ve bu teknikler ile protein motiflerinin bulunması
- Tez No: 112116
- Danışmanlar: DOÇ. DR. ETHEM ALPAYDIN, DR. UĞUR SEZERMAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2001
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 103
Özet
IV ÖZET Değişik kümeleme teknikleri ve bu teknikler ile protein motiflerinin bulunması Proteinler yaşamın temelini oluştururlar. Moleküler biyolojinin önemli amaçla rından biri de belli bir fonksiyona sahip proteinleri üretmektir. Bir proteinin fonksiyo nunu o proteinin motif adı verilen kısımları belirler. Benzer fonksiyonlara sahip proteinlerin motif adı verilen bu kısımlarının birbir lerine çok benzedikleri araştırmacılar tarafından bulunmuştur. Bu çalışmadaki amaç, verilen proteinlerdeki motiflerin bir ön bilgiye sahip olunmaksızın bulunmasıdır. Bunun için parametrik olarak EM metodunu kullandık. EM reel uzay üzerinde çalıştığı için aminoasitleri MDS metotlarıyla vektörlere çevirdik. Bu sayede protein dizilerini reel vektörler olarak ifade edebildik. Bunun yanısıra parametrik olmayan metotlar da kullanıldı. Bilinen protein dizileri üzerindeki sonuçlar diğer motif algoritmalarıyla karşılaştırıldı. MDS metodunun protein motiflerinin bulunmasında bilgi kaybına yol açmadığı ve elde edilen amino asit vektörlerinin, amino asitlerin bazı fiziksel ve kimyasal özelliklerini koruduğu gözlendi. Proteinlerin fonksiyonunu belirleyen motifler sunulan yöntemler tarafından başarıyla bulundu.
Özet (Çeviri)
Ill ABSTRACT UNSUPERVISED CLUSTERING AND ITS APPLICATION TO DISCOVERY OF MOTIFS IN PROTEIN SEQUENCES Proteins have a major role in living organisms. Designing a protein becomes a major topic in biological engineering. The aim here is to design the protein for the desired function. Subparts of proteins determine their function. These parts are called motifs. In this work the aim is to find an efficient algorithm to find the motifs in a set of protein sequences. Unsupervised vector quantization techniques are used in the motif discovery part. We use Expectation-Maximization (EM) method to find motifs, which is a parametric method. EM in these cases works on discrete domain. To extend the problem onto real domain, amino acids are mapped into continuous vectors using multidimensional scaling (MDS), that allows us to represent protein sequences and subsequences as real vectors. We also used non parametric clustering techniques. The results are compared with the existing algorithms on several well-known datasets. Our results indicate that there is not much information lost if continuous vectors for amino acids obtained from MDS methods are used instead of similarity matrices to solve motif discovery problem. It is shown that MDS also preserves some physio- chemical properties of amino acids. Proposed algorithms are able to detect functionally important motifs.
Benzer Tezler
- HotRegion v2.0: A new method to predict hot regions in protein-protein interfaces
HotRegion v2.0: Protein-protein etkileşim arayüzlerindeki sıcak bölgeleri tahmin etmek için yeni bir yöntem
DAMLA ÖVEK
Yüksek Lisans
İngilizce
2020
BiyolojiKoç ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
PROF. DR. ATTİLA GÜRSOY
PROF. DR. ZEHRA ÖZLEM KESKİN ÖZKAYA
- Clustering analysis of young isolated neutron stars on p − ṗ space
Genç izole nötron yıldızlarının p − ṗ parametre uzayında kümeleme analizi
FAHRETTİN AY
Yüksek Lisans
İngilizce
2019
Astronomi ve Uzay Bilimleriİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKHAN İNCE
PROF. DR. KAZIM YAVUZ EKŞİ
- Spot 6 uydu görüntüleri üzerinde uzaktan algılama sınıflandırma yöntemleriyle orman arazisinde azalma tespiti
Determination of forest area clearcutting on optical satellite imagery with classification techniques in remote sensing
GÜLŞAH BAYHAN
Yüksek Lisans
Türkçe
2015
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. SEDEF KENT PINAR
- Integrating fuzzy logic into deep autoencoders for interpretability and clustering
Yorumlanabilirlik ve öbekleme için bulanık mantığın derin özkodlayıcılara entegre edilmesi
KUTAY BÖLAT
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiKontrol ve Otomasyon Mühendisliği Ana Bilim Dalı
DOÇ. DR. TUFAN KUMBASAR
- Development of operation and maintenance strategies for offshore wind industry based on big data management
Büyük veri yönetimi ile açık deniz rüzgar endüstrisinde işletme ve bakım stratejilerinin geliştirilmesi
UWE LUETZEN
Doktora
İngilizce
2024
Enerjiİstanbul Teknik ÜniversitesiGemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
PROF. DR. SERDAR BEJİ