Prediction of protein subcellular localization using global protein sequence feature
Evrensel protein dizi özelliğinin kullanılarak protein hücresel sınıflandırılmasının tahmini
- Tez No: 143404
- Danışmanlar: DOÇ. DR. VOLKAN ATALAY
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: destek vektör makmaları, global protein hücresel sımflandırılması, kümeleme, PAM250, support vector machines, global protein subcellular localization, clus tering, PAM250
- Yıl: 2003
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Hesaplanma yöntemleriyle çok hücreli gen dizinleri arasından gen tanıma, son yıllarda popüler bir araştırma konusu olmuştur. Bu konuyla ilgili olarak eski yaklaşımlar, özel fonksiyonel elemanlara, kodlanan ve kodlanamayan DNA'ya odaklanmıştır. Yeni yaklaşımlar birçok tipteki bilginin bütünleşmesini sağlamıştır. Herhangi bir proteinin yapı bilgisi, ilgili proteinin, fonksiyonunu tanımlamada esastır. Ek olarak, bir proteinin hücresel bölgelendirilmesi, protein karakteri ile ilgili bilgi edinmede kullanılır. Bu çalışmada, proteinlerin temel dizi bilgisi kullanılarak hücresel bölgelendirilmesini sağlayan bir yöntem sunulmuştur. Bir proteinin temel dizi bilgisi, amino asit dizilimine dayanmaktadır. Bir proteinde bulunan her amino asitin frekansı hesaplanır ve hesaplanan değer amino asitle ilişkilendirilir. Bir protein, için hesaplanan her değer, biyolojik bilgiyi koruma amaçlı olarak kullanılan kodlama şablonunda kullanılır. Kodlama şablonu Nokta Kabüllü Mutasyon matrisine dayanır. Bu çalışma, çekirdek, cytosolic, mitokon- dri ve signal peptid hücresel bölgelerini tanıma amaçlı tasarlanmıştır. Kümeleme yöntemi olarak Temel Bileşenler Analizi ve Özdüzenlemeli Harita kullanılmıştır. Sınıflandırma yöntemi olarak Destek Vektör Makinaları kuUanılmıştır. Özellik ayırma, kümeleme ve sınıflandırma yöntemlerinin birleştirilmesinin amacı pro tein hücresel sınıflandırılmasını doğru yapan bir tahmin sistemi tasarlamaktır. Üç adet yöntemi birleştiren bu tasarım seri birleşen mimarisine sahiptir. Seri birleşen mimarisinde, bir yöntemin sonucu diğer yönteme girdi olarak kullanılmaktadır.
Özet (Çeviri)
The problem of identifying genes in eukaryotic genomic sequences by compu tational methods has attracted considerable research attention in recent years. Many early approaches to the problem focused on prediction of individual func tional elements and compositional properties of coding and non coding deoxyri bonucleic acid (DNA) in entire eukaryotic gene structures. More recently, a num ber of approaches has been developed which integrate multiple types of informa tion including structure, function and genetic properties of proteins. Knowledge of the structure of a protein is essential for describing and understanding its function. In addition, subcellular localization of a protein can be used to pro vide some amount of characterization of a protein. In this study, a method for the prediction of protein subcellular localization based on primary sequence data is described. Primary sequence data for a protein is based on amino acid sequence. The frequency value for each amino acid is computed in one given position. Assigned frequencies are used in a new encoding scheme that conserves biological information based on point accepted mutations (PAM) substitution matrix. This method can be used to predict the nuclear, the cytosolic sequences, the mitochondrial targeting peptides (mTP) and the signal peptides (SP). For clustering purposes, other than well known traditional techniques,“principle component analysis (PCA)”and“self-organizing maps (SOM)”are used. For classification purposes,“support vector machines (SVM)”, a method of statis tical learning theory recently introduced to bioinformatics is used. The aim of the combination of feature extraction, clustering and classification methods is to design an acccurate system that predicts the subcellular localization of pro teins presented into the system. Our scheme for combining several methods is cascading or serial combination according to its architecture. In the cascading architecture, the output of a method serves as the input of the other model used.
Benzer Tezler
- Characterization of C17orf45 as a novel target of the Wnt/B-catenin pathway
Wnt/B-katenin yolağının yeni hedef geni olarak C17orf45'in karakterize edilmesi
TUNCAY ŞEKER
Yüksek Lisans
İngilizce
2009
BiyolojiBoğaziçi ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
PROF. AHMET KOMAN
YRD. DOÇ. NECLA BİRGÜL İYİSON
- Prediction of protein subcellular localization based on primary sequence date
Birincil dizi veri temelli protein hücre içi yer belirleme tahmini
MERT ÖZARAR
Yüksek Lisans
İngilizce
2003
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. VOLKAN ATALAY
- Computational prediction of protein subcellular localization and function
Protein içi hücre içi konum ve fonksiyonlarının işlemsel yöntemlerle tahmini
MUTLU DOĞRUEL
Yüksek Lisans
İngilizce
2002
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. OSMAN UĞUR SEZERMAN
- Multi-view subcellular localization prediction of human proteins
İnsan proteinlerinin çoklu görünüm yoluyla hücre içi yerleşimlerinin tahmini
GÖKHAN ÖZSARI
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET VOLKAN ATALAY
- A classification system for the problem of protein subcellular localization
Proteinlerin hücre içi yerleşimlerini bulmak için bir sınıflandırma sistemi
GÖKÇEN ALAY
Yüksek Lisans
İngilizce
2007
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. VOLKAN ATALAY
YRD. DOÇ. DR. TOLGA CAN