Kümelenmiş protein dizileri kullanarak yapısal özellik tahmini yapan yöntemlere özellik vektörü tasarlamak
Designing feature vector for methods which predict protein structure by using clustered protein sequences
- Tez No: 607219
- Danışmanlar: PROF. DR. HASAN ERBAY, DR. ÖĞR. ÜYESİ ZAFER AYDIN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: Türkçe
- Üniversite: Kırıkkale Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 72
Özet
Protein yapıları ve fonksiyonları için her yıl büyük miktarlarda veri üretilmektedir. Elde edilen bu bilgilerin oluşturduğu protein veri tabanları modern biyolojinin önemli bir parçasıdır. Boyutları sürekli olarak artan bu büyük boyutlu veri tabanları ile Destek Vektör Makinesi (SVM) eğitimi karesel optimizasyon nedeniyle uzun zaman almaktadır. Bu problem durumu ile başa çıkabilmek için bu tez çalışmasında, tahmin başarısını azaltmadan mümkün olduğunca eğitim veri kümesini azaltarak eğitim sürecini kısaltmaya yarayacak yöntemler denenmiştir. Çalışmamızda, eğitilerek optimize edilen Dinamik Bayes Ağı (DBN) ve SVM kullanan iki aşamalı hibrit bir sınıflandırıcının (DSPRED), protein ikincil yapı tahmini için gelişmiş tahmin doğruluğu sağladığı gösterilmiştir. SVM eğitiminde kullanılacak olan veri kümesindeki örnek sayısını azaltmak için 7 kat çapraz doğrulama uygulanmış CB513 veri kümesi üzerinde iki farklı yöntem denenmiştir. Tabakalı örnekleme seçim stratejisinin kullanıldığı ilk yöntemde, eğitim veri kümesinden değişen oranlarda rastgele ve eşsiz veri örnekleri seçilmiştir. Sonuç olarak veri örneklerinin %50'si atılsa bile doğruluk oranını önemli ölçüde azaltmadan, model eğitim süresinde ortalama %73,38'lik bir iyileşme söz konusu olmuştur. İkinci yöntem, eğitim süresinin iyileştirilmesi amacıyla, veri örneklerini hiyerarşik bir kümeleme algoritması ile sınıflandırarak eğitim veri kümesindeki örnekleri küme merkezine en yakın komşularıyla değiştirmektedir. Öznitelik vektörlerini kümelemek için, validasyon setindeki tahmin doğruluğunu hesaplayarak, küme sayısı ve en yakın komşu sayısı gibi hiper parametrelerin optimize edildiği hiyerarşik kümeleme yöntemi uygulanmıştır. Sonuç olarak, ikinci yöntemde tahmin doğruluğunu azaltmadan eğitim veri kümesinin %26 oranında azaltılabileceği sonucu elde edilmiştir. Kullanılan hiyerarşik kümeleme teknikleri arasında ward yönteminin en iyi kümeleme sonucunu sağladığı gözlenmiştir.
Özet (Çeviri)
Large amounts of data regarding protein structures and functions are being produced each year, and the protein databases gathered through these data form an important part of modern biology. Support vector machine training with these large-sized databases, which are constantly increasing in size, takes a long time due to quadratic optimization. In order to cope with this problem, the methods which would be helpful to shorten the training time were used by reducing the educational dataset as much as possible without reducing the accuracy of the prediction. In our study, it was revealed that a two-stage hybrid classifier using a trained and optimized Dynamic Bayesian Network (DBN) and a Support Vector Machine (SVM) provided improved prediction accuracy for protein secondary structure prediction. In order to reduce the number of samples in the dataset to be used in support vector machine training, two different methods were tested on CB513 dataset with 7-fold cross validation. In the first method stratified sampling strategy was used, and unique samples were selected randomly and in varying ratios from the training dataset. As a result, in the case of discarding 50% of data samples, there was approximately 73.38% improvement in model training time without a significant reduction in accuracy. The second method classifies the data samples through a hierarchical clustering algorithm in order to improve the training time and replaces the samples in the training dataset with the neighbors closest to the cluster center. For clustering feature vectors, the hierarchical clustering method, which requires the optimization of hyper parameters like number of clusters and number of nearest neighbors by calculating the accuracy of prediction in the validation set, was employed. With regard to the second method the results indicated that the training dataset could be decreased by 26% without reducing the accuracy of prediction. Among the hierarchical clustering techniques used, it was observed that the ward method provided the best clustering result.
Benzer Tezler
- TGFBI genindeki R555W mutasyonunun, CRISPR/Cas9 ile indüklenmiş homoloji yönelimli onarım tekniği kullanılarak oluşturulmasına yönelik gRNA, donör DNA tasarımı ve vektör dizaynı
Vector design with gRNA and donor dna design for the generation of R55W mutation in the TGFBI (transforming growth factor beta induced) gene by using CRISPR/Cas9 induced homology-directed repair technique
SEREN MIZRAK DANACI
Yüksek Lisans
Türkçe
2022
Tıbbi BiyolojiSelçuk ÜniversitesiTıbbi Biyoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DUDU ERKOÇ KAYA
- Pankreas kanseri gelişiminde etkili olan TP53 genindeki R273H mutasyonunun CRISPR/CAS9 tekniği ile düzeltilmesi
Editing of the R273H mutation in TP53 gene, which is effective in the development of pancreatic cancer, by using the CRİSPR/CAS9 tecnique
ŞEYMA HAZAL ÇETİN
Yüksek Lisans
Türkçe
2022
Tıbbi BiyolojiSelçuk ÜniversitesiTıbbi Biyoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DUDU ERKOÇ KAYA
- Lactobacillus plantarum'un moleküler yöntemler ile tanılanması ve genomik anti-faj sistemleri
Identification of Lactobacillus plantarum by molecular methods and genomic anti-phage systems
ASİYE ESRA EREN
- nTreeClus: A model-based partitioning clustering of sequential data
nTreeClus: Sıralı verinin model tabanlı kümelenmesi
HADI JAHANSHAHI
Yüksek Lisans
İngilizce
2018
Endüstri ve Endüstri MühendisliğiBoğaziçi ÜniversitesiAssist. Prof. Dr. MUSTAFA GÖKÇE BAYDOĞAN
- In-situ rat bağırsak perfüzyonu tekniği kullanılarak kolajenin barsak geçiş performansının değerlendirilmesi
Evaluation of intestinal passage performance of collagen using in-situ rat intestinal perfusion technique
FARGANA MUSAYEVA
Yüksek Lisans
Türkçe
2022
Eczacılık ve FarmakolojiAnadolu ÜniversitesiFarmasötik Teknoloji Ana Bilim Dalı
DOÇ. DR. MUSTAFA SİNAN KAYNAK
DR. SANİYE ÖZCAN