Bitki transkripsiyon faktörlerinin hibrit derin öğrenme ile sınıflandırılması
Classification of plant transcription factors by hybrid deep learning
- Tez No: 753587
- Danışmanlar: DR. ÖĞR. ÜYESİ YÜKSEL ÇELİK
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: Karabük Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 150
Özet
Amino asit dizileri, protein yapısı ve amino asitlerin ilişkileri üzerine yapılan çalışmalar biyolojide hala büyük ve zorlu bir problemdir. Bu problemlerin çözümünde biyoinformatik çalışmalar ilerlemiş olsa da amino asitler arasındaki ilişki ve amino asitlerin oluşturduğu protein türünün belirlenmesi hala tam olarak çözülememiş bir problemdir. Proteinlerin kimliğini oluşturan motifler, aynı protein türünde dahi farklı farklı dizilişlere sahiptir ve bu yapı biyolojik olarak tespit edilebilmektedir. Bu sorun, mevcut protein dizilerinden bazılarının kullanımının da sınırlı olmasının nedenidir. Çünkü tür ve aile gibi çeşitli nitelikleri belirlemek için yapılan bu biyolojik deneyler maliyetli ve zaman alıcıdır. Bunun için de bu çalışmada proteinlerin türlerini belirlemek amacıyla hibrit bir derin öğrenme modeli tasarlanmış ve gerçeklenmiştir. Hazırlanan hibrit modelde, dizilerin yakınlık özellikleri için bir Word2Vec modeli, ardından özellik çıkarımı ve sınıflandırma için Evrişimli Sinir Ağları ve Çift Yönlü Kapılı Tekrarlayan Birim Ağları katmanları kullanılmış ve yüksek bir başarı ve hız ile proteinlerin sınıflandırmasını yapmıştır. Modelin eğitiminde Bitki Transkripsiyon Faktörü Veritabanı (PlantTFDB)'ndan yararlanılarak oluşturulan bitki transkripsiyon faktör protein veritabanı kullanılmıştır. Önerilen bu hibrit model ve çift katlı çift yönlü LSTM modeli, hazırlanan bitki transkripsiyon faktör proteinleri veri seti ile sırasıyla %98.23 ve %97.80 test başarısına, %95.36 ve %96.60 f-skor değerine ve %98.07 ve %97.91 10-katlı çapraz doğrulama sonucuna ulaşmıştır. Hibrit model gerek ön işleme kısmının model başarısına yaptığı etki, gerekse CNN ve GRU mimarilerinin farklı özellik çıkarımı ve veri sınıflandırrma alanlarındaki başarıları ile literatürde bir ilk olarak göze çarpmaktadır. Ayrıca Basic Helix-Loop-Helix (bHLH) bitki transkripsiyon faktör proteinleri için bir referans veritabanı hazılanmış ve bu veritabanının internet sitesi içerisine de Çift Yönlü Uzun Kısa-Vadeli Bellek Ağları temelli bir derin öğrenme sınıflandırıcısı eklenmiştir. Hazırlanan model ile transkripsiyon faktör proteinleri başta olmak üzere diğer proteinler de sınıflandırılarak tür tanımlamasının verimli ve başarılı bir şekilde yapılması sağlanamıştır. Tasarlanan üçlü hibrit yapı bitki transkripsiyon faktörlerinin sınıflandırılmasında kullanılması literatüre kazandırılmış bir yenilik olarak öne çıkmaktadır.
Özet (Çeviri)
The study of amino acid sequences, protein structure, and the relationships of amino acids is still a large and challenging problem in biology. Although bioinformatics studies have advanced in solving these problems, the relationship between amino acids and determining the type of protein formed by amino acids are still unsolved. The motifs that make up the identity of the proteins have different sequences even in the same protein type, and this structure can be determined biologically. This problem is why some of the available protein sequences are also limited in use. Because these biological experiments to determine species, family, etc., are costly and time- consuming. Therefore, in this study, a hybrid deep learning model was designed and implemented to determine the types of proteins. The prepared hybrid model used a Word2Vec model for the affinity features of the sequences, followed by CNN and Bidirectional GRU layers for feature extraction, classification, and classified proteins with high success and speed. In the training of the model, the plant transcription factor protein database created by us using the Plant Transcription Factor Database (PlantTFDB) was used. This proposed hybrid and bi-layer bidirectional LSTM model had test success of 98.23% and 97.80%, f-scores of 95.36% and 96.60%, and 10-fold cross-validation of 98.07% and 97.91%, respectively, with the prepared plant transcription factor proteins dataset. This proposed hybrid model stands out as a first in the literature, with the effect of the preprocessing part on the model success and the success of the CNN and GRU architectures in different feature extraction and data classification areas. In addition, a reference database for Basic Helix-Loop-Helix (bHLH) plant transcription factor proteins has been prepared, and a deep learning classifier based on Bidirectional LSTM has been added to this database's website. With the prepared model, other proteins, especially transcription factor proteins, will be classified, and species identification will be made efficiently and successfully. The use of such a triple hybrid structure in the classification of plant transcription factors stands out as an innovation brought to the literature.
Benzer Tezler
- Fasulye (Phaseolus vulgaris L.) bitkisinde WOX gen ailesi üyelerinin genom düzeyinde tanımlanması ve tuz stresi sırasında ifade profilleri
Genome-wide identification of WOX gene family members in Phaseolus vulgaris L. and their expression profiling during salt stress
SİMAY EZGİ AKBULUT
- Identification of tissue, developmental stage and stress response specificity of WRKY transcription factor family
WRKY transkripsiyon faktör ailesinin doku, büyüme evresi ve stress cevabı açısından özgünlüğünün tanımlanması
ESRA KARAKAŞ
Yüksek Lisans
İngilizce
2019
GenetikNiğde Ömer Halisdemir ÜniversitesiTarımsal Genetik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ZAHİDE NESLİHAN ÖZTÜRK GÖKÇE
- Identification of transcription factors and their potential roles in regulation of allelochemicals' biosynthesis in lithospermum erythrorhizon
Lithospermum eritrohiz'onunda allelokimyasalların biyosentezin düzenlenmesinde transkripsiyon faktörlerinin ve olası rollerinin belirlenmesi
SUMAYA GUL ABBASI
Yüksek Lisans
İngilizce
2022
BiyolojiNiğde Ömer Halisdemir ÜniversitesiBitkisel Üretim ve Teknolojileri Ana Bilim Dalı
DOÇ. DR. KHAWAR JABRAN
- Fasulye'de (Phaseolus vulgaris L.) b-box gen aı̇lesı̇ üyelerı̇nı̇n genom çapında tanımlanması, gelı̇şı̇m ve stres tepkı̇lerı̇ sırasında ı̇fadelerı̇
Genome-wide identification of b-box gene family members in bean (Phaseolus vulgaris L.) and their expression during development and stress responses
ONUR ALTAY AKDAŞ
- Krom (VI) stresi uygulanmış fasulye (Phaseolus vulgaris L.) bitkisinde tcp gen ailesi transkripsiyon faktörlerinin real-tıme PCR yöntemiyle MRNA ifade seviyelerinin incelenmesi
Analysis of mrna expression levels of TCP gene family transcription factors using real-time PCR method in chromium (VI) stressed common bean (Phaseolus vulgaris L.)
SEDA KESKİN