Geri Dön

Bitki transkripsiyon faktörlerinin hibrit derin öğrenme ile sınıflandırılması

Classification of plant transcription factors by hybrid deep learning

  1. Tez No: 753587
  2. Yazar: ALİ BURAK ÖNCÜL
  3. Danışmanlar: DR. ÖĞR. ÜYESİ YÜKSEL ÇELİK
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Karabük Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 150

Özet

Amino asit dizileri, protein yapısı ve amino asitlerin ilişkileri üzerine yapılan çalışmalar biyolojide hala büyük ve zorlu bir problemdir. Bu problemlerin çözümünde biyoinformatik çalışmalar ilerlemiş olsa da amino asitler arasındaki ilişki ve amino asitlerin oluşturduğu protein türünün belirlenmesi hala tam olarak çözülememiş bir problemdir. Proteinlerin kimliğini oluşturan motifler, aynı protein türünde dahi farklı farklı dizilişlere sahiptir ve bu yapı biyolojik olarak tespit edilebilmektedir. Bu sorun, mevcut protein dizilerinden bazılarının kullanımının da sınırlı olmasının nedenidir. Çünkü tür ve aile gibi çeşitli nitelikleri belirlemek için yapılan bu biyolojik deneyler maliyetli ve zaman alıcıdır. Bunun için de bu çalışmada proteinlerin türlerini belirlemek amacıyla hibrit bir derin öğrenme modeli tasarlanmış ve gerçeklenmiştir. Hazırlanan hibrit modelde, dizilerin yakınlık özellikleri için bir Word2Vec modeli, ardından özellik çıkarımı ve sınıflandırma için Evrişimli Sinir Ağları ve Çift Yönlü Kapılı Tekrarlayan Birim Ağları katmanları kullanılmış ve yüksek bir başarı ve hız ile proteinlerin sınıflandırmasını yapmıştır. Modelin eğitiminde Bitki Transkripsiyon Faktörü Veritabanı (PlantTFDB)'ndan yararlanılarak oluşturulan bitki transkripsiyon faktör protein veritabanı kullanılmıştır. Önerilen bu hibrit model ve çift katlı çift yönlü LSTM modeli, hazırlanan bitki transkripsiyon faktör proteinleri veri seti ile sırasıyla %98.23 ve %97.80 test başarısına, %95.36 ve %96.60 f-skor değerine ve %98.07 ve %97.91 10-katlı çapraz doğrulama sonucuna ulaşmıştır. Hibrit model gerek ön işleme kısmının model başarısına yaptığı etki, gerekse CNN ve GRU mimarilerinin farklı özellik çıkarımı ve veri sınıflandırrma alanlarındaki başarıları ile literatürde bir ilk olarak göze çarpmaktadır. Ayrıca Basic Helix-Loop-Helix (bHLH) bitki transkripsiyon faktör proteinleri için bir referans veritabanı hazılanmış ve bu veritabanının internet sitesi içerisine de Çift Yönlü Uzun Kısa-Vadeli Bellek Ağları temelli bir derin öğrenme sınıflandırıcısı eklenmiştir. Hazırlanan model ile transkripsiyon faktör proteinleri başta olmak üzere diğer proteinler de sınıflandırılarak tür tanımlamasının verimli ve başarılı bir şekilde yapılması sağlanamıştır. Tasarlanan üçlü hibrit yapı bitki transkripsiyon faktörlerinin sınıflandırılmasında kullanılması literatüre kazandırılmış bir yenilik olarak öne çıkmaktadır.

Özet (Çeviri)

The study of amino acid sequences, protein structure, and the relationships of amino acids is still a large and challenging problem in biology. Although bioinformatics studies have advanced in solving these problems, the relationship between amino acids and determining the type of protein formed by amino acids are still unsolved. The motifs that make up the identity of the proteins have different sequences even in the same protein type, and this structure can be determined biologically. This problem is why some of the available protein sequences are also limited in use. Because these biological experiments to determine species, family, etc., are costly and time- consuming. Therefore, in this study, a hybrid deep learning model was designed and implemented to determine the types of proteins. The prepared hybrid model used a Word2Vec model for the affinity features of the sequences, followed by CNN and Bidirectional GRU layers for feature extraction, classification, and classified proteins with high success and speed. In the training of the model, the plant transcription factor protein database created by us using the Plant Transcription Factor Database (PlantTFDB) was used. This proposed hybrid and bi-layer bidirectional LSTM model had test success of 98.23% and 97.80%, f-scores of 95.36% and 96.60%, and 10-fold cross-validation of 98.07% and 97.91%, respectively, with the prepared plant transcription factor proteins dataset. This proposed hybrid model stands out as a first in the literature, with the effect of the preprocessing part on the model success and the success of the CNN and GRU architectures in different feature extraction and data classification areas. In addition, a reference database for Basic Helix-Loop-Helix (bHLH) plant transcription factor proteins has been prepared, and a deep learning classifier based on Bidirectional LSTM has been added to this database's website. With the prepared model, other proteins, especially transcription factor proteins, will be classified, and species identification will be made efficiently and successfully. The use of such a triple hybrid structure in the classification of plant transcription factors stands out as an innovation brought to the literature.

Benzer Tezler

  1. Fasulye (Phaseolus vulgaris L.) bitkisinde WOX gen ailesi üyelerinin genom düzeyinde tanımlanması ve tuz stresi sırasında ifade profilleri

    Genome-wide identification of WOX gene family members in Phaseolus vulgaris L. and their expression profiling during salt stress

    SİMAY EZGİ AKBULUT

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    BiyolojiAnkara Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. İLKER BÜYÜK

  2. Identification of tissue, developmental stage and stress response specificity of WRKY transcription factor family

    WRKY transkripsiyon faktör ailesinin doku, büyüme evresi ve stress cevabı açısından özgünlüğünün tanımlanması

    ESRA KARAKAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    GenetikNiğde Ömer Halisdemir Üniversitesi

    Tarımsal Genetik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ZAHİDE NESLİHAN ÖZTÜRK GÖKÇE

  3. Identification of transcription factors and their potential roles in regulation of allelochemicals' biosynthesis in lithospermum erythrorhizon

    Lithospermum eritrohiz'onunda allelokimyasalların biyosentezin düzenlenmesinde transkripsiyon faktörlerinin ve olası rollerinin belirlenmesi

    SUMAYA GUL ABBASI

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    BiyolojiNiğde Ömer Halisdemir Üniversitesi

    Bitkisel Üretim ve Teknolojileri Ana Bilim Dalı

    DOÇ. DR. KHAWAR JABRAN

  4. Fasulye'de (Phaseolus vulgaris L.) b-box gen aı̇lesı̇ üyelerı̇nı̇n genom çapında tanımlanması, gelı̇şı̇m ve stres tepkı̇lerı̇ sırasında ı̇fadelerı̇

    Genome-wide identification of b-box gene family members in bean (Phaseolus vulgaris L.) and their expression during development and stress responses

    ONUR ALTAY AKDAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    BiyolojiAnkara Üniversitesi

    Biyoloji Ana Bilim Dalı

    PROF. DR. EMİNE SÜMER ARAS

  5. Krom (VI) stresi uygulanmış fasulye (Phaseolus vulgaris L.) bitkisinde tcp gen ailesi transkripsiyon faktörlerinin real-tıme PCR yöntemiyle MRNA ifade seviyelerinin incelenmesi

    Analysis of mrna expression levels of TCP gene family transcription factors using real-time PCR method in chromium (VI) stressed common bean (Phaseolus vulgaris L.)

    SEDA KESKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    BiyolojiAnkara Üniversitesi

    Biyoloji Ana Bilim Dalı

    PROF. DR. EMİNE SÜMER ARAS