Geri Dön

Yapay öğrenme ile DNA- ve RNA-bağlayıcı proteinlerin sınıflandırılması

Classification of DNA- and RNA-binding proteins by artificial learning

  1. Tez No: 786201
  2. Yazar: ÖZGÜR CAN ARICAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ÖZGÜR GÜMÜŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoloji, Computer Engineering and Computer Science and Control, Biology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Sağlık Biyoinformatiği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 109

Özet

Proteinler, işlevlerini yerine getirebilmek için birçok molekül ile etkileşime girerler. Birbirleriyle protein-protein etkileşimleri kurabildikleri gibi, hücre içerisinde DNA ve RNA ile etkileşime de girebilirler. DNA ile etkileşime girebilen proteinlere DNA-bağlayıcı protein, RNA ile etkileşime girebilen proteinlere RNA-bağlayıcı protein denir. DNA-bağlayıcı ve RNA-bağlayıcı proteinler hücre içerisinde eşlenme, transkripsiyon, translasyon ve tamir mekanizmaları gibi birçok hücresel süreçte görev alırlar. Bu nedenle bir proteinin DNA-bağlayıcı, RNA-bağlayıcı veya nükleik asitlere bağlanmayan protein olup olmadığının belirlenmesi önemlidir. Proteinleri tanımlamak için X-ray kristalografi ve nükleer manyetik rezonans gibi deneysel teknikler kullanılmaktadır. Yine de bu teknikler uzun zaman aldığından ve yüksek maliyete sahip olduğundan hesaplamalı yöntemlerin kullanımı tercih edilmektedir. DNA-bağlayıcı ve RNA-bağlayıcı proteinlerin sınıflandırılmasında rastgele orman, destek vektör makineleri ve evrişimli sinir ağları ile uzun-kısa süreli hafıza ağlarının birleştirilmesiyle oluşturulan hibrit modellerin kullanımı oldukça yaygındır. Birçok model uygulanmış olsa da, çok katmanlı algılayıcıların DNA-bağlayıcı ve RNA-bağlayıcı proteinlerin sınıflandırılmasında kullanımı oldukça azdır. Literatürde, protein dizilerinden elde edilen özniteliklere dayanan dizi-tabanlı yaklaşım ile çok katmanlı algılayıcıların uygulandığı bir sınıflandırma çalışmasına rastlanmamıştır. Oysaki güncel çalışmalara göre, hesaplama karmaşıklığı düşürüldüğünde çok katmanlı algılayıcılar diğer modellerden daha yüksek performansa ulaşmaktadır. Bu nedenle, bu çalışmada rastgele orman, destek vektör makineleri, birleştirilmiş evrişimli sinir ağları – uzun-kısa süreli hafıza ağları ve çok katmanlı algılayıcılarla DNA-bağlayıcı ve RNA-bağlayıcı proteinlerin sınıflandırılması yapılmış ve performansları kıyaslanarak hangi modelin düşük veri karmaşıklığında daha iyi çalıştığı belirlenmiştir. Yapay öğrenme modellerini eğitmek için biyolojik veri tabanlarından DNA-bağlayıcı, RNA-bağlayıcı ve nükleik asitlere bağlanmayan protein dizileri elde edilmiştir. Protein dizilerine öznitelik çıkarma yöntemleri uygulanarak 8431 öznitelik içeren bir eğitim seti oluşturulmuştur. Farklı veri karmaşıklıklarında test edilebilmeleri için öznitelik seçim yöntemleri kullanılarak 6000, 4000, 2000, 1000 ve 500 öznitelik içeren 5 ayrı eğitim seti daha oluşturulmuştur. Literatürden elde edilen TEST474 ve PDB255 bağımsız verisetleri, test seti amacıyla kullanılarak tüm veri karmaşıklıklarında, araştırma sürecinde oluşturulan destek vektör makinesi, rastgele orman, çok katmanlı algılayıcı ve hibrit evrişimli sinir ağı - uzun kısa süreli hafıza ağı modellerinin kendi aralarında kıyaslanması sağlanmıştır. Ayrıca literatürde DNA-bağlayıcı ve RNA-bağlayıcı proteinlerin sınıflandırılması için kullanılan iDRBP-MMC ve DeepDRBP-2L modelleri, TEST474 ve PDB255 bağımsız verisetleri üzerinde test edilmiştir. Bu sayede araştırmada oluşturulan modellerin literatürdeki modellerle kıyaslanarak kullanılabilirliğinin de test edilmesi sağlanmıştır. Sonuç olarak, çok katmanlı algılayıcı PDB255 bağımsız verisetinde ve araştırmanın test setinde en yüksek başarım ölçütlerini çıkarmıştır. Çok katmanlı algılayıcının, PDB255 bağımsız verisetinde doğruluk, kesinlik, duyarlılık ve F1-skoru ölçütleri sırasıyla 0.500, 0.513, 0.500 ve 0.491, araştırmanın test setinde doğruluk, kesinlik, duyarlılık ve F1-skoru ölçütleri ise sırasıyla 0.570, 0.582, 0.568 ve 0.571 olarak sonuçlanmıştır. TEST474 bağımsız verisetinde ise amino asit uzunlukları çok fazla olan olan proteinler vardır. Amino asit uzunluklarının veri karmaşıklığını etkileyen bir faktör olduğu düşünülmektedir. Bu nedenle çok katmanlı algılayıcı TEST474 üzerinde beklenen başarımı gösterememiştir. iDRBP-MMC ve DeepDRBP-2L ile karşılaştırıldığında, çok katmanlı algılayıcı, hem TEST474 hem de PDB255 bağımsız verisetinde iDRBP-MMC sınıflandırıcıdan daha yüksek başarım sonuçları vermiştir. Destek vektör makinesi, rastgele orman ve hibrit modelleri ise yalnızca TEST474 bağımsız verisetinde, iDRBP-MMC sınıflandırıcıdan yüksek başarım sonuçları verebilmiştir.

Özet (Çeviri)

Proteins interact with many molecules to perform their functions. As they can form protein-protein interactions, they can also interact with DNA and RNA within the cell. Proteins that can interact with DNA are called DNA-binding proteins, and proteins that can interact with RNA are called RNA-binding proteins. DNA-binding and RNA-binding proteins are involved in many cellular processes such as replication, transcription, translation and repair mechanisms within the cell. It is therefore, important to determine whether a protein is DNA-binding, RNA-binding, or non-nucleic acid-binding protein. Experimental techniques such as X-ray crystallography and nuclear magnetic resonance are used to identify proteins. However, the use of computational methods is preferred, since these techniques take long time and have high cost. In the classification of DNA-binding and RNA-binding proteins, the use of random forest, support vector machines and hybrid models designed by combining convolutional neural networks with long-short-term memory networks are quite common. Although many models have been applied, the use of multilayer perceptrons in classification of DNA-binding and RNA-binding is very rare. In the literature, a classification study using multilayer perceptrons with sequence-based approach which based on features obtained from protein sequences has not been discovered. However, the multilayer perceptrons achieve higher performance rates than the other models, when the computational complexity is reduced, according to current studies. Therefore, in this study, classification of DNA-binding and RNA-binding proteins by random forest, support vector machines, combined convolutional neural networks – long-short-term memory networks and multilayer perceptrons was implemented, their performances were compared and it was determined which model predicted accurately at reduced data complexity. DNA-binding, RNA-binding and non-nucleic acid-binding protein sequences were obtained from biological databases to train artificial learning models. A training set containing 8431 features was created by applying feature extraction methods to protein sequences. In order to be tested in different data complexities, 5 more training set containing 6000, 4000, 2000, 1000 and 500 features were created by using feature selection methods. TEST474 and PDB255 independent datasets obtained from the literature were used as test sets, and support vector machine, random forest, multilayer perceptron and convolutional neural network - long short-term memory network hybrid models designed for research were compared among themselves in all data complexities. In addition, iDRBP-MMC and DeepDRBP-2L models, which are used for classification of DNA-binding and RNA-binding proteins in the literature, were tested on TEST474 and PDB255 independent datasets. Thus, the usability of the models designed during the research was also compared with the models in the literature. As a result, the multilayer perceptron achieved the highest performance metrics on PDB255 independent dataset and the test set of the research. Accuracy, precision, recall, and F1-score metrics of the multilayer perceptron for PDB255 independent dataset were 0.500, 0.513, 0.500, and 0.491, respectively, and the accuracy, precision, recall, and F1-score metrics for the research's test set were 0.570, 0.582, 0.568, and 0.571, respectively. In TEST474 independent dataset, there are proteins with high amino acid lengths. Amino acid lengths are supposed to be a factor directly influencing the data complexity. Therefore, the multilayer perceptron did not provide the expected performance on TEST474. Compared with iDRBP-MMC and DeepDRBP-2L, the multilayer perceptron achieved higher performance results than iDRBP-MMC classifier on both TEST474 and PDB255 independent datasets. Support vector machine, random forest and hybrid models were able to achieve higher performance results from iDRBP-MMC classifier only in TEST474 independent dataset.

Benzer Tezler

  1. İlişkili genom dizilim kümeleri arasındaki bağıntıların analizi için yapay öğrenme yöntemleri

    Machine learning methods for analysing correlations among sets of related genome sequences

    NAZİFE ÇEVİK

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OLCAY KURŞUN

  2. A deep learning architecture for missing metabolite concentration prediction

    Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi

    SADİ ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ ÇAKMAK

  3. Türkçe'de varlık ismi tanıma

    Named entity recognition in Turkish

    ASIM GÜNEŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  4. Yapay Öğrenme ile gen dizilimindeki eksik verinin tamamlanması

    Imputation of genome sequences using Machine Learning

    MİTHAT RAŞİT ÖZÇIKRIKCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolNecmettin Erbakan Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ OSMAN ÇIBIKDİKEN

  5. Sayısal haritalama teknikleri kullanılarak DNA dizilimleri üzerinden lösemi hastalığının temel türlerinin yapay zeka tabanlı algoritmalar ile sınıflandırılması

    Classification of main types of leukemia disease with artificial intelligence-based algorithms on the DNA sequences using digital mapping techniques

    FATMA AKALIN

    Doktora

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. NEJAT YUMUŞAK