Geri Dön

A deep learning based protein representation model forlow-data protein function prediction

Az veri ile protein fonksiyon tahmini için derin öğrenmebazlı bir protein temsil modeli

  1. Tez No: 795749
  2. Yazar: SERBÜLENT ÜNSAL
  3. Danışmanlar: DR. ÖĞR. ÜYESİ AYBAR CAN ACAR, DOÇ. DR. TUNCA DOĞAN
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Orta Doğu Teknik Üniversitesi
  10. Enstitü: Enformatik Enstitüsü
  11. Ana Bilim Dalı: Sağlık Bilişimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 331

Özet

Protein bilimi, proteinlerin bireysel ve proteom seviyelerinde incelenmesini kapsayan geniş bir alandır. Protein bilgi işleme, protein analizinin bilgisayar tabanlı ve veri odaklı yönlerine odaklanan protein bilimi bir alt dalıdır ve proteinlerin kantitatif özelliklerinin modellemesini içerir. Proteinlerin fonksiyonel karakterizasyonu, biyomedikal stratejilerin ve biyoteknolojik ürünlerin geliştirilmesi için kritik bir öneme sahiptir. Ancak, proteinlerin fonksiyonel karakterizasyonu için kullanılan deneysel ve manuel yöntemler zaman ve maliyet açısından zorluklar oluşturur ve sonuç olarak, UniProt gibi veritabanlarındaki milyonlarca protein girdisinin sadece bir küçük kısmı uzman tarafından elle incelenip etiketlenmiştir. Bu boşluğu doldurmak için, protein fonksiyon tahmini gibi in-silico yöntemleri kullanılır. Bu yöntemler protein fonksiyonlarını makine öğrenimi, doğal dil işleme ve diğer teknikler kullanarak protein dizisi, yapısı ve interaktome bilgilerine dayalı olarak tahmin eder. Protein fonksiyon tahmini, protein bilimi alanında önemli bir hedeftir çünkü protein fonksiyonlarını tam olarak anlamamıza ve moleküler biyoloji alanında ilerleme kaydetmemize yardımcı olabilir. Ancak, protein fonksiyon tahmini hala çözülmemiş bir problemdir ve mevcut yöntemler protein fonksiyonlarını tahmin etmede yüksek doğruluk oranlarına ulaşamamaktadır. Buna bağlı olarak, literatürde nispeten az çalışılan bir alan ise az veri ile protein fonksiyon tahminidir, yani az sayıda pozitif eğitim örneğiyle protein fonksiyonlarının tahmin edilmesidir. Bu zorluğu aşmak için, Protein RepresentatiOn BEnchmark (PROBE) adında yeniden kullanılabilir bir benchmarking çerçevesi oluşturduk ve farklı PFP yöntemlerini değerlendirmek için kullandık. Bu çerçeve, veri yoğunluğu ve tahmin edilen terim özelikleri gibi farklı boyutlar üzerinden farklı protein fonksiyon tahmin yaklaşımlarını karşılaştırmaya olanak tanımaktadır. Ayrıca, az veri ile protein fonksiyon tahmin zorluğunu aşmak için özel olarak tasarlandı ve PROBE kullanılarak değerlendirilen yenilikçi yöntemler geliştirdik. Sonuçlarımız, PROBE çerçevesinin ve az veri ile PFP için geliştirilen yenilikçi yöntemlerin PFP alanında önemli bir katkı sağladığını ve veri kullanılabilirliği sınırlı olan bağlamlarda gelecekteki araştırma çalışmalarını şekillendirme potansiyeline sahip olduğunu göstermektedir. Genel olarak, bu çalışmanın PFP alanında çalışan araştırmacılar için faydalı olacağını ve protein fonksiyonlarını daha iyi anlamaya yönelik çalışmaları destekleyeceğini umuyoruz.

Özet (Çeviri)

Protein science is a broad discipline that involves the study of proteins at the individual and proteome levels through both experimental and computational methods. Protein informatics is a branch of protein science that focuses on the computational and datacentric aspects of protein analysis, including the modeling of proteins' quantitative properties. The functional characterization of proteins is a critical aspect of protein science, as it is necessary for the development of new biomedical strategies and biotechnological products. However, the experimental and manual methods typically used for protein functional characterization are time-consuming and costly, and as a result, only a small fraction of the millions of protein entries in databases like UniProt have been manually reviewed and annotated by experts. To address this gap, in silico approaches, including protein function prediction (PFP), are being used to predict protein functions using computational methods. PFP involves the use of machine learning, natural language processing, and other techniques to predict protein functions based on various types of data, including protein sequence, structure, and interactome information. The development of accurate and reusable methods for PFP is an important goal in the field of protein science, as it has the potential to improve our understanding of protein function and advance the field of molecular biology. However, PFP remains an open problem, with current methods not consistently achieving high accuracy in predicting protein functions. One area that has received relatively little attention in the literature is low-data PFP, or the prediction of protein functions with a low number of positive training samples. To address this challenge, we developed a reusable benchmarking framework called Protein RepresentatiOn BEnchmark (PROBE) for evaluating different methods for PFP. This framework allows for the comparison of different approaches to PFP across different dimensions, including data abundance and predicted term specificity. We also developed novel methods specifically designed for addressing the challenge of low-data PFP and evaluated these methods using PROBE. Our results show that the PROBE framework and the novel methods developed for low-data PFP represent a significant contribution to the field of PFP and have the potential to shape future research efforts, particularly in contexts where data availability is limited. Overall, we hope that this study will be beneficial for researchers working in the PFP domain and will contribute to the ongoing efforts to improve our understanding of protein function.

Benzer Tezler

  1. Derin öğrenme yaklaşımı ile protein reprezantasyonunu temel alan yeni bir varyant etki tahmin modeli

    A novel variant effect prediction model based on protein representation with deep learning architecture

    GÜLBAHAR MERVE ŞILBIR

    Doktora

    Türkçe

    Türkçe

    2024

    BiyoistatistikKaradeniz Teknik Üniversitesi

    Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı

    DOÇ. DR. BURÇİN KURT

  2. Text-based machine learning methodologies for modelling drug-target interactions

    Protein-ilaç etkileşimlerinin metin tabanlı makine öğrenmesi yöntemleri ile modellenmesi

    HAKİME ÖZTÜRK

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN

    DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ

  3. Predicting disease-gene associations via machine learning

    Makine öğrenmesi ile gen-hastalık ilişkisi tahmini

    OSMAN ONUR KUZUCU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. TUNCA DOĞAN

  4. Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers

    Derin protein dil modellerini transformatörlerle birleştirerek rna ve protein modifikasyonlarini tahmin etmek ve analiz etmek

    NECLA NİSA SOYLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SEFER

  5. Heterojen biyomedikal verinin bilgi çizgeleri ve derin öğrenme tabanlı analizi ile protein fonksiyonlarının otomatik tahmini

    Automated prediction of protein functions with knowledge graph representations and deep learning-based analysis of heterogeneous biomedical data

    ERVA ULUSOY

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Biyoinformatik Ana Bilim Dalı (Disiplinlerarası)

    DOÇ. DR. TUNCA DOĞAN