Geri Dön

Discovering coding lncRNAs using deep learning training dynamics

Derin öğrenme eğitim dinamiklerini kullanarak kodlama lncRNA'larını keşfetme

  1. Tez No: 680356
  2. Yazar: AFSHAN NABI
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ÖZNUR TAŞTAN OKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 42

Özet

Uzun kodlamayan RNA'lar (lncRNA'lar), kodlamayan RNA'ların (ncRNA'lar) en büyük sınıfıdır. Bununla birlikte, son deneysel kanıtlar, bazı lncRNA'ların, fonksiyonel mikropeptidlere çevrilen küçük açık okuma çerçeveleri (sORF'ler) içerdiğini göstermiştir. Yanlış yorumlanmış lncRNA'ları tespit etmek için mevcut yöntemler, pahalı ve hücre tipine bağlı olan ribozom profili oluşturma (ribo-seq) deneylerine dayanır. Ek olarak, kodlama yapan ve kodlamayan dizileri ayırt etmek için çok hassas makine öğrenimi modelleri eğitilmiş olsa da, temel eğitim veri kümelerinde bazı lncRNA'ların yanlış yer-gerçeği etiketleri hakkında artan kanıtlara çok az ilgi gösterilmiştir. Belirli bir lncRNA transkriptinin yanlış yorumlanıp işaretlenmediğini belirlemek için derin öğrenme modellerinin eğitim dinamiklerinden yararlanan bir çerçeve sunuyoruz. Modellerimiz, veri kümesinde bulunan olası yanlış yorumlanmış lncRNA'ları belirlememize izin verirken, kodlama yapmayan ve kodlama dizilerini sınıflandırmada AUC puanları >91% ve AUPR >93% elde eder. Sonuçlarımız, bir ribo-seq veri kümesi tarafından bulunan lncRNA'lar içindeki sORF'leri kodlamanın yanı sıra, deneysel olarak doğrulanmış yanlış yorumlanmış bir dizi lncRNA ile önemli ölçüde örtüşmektedir. Burada uygulanan genel çerçeve, potansiyel tahmin edicileri kodlamak için kullanılan veri kümelerinin küratörlüğünde kullanım için umut verici bir potansiyel sunar ve yanlış yorumlanmış lncRNA'lar tarafından kodlanan gizli proteomun karakterize edilmesinde deneysel çabalara yardımcı olur.

Özet (Çeviri)

Long non-coding RNAs (lncRNAs) are the largest class of non-coding RNAs (ncRNAs). However, recent experimental evidence has shown that some lncRNAs contain small open reading frames (sORFs) that are translated into functional micropeptides. Current methods to detect misannotated lncRNAs rely on ribosome-profiling (ribo-seq) experiments, which are expensive and cell-type dependent. In addition, while very accurate machine learning models have been trained to distinguish between coding and non-coding sequences, little attention has been paid to the increasing evidence about the incorrect ground-truth labels of some lncRNAs in the underlying training datasets. We present a framework that leverages deep learning models' training dynamics to determine whether a given lncRNA transcript is misannotated. Our models achieve AUC scores >91% and AUPR >93% in classifying non-coding vs. coding sequences while allowing us to identify possible misannotated lncRNAs present in the dataset. Our results overlap significantly with a set of experimentally validated misannotated lncRNAs as well as with coding sORFs within lncRNAs found by a ribo-seq dataset. The general framework applied here offers promising potential for use in curating datasets used for training coding potential predictors and assisting experimental efforts in characterizing the hidden proteome encoded by misannotated lncRNAs.

Benzer Tezler

  1. Discovering regulatory non-coding RNA interactions

    Düzenleyici kodlanmayan RNA etkileşimlerinin keşfi

    GÜLDEN OLGUN

    Doktora

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. ABDULLAH ERCÜMENT ÇİÇEK

    YRD. DOÇ. DR. ÖZNUR TAŞTAN OKAN

  2. Effects of NKILA silencing on HSP90, NF-κB and β-catenin in MCF-7 cells

    MCF-7 hücrelerinde NKILA susturumunun Hsp90, NF-κB ve β-Katenin üzerindeki etkileri

    MEHMETALİ TİBATAN

    Doktora

    İngilizce

    İngilizce

    2021

    Biyolojiİstanbul Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    PROF. DR. EVREN ÖNAY UÇAR

  3. Detection of circular rnas in hepatocellularcarcinoma treated with different therapeutic agentsusing RNA-seq data

    Farklı tedavi ajanları uygunlanmış karaciğerkanserlerine ait RNA dizilerinden çembersel RNA'larıntespit edilmesi

    BURCU TAMKOÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    BiyoistatistikOrta Doğu Teknik Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    YRD. DOÇ. DR. AYBAR CAN ACAR

    YRD. DOÇ. DR. CAN ÖZEN

  4. Knowledge discovery for software engineering using sequential pattern mining

    Yazılım mühendisliği için sıralı örüntü madenciliği ile bilgi keşfi

    DİLARA KIRNAPCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KÖKTEN ULAŞ BİRANT

  5. Identification of mirna regulatory pathways in complex diseases

    Kompleks hastalıklarda mirna düzenleyici yolakların belirlenmesi

    İLKNUR MELİS DURASI KUMCU

    Doktora

    İngilizce

    İngilizce

    2018

    BiyoistatistikSabancı Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı

    PROF. DR. DEVRİM GÖZÜAÇIK