Discovering coding lncRNAs using deep learning training dynamics
Derin öğrenme eğitim dinamiklerini kullanarak kodlama lncRNA'larını keşfetme
- Tez No: 680356
- Danışmanlar: DR. ÖĞR. ÜYESİ ÖZNUR TAŞTAN OKAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 42
Özet
Uzun kodlamayan RNA'lar (lncRNA'lar), kodlamayan RNA'ların (ncRNA'lar) en büyük sınıfıdır. Bununla birlikte, son deneysel kanıtlar, bazı lncRNA'ların, fonksiyonel mikropeptidlere çevrilen küçük açık okuma çerçeveleri (sORF'ler) içerdiğini göstermiştir. Yanlış yorumlanmış lncRNA'ları tespit etmek için mevcut yöntemler, pahalı ve hücre tipine bağlı olan ribozom profili oluşturma (ribo-seq) deneylerine dayanır. Ek olarak, kodlama yapan ve kodlamayan dizileri ayırt etmek için çok hassas makine öğrenimi modelleri eğitilmiş olsa da, temel eğitim veri kümelerinde bazı lncRNA'ların yanlış yer-gerçeği etiketleri hakkında artan kanıtlara çok az ilgi gösterilmiştir. Belirli bir lncRNA transkriptinin yanlış yorumlanıp işaretlenmediğini belirlemek için derin öğrenme modellerinin eğitim dinamiklerinden yararlanan bir çerçeve sunuyoruz. Modellerimiz, veri kümesinde bulunan olası yanlış yorumlanmış lncRNA'ları belirlememize izin verirken, kodlama yapmayan ve kodlama dizilerini sınıflandırmada AUC puanları >91% ve AUPR >93% elde eder. Sonuçlarımız, bir ribo-seq veri kümesi tarafından bulunan lncRNA'lar içindeki sORF'leri kodlamanın yanı sıra, deneysel olarak doğrulanmış yanlış yorumlanmış bir dizi lncRNA ile önemli ölçüde örtüşmektedir. Burada uygulanan genel çerçeve, potansiyel tahmin edicileri kodlamak için kullanılan veri kümelerinin küratörlüğünde kullanım için umut verici bir potansiyel sunar ve yanlış yorumlanmış lncRNA'lar tarafından kodlanan gizli proteomun karakterize edilmesinde deneysel çabalara yardımcı olur.
Özet (Çeviri)
Long non-coding RNAs (lncRNAs) are the largest class of non-coding RNAs (ncRNAs). However, recent experimental evidence has shown that some lncRNAs contain small open reading frames (sORFs) that are translated into functional micropeptides. Current methods to detect misannotated lncRNAs rely on ribosome-profiling (ribo-seq) experiments, which are expensive and cell-type dependent. In addition, while very accurate machine learning models have been trained to distinguish between coding and non-coding sequences, little attention has been paid to the increasing evidence about the incorrect ground-truth labels of some lncRNAs in the underlying training datasets. We present a framework that leverages deep learning models' training dynamics to determine whether a given lncRNA transcript is misannotated. Our models achieve AUC scores >91% and AUPR >93% in classifying non-coding vs. coding sequences while allowing us to identify possible misannotated lncRNAs present in the dataset. Our results overlap significantly with a set of experimentally validated misannotated lncRNAs as well as with coding sORFs within lncRNAs found by a ribo-seq dataset. The general framework applied here offers promising potential for use in curating datasets used for training coding potential predictors and assisting experimental efforts in characterizing the hidden proteome encoded by misannotated lncRNAs.
Benzer Tezler
- Discovering regulatory non-coding RNA interactions
Düzenleyici kodlanmayan RNA etkileşimlerinin keşfi
GÜLDEN OLGUN
Doktora
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ABDULLAH ERCÜMENT ÇİÇEK
YRD. DOÇ. DR. ÖZNUR TAŞTAN OKAN
- Effects of NKILA silencing on HSP90, NF-κB and β-catenin in MCF-7 cells
MCF-7 hücrelerinde NKILA susturumunun Hsp90, NF-κB ve β-Katenin üzerindeki etkileri
MEHMETALİ TİBATAN
Doktora
İngilizce
2021
Biyolojiİstanbul ÜniversitesiBiyoteknoloji Ana Bilim Dalı
PROF. DR. EVREN ÖNAY UÇAR
- Detection of circular rnas in hepatocellularcarcinoma treated with different therapeutic agentsusing RNA-seq data
Farklı tedavi ajanları uygunlanmış karaciğerkanserlerine ait RNA dizilerinden çembersel RNA'larıntespit edilmesi
BURCU TAMKOÇ
Yüksek Lisans
İngilizce
2021
BiyoistatistikOrta Doğu Teknik ÜniversitesiBiyoteknoloji Ana Bilim Dalı
YRD. DOÇ. DR. AYBAR CAN ACAR
YRD. DOÇ. DR. CAN ÖZEN
- Knowledge discovery for software engineering using sequential pattern mining
Yazılım mühendisliği için sıralı örüntü madenciliği ile bilgi keşfi
DİLARA KIRNAPCI
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolDokuz Eylül ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KÖKTEN ULAŞ BİRANT
- Identification of mirna regulatory pathways in complex diseases
Kompleks hastalıklarda mirna düzenleyici yolakların belirlenmesi
İLKNUR MELİS DURASI KUMCU
Doktora
İngilizce
2018
BiyoistatistikSabancı ÜniversitesiMoleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı
PROF. DR. DEVRİM GÖZÜAÇIK