Machine learning based model for clinical characterization of germline variants from RNA-seq data
RNA-seq datasından germ hattı varyantların klinik karakterizasyonu için makine öğrenmesi tabanlı model
- Tez No: 768502
- Danışmanlar: PROF. DR. FATİH ERDOĞAN SEVİLGEN
- Tez Türü: Yüksek Lisans
- Konular: Biyomühendislik, Bioengineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Gebze Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoinformatik Sistemler Biyolojisi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 84
Özet
Varyant analizi sonucu bulunan varyantların klinik sınıfı, ACMG-AMP kriterlerine göre hesaplamalı olarak tahmin edilmekte veya ClinVar gibi veri tabanlarından elde edilmektedir. ClinVar veri tabanındaki varyantlar, deneysel veya hesaplamalı olarak karakterize edilmiştir. Bununla birlikte, tüm varyantlar patojenik veya iyi huylu olarak sınıflandırılmamıştır. Bu sınıflandırılmamış varyantlar literatürde belirsiz öneme sahip varyant (Variant of Uncertain Significance, VUS) olarak adlandırılmaktadır. Varyantlar, varyantların popülasyon sıklığı, ekzonik fonksiyonu klinik sınıfı gibi belirli kriterlere göre filtreleme yapılarak önceliklendirilmekte ve uzmanlar tarafından yorumlanmaktadır. VUS'lar, önceliklendirme ve yorumlama sorunları nedeniyle klinisyenler tarafından sıklıkla raporlanmamaktadır. Bu nedenle VUS'lar, özellikle nadir görülen kalıtsal hastalıklarda düşük tanı oranlarının nedenlerinden biridir. Son yıllarda, RNA-Seq verilerinden elde edilen ekspresyon ve uç birleştirme (splicing) bilgileri kullanılarak VUS'ların önceliklendirilebileceğini gösteren birçok çalışma yayınlanmıştır. Bu çalışma kapsamında, RNA-Seq verilerinin VUS karakterizasyonu üzerindeki önemi araştırılmış ve yeni bir rastgele orman sınıflandırıcısı tabanlı VUS karakterizasyon modeli önerilmiştir. Modelin eğitimi sırasında, yayınlanmış çalışmalardaki varyant sınıflandırıcılar tarafından geleneksel olarak kullanılan patojenite tahmin puanları ve popülasyon sıklığı gibi özniteliklere ek olarak uç birleştirme ve ekspresyon özniteliklerinden faydalanılmıştır. Elde edilen model, 5 kat çapraz doğrulama kullanan model için %98 ortalama doğruluk ve bir test verisi üzerinde VUS'ların patojenitesini (özgüllük) tahmin etmek için %88 doğruluk sağlamaktadır. Ancak, uç birleştirme ve ekspresyonu etkileyen varyant sayısının yetersiz olması nedeniyle, RNA-Seq verilerinin varyant karakterizasyonu üzerindeki gözlenen etkisi çok sınırlıydı.
Özet (Çeviri)
Clinical class of variants obtained by variant analysis are estimated computationally according to ACMG-AMP criteria or retrieved from databases such as ClinVar. Variants in the ClinVar database have been characterized either experimentally or computationally. However, not all variants are classified as pathogenic or benign. Those non-classified variants are referred to as Variant of Uncertain Significance (VUS) in the literature. Variants are prioritized by filtering based on certain criteria such as population frequency, exonic function clinical class of the variants and then interpreted by experts. VUSs are often not reported by clinicians due to prioritization and interpretation problems. Therefore, VUSs are the one of the reasons for the low diagnostic rate, especially in rare hereditary diseases. In recent years, many studies have been published demonstrating that VUSs can be prioritized using expression and splicing information obtained from RNA-Seq data. Within the scope of this study, the significance of RNA-Seq data on VUS characterization was investigated and a novel random forest classifier based VUS characterization model is proposed. During training of the model, we exploit splicing and expression features, in addition to features such as pathogenicity prediction scores and population frequency which are customarily used by variant classifiers in published studies. The resulting model provides, 98% mean accuracy for the model using 5-fold cross-validation and %88 accuracy for predicting pathogenicity of VUSs (specificity) on a holdout test data. However, due to the insufficient number of variants affecting splicing and expression, the effect of RNA-Seq data on variant characterization was very limited.
Benzer Tezler
- Holografik mikroskopinin hücresel analiz ve veri güvenliği performansının iyileştirilmesi
Improvement of cellular analysis and data security performance of holographic microscopy
MUHAMMED ALİ PALA
Doktora
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Uygulamalı Bilimler ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA ZAHİD YILDIZ
- Machine learning-based decision tree model for differential diagnosis of congenital adrenal hyperplasia subtypes using steroid hormone profiles
Steroid hormon profı̇llerı̇nı̇ kullanarak konjenital adrenal hı̇perplazı̇ alt tı̇plerı̇nı̇n ayırıcı tanısı ı̇çı̇n makı̇ne öğrenmesı̇ tabanlı karar ağacı modelı̇
ATAM NOYAN ERÇETİN
Yüksek Lisans
İngilizce
2024
BiyomühendislikMarmara ÜniversitesiBiyomühendislik Ana Bilim Dalı
PROF. DR. KAZIM YALÇIN ARGA
- Social behavior learning for an assistive companion robot
Yardımcı robotlar için sosyal davranış öğrenimi
PINAR ULUER
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
PROF. DR. HATİCE KÖSE
- Pıhtı dalga formu analizi kullanarak makine öğrenmesi temelli mortalite tahminleme modeli geliştirilmesi
Development of a machine learning based mortality prediction model using clot waveform analysis
VELİ İYİLİKCİ
Tıpta Uzmanlık
Türkçe
2023
BiyokimyaSağlık Bilimleri ÜniversitesiTıbbi Biyokimya Ana Bilim Dalı
PROF. DR. AYFER ÇOLAK
- Machine and deep learning based analysis of tumors on FDG-PET images
FDG-PET görüntülerindeki tümörlerin makine ve derin öğrenme tabanlı analizi
OĞUZHAN AYYILDIZ
Doktora
İngilizce
2022
Elektrik ve Elektronik MühendisliğiAbdullah Gül ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BÜLENT YILMAZ