Genom-boyu ilişki çalışmalarında poligenik risk skorunun makine öğrenimi ve derin öğrenme yöntemleri ile tahmin edilmesi
Prediction of polygenic risk score by machine learning and deep learning methods in genome-wide association studies
- Tez No: 688350
- Danışmanlar: PROF. DR. BAHAR TAŞDELEN, PROF. DR. CEMİL ÇOLAK
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Mersin Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 77
Özet
Genom-boyu İlişki Çalışmaları (Genome-wide Association Studies, GWAS) belirli bir hastalığa neden olduğu düşünülen genleri ve genom bölgelerini belirlemek için, hastalık durumu ve genetik varyasyon arasındaki ilişkiyi inceleyen çalışmalardır. Aynı anda tüm kromozomlara dolayısıyla da birçok gene bakılarak Gen-gen ve Gen-Çevre etkileşimleri incelenir. GWAS yalnızca özel olarak belirlenen bir gen üzerinde çalışmak yerine, hasta-kontrol grupları arasındaki farklılıkları ortaya çıkartmak için tüm genom boyunca büyük miktardaki veri setleri ile yürütülür. Benzer koşullarda neden bazı bireylerin daha sağlıklı iken, diğerlerinin hastalığa yatkın olmasına, aynı hastalığın farklı bireyler arasında neden farklı şekilde seyrettiğine, ayrıca bazı bireylerin tedaviye olumlu yanıt verirken, diğerlerinin vermemesine büyük oranda açıklık getiren, Genom dizisindeki tek nükleotidlerdeki değişmelere tek nükleotid polimorfizmi (single nucleotide polymorphism, SNP) adı verilir ve GWAS çalışmaları SNP verileri ile yürütülür. Son yıllarda genetik yatkınlığın değerlendirilmesinde Poligenik risk skorunun (PRS) kullanılması yaygın bir yaklaşımdır. PRS, aynı anda birden çok SNP kullanılarak, bir hastalık için genetik risk skoru sağlayan bir ölçüttür ve tipik bir hastalık skoru olarak hesaplanabilir. PRS, genetik olarak karmaşık özelliklerde ve hastalıklar için risk tahmininde bireysel mutasyonlara bakmaktan daha faydalıdır. Kalp hastalığı, diyabet, otoimmün hastalıklar ve zihinsel bozukluklar gibi birçok genetik olarak karmaşık yapıdaki hastalıklarda PRS hesaplamak yaygındır. En yüksek SNP sayısı ve en yüksek örnek genişliğinde, klasik yöntem ile elde edilen PRS ve DL yöntemlerinin sonuçlarının hem hastalar hem de kontroller için 1 değerinin üzerine çıkarken, SVM ve RF yöntemleri [0,00:0,20] aralığında sonuçlar elde etmişlerdir. Farklı örnek genişliklerinde ve farklı SNP sayılarında, makine öğrenimi yöntemleri ile hesaplanan PRS, klasik yöntem (PRS) ile hesaplanan PRS'e göre ortalamalar bakımından hasta-kontrol ayırımını yapmada daha tutarlı sonuçlar elde edebileceği görülmüştür. Benzer bir yaklaşımla SNP sayısını sabit tutulup örnek genişliğindeki artışın sırasında meydana gelen değişiklikler gözlemlenirse; klasik yöntem (PRS), SVM ve DL için etkili olabileceği görülürken, RF yöntemi için değişimin çok büyük olmadığını söylemek mümkündür. SNP sayısı sabit tutulduğunda, örnek genişliğindeki değişimden en çok etkilenen iki yöntem klasik PRS ve DL olduğunu söylemek mümkündür. Bu yöntemlerin klinik risk skoruyla birlikte kullanımının, popülasyondaki hasta-sağlıklı sınıflaması açısından daha iyi sonuçlar elde edebileceği de düşünülmektedir. Klasik PRS hesaplama yöntemi için, SNP sayısı arttıkça elde edilen PRS skorunun da daha yüksek değerlere ulaşarak, arttığını gözlemlemek mümkün hale geldiği söylenebilirken SVM ve RF yöntemleri SNP sayısındaki değişimden direkt olarak elde edilen ortalamalar bakımından etkilenmedikleri görülmüştür. Ancak, daha dar güven aralıklarına sahip olarak, popülasyondaki hasta-kontrol ayrımını daha net yaptıkları söylenebilir. Gelişen teknoloji ile günümüzde makine öğrenimi ve derin örenme yöntemlerinin kullanımı klasik biyoistatistiksel yöntemlere göre yaygınlaştığı göz önünde bulundurularak, PRS tahminleri için makine öğrenimi yöntemleri ve derin öğrenme yöntemlerine başvurulması kaçınılmazdır.
Özet (Çeviri)
Genome-wide Association Studies are studies that examine the relationship between disease status and genetic variation to identify genes and regions of the genome that are thought to cause a particular disease. Gene-gene and Gene-Environment interactions are examined by scanning at all chromosomes and therefore many genes at the same time. Rather than working only on one specific gene, GWAS is run with large datasets across the entire genome to reveal differences between patient-control groups. Changes in single nucleotides in the genome sequence are called single nucleotide polymorphisms, which explains to a great extent why some individuals are healthier while others are prone to disease, why the same disease progresses differently among different individuals, and why some individuals respond positively to treatment while others do not. GWAS studies are conducted with SNP data. In recent years, it has been a common approach to use the Polygenic risk score (PRS) in the evaluation of genetic susceptibility. PRS is a measure that provides a genetic risk score for a disease using multiple SNPs simultaneously and can be calculated as a typical disease score. PRS is more useful than scanning at individual mutations in genetically complex traits and predicting risk for diseases. It is common to calculate PRS in many genetically complex diseases such as heart disease, diabetes, autoimmune diseases and mental disorders. While the results of the PRS and DL methods obtained with the classical method, with the highest number of SNPs and the highest sample size, exceeded 1 for both patients and controls, the SVM and RF methods obtained results in the range of [0.00:0,20]. It has been seen that PRS calculated with machine learning methods at different sample sizes and different SNP numbers can achieve more consistent results in terms of patient-control discrimination compared to PRS calculated with the classical method (PRS). With a similar approach, if the number of SNPs is kept constant and changes occurring during the increase in sample size are observed; While it can be seen that it can be effective for the classical method (PRS), SVM and DL, it is possible to say that the change is not very big for the RF method. When the number of SNPs is kept constant, it is possible to say that the two methods most affected by the variation in sample size are classical PRS and DL. It is also thought that the use of these methods together with the clinical risk score can achieve better results in terms of patient-healthy classification in the population. For the classical PRS calculation method, it can be said that as the number of SNPs increases, it becomes possible to observe that the obtained PRS score also increases by reaching higher values. However, with narrower confidence intervals, it can be said that they make the patient-control distinction in the population more clearly. Considering that with the developing technology, the use of machine learning and deep learning methods has become widespread compared to classical biostatistical methods, it is inevitable to use machine learning methods and deep learning methods for PRS estimations.
Benzer Tezler
- Investigation of familial multiple sclerosis genetics
Ailesel multipl skleroz genetiğinin araştırılması
ELİF EVEREST
Doktora
İngilizce
2022
Genetikİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. EDA TAHİR TURANLI
- Drosophila melanogaster ' de Parkin geni ile etkileşen genomik elementleri̇n negatif jeotaksis ifadesi ile saptanması
Identification of the genomic elements interacting with Parkin gene related negative geotaxis in Drosophila melanogaster
ÖZGE DÜZGÜN
Yüksek Lisans
Türkçe
2016
GenetikHacettepe ÜniversitesiBiyoloji Ana Bilim Dalı
DOÇ. DR. ERGİ DENİZ ÖZSOY
- Çoklu gen çalışmalarında interaksiyon ve eklemeli etkilerin optimizasyon yöntemleriyle modellenmesi
Modeling interaction and additive effects with optimization methods in multiple gene studies
HAVVA DİDEM ÇELİKCAN
Doktora
Türkçe
2019
BiyoistatistikMersin ÜniversitesiBiyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
PROF. DR. BAHAR TAŞDELEN
PROF. DR. CEMİL ÇOLAK
- Association mapping of some agronomic and morphological traits in potato ( Solanum tuberosum L. )
Patateste ( Solanum tuberosum L. ) bazı agronomik ve morfolojik özelliklerin ilişki haritalaması
MUHAMMAD ABUBAKAR ZIA
Doktora
İngilizce
2018
BiyoteknolojiNiğde Ömer Halisdemir ÜniversitesiTarımsal Genetik Mühendisliği Ana Bilim Dalı
Prof. Dr. MEHMET EMİN ÇALIŞKAN
- Patateste çeşitli tarımsal ve fizyolojik özelliklerin kalıtımı ve bunlar arasındaki ilişkiler
Başlık çevirisi yok
MÜMTAZ ERASLAN