Geri Dön

Genom-boyu ilişki çalışmalarında poligenik risk skorunun makine öğrenimi ve derin öğrenme yöntemleri ile tahmin edilmesi

Prediction of polygenic risk score by machine learning and deep learning methods in genome-wide association studies

  1. Tez No: 688350
  2. Yazar: RAGIP ONUR ÖZTORNACI
  3. Danışmanlar: PROF. DR. BAHAR TAŞDELEN, PROF. DR. CEMİL ÇOLAK
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Mersin Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 77

Özet

Genom-boyu İlişki Çalışmaları (Genome-wide Association Studies, GWAS) belirli bir hastalığa neden olduğu düşünülen genleri ve genom bölgelerini belirlemek için, hastalık durumu ve genetik varyasyon arasındaki ilişkiyi inceleyen çalışmalardır. Aynı anda tüm kromozomlara dolayısıyla da birçok gene bakılarak Gen-gen ve Gen-Çevre etkileşimleri incelenir. GWAS yalnızca özel olarak belirlenen bir gen üzerinde çalışmak yerine, hasta-kontrol grupları arasındaki farklılıkları ortaya çıkartmak için tüm genom boyunca büyük miktardaki veri setleri ile yürütülür. Benzer koşullarda neden bazı bireylerin daha sağlıklı iken, diğerlerinin hastalığa yatkın olmasına, aynı hastalığın farklı bireyler arasında neden farklı şekilde seyrettiğine, ayrıca bazı bireylerin tedaviye olumlu yanıt verirken, diğerlerinin vermemesine büyük oranda açıklık getiren, Genom dizisindeki tek nükleotidlerdeki değişmelere tek nükleotid polimorfizmi (single nucleotide polymorphism, SNP) adı verilir ve GWAS çalışmaları SNP verileri ile yürütülür. Son yıllarda genetik yatkınlığın değerlendirilmesinde Poligenik risk skorunun (PRS) kullanılması yaygın bir yaklaşımdır. PRS, aynı anda birden çok SNP kullanılarak, bir hastalık için genetik risk skoru sağlayan bir ölçüttür ve tipik bir hastalık skoru olarak hesaplanabilir. PRS, genetik olarak karmaşık özelliklerde ve hastalıklar için risk tahmininde bireysel mutasyonlara bakmaktan daha faydalıdır. Kalp hastalığı, diyabet, otoimmün hastalıklar ve zihinsel bozukluklar gibi birçok genetik olarak karmaşık yapıdaki hastalıklarda PRS hesaplamak yaygındır. En yüksek SNP sayısı ve en yüksek örnek genişliğinde, klasik yöntem ile elde edilen PRS ve DL yöntemlerinin sonuçlarının hem hastalar hem de kontroller için 1 değerinin üzerine çıkarken, SVM ve RF yöntemleri [0,00:0,20] aralığında sonuçlar elde etmişlerdir. Farklı örnek genişliklerinde ve farklı SNP sayılarında, makine öğrenimi yöntemleri ile hesaplanan PRS, klasik yöntem (PRS) ile hesaplanan PRS'e göre ortalamalar bakımından hasta-kontrol ayırımını yapmada daha tutarlı sonuçlar elde edebileceği görülmüştür. Benzer bir yaklaşımla SNP sayısını sabit tutulup örnek genişliğindeki artışın sırasında meydana gelen değişiklikler gözlemlenirse; klasik yöntem (PRS), SVM ve DL için etkili olabileceği görülürken, RF yöntemi için değişimin çok büyük olmadığını söylemek mümkündür. SNP sayısı sabit tutulduğunda, örnek genişliğindeki değişimden en çok etkilenen iki yöntem klasik PRS ve DL olduğunu söylemek mümkündür. Bu yöntemlerin klinik risk skoruyla birlikte kullanımının, popülasyondaki hasta-sağlıklı sınıflaması açısından daha iyi sonuçlar elde edebileceği de düşünülmektedir. Klasik PRS hesaplama yöntemi için, SNP sayısı arttıkça elde edilen PRS skorunun da daha yüksek değerlere ulaşarak, arttığını gözlemlemek mümkün hale geldiği söylenebilirken SVM ve RF yöntemleri SNP sayısındaki değişimden direkt olarak elde edilen ortalamalar bakımından etkilenmedikleri görülmüştür. Ancak, daha dar güven aralıklarına sahip olarak, popülasyondaki hasta-kontrol ayrımını daha net yaptıkları söylenebilir. Gelişen teknoloji ile günümüzde makine öğrenimi ve derin örenme yöntemlerinin kullanımı klasik biyoistatistiksel yöntemlere göre yaygınlaştığı göz önünde bulundurularak, PRS tahminleri için makine öğrenimi yöntemleri ve derin öğrenme yöntemlerine başvurulması kaçınılmazdır.

Özet (Çeviri)

Genome-wide Association Studies are studies that examine the relationship between disease status and genetic variation to identify genes and regions of the genome that are thought to cause a particular disease. Gene-gene and Gene-Environment interactions are examined by scanning at all chromosomes and therefore many genes at the same time. Rather than working only on one specific gene, GWAS is run with large datasets across the entire genome to reveal differences between patient-control groups. Changes in single nucleotides in the genome sequence are called single nucleotide polymorphisms, which explains to a great extent why some individuals are healthier while others are prone to disease, why the same disease progresses differently among different individuals, and why some individuals respond positively to treatment while others do not. GWAS studies are conducted with SNP data. In recent years, it has been a common approach to use the Polygenic risk score (PRS) in the evaluation of genetic susceptibility. PRS is a measure that provides a genetic risk score for a disease using multiple SNPs simultaneously and can be calculated as a typical disease score. PRS is more useful than scanning at individual mutations in genetically complex traits and predicting risk for diseases. It is common to calculate PRS in many genetically complex diseases such as heart disease, diabetes, autoimmune diseases and mental disorders. While the results of the PRS and DL methods obtained with the classical method, with the highest number of SNPs and the highest sample size, exceeded 1 for both patients and controls, the SVM and RF methods obtained results in the range of [0.00:0,20]. It has been seen that PRS calculated with machine learning methods at different sample sizes and different SNP numbers can achieve more consistent results in terms of patient-control discrimination compared to PRS calculated with the classical method (PRS). With a similar approach, if the number of SNPs is kept constant and changes occurring during the increase in sample size are observed; While it can be seen that it can be effective for the classical method (PRS), SVM and DL, it is possible to say that the change is not very big for the RF method. When the number of SNPs is kept constant, it is possible to say that the two methods most affected by the variation in sample size are classical PRS and DL. It is also thought that the use of these methods together with the clinical risk score can achieve better results in terms of patient-healthy classification in the population. For the classical PRS calculation method, it can be said that as the number of SNPs increases, it becomes possible to observe that the obtained PRS score also increases by reaching higher values. However, with narrower confidence intervals, it can be said that they make the patient-control distinction in the population more clearly. Considering that with the developing technology, the use of machine learning and deep learning methods has become widespread compared to classical biostatistical methods, it is inevitable to use machine learning methods and deep learning methods for PRS estimations.

Benzer Tezler

  1. Investigation of familial multiple sclerosis genetics

    Ailesel multipl skleroz genetiğinin araştırılması

    ELİF EVEREST

    Doktora

    İngilizce

    İngilizce

    2022

    Genetikİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    PROF. DR. EDA TAHİR TURANLI

  2. Drosophila melanogaster ' de Parkin geni ile etkileşen genomik elementleri̇n negatif jeotaksis ifadesi ile saptanması

    Identification of the genomic elements interacting with Parkin gene related negative geotaxis in Drosophila melanogaster

    ÖZGE DÜZGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    GenetikHacettepe Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. ERGİ DENİZ ÖZSOY

  3. Çoklu gen çalışmalarında interaksiyon ve eklemeli etkilerin optimizasyon yöntemleriyle modellenmesi

    Modeling interaction and additive effects with optimization methods in multiple gene studies

    HAVVA DİDEM ÇELİKCAN

    Doktora

    Türkçe

    Türkçe

    2019

    BiyoistatistikMersin Üniversitesi

    Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı

    PROF. DR. BAHAR TAŞDELEN

    PROF. DR. CEMİL ÇOLAK

  4. Association mapping of some agronomic and morphological traits in potato ( Solanum tuberosum L. )

    Patateste ( Solanum tuberosum L. ) bazı agronomik ve morfolojik özelliklerin ilişki haritalaması

    MUHAMMAD ABUBAKAR ZIA

    Doktora

    İngilizce

    İngilizce

    2018

    BiyoteknolojiNiğde Ömer Halisdemir Üniversitesi

    Tarımsal Genetik Mühendisliği Ana Bilim Dalı

    Prof. Dr. MEHMET EMİN ÇALIŞKAN

  5. Patateste çeşitli tarımsal ve fizyolojik özelliklerin kalıtımı ve bunlar arasındaki ilişkiler

    Başlık çevirisi yok

    MÜMTAZ ERASLAN

    Doktora

    Türkçe

    Türkçe

    1988

    ZiraatEge Üniversitesi

    Tarla Bitkileri Ana Bilim Dalı

    PROF. DR. METİN B. YILDIRIM