Genomic modelling of bipolar disorders: Comparison of multifactor dimension reduction and classification-based data mining methods
Bıpolar bozuklukların genomik modellemesi: Çok faktörlü boyut indirgeme ve sınıflama tabanlı veri madenciliği yöntemlerinin karşılaştırılması
- Tez No: 459339
- Danışmanlar: DOÇ. DR. YEŞİM AYDIN SON
- Tez Türü: Doktora
- Konular: Genetik, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Sağlık Bilişimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 123
Özet
Genomik modellemede; farklı veri madenciliği yöntemleri, değişken başarılar ile genom boyu ilişkilendirme çalışmaları ile elde edilen çok katmanlı verileri analiz etmede kullanılmaktadırlar. Bu çalışmada; çok faktörlü boyut indirgeme (MDR) (tek nükleotid polimorfizimleri (SNP) veya genler arasındaki etkileşimleri de inceleyen bir non-parametrik yöntem) ile sınıflama tabanlı üç veri madenciliği yönteminin, bipolar bozukluk genomik modellerinde, karşılaştırılması amaçlanmıştır. Bu çalışma Bipolar Bozukluklar Tüm Genom Asosyasyon Çalışması (dbGaP Numarası: phs000017.v3.p1) verisi ile yapılmıştır. Sınıflama temelli 3 veri madenciliği yöntemi (Random Forest [RF], Naïve Bayes [NB] and k-Nearest Neighborhood [kNN]) ve MDR kullanılmıştır. Ayrıca saptanan ortak SNP'ler için pathway analizleri yapılmış ve yorumlanmıştır. RF, NB, ve kNN sırasıyla 16, 13, ve 10 aday SNP saptamıştır. Üç yöntemin belirlediği ilk altı SNP ortaktır. RF ve kNN, 0.95 üzerindeki recall değerleri ile, NB'e gore daha başarılı sonuçlar vermiştir. Diğer yandan MDR, iki ve üç yönlü etkileşim ile, sadece 5 SNP ile karşılaştırılabilir kestirim gücüne sahip bir model üretmiştir. MDR ile saptanan SNP'ler sınıflama tabanlı diğer üç modelden farklı olmasına karşın tüm modellerde polimorfizmlerin ZNF507 ve DOCK10 genlerine haritalandıkları saptanmıştır. Sadece farklı 5 SNP saptayan MDR'ın aksine, üç sınıflama tabanlı veri madenciliği yaklaşımı, RF, NB ve kNN, bipolar bozukluk kestiricisi olarak benzer SNP polimorfizmlerini önceliklendirmişlerdir. Sınıflama performansını düşürmeksizin, daha az sayıda SNP ile kestirim yapmak bipolar bozuklukların arkasındaki moleküler mekanizmanın anlaşılmasını ve tanı araçlarının validasyon çalışmalarını kolaylaştırmaktadır. Bununla birlikte genomik modellerin kliniğe geçişinin daha yüksek sınıflandırma performansına sahip modeller gerektirdiği belirtilmelidir.
Özet (Çeviri)
In genomic modeling, various data mining techniques are proposed with varying degrees of success to analyze high-dimensional data generated by genome-wide association studies of complex genetic disorders. In this study, we aimed to compare Multifactor Dimensionality Reduction (MDR), a non-parametric approach that can be used to detect relevant interactions between Single Nucleotide Polymorphisms (SNPs) or genes, with 3 other classification based data mining methods for genomic modeling of bipolar disorders. This study was performed on a Whole Genome Association Study of Bipolar Disorders (dbGaP Number: phs000017.v3.p1) data. Three classification based data mining methods (Random Forest [RF], Naïve Bayes [NB] and k-Nearest Neighborhood [kNN]) and MDR were performed. Pathway analysis, based on identified common SNPs is also performed, and evaluated. RF, NB, and kNN identified 16, 13, and 10 candidate SNPs, respectively. The top six SNPs were common to all three. The RF and kNN models were found to be more successful than the NB model, with recall values above 0.95. On the other hand, MDR generated a model with comparable predictive performance based on five SNPs identified by analysis of two-way and three-way interactions. Although a different SNP profile is identified in MDR compared to the other three classification-based models, all models identified SNPs mapping to the ZNF507 and DOCK10 genes. Three classification-based data mining approaches, RF, NB and kNN, have prioritized similar SNP profiles as predictors of bipolar disorders, in contrast to MDR, which reported a different set, which includes only five SNPs. The reduced number of SNPs, without loss in the classification performance, has the potential to facilitate validation studies to understand the molecular mechanisms behind bipolar disorders and molecular diagnostics tools. Nevertheless, we emphasize that translation of genomic models to the clinic require models with higher levels of classification performance.
Benzer Tezler
- Bioinformatic analysis and biostatistical modelling of genetic interactions between microbiota and host
Mikrobiyota-konak genetik etkileşimlerinin biyoinformatik ve biyoistatistiksel olarak modellenmesi
FARID MUSA
Yüksek Lisans
İngilizce
2020
Biyoistatistikİzmir Yüksek Teknoloji EnstitüsüBiyoteknoloji Ana Bilim Dalı
DOÇ. DR. EFE SEZGİN
- Understanding the genomic regulatory code of hemocytes with deep learning, topic modelling and single-cell genomics
Genomik düzenlemeyi anlamak derin öğrenme ile hemosit kodu,konu modelleme ve tek hücreli genomik
MEHMET ERİM ERDAL
Yüksek Lisans
İngilizce
2021
Bilim ve TeknolojiKatholieke Universiteit Leuven (Catholic University of Leuven)PROF. DR. İBRAHİM İHSAN TAŞKIRAN
- Optimization models for survival analysis to identify key gene sets in cancer
Kanser hastalığında önemli gen kümelerini belirlemek için geliştirilen en iyileme modelleri
ONUR DERELİ
Doktora
İngilizce
2020
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği ve Operasyon Yönetimi
PROF. DR. CEYDA OĞUZ
- Modelling functional dynamical systems by piecewise linear systems with delay
Fonksiyonel dinamik sistemlerin gecikmeli parçalı doğrusal sistemler ile modellenmesi
MUSTAFA KAHRAMAN
Yüksek Lisans
İngilizce
2007
Bilim ve TeknolojiOrta Doğu Teknik ÜniversitesiBilimsel Hesaplama Ana Bilim Dalı
PROF.DR. MARAT AKHMET
YRD. DOÇ. DR. HAKAN ÖKTEM
- Omic analyses of stress-resistant Saccharomyces cerevisiae
Strese dirençli Saccharomyces cerevisiae'nin omik analizleri
ENES FAHRİ TEZCAN
Yüksek Lisans
İngilizce
2023
Biyomühendislikİstanbul Teknik ÜniversitesiMoleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı
PROF. DR. ZEYNEP PETEK ÇAKAR
PROF. DR. ŞEFİKA KUTLU ÜLGEN