Investigation of the impacts of linkage disequilibrium on SNP selection studies
Tek nükleotit polimorfizm (SNP) seçimi çalışmalarında bağlantı dengesizliğinin etkilerinin incelenmesi
- Tez No: 383013
- Danışmanlar: PROF. DR. GERHARD WİEHELM WEBER, DOÇ. DR. CEM İYİGÜN
- Tez Türü: Yüksek Lisans
- Konular: Genetik, Genetics
- Anahtar Kelimeler: SNP, Genom Ölçeğinde İlişkilendirme Çalışmaları, Prostat Kanseri, p Değeri, Rastgele Orman, SNP, Genome Wide Association Studies, Prostate Cancer, p Value, Random Forest
- Yıl: 2015
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyomedikal Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 108
Özet
Genom ölçeğinde ilişkilendirme çalışmalarında (GWAS), DNA üzerinde tek nükleotid polimorfizmi olarak adlandırılan SNPler ile kompleks hastalıklar arasındaki ilişlki ortaya çıkarılmaya çalışılır. Literatürde, bu amaca yönelik çalışmlardan daha verimli bir şekilde sonuç elde edebimek için çeşitli algoritmlar yer almaktadır. Bizim çalışmamızda da LD' nin, yüksek miktarda, çok boyutlu veri setlerini içeren bu çalışmalar üzerindeki etkisini ölçmek adına yeni bir algortima geliştirilmiştir. Web tabanlı SNAP (SNP Annotation and Proxy Search) aracı kullanılarak r^2 değeri 0.5 olarak belirlenmiş ve veri setimizde yer alan her bir SNP ile ilgili LD bölgesinde bulunan SNP dizileri elde eilmiştir. Daha sonra elde edilen her bir SNP dizisi için Fisher's Combination metodu kullanılarak combined p value olarak adlandırdığımız bileşik bir p değeri hesaplanmıştır. Bu değer SNP dizileri içerisinde orjinal p değeri en küçük olan SNP'e atanarak çalışmanın ileriki basamaklarında kullanılacak olan yeni bir veri seti elde edilmiştir. Orjinal veri seti olara dbGAP veritabanından elde edilen prostat kanser verileri kullanılmıştır. LD kullanılarak elde edilen veri ile orjinal veri üzerinde SNPPnexus analizi gerçekleştirilmiş ve bulunan hastalıkla ilişkili SNPler karşılaştırılarak performans değerlendirmeleri yapılmıştır. Ayrıca daha önce de belirttiğimiz gibi GWAS çalışmaları, yüksek miktarda veri üzerinde yürütülmektedir. Bu yüzden karmaşaya ve zaman kaybına neden olan yığınla anlamsız veriden sakınılması gerekmektedir. LD yardımı ile, gereksiz bir takım veriyi filtreleyerek elde ettiğimiz bir diğer veri setinde uygulanan SNPnexus analizi gösteriyor ki; yaklaşık yarı yarıya düşen SNP sayısı ile, aynı anlamlı genlere ulaşabiliyoruz. Bu da, çalışmaya başlamadan önce öngördüğümüz bazı sonuçlara ulaştığımızı gösteriyor. Bütün bu çalışmaların yanısıra bu iki veri seti, bir de rastgele orman metoduna girdi olarak verilmiş ve elde edilen çıktılar karşılaştırılarak bu algoritmanın etkisi değerlendirilmiştir. Bu çalışmanın bir diğer amacı da gen bölgesinde yer almayan ancak bir geni dolaylı olarak etkilebilecek olan düzenleyici SNPleri (rSNPs) de tespit etmek. Bu SNPleri araştırırken de gördük ki; orjinal veri seti ve LD tabanlı veri setinden elde edilen sonuçlar karşılaştırıldığında, LD tabanlı veri setinden daha verimli sonuçlar elde edebiliyoruz. Sonuç olarak anlaşılıyor ki, hastalıkla ilişkili SNPlerin seçimi üzerine yürütülen çalışmlarda LD'nin etkisinin ölçülmesi bu çalışmanın temel amacıdır.
Özet (Çeviri)
In many Genome Wide Association Studies (GWAS), the relation between SNPs and complex diseases has being tried to reveal. Moreover it is known that, in GWAS there exist a high amount of data which include relations between SNPs, phenotypes and diseases, etc. Many algorithms have been used to be able to reach the desired information from this huge data. Therefore, in this study, an algorithm one of whose important steps is based on linkage disequilibrium(LD), was constructed to eliminate the redundant information from the high-dimensional data. The algorithm improved in this study has been tested on prostate cancer data set downloaded from dbGaP. In order to find disease related SNPs in GWAS in a more effective way, we have constructed an algorithm which is based on LD. The web tool called SNAP (SNP Annotation and Proxy Search) was used to obtain the SNPs in the region of LD, which was determined based on the specific threshold value for r^2. This value was selected as 0.5. After obtaining a modified version of original data set based on LD, Using Fisher's Combination Method, we have obtained associated combined p values for each SNP in this data set. Then using SNPnexus database, we tried to achieve disease related SNPs from both data sets which are the original and modified ones. Thus both of the performances being applied on these data sets were evaluated relative to each other. Moreover, after eliminating the redundant data we have applied SNPnexus analysis again and then the results have shown us, by using approximately half of the SNPs, we were able to achieve the desired genes. Besides all of them also random forest algorithm was performed on the data set including SNPs with individual p values and the modified data set which is including SNPs with combined p values. The outputs of both performances were compared. In addition, one more purpose of this study, being able to reach the most important regulatory SNPs (rSNPs) in GWAS. Based on the data set which was modified using LD, we have focused on the non-coding SNPs, which are located on noncoding regions, through the whole genome. In conclusion, the number of important regulatory SNPs that were found from the modified data set, is much higher than we have found before by using original data set., it is expected from this thesis is that, the studies which have been conducted on prioritization of disease related SNPs are being effected by linkage disequilibrium(LD).
Benzer Tezler
- An investigation on the association of certain polymorphisms in neurogulin 1 gene with schizophrenia
Neurogulin 1 genindeki bazı polimorfizmlerin şizofreni ile ilişkisi üzerine bir araştırma
AYŞE ASİYE CULUM
Yüksek Lisans
İngilizce
2016
Genetikİnönü ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
YRD. DOÇ. DR. MUSTAFA MERT SÖZEN
- Kronik tinnitusta bdnf (beyin kaynaklı nörotrofik faktör) val66met polimorfizmi ile bağlantılı bdnf antisense rna polimorfizmlerinin araştırılması
Investigation of bdnf antisense rna polymophisms in connection with bdnf (brain generated neurotrophic factor) val66met polymophism in chronic tinitus
BUSE YÜKSEL
Yüksek Lisans
Türkçe
2022
Bilim ve TeknolojiAydın Adnan Menderes ÜniversitesiMoleküler Biyoteknoloji Ana Bilim Dalı
DOÇ. DR. SEDA ÖRENAY BOYACIOĞLU
- Çeşitli adsorbanlar ile hümik bileşiklerinin adsorbsiyonu üzerine bir çalışma
Başlık çevirisi yok
SELMA KAYA
- Correlations between composition attributes of architecture and music
Mimari ve müziğin kompozisyon özellikleri arasındaki korelasyonlar
SEYED FARHAD TAYYEBI
Doktora
İngilizce
2021
Mimarlıkİstanbul Teknik ÜniversitesiMimarlık Ana Bilim Dalı
Prof. Dr. YÜKSEL DEMİR
- The effect of offshore wind farm activities on the phytoplankton population
Açık deniz rüzgar çiftlikleri faaliyetlerinin fitoplankton nüfusu üzerine etkisi
MEYSAM BALANESHIN KORDAN
Yüksek Lisans
İngilizce
2021
Denizcilikİstanbul Teknik ÜniversitesiGemi ve Deniz Teknoloji Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEVİL DENİZ YAKAN DÜNDAR