Makina öğrenme yöntemleriyle genom dizilim verilerinin analizi
Analysis of genome sequence data using machine learning methods
- Tez No: 337098
- Danışmanlar: PROF. DR. AHMET SERTBAŞ
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Genetik, Computer Engineering and Computer Science and Control, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Geçtiğimiz yüzyılda biyoloji ve genetik alanında yaşanan ilerlemeler ?Biyoinformatik? isimli yeni bir disiplinin oluşumuna ve insanoğlunun dünyadaki canlı çeşitliliğini, hastalıklara neden olan etmenleri ve çözümlerini daha iyi anlamasına yol açmıştır. Canlının yapı taşı olan genomu her yönüyle anlamayı hedefleyen genom araştırmalarının şüphesizki bu ilerlemede payı büyüktür. Bununla beraber her yeni dizileme sisteminde, genom dizileme maliyetlerinin düşmesiyle beraber genom araştırmalarının önemli bir çalışma alanı olan ?kişiye özgü ilaç tasarımı? daha fazla uygulanabilir hale gelmiştir. Bu bağlamda makine öğrenme ve istatistiki analiz yöntemlerine bağlı genom analizi de önemli bir rol kazanmıştır. Bu çalışma kapsamında, gen tedavisi araştırmalarında gen transferi amacıyla kullanılan ve HIV (İnsan Bağışıklık Yetmezliği Virüsü)?den türetilmiş lentivirüs vektörlerinin insan genomunda yerleşmeyi tercih ettiği bölgelerde gözlemlenen simetrik/palindromik davranışı yakalayan bir örüntü tarama aracı geliştirilmiştir. Örüntü tarama aracının, oluşturulan farklı test kümeleri üzerinde, çeşitli dizilim özellikleri ve değişken parametrelerle (pencere genişliği ve pencereler arası boşluk gibi) kullanılması sonucu probleme en uygun parametreler belirlenmiştir. Sonuçların anlamlılığı z-test ve Man-Whitney-Wilcoxon sıralama toplamı testi gibi istatistiki testlerle sınanmıştır. Çalışmanın ikinci kısmında, söz konusu örüntü tarama aracında kullanılan Kanonik Bağıntı Analizi yöntemi, vaka ve kontrol gruplarındaki farklı ?Bağlantı Eşitsizliği?ne sahip bölgelerin tespiti için kullanılmış ve böylece Behçet hastalığına neden olan aday mutasyonların genomdaki dağılımı incelenmiştir. Sonuçlar, söz konusu yöntemin hastalığa neden olan ve birbiriyle ilişkili mutasyonların tespiti için de kullanılabileceğini ortaya koymuştur. Çalışmanın son aşamasında, milletlerin genetik çeşitlilikleri ve coğrafi dağılımları arasındaki ilişki incelenmiştir. Buna göre ?İnsan Genomu Çeşitliliği Projesi? (Human Genome Diversity Project) kapsamında oluşturulmuş bir veri kümesinden faydalanılmış ve Temel Bileşen Analizi yöntemi yardımıyla insanların genetik çeşitliliğinin coğrafi çeşitlilikleri ile bağıntılı olduğu gösterilmiştir. Bunun yanı sıra, bu bağıntıyı ifade etme konusunda daha az sayıda tekli nükleotit çeşitliliğinin de yeterli olabildiği görülmüştür.
Özet (Çeviri)
Over the past century, the progress in biology and genetics fields has helped the birth of a new discipline called ?Bioinformatics? and a better understanding of species variety, causes of diseases and along with their cures. Without a doubt, genome-wide studies which aim to understand genome with all of its aspects, have a major role in this progress. Nevermore, due to reduced sequencing costs by each sequencing system, ?personalized medicine?, which is a core study field of genomic research, has become much more applicable. In this context, machine learning and genome analysis based on statistical methods have gained an important role. Lentivectors derived from various types of viruses are used for gene transfer in gene therapy studies. In this study, a pattern search tool of which aim is to find symmetric/palindromic behavior observed in the integration regions of HIV (Human Immunodeficiency Virus) derived lentivirus vectors, has been developed. By using the pattern search tool on different test sets with different sequence features and parameters (like window width and gap between windows), optimal parameters specific to the problem have been determined. Significance of the results have been tested using statistical tests like z-test and Mann-Whitney-Wilcoxon ranksum test. In second part of the study, Canonical Correlation Analysis method on which the developed pattern search tool depended, has been used to detect genomic regions with different ?Linkage Equilibrium? values in case/control groups. By this way, distribution of candidate mutations causing to Behcet?s disease has been analyzed. Results proved that this methodology can be used to detect disease related and cross-correlated mutations. In last part of the study, the relation between the genetic diversities and geographical locations of races has been studied. For this reason, the dataset which had been composed in context of Human Genome Diversity Project has been utilized and with the help of Principal Component Analysis method, a correlation (called as geo-genomic correlation) between the pairwise genetic distance and geographical distance of races has been found. Nevertheless, it is shown that much less number of Single Nucleotide Polymorphisms (SNP) are required to establish such correlation than using all SNPs.
Benzer Tezler
- İlişkili genom dizilim kümeleri arasındaki bağıntıların analizi için yapay öğrenme yöntemleri
Machine learning methods for analysing correlations among sets of related genome sequences
NAZİFE ÇEVİK
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OLCAY KURŞUN
- Gen dizilerinin tanımlanması ve sınıflandırılması amacıyla Yapay Zekâ sistemlerinin geliştirilmesi
Development of Artificial Intelligence systems for the identification and classification of gene sequences
BAHAR ÇİFTÇİ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBatman ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. RAMAZAN TEKİN
- Genom-boyu ilişki çalışmalarında poligenik risk skorunun makine öğrenimi ve derin öğrenme yöntemleri ile tahmin edilmesi
Prediction of polygenic risk score by machine learning and deep learning methods in genome-wide association studies
RAGIP ONUR ÖZTORNACI
Doktora
Türkçe
2021
BiyoistatistikMersin ÜniversitesiBiyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
PROF. DR. BAHAR TAŞDELEN
PROF. DR. CEMİL ÇOLAK
- Derin öğrenme yaklaşımı ile protein reprezantasyonunu temel alan yeni bir varyant etki tahmin modeli
A novel variant effect prediction model based on protein representation with deep learning architecture
GÜLBAHAR MERVE ŞILBIR
Doktora
Türkçe
2024
BiyoistatistikKaradeniz Teknik ÜniversitesiBiyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
DOÇ. DR. BURÇİN KURT
- OSAS hastaları ile sağlıklı bireylerdeki nabız geçiş sürelerinin makina öğrenmesi teknikleriyle sınıflandırılması
Classification of pulse transit times in healthy individuals with osas patients using the machine learning method
BEYZA NUR AKILOTU
Yüksek Lisans
Türkçe
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEDA ARSLAN TUNCER