Geri Dön

Makina öğrenme yöntemleriyle genom dizilim verilerinin analizi

Analysis of genome sequence data using machine learning methods

  1. Tez No: 337098
  2. Yazar: ERGÜN GÜMÜŞ
  3. Danışmanlar: PROF. DR. AHMET SERTBAŞ
  4. Tez Türü: Doktora
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Genetik, Computer Engineering and Computer Science and Control, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

Geçtiğimiz yüzyılda biyoloji ve genetik alanında yaşanan ilerlemeler ?Biyoinformatik? isimli yeni bir disiplinin oluşumuna ve insanoğlunun dünyadaki canlı çeşitliliğini, hastalıklara neden olan etmenleri ve çözümlerini daha iyi anlamasına yol açmıştır. Canlının yapı taşı olan genomu her yönüyle anlamayı hedefleyen genom araştırmalarının şüphesizki bu ilerlemede payı büyüktür. Bununla beraber her yeni dizileme sisteminde, genom dizileme maliyetlerinin düşmesiyle beraber genom araştırmalarının önemli bir çalışma alanı olan ?kişiye özgü ilaç tasarımı? daha fazla uygulanabilir hale gelmiştir. Bu bağlamda makine öğrenme ve istatistiki analiz yöntemlerine bağlı genom analizi de önemli bir rol kazanmıştır. Bu çalışma kapsamında, gen tedavisi araştırmalarında gen transferi amacıyla kullanılan ve HIV (İnsan Bağışıklık Yetmezliği Virüsü)?den türetilmiş lentivirüs vektörlerinin insan genomunda yerleşmeyi tercih ettiği bölgelerde gözlemlenen simetrik/palindromik davranışı yakalayan bir örüntü tarama aracı geliştirilmiştir. Örüntü tarama aracının, oluşturulan farklı test kümeleri üzerinde, çeşitli dizilim özellikleri ve değişken parametrelerle (pencere genişliği ve pencereler arası boşluk gibi) kullanılması sonucu probleme en uygun parametreler belirlenmiştir. Sonuçların anlamlılığı z-test ve Man-Whitney-Wilcoxon sıralama toplamı testi gibi istatistiki testlerle sınanmıştır. Çalışmanın ikinci kısmında, söz konusu örüntü tarama aracında kullanılan Kanonik Bağıntı Analizi yöntemi, vaka ve kontrol gruplarındaki farklı ?Bağlantı Eşitsizliği?ne sahip bölgelerin tespiti için kullanılmış ve böylece Behçet hastalığına neden olan aday mutasyonların genomdaki dağılımı incelenmiştir. Sonuçlar, söz konusu yöntemin hastalığa neden olan ve birbiriyle ilişkili mutasyonların tespiti için de kullanılabileceğini ortaya koymuştur. Çalışmanın son aşamasında, milletlerin genetik çeşitlilikleri ve coğrafi dağılımları arasındaki ilişki incelenmiştir. Buna göre ?İnsan Genomu Çeşitliliği Projesi? (Human Genome Diversity Project) kapsamında oluşturulmuş bir veri kümesinden faydalanılmış ve Temel Bileşen Analizi yöntemi yardımıyla insanların genetik çeşitliliğinin coğrafi çeşitlilikleri ile bağıntılı olduğu gösterilmiştir. Bunun yanı sıra, bu bağıntıyı ifade etme konusunda daha az sayıda tekli nükleotit çeşitliliğinin de yeterli olabildiği görülmüştür.

Özet (Çeviri)

Over the past century, the progress in biology and genetics fields has helped the birth of a new discipline called ?Bioinformatics? and a better understanding of species variety, causes of diseases and along with their cures. Without a doubt, genome-wide studies which aim to understand genome with all of its aspects, have a major role in this progress. Nevermore, due to reduced sequencing costs by each sequencing system, ?personalized medicine?, which is a core study field of genomic research, has become much more applicable. In this context, machine learning and genome analysis based on statistical methods have gained an important role. Lentivectors derived from various types of viruses are used for gene transfer in gene therapy studies. In this study, a pattern search tool of which aim is to find symmetric/palindromic behavior observed in the integration regions of HIV (Human Immunodeficiency Virus) derived lentivirus vectors, has been developed. By using the pattern search tool on different test sets with different sequence features and parameters (like window width and gap between windows), optimal parameters specific to the problem have been determined. Significance of the results have been tested using statistical tests like z-test and Mann-Whitney-Wilcoxon ranksum test. In second part of the study, Canonical Correlation Analysis method on which the developed pattern search tool depended, has been used to detect genomic regions with different ?Linkage Equilibrium? values in case/control groups. By this way, distribution of candidate mutations causing to Behcet?s disease has been analyzed. Results proved that this methodology can be used to detect disease related and cross-correlated mutations. In last part of the study, the relation between the genetic diversities and geographical locations of races has been studied. For this reason, the dataset which had been composed in context of Human Genome Diversity Project has been utilized and with the help of Principal Component Analysis method, a correlation (called as geo-genomic correlation) between the pairwise genetic distance and geographical distance of races has been found. Nevertheless, it is shown that much less number of Single Nucleotide Polymorphisms (SNP) are required to establish such correlation than using all SNPs.

Benzer Tezler

  1. İlişkili genom dizilim kümeleri arasındaki bağıntıların analizi için yapay öğrenme yöntemleri

    Machine learning methods for analysing correlations among sets of related genome sequences

    NAZİFE ÇEVİK

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OLCAY KURŞUN

  2. Gen dizilerinin tanımlanması ve sınıflandırılması amacıyla Yapay Zekâ sistemlerinin geliştirilmesi

    Development of Artificial Intelligence systems for the identification and classification of gene sequences

    BAHAR ÇİFTÇİ

    Doktora

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBatman Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. RAMAZAN TEKİN

  3. Genom-boyu ilişki çalışmalarında poligenik risk skorunun makine öğrenimi ve derin öğrenme yöntemleri ile tahmin edilmesi

    Prediction of polygenic risk score by machine learning and deep learning methods in genome-wide association studies

    RAGIP ONUR ÖZTORNACI

    Doktora

    Türkçe

    Türkçe

    2021

    BiyoistatistikMersin Üniversitesi

    Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı

    PROF. DR. BAHAR TAŞDELEN

    PROF. DR. CEMİL ÇOLAK

  4. Derin öğrenme yaklaşımı ile protein reprezantasyonunu temel alan yeni bir varyant etki tahmin modeli

    A novel variant effect prediction model based on protein representation with deep learning architecture

    GÜLBAHAR MERVE ŞILBIR

    Doktora

    Türkçe

    Türkçe

    2024

    BiyoistatistikKaradeniz Teknik Üniversitesi

    Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı

    DOÇ. DR. BURÇİN KURT

  5. OSAS hastaları ile sağlıklı bireylerdeki nabız geçiş sürelerinin makina öğrenmesi teknikleriyle sınıflandırılması

    Classification of pulse transit times in healthy individuals with osas patients using the machine learning method

    BEYZA NUR AKILOTU

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SEDA ARSLAN TUNCER