Geri Dön

Characterization of short tandem repeats using local assembly

Lokal DNA birleştirme metodu ile mikrosatellitlerin bulunması

  1. Tez No: 457163
  2. Yazar: GÜLFEM DEMİR
  3. Danışmanlar: YRD. DOÇ. DR. CAN ALKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2017
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 72

Özet

Bitişik tekrarlar, genomda kısa nükleotid sekanslarının düzenli olarak tekrarlanmasıdır. Eğer tekrar eden kısım 2-6 bp uzunluğunda ise mikrosatellitler ya da kısa bitişik tekrarlar olarak adlandırılır. Mikrosatellitlerin kopya sayısının artmasıyla ilişkilendirilmiş birçok hastalık bulunmaktadır, bunlara örnek olarak Huntington hastalığı ve Frajil X sendromu gösterilebilir. Bu yüzden insan genomunun yüzde üçünü oluşturan bitişik tekrarların tespit edilmesi önemli bir araştırma alanıdır. Mikrosatellit lokus yer alan varyantlar tekrarlı yapıları, dizileme sırasında meydana gelen hatalar, kısa DNA okumaları ve son olarak sıklıkla meydana gelen PCR hataları yüzünden genom birleştirme ve dizi hizalama için her zaman problem teşkil etmiştir. Büyük öneme sahip olmalarına rağmen mikrosatellitlerin bulunması hiçbir zaman DNA dizileme süreçlerinin kalıcı bir parçası olarak görülmemiştir. İnsan genomları arasındaki farklılıkların kataloglanmasını ama ̧clayan 1000 Genom Projesi'nin başlatılmasından sonra ilgili konsorsiyum sadece iki farklı mikrosatellit bulma methodunun sonucunu yayınladı (lobSTR ve RepeatSeq). Diğer büyük projelerin de mikrosatellit konusunu aydınlığa kavuşturmak için harcadığı çabalar başarısızlıkla sonuçlandı. Bu çalışmanın ana amacı genom birleştirme yöntemlerini, referans genom dizilimden bildiğimiz mikrosatellit pozisyonları üzerinde kullanarak incelenen genomun referanstan farklılıklarını bulmaktır. Bunun için DNA okumalarını girdi olarak alıp çıktı olarak mikrosatellit kopya sayısını veren bir süreç geliştirilmiştir. Yapılan araştırmaya göre hali hazırda genom birleştirme problemini farklı algoritmalar ve veri yapıları kullanarak çözmeye çalışan otuzdan fazla method bulunmaktadır. Bu tez kapsamında uğraştığımız problem bütün genomdan ziyade lokal birleştirme olarak görülebilir, çünkü sadece mikrosatellit bölgesine karşılık gelen okumaları birleştirmeye çalışıyoruz. Bu çalışmada genom birleştirme için sıklıkla kullanılan iki farklı çizge yapısından yararlanıyoruz: de Bruijn and OLC. Genom birleştirme bir çok çalışmanın bulunduğu bir alan olmasına rağmen, şu ana kadar mikrosatellit için kullanan bir çalışma bulunmamaktadır ve diğer mikrosatellit methodlarından daha iyi bir performans gösterdiği kanıtlanmaktadır. Üç farklı genom birleştirme methodunu, yukarıda bahsedilen iki çizge yapısını kullanan, üç farklı deney modelinde inceledik. Deneyler genotip olarak farklı durumlarda, değişen teminatlarla ya da birleştirilen bölgeye komşu bölgelerin dahil edilmesi durumundaki farklılıkları incelemek için düzenlendi. Her birinin sonucu OLC çizge yapısını kullanan methodun mikrosatellit bulunmasındaki üstünlüğünü kanıtlamaktadır.

Özet (Çeviri)

Tandem repeats are pieces of DNA where a pattern has multiple consecutive copies adjacent to itself. If the repeat unit (pattern) consists of 2 to 6 nucleotides, it can be referred to as a short tandem repeat or a microsatellite. There are many genetic diseases (such as Huntington disease and Fragile-X syndrome) linked with STR expansions and because tandem repeats make up 3% of the sequenced human genome STR detection research is significant. STR variations have always been a challenge for genome assembly and sequence alignment due to their repetitive nature, sequencing errors, short read lengths, and the high incidence of polymerase slippage at STR regions. Despite the information they carry being very valuable, STR variations have not gained enough attention to be a permanent step in genome sequence analysis pipelines. After The 1000 Genomes Project, which aimed to establish the most detailed genetic variation catalogue for humans, the consortium released only two STR prediction sets which are identified by two STR caller tools, lobSTR and RepeatSeq. Many other large research efforts have failed to shed light on STR variations. The main aim of this study is to use sequence assembly methods for regions where we know that there is an STR, based on reference genome, and release a complete pipeline from sample's reads to STR genotype. According to our literature survey, there are approximately 30 sequence assembly tools which use different algorithms and data structures to optimize their resource consumption. The assembly problem we are dealing with in the scope of this thesis can be considered as local assembly, which is the assembly procedure of reads that maps to a small part of the genome. We will be focusing on two general assembly approaches that make use of graph data structures: de Bruijn graph (DBG) based methods that rely on a variant of k-mer graph, overlap-layout-consensus (OLC) methods that are based on an overlap graph. Even though, sequence assembly is a well studied problem, there is not any work that uses assembly algorithms to characterize STRs. We demonstrate that using sequence assembly on STR regions increases the true positive rate of callers compared to state-of-art tools. We evaluated the performance of three different local assembly methods on three different experimental settings: focusing on (i) genotype based performance, (ii) coverage impact, and (iii) evaluating pre-processing and including flanking regions. All these experiments supported our belief on using assembly. Besides, we show that OLC based assembly methods bring much higher sensitivity to STR variant calling when compared to DBG based approaches. This concludes that assembly with OLC is a better way for genotyping STRs according to our experiments.

Benzer Tezler

  1. Kasava (Manihot esculenta C.) bakteriyel yanıklık hastalık etmeni Xanthomonas axonopodis pv. manihotis' in real-tıme pcr ile tanısı, tespiti ve pulsed-fıeld jel elektroforezis ile moleküler karakterizasyonunun yapılması

    Molecular characterization, identification and detection of Xanthomonas axonopodis pv. manihotis, the causal agent of cassava bacterial blight disease in cassava (Manihot esculenta C.) by real - time pcr and pulsed-field gel electrophoresis

    MUNTALA ABDULAI

    Doktora

    Türkçe

    Türkçe

    2017

    ZiraatAkdeniz Üniversitesi

    Bitki Koruma Ana Bilim Dalı

    PROF. DR. HÜSEYİN BASIM

  2. Synthesis and characterization of benzodithiophene containing conjugated polymers for organic bulk heterojunction solar cells

    Organik bulk heteroeklem güneş pilleri için benzoditiyofen içeren konjüge polimerlerin sentezi ve karakterizasyonu

    SULTAN TAŞKAYA ASLAN

    Doktora

    İngilizce

    İngilizce

    2022

    KimyaOrta Doğu Teknik Üniversitesi

    Kimya Ana Bilim Dalı

    PROF. DR. ALİ ÇIRPAN

  3. Fabrication of perovskite solar cells using ultrasonic spray coating

    Ultrasonik sprey kaplama yöntemi ile perovskit güneş hücrelerinin fabrikasyonu

    ERAY CEYHAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Fizik ve Fizik Mühendisliğiİzmir Yüksek Teknoloji Enstitüsü

    Fotonik Bilimi ve Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMRE SARI

  4. An investigation into polymer-based photovoltaic fiber structures

    Polimer esaslı fotovoltaik lif yapılarının araştırılması

    İSMAİL BORAZAN

    Doktora

    İngilizce

    İngilizce

    2017

    Tekstil ve Tekstil Mühendisliğiİstanbul Teknik Üniversitesi

    Tekstil Mühendisliği Ana Bilim Dalı

    PROF. DR. ALİ DEMİR

    DOÇ. DR. AYŞE BEDELOĞLU