Geri Dön

Whole genome alignment via alternating lyndon factorization tree traversal

Almaşık lyndon faktörizasyon ağacında gezinerek tüm genom hizalama

  1. Tez No: 828268
  2. Yazar: MAHMUD SAMİ AYDIN
  3. Danışmanlar: DOÇ. DR. CAN ALKAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: İhsan Doğramacı Bilkent Üniversitesi
  10. Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 91

Özet

Tüm Genom Hizalama Problemi (WGA), ̈ozellikle pangenom oluşturma bağlamında genomik alanında önemli bir zorluktur. Burada, düğümlerinde hem mekansal hem de alfabetik bilgileri bir araya getiren yeni bir indeksleme yapısı olan Almaşık Lyndon Faktörizasyon Ağacı (ALFAğacı) öneriyoruz. ALFAğacı, büyük DNA dizileri hakkında bilgi depolamak ve geri almak için etkili bir araçtır. Belirli bir DNA dizisinden ALFAğacını oluşturmak için Idoneous adını verdiğimiz bir algoritma sunuyoruz. Algoritma, belirli boyutlardaki aralıkları oluşturarak, bu aralıklar içinde eşleşmeleri belirleyerek ve hizalama işlemleri aracılığıyla bir doğrulama kontrolü gerçekleştirerek çalışır. Algoritma verimli ve ölçeklenebilir olduğundan, WGA için değerli bir araçtır. ALFAğacının önemli özellikleri şunlardır: 1) büyük DNA dizilerini depolamak için kompakt ve verimli bir veri yapısı; 2) belirli bir DNA dizisinin belli bölgeleri hakkında bilgiyi etkili bir şekilde geri alabilme; 3) hem mekansal hem de alfabetik bilgilere uyum sağlama yeteneği; ve 4) büyük DNA dizilerine ölçeklenebilme. Farklı genomlardaki deneysel sonuçlarımız, parametre seçimlerinin kapsama ve benzerlik üzerindeki etkilerini vurgulamaktadır. Idoneous, kapsama açısından rekabetçi bir performans sergilemekte ve farklı hizalama senaryoları için hassasiyet ve özgüllük ayarlamasında esneklik sağlamaktadır. ALFAğacı, WGA algoritmalarının performansını önemli ölçüde artırma potansiyeline sahiptir. ALFAğacının genomik alanına değerli bir katkı olduğuna inanıyor ve araştırmacıların keşif hızını hızlandırmak için kullanmasını umuyoruz.

Özet (Çeviri)

The Whole Genome Alignment Problem (WGA) is an important challenge in the field of genomics, especially in the context of pangenome construction. Here we propose a novel indexing structure called the Alternating Lyndon Factorization Tree (ALFTree), which incorporates both spatial and lexicographical information within its nodes. The ALFTree is a powerful tool for WGA, as it can efficiently store and retrieve information about large DNA sequences. We present an algorithm, namely Idoneous, specifically designed to construct the ALFTree from a given DNA sequence. The algorithm works by generating intervals of specific sizes, identifying matches within these intervals, and performing a sanity check through alignment procedures. The algorithm is efficient and scalable, making it a valuable tool for WGA. Some of the key features of the ALFTree are 1) compact and efficient data structure for storing large DNA sequences; 2) efficient retrieval of information about specific regions of a DNA sequence; 3) ability to handle both spatial and lexicographical information; and 4) scalability to large DNA sequences. Our experimental results on different genomes highlight the effects of parameter selections on coverage and identity. Idoneous demonstrates competitive performance in terms of coverage and provides flexibility in adjusting sensitivity and specificity for different alignment scenarios. The ALFTree has the potential to significantly improve the performance of WGA algorithms. We believe that the ALFTree is a valuable contribution to the field of genomics, and we hope that it will be used by researchers to accelerate the pace of discovery.

Benzer Tezler

  1. Fusarium graminearum izolatlarının mitokondriyal DNA varyasyon analizi

    Mitochondrial DNA variation analysis of fusarium graminearum isolates

    AYLİN GAZDAĞLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Genetikİstanbul Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DOÇ. DR. GÜLRUH ALBAYRAK

  2. Lactococcus garvieae'de virulans genlerinin moleküler karakterizasyonu

    Molecular characterization of virulence genes in lactococcus garvieae

    TUĞBA TEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Genetikİstanbul Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    PROF. DR. GÜLRUH ALBAYRAK

    PROF. DR. TÜLAY AKAYLI

  3. Computational methods for analyzing ngs data to discover clinically relevant mutations

    Klinikle ilişkili mutasyonların keşfinde etkin yeni nesil dizileme verisi analiz metotları

    BEKİR ERGÜNER

    Doktora

    İngilizce

    İngilizce

    2017

    BiyolojiSabancı Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı

    PROF. DR. İSMAİL ÇAKMAK

  4. Nadir metabolik hastalıklarda tüm ekzom dizileme verilerinin biyoinformatik analizleri ile fenotipten sorumlu varyantların değerlendirilmesi

    Bioinformatics analysis and variant interpretation of whole exome sequencnig data in inborn errors of metabolism

    CAN KOŞUKCU

    Doktora

    Türkçe

    Türkçe

    2024

    Endokrinoloji ve Metabolizma HastalıklarıHacettepe Üniversitesi

    Pediatrik Temel Bilimler Ana Bilim Dalı

    PROF. DR. RIZA KÖKSAL ÖZGÜL

  5. P. atlantica'da cinsiyet spesifik DNA dizilerinin belirlenmesi

    Determination of sex-specific DNA sequences in P. atlantica

    BURAK ÖZGÖREN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    BiyoteknolojiÇukurova Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    PROF. DR. SALİH KAFKAS