Whole genome alignment via alternating lyndon factorization tree traversal
Almaşık lyndon faktörizasyon ağacında gezinerek tüm genom hizalama
- Tez No: 828268
- Danışmanlar: DOÇ. DR. CAN ALKAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: İhsan Doğramacı Bilkent Üniversitesi
- Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 91
Özet
Tüm Genom Hizalama Problemi (WGA), ̈ozellikle pangenom oluşturma bağlamında genomik alanında önemli bir zorluktur. Burada, düğümlerinde hem mekansal hem de alfabetik bilgileri bir araya getiren yeni bir indeksleme yapısı olan Almaşık Lyndon Faktörizasyon Ağacı (ALFAğacı) öneriyoruz. ALFAğacı, büyük DNA dizileri hakkında bilgi depolamak ve geri almak için etkili bir araçtır. Belirli bir DNA dizisinden ALFAğacını oluşturmak için Idoneous adını verdiğimiz bir algoritma sunuyoruz. Algoritma, belirli boyutlardaki aralıkları oluşturarak, bu aralıklar içinde eşleşmeleri belirleyerek ve hizalama işlemleri aracılığıyla bir doğrulama kontrolü gerçekleştirerek çalışır. Algoritma verimli ve ölçeklenebilir olduğundan, WGA için değerli bir araçtır. ALFAğacının önemli özellikleri şunlardır: 1) büyük DNA dizilerini depolamak için kompakt ve verimli bir veri yapısı; 2) belirli bir DNA dizisinin belli bölgeleri hakkında bilgiyi etkili bir şekilde geri alabilme; 3) hem mekansal hem de alfabetik bilgilere uyum sağlama yeteneği; ve 4) büyük DNA dizilerine ölçeklenebilme. Farklı genomlardaki deneysel sonuçlarımız, parametre seçimlerinin kapsama ve benzerlik üzerindeki etkilerini vurgulamaktadır. Idoneous, kapsama açısından rekabetçi bir performans sergilemekte ve farklı hizalama senaryoları için hassasiyet ve özgüllük ayarlamasında esneklik sağlamaktadır. ALFAğacı, WGA algoritmalarının performansını önemli ölçüde artırma potansiyeline sahiptir. ALFAğacının genomik alanına değerli bir katkı olduğuna inanıyor ve araştırmacıların keşif hızını hızlandırmak için kullanmasını umuyoruz.
Özet (Çeviri)
The Whole Genome Alignment Problem (WGA) is an important challenge in the field of genomics, especially in the context of pangenome construction. Here we propose a novel indexing structure called the Alternating Lyndon Factorization Tree (ALFTree), which incorporates both spatial and lexicographical information within its nodes. The ALFTree is a powerful tool for WGA, as it can efficiently store and retrieve information about large DNA sequences. We present an algorithm, namely Idoneous, specifically designed to construct the ALFTree from a given DNA sequence. The algorithm works by generating intervals of specific sizes, identifying matches within these intervals, and performing a sanity check through alignment procedures. The algorithm is efficient and scalable, making it a valuable tool for WGA. Some of the key features of the ALFTree are 1) compact and efficient data structure for storing large DNA sequences; 2) efficient retrieval of information about specific regions of a DNA sequence; 3) ability to handle both spatial and lexicographical information; and 4) scalability to large DNA sequences. Our experimental results on different genomes highlight the effects of parameter selections on coverage and identity. Idoneous demonstrates competitive performance in terms of coverage and provides flexibility in adjusting sensitivity and specificity for different alignment scenarios. The ALFTree has the potential to significantly improve the performance of WGA algorithms. We believe that the ALFTree is a valuable contribution to the field of genomics, and we hope that it will be used by researchers to accelerate the pace of discovery.
Benzer Tezler
- Fusarium graminearum izolatlarının mitokondriyal DNA varyasyon analizi
Mitochondrial DNA variation analysis of fusarium graminearum isolates
AYLİN GAZDAĞLI
Yüksek Lisans
Türkçe
2015
Genetikİstanbul ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
DOÇ. DR. GÜLRUH ALBAYRAK
- Lactococcus garvieae'de virulans genlerinin moleküler karakterizasyonu
Molecular characterization of virulence genes in lactococcus garvieae
TUĞBA TEKER
Yüksek Lisans
Türkçe
2017
Genetikİstanbul ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
PROF. DR. GÜLRUH ALBAYRAK
PROF. DR. TÜLAY AKAYLI
- Computational methods for analyzing ngs data to discover clinically relevant mutations
Klinikle ilişkili mutasyonların keşfinde etkin yeni nesil dizileme verisi analiz metotları
BEKİR ERGÜNER
Doktora
İngilizce
2017
BiyolojiSabancı ÜniversitesiMoleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı
PROF. DR. İSMAİL ÇAKMAK
- Nadir metabolik hastalıklarda tüm ekzom dizileme verilerinin biyoinformatik analizleri ile fenotipten sorumlu varyantların değerlendirilmesi
Bioinformatics analysis and variant interpretation of whole exome sequencnig data in inborn errors of metabolism
CAN KOŞUKCU
Doktora
Türkçe
2024
Endokrinoloji ve Metabolizma HastalıklarıHacettepe ÜniversitesiPediatrik Temel Bilimler Ana Bilim Dalı
PROF. DR. RIZA KÖKSAL ÖZGÜL
- P. atlantica'da cinsiyet spesifik DNA dizilerinin belirlenmesi
Determination of sex-specific DNA sequences in P. atlantica
BURAK ÖZGÖREN
Yüksek Lisans
Türkçe
2023
BiyoteknolojiÇukurova ÜniversitesiBiyoteknoloji Ana Bilim Dalı
PROF. DR. SALİH KAFKAS