Geri Dön

Comparative next generation sequencing data analysis

Karşılaştırmalı yeni nesil dizileme verisi analizi

  1. Tez No: 956673
  2. Yazar: MEHMET ARİF ERGÜN
  3. Danışmanlar: DOÇ. DR. MEHMET BAYSAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 69

Özet

Yeni nesil dizileme (YND), son on yılda biyoloji, genetik ve tıp başta olmak üzere pek çok alanda devrim niteliğinde değişimlere öncülük etmiştir. Bu teknoloji, DNA ve RNA'nın yüksek çözünürlüklü, hızlı ve uygun maliyetli dizilenmesini mümkün kılarak küresel çapta genomik veri bankaları oluşmasını sağlamıştır. DNA dizileme (DNA-seq), kalıtsal hastalıkların genetik temellerinin belirlenmesi, kanserde tümörlerin genetik profillerinin çıkarılması ve somatik mutasyonların belirlenmesi gibi analizleri mümkün kılarak kişiye özel tedavi stratejilerinin geliştirilmesinin önünü açmıştır. RNA dizileme (RNA-seq) analizleri ise farklı dokulardaki gen ekspresyon düzeylerini inceleyerek dokulardaki anormal gen aktivitelerini ve düzenleyici mekanizmaları anlamada önemli katkı sağlamıştır. Bu gelişmeler, temel bilimlerden klinik uygulamalara kadar geniş bir yelpazede yeniliklere kapı aralamış, araştırmacılara ve hekimlere daha önce mümkün olmayan derinlikte bilgi sunmuştur. YND teknolojisi, her bir çalışmada terabaytlarca veri üreterek büyük ölçekli depolama ve analiz altyapılarına olan ihtiyacı artırmıştır. Üretilen verinin kişisel veri niteliği taşıması sebebiyle tüm depolama ve analiz işlemlerinin güvenli şekilde yapılmasını zorunlu kılmaktadır. Aynı zamanda, bu verilerin analiz edilmesi, yüksek hesaplama gücü, optimize edilmiş algoritmalar ve biyoinformatik uzmanlığı gerektirerek süreci daha karmaşık hale getirmektedir. Tipik bir DNA dizileme analizi işlem hattı, ham veri kalite kontrolü ve adaptör silme, ham okumaları bir referans genoma hizalama, yinelenen okuma silme, varyant arama ve varyant anlamlandırma dahil olmak üzere çeşitli adımlardan oluşur. Bu adımların her biri için farklı güçlü yönleri ve kısıtlamaları olan çok sayıda biyoinformatik araç mevcuttur. Okuma uzunluğu, kapsama derinliği ve hata profilleri gibi dizileme verilerinin doğal özellikleri, araç performansını önemli ölçüde etkiler ve optimum iş akışı yapılandırması için karşılaştırmalı sistematik değerlendirme gerektirir. Temel olarak somatik mutasyonlardan kaynaklanan genetik bir hastalık olan kanser, YND teknolojilerinden önemli ölçüde yararlanan başlıca araştırma alanlarından biridir. Modern hedefe yönelik tedaviler belirli genetik belirteçlere odaklanmak üzere tasarlandığından spesifik genomik değişikliklerin varlığı tedavi kararlarını önemli ölçüde etkileyebilir. Bu nedenle, somatik mutasyonların doğru ve güvenilir tespiti klinik karar verme süreci için çok önemlidir. Somatik mutasyonların doğru bir şekilde belirlenmesi, yalnızca tedavi kararlarını değil, aynı zamanda tedaviye yanıtın izlenmesi ve direnç mekanizmalarının anlaşılmasını da etkiler. Ancak, tümör hücrelerinin heterojen yapısı bu süreçte önemli zorluklar yaratır. Tümör dokusu genellikle hem kanserli hem de normal hücrelerden oluşur ve bu durum, özellikle düşük varyant alel frekanslarına sahip mutasyonların tespitini zorlaştırır. Geleneksel tespit eşikleri bu tür düşük frekanslı varyantları gözden kaçırabilir ve bu da önemli biyolojik veya klinik bilgiler kaybolmasına neden olabilir. Ek olarak, somatik mutasyonların tespitinde kullanılan algoritmalar, veri kalitesi, dizileme derinliği ve hata profilleri gibi teknik faktörlerden büyük ölçüde etkilenir. Bu durum, yüksek hassasiyete sahip araçların kullanılmasını ve analiz iş akışlarının optimize edilmesini zorunlu kılar. Ayrıca, klinikte kullanılan YND tabanlı testlerin sonuçlarının güvenilir olması için standartlaştırılmış kalite kontrol önlemleri ve doğrulama süreçleri gereklidir. Böylece, hem araştırmacılar hem de klinisyenler, somatik mutasyonların tespiti ve analizi yoluyla kanser tedavisinde daha etkili ve kişiselleştirilmiş çözümler geliştirebilir. Günümüzde açık kaynaklı dizileme analiz platformları, araştırmacılara esnek ve güçlü çözümler sunmaktadır. Galaxy ve Terra gibi yaygın kullanılan platformlar, genomik, metagenomik ve transkriptomik analizler için birçok algoritma içerse de, genellikle bulut tabanlı çalıştıkları için veri paylaşımı kısıtlamalarına takılmaktadırlar. Ayrıca, GPU gibi donanım hızlandırmalarına sınırlı destek vermeleri, büyük ölçekli verilerin yerel olarak işlenmesini zorlaştırmaktadır. Sarek, DNAScan ve Sequana gibi diğer iş akışı sistemleri ise ya kullanıcı dostu bir arayüze sahip değildir ya da karşılaştırmalı analiz için geniş algoritma desteğinden yoksundur. Bu eksiklikler, esnek, kullanıcı dostu ve hem yerel hem de kurumsal kullanıma uygun yeni bir analiz platformuna olan ihtiyacı ortaya koymaktadır. Bu tezin ilk aşamasında, glioblastoma (beyin kanseri) örneklerinden oluşan özgün bir veri kümesi üzerinde haritalama (mapping) ve varyant keşfi algoritmalarının performansları test edilmiştir. Veri kümesi, tümör ilerlemesinin çeşitli aşamalarını temsil eden ve her biri farklı heterojenlik profilleri sergileyen 55 (50 kanser, 5 sağlıklı) tüm-ekzom dizileme (WES) verisinden oluşmaktadır. 3 haritalama ve 4 varyant keşfi algoritması kombine edilerek 12 ayrı iş akışı olşturulmuş ve bunlar 50 tümör örneği üzerinde çalıştırılarak toplamda 600 sonuç elde edilmiştir. Bulgularımız, tümör heterojenliğinin varyant keşfi performansını önemli ölçüde etkilediğini ortaya koymaktadır. Ayrıca, birden fazla iş akışını birleştiren topluluk yaklaşımlarının (ensemble) genel performansı önemli ölçüde artırdığını gösterilmiştir. Glioblastoma veri kümesine ek olarak, değişken heterojeniteye sahip dokuların simüle edildiği veriler üzerinde bulgular doğrulanmıştır. Tezin ikinci aşamasında, YND verilerinin analizini kolaylaştırmak ve karşılaştırmalı analizleri desteklemek amacıyla geliştirilen Comparative Sequencing Analysis Platform (COSAP) sunulmaktadır. COSAP, DNA dizileme analizlerinde yaygın kullanılan birçok bioinformatik aracın uyumlu bir şekilde entegre edilmesine olanak tanıyan, modüler ve açık kaynaklı bir platformdur. Mevcut dizileme analiz araçlarının çoğu ya kullanıcı dostu bir arayüze sahip değildir ya da esnek iş akışları oluşturmayı zorlaştırmaktadır. COSAP, bu eksiklikleri gidermek için geliştirilmiş olup, SNV, indel, yapısal varyant, kopya sayısı değişimi ve mikrosatellit instabilitesi gibi analiz adımları için birden fazla algoritma seçeneği sunarak, farklı kombinasyonların etkisinin karşılaştırılmasını sağlamaktadır. Kullanıcılar, önceden yüklenmiş algoritmalarla analiz iş akışlarını planlayabilir ve çalıştırabilirken, Python API desteği sayesinde ileri düzey kullanıcılar özelleştirilmiş iş akışları oluşturabilir. COSAP, dağıtık işleme yöntemleri ile mevcut algoritmaları 8 kata kadar hızlandırarak, büyük ölçekli genomik veri setleri üzerinde analiz süreçlerini optimize etmektedir. Docker konteynerleri sayesinde hem bireysel araştırmacılar hem de kurumsal kullanıcılar için ölçeklenebilir bir yapı sunar ve yerel veya sunucu tabanlı olarak çalıştırılabilir. Platforma entegre edilen karşılaştırma modülü, analiz araçlarının sistematik olarak değerlendirilmesine olanak tanıyarak, kullanıcıların kendi verileri üzerindeki performanslarını verimli bir şekilde analiz etmelerini sağlar. İş akışlarının oluşturulması ve çalıştırılması birbirinden ayrılmış olduğundan, kullanıcılar şablon dosyaları aracılığıyla analizlerini web arayüzü veya API üzerinden yönetebilirler. Böylece COSAP, DNA dizileme analizlerinde hız, esneklik, kullanıcı dostu bir arayüz ve karşılaştırmalı analiz imkanı sunarak araştırmacılar için güçlü bir çözüm sağlamaktadır. Tezin son bölümünde bir önceki adımda tanıtılan yazılım paketi kullanılarak, yaygın kullanıma sahip haritalandırma ve varyant keşfi algoritmaları teste tabi tutulmuştur. Bu testler, farklı teknolojilerle, farklı derinlik ve kapsamda dizilenmiş tümör-normal eşli örneklerin ve bu örneklerdeki doğrulanmış varyantların yayınlandığı SEQC2 veri kümesi kullanılarak gerçekleştirilmiştir. Bulgularımız doğrulanmış varyantların büyük kısmının tüm iş akışları tarafından tespit edilse de, çeşitli varyant keşfi algoritmalarının özellikle düşük alel frekasına sahip mutasyonları kaçırabildiğini göstermektedir. Bu durum, pek çok düşük frekanslı mutasyonun klinik öneme sahip olduğu kanser çalışmaları için engel teşkil etmektedir.

Özet (Çeviri)

Next-generation sequencing (NGS) technologies have revolutionized genomics and biomedical research by enabling rapid and cost-effective sequencing of DNA and RNA. The widespread adoption of these technologies in both clinical and academic applications has resulted in the accumulation of an immense volume of genomic data. This unprecedented data surge presents substantial computational challenges as analyzing and interpreting NGS data requires sophisticated algorithms and significant computational resources. A typical DNA sequencing analysis pipeline consists of several steps including raw data quality control and adapter removal, aligning raw reads to a reference genome, duplicated read removal, variant calling and variant annotation. A plethora of bioinformatics tools exists for each of these steps, each with distinct strengths and limitations that influence tool selection by researchers and practitioners. The inherent characteristics of sequencing data, such as read length, coverage depth, and error profiles, significantly impact tool performance, necessitating systematic comparative evaluation for optimal pipeline configuration. Cancer, a genetic disease primarily driven by somatic mutations, is one of the major research areas that significantly benefits from NGS technologies. The presence of specific genomic alteration can dramatically influence treatment decisions, as modern targeted therapies are designed to address particular genetic variants Therefore, accurate and reliable detection of somatic mutations is crucial for clinical decision-making. The heterogeneous nature of tumor cells presents challenges for variant detection, especially when identifying mutations with low variant allele frequencies, which often fall below conventional detection thresholds. In this thesis, a systemic evaluation of aligners and variant callers on a novel glioblastoma dataset is conducted. The dataset comprises 55 whole-exome sequencing (WES) samples representing various stages of tumor progression, each exhibiting distinct heterogeneity profiles. We evaluated 12 distinct analytical pipelines created by combining 3 mapping algorithms with 4 variant callers, executing 600 independent analyses across the tumor samples. Our findings reveal that the heterogeneity of the sample significantly affects variant calling performance. Furthermore, we demonstrate that ensemble approaches combining multiple pipelines significantly improve the overall performance. To validate our findings from the glioblastoma samples, we generated an in-silico dataset that simulates various heterogeneity profiles. To address the challenges in comparative NGS analysis, we present a computational framework that facilitates the seamless integration of multiple bioinformatics tools into cohesive DNA sequencing analysis pipelines. The framework implements parallelized versions of widely-used tools, achieving up to 8-fold acceleration when utilizing high-performance storage systems. The integrated comparison module enables systematic evaluation of diverse analytical tools, allowing users to efficiently assess tool performance on their specific datasets. Leveraging this functionality, we conducted a comprehensive benchmarking study using the SEQC2 somatic mutation reference dataset, evaluating combinations of 2 alignment algorithms and 6 variant callers. Our analysis reveals significant tool compatibility constraints and demonstrates that several commonly employed variant callers exhibit reduced sensitivity in detecting low-frequency variants, a limitation particularly relevant for cancer genomics applications.

Benzer Tezler

  1. Kanserde biyobelirteç tespitine yönelik somatik ve germ-line tüm genom dizileme, transkriptom profilleme ve karşılaştırmalı biyoinformatik analizleri

    Whole genome and transcriptome profilling for cancer biomarker detection via comparison of somatic versus germ/line variants and its bioinformatic analysis

    İBRAHİM BOGA

    Doktora

    Türkçe

    Türkçe

    2021

    GenetikÇukurova Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. ATIL BİŞGİN

  2. Nörogelişimsel bozukluklar ve/veya konjenital anomalileri olan olguların moleküler karyotipleme ve yeni nesil dizileme verilerinin karşılaştırmalı değerlendirilmesi

    Comparative evaluation of molecular karyotyping and next generation sequencing data in cases with neurodevelopmental disorders and/or congenital anomalies

    ARZU GULIYEVA

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Genetikİstanbul Medeniyet Üniversitesi

    Tıbbi Genetik Ana Bilim Dalı

    DOÇ. DR. FİLİZ ÖZEN

  3. Marmara Dnizi musilajı ile deniz suyu metagenomunun karşılaştırmalı olarak incelenmesi

    Comparative investigation of seawater and mucilage metagenomes in the Marmara Sea

    GİZEM KARIŞ

    Doktora

    Türkçe

    Türkçe

    2024

    BiyoteknolojiErciyes Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    PROF. DR. AYCAN GÜNDOĞDU

  4. Radyodirençli baş-boyun kanseri hücre modelinde circRNA'ların transkriptomik profillemesi ve biyobelirteç potansiyelinin araştırılması

    Transcriptomic profiling of circRNAs and assessment of their biomarker potential in a radioresistant head and neck cancer cell model

    GÖKSEL TURHAL

    Doktora

    Türkçe

    Türkçe

    2025

    OnkolojiEge Üniversitesi

    Temel Onkoloji Ana Bilim Dalı

    PROF. DR. AYŞE CANER

    DR. ÖĞR. ÜYESİ UFUK MERT

  5. Dishormonogenezli konjenital hipotirodi hastalarında yeni nesil dizi analizi ile genetik etiyoloji değerlendirilmesi

    Evaluation of genetic etiology with a new generation sequence analysis in congenital hypothrody patients with dishormonogenesis

    ÜMRAN POTA

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2023

    Çocuk Sağlığı ve HastalıklarıPamukkale Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    PROF. DR. SELDA AYÇA ALTINCIK

    PROF. DR. GÖKHAN OZAN ÇETİN