Quality assessment of high-throughput DNA sequencing data via range analysis
Aralık analizi ile yüksek hacimli DNA sekans verilerinin kalite değerlendirilmesi
- Tez No: 467151
- Danışmanlar: Assoc. Prof. Dr. MUHAMMED OĞUZHAN KÜLEKCİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Elektrik ve Elektronik Mühendisliği, Computer Engineering and Computer Science and Control, Electrical and Electronics Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Biyomedikal Mühendisliği Bilim Dalı
- Sayfa Sayısı: 82
Özet
Günümüzde, yüksek hacimli DNA diziliminin yaygınlaşmasıyla birlikte, sadece araştırma merkezleri değil, aynı zamanda hastaneler, klinikler ve hatta bireyler gibi uygulayıcılar sıralama merkezlerinin müşterileri oldular. Bu, üretilen sekans verilerinin kalitesini değerlendirmek için bir gereklilik getirmektedir. Uygulamadan bağımsız olarak, bu verilerin getirdiği en büyük güçlük, bu plaçelerden çıkan DNA sırası okumalarının güvenilirliklerini etkili bir şekilde karakterize etme yeteneğidir. Bu veri analizinde güvenilir sonuç elde etmek için, genom montajı sırasında okuma haritalama ve yollarındaki uyuşmazlıklardan kaçınarak düşük kaliteli okumaları ortadan kaldırmak çok önemlidir. Bilgileri ayıklamak ve değerli sonucu istatiksel ve diğer analiz biçimlerinde damıtarak kullanan çeşitli araçlar ve yöntemler kullanılmıştır; daha sonra, onları aktif bilgi toplamak ve kullanıcılara net bir içgörü elde etmek için kullanıcılara ve bilim adamlarına sunmuştur. Sıralama verilerinin kalitesinin değerlendirilmesi için yapılan önceki çalışmalar çoğunlukla, FASTQ dosyasında bildirilen A-C-G-T bazlarının istatistiksel dağılımını, örneğin baz sayısının oranı veya GC içeriği olarak değerlendirmiştir. Bununla birlikte, sıralama makineleri çıktı FASTQ dosyasında okudukları her bir taban için kalite puanı sağlar ve ilginç bir şekilde, bu kalite puanı kaliteyi ölçmek açısından henüz fazla dikkat çekmedi. DNA veri kalitesi değerlendirmesi için daha önce yapılmış çalışmalar çoğunlukla, düşük kaliteli okuma veya okuma bölümlerinden kurtulmak için her okuma ve filtrelemede Phred kalite puanlarını değiştiren istatistiksel raporlar sağlamaya odaklanmıştır. Buna ek olarak bazı ek analitik araçlar olabilir. Bu çalışmada, bir DNA dizilimi verisini (FASTQ dosyası) değerlendiren yeni metrikler tanımlanmıştır. Amaç en uzun yüksek kalitede okuma ve okuma parçalarını bulmaktır. Bu çalışmada, yalnızca sıralama verisinin kalite skorlarından hesaplanan bazı yeni metrikler sunuldu. Bu çalışmada tanıtılan ölçümler, Kalite skoru akışı üzerinde ters aralık seçimi sorguları gerçekleştirlmiş. Burada hedef, eşik değerine, v, eşit veya daha düşük olan k puanlarını içeren tüm aralıkları saptamaktır. Buradaki motivasyon, daha az hataya sahip uzun aralıkların, DNA sıralama verilerinin post-processing'de kullanılan araçların performansını arttırdığı gerçeğidir. Önerilen metriklerin, verilerin hassas bir şekilde paylaşılmasına gerek kalmadan kullanıcıların gizlilik koruyan değerlendirmeyi elde etmelerine izin verdiği dikkat çekicidir. Doğrudan A-C-G-T üslerine göre özel bilgi olmayan kalite skorlarından hesaplanmaktadır. Böylece, uzak ve bağımsız kalite değerlendirmesi, yalnızca verilerin kalite puanlarını paylaşarak başarılabilir. Bu çalışmada, yalnızca sıralama teorisinin kalite puanlarından hesaplanan bazı yeni metrikler sunuldu. Bu çalışmada tanıtılan ölçümler, k puanlarının eşik değeri v den küçük veya ona eşit olan tüm aralıkları saptamak amacının bulunduğu kalite puanı akışları üzerinden ters aralık seçim sorguları gerçekleştirilmesine dayanmaktadır. InvRS(k, v), v den küçük veya eşit olan k skorlarını içeren aralıkları döndürür ve onu seçme nedeni ile birlikte Q daki her öznitelik tanımlarız. Program, tanımlanmış metrikler nedeniyle çıkarılan kalite puanları üzerinde ters aralık seçim algoritması uygulayan python ile yazılmıştır. Sonuçlar, matplotlib, kalite göstergeleri için python kütüphanesi ve analizin daha kolay ve net olmasını sağlayan bir pdf dosyası kullanılarak rakamlarla gösterilir. Bu aralıkları saptamak için algoritmayı sunup uzunluklarından hesaplanan yeni metrikleri sunmaktayız. Bu metrikler, k ve v girdi parametrelerine uygun olan fragman uzunluklarının ve fragmanların sayısının en uzun, en kısa, ortalama, kübik ortalama ve katsayı değişimi için ortalama değerleri içerir. Program dosyayı aldığından, kullanıcı tanımlı özelliklerle en uzun okumaları bulmak için Phred kalite puanlarını ekstre edecektir. Phred kalite skoru metriklerin belirlenmesinde önemli rol oynamaktadır. Çünkü okumanın uzunluğunu bu değere göre alacağız, o zaman ölçümler okunan uzunluklara dayanarak tanımlanacak. Dolayısıyla DNA dosyasından Phred kalite skorları çıkararak, onların üzerinden en uzun, kaliteli okumları buluyoruz. Ama bu okumlar, kullanıici ilk başda giren k ve v değerlerini takıp etmelidir. Sonra bulmuş olduğumuz uzunluklara göre metriklerimizi hesab ediyoruz. Bu verileri değerlendirmek için, bir FASTQ dosyası giren farklı veri yapılarını kullanarak bir python programı yazılmış. Okuma sırasında düşük kalite değerleri sayısı için kullanıcı tarafından tanımlanan eşik, k, maksimum kalite değeri v, aralık olabilir ve kullanıcının veri üzerine filtrelem uygulanmasını istiyorsa, filtreleme yapılır, istatistiksel sonuçlar ve şekiller iyi sıralı veriler olup olmadığını belirlemek için bir çıktı olarak gösterilir. Veri ile ilgili bilgi sahibi olmak, analiz açıkça ve daha fazla soruşturma hızla yapılabilir. Bu amaçlara ulaşmak için, DNA veri kalitesi değerlendirmesi, eldeki verilerin çeşidine ilişkin açıklama yaparak önemli bir rol oynamaktadır. Aralık analizi vasıtasıyla sıralama verilerinin kalite değerlendirmesi için yeni bir yazılım aracı, QASDRA, sunuyoruz. Python'da uygulanan ve https://github. com/ali-cp/QASDRA.git adresinden kamuya açık olan QASDRA, kullanıcı tarafından belirlenen k ve v parametrelerine göre bir giriş FASTQ dosyasının kalite değerlendirme raporunu oluşturur. Ayrıca, tanıtılan metriklere göre okumaları filtreleme özelliğine de sahiptir. DNA Kalite Değerlendirmesi için yapılan bu tezde, QASDRA en uzun yüksek kaliteli okuma parçalarını tespit etmek için“Ters Aralığı Seçim Sorgusu Algoritmasını”kullanır ve tanımlanan metrikler bu okunan bölümlerde uygulanarak analiz edilir. Verilen DNA dizilimi verileri ve sonuçları matplotlib kullanılarak rakamlarla, çeşitli formatlarda kaliteli şekiller üretmek için ve platformlar arası etkileşimli ortamlar üretmek için verilecektir. Bu, iyi bir diziliş olup olmadığı belli bir veri dizisi hakkında kullanıcıya bilgi verecektir. Bu sonuçlar daha sonraki gelecek analazler için de kullanılabilir. Bir girdi FASTQ dosyası verildiğinde, kullanıcı tanımlı değerleri karşılayan en uzun, en kısa, ortalama okuma parçalarının dağılımı, sayı dağılımı Okuma başına fragmanların toplamı, toplam fragman uzunluklarının dağılımı ve ortalama dağılımı Kaliteyi belirten nitelikler gösterilir. Girdideki her okunan kalite skoru üzerinde aralık sorgusu çalıştırılarak verilerin kalite değerlendirmesini gösterir. Çeşitli platformlar tarafından üretilen FASTQ dosyalarının karşılaştırmalarını, çeşitli k ve v değerleri için bu metrikler açısından analiz ederiz. Bu platformların iyi ve kötü sıralı veriler açısından farklılıkları ve ileride daha da ileri analizleri nasıl etkileyecekleri gösterilmektedir. Bu sonuçları değerlendirmek ve aşağı akış analizini nasıl geliştirdiğini öğrenmek için başka bir deney yaptık. Yüksek İşleme sıralama yöntemleri, düşük maliyetle ve kısa sürede büyük miktarda veri üretir ve farklı platformlar, çeşitli okuma hataları seviyeleri sunabilir. Bunların arasında Illumina genom dizilimi için en yaygın platformlardan biridir. Bu verilerin kalitesini değerlendirmek, verilerin analizinde hayati bir rol oynamaktadır. Bu sorunun üstesinden gelmek için, bu araç tarafından sağlanan sonuçları kullanarak haritalama oranlarının iyileştirilmesini göstereceğiz. Bu deney, analiz öncesi ve sonrası haritalama oranlarının farklılıklarını göstermek için BWA-MEM kullanmaktadır. Tanımlanmış metrik haritalama oranının çoğunun iyileştirildiği gösterilmiştir.
Özet (Çeviri)
With the spread of High-Throughput DNA sequencing, today, not only the research centers, but also the practitioners such as the hospitals, clinics, and even individuals become customers of the sequencing centers. This brings a necessity to assess the quality of the sequence data produced. Previous studies for the evaluation of the quality of the sequencing data mainly considered the statistical distribution of the reported A-C-G-T bases in FASTQ file, eg., the ratio of the number of bases, or the GC content. However, the sequencing machines provide quality scores per each base they read in the output FASTQ file, and interestingly, those quality scores have not yet received much attention in terms of measuring the quality. In this study, we introduce some new metrics that are computed solely from the quality scores of the sequencing data. The metrics introduced in this study are based on performing inverse range selection queries over the quality score streams, where the aim is to detect all intervals that include k scores less than or equal to threshold value v. The motivation here is the fact that long intervals having fewer errors, improve the performances of the tools used in post-processing of the DNA sequencing data. It is noteworthy that proposed metrics let the users achieve privacy-preserving assessment of their data without a need to share any sensitive information since they are computed directly from the quality scores that are not private information as appose to the A-C-G-T bases. Thus, remote and independent quality assessment can be achieved by sharing only the quality scores of the data. InvRS(k, v) returns the intervals that include k scores less than or equal to v. we describe each attribute in Q along with the reason to select it. The program is written in python implementing inverse range selection algorithm on the extracted quality scores due to defined metrics. The results are shown in figures using matplotlib, python library fo quality figures, and a pdf file which makes analysis easier and clear. We present the algorithm to detect those ranges and introduce new metrics computed from their lengths. These metrics include the mean values for the longest, shortest, average, cubic average, and coefficient variation of the fragment lengths and number of fragments that are appropriate according to the k and v input parameters. We provide a new software tool QASDRA for quality assessment of sequencing data via range analysis. QASDRA, implemented in Python, and publicly available at https://github.com/ali-cp/QASDRA.git, creates the quality assessment report of an input FASTQ file according to the user specified k and v parameters. It also has the capabilities to filter out the reads according to the metrics introduced. Given an input FASTQ file, we depict some metrics in plots as distributions of longest, shortest, average read fragments satisfying user-defined values, distribution of the number of fragments per read, distribution of overall segment lengths, and distribution of mean qualities are shown indicating the quality assessment of the data by running the range query on the quality scores of each read in the input. We analyze the comparisons of the FASTQ files produced by different platforms in terms of these metrics for various 'k' and 'v' values. Differences of these platforms in the terms of good and bad sequenced data and how they affect further future analysis is shown. In order to evaluate these results and how it improves the downstream analysis, we have run another experiment. In order to tackle this question, we will show the improvement of mapping rates using the results provided by this tool. This experiment uses BWA-MEM to illustrate the differences of mapping rates before and after analysis. It is shown that for most of the defined metrics mapping rate have been improved.
Benzer Tezler
- Quality assessment of denovo sequence assembly tools
Denovo sekans montaj araçlarının kalite değerlendirmesi
VİSAM GÜLTEKİN
Yüksek Lisans
İngilizce
2012
Genetikİzmir Yüksek Teknoloji EnstitüsüMoleküler Biyoloji ve Genetik Ana Bilim Dalı
DOÇ. DR. JENS ALLMER
- Konvansiyonel uygulamalarda hastaların aldıkları organ dozları ve etkin dozun PCXMC programı yardımıyla hesaplanması
Calculati̇on of prgan doses and effecti̇ve dose of pati̇ent wi̇th PCXMC software i̇n conventi̇onal appli̇cati̇on
HODA TORKAN MALAYERI
Yüksek Lisans
Türkçe
2019
Sağlık Eğitimiİstanbul Aydın ÜniversitesiSağlık Fiziği Ana Bilim Dalı
PROF. DR. HASAN SAYGIN
PROF. DR. İLKAY TÜRK ÇAKIR
- Sabit yataklı yakma sistemlerinde yanmada kömür neminin emisyonlara etkisinin deneysel incelenmesi
Experimental investigations of effect of moisture on the emissions in fixed bed compustion appliances
NALAN ERDÖL AYDIN
- Index modulation based designs, error performance and physical layer security analyses for unmanned aerial vehicle networks
İnsansız hava aracı ağları için indis modülasyonu tabanlı tasarımlar, hata performansı ve fiziksel katman güvenlik analizleri
AYŞE BETÜL BÜYÜKŞAR
Doktora
İngilizce
2024
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik-Haberleşme Eğitimi Ana Bilim Dalı
PROF. DR. İBRAHİM ALTUNBAŞ
- İstanbul Atatürk Havalimanı kapasitesi bağlamında üçüncü pistin değerlendirilmesi
Third runway system capacity assesssment of İstanbul Atatürk Airport
MİNE UYGUR
Yüksek Lisans
Türkçe
2002
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNGÖR EVREN