Assessment and correction of errors in DNA sequencing technologies

DNA dizilim teknolojilerindeki hatalar üzerine değerlendirme ve hataların düzeltilmesi

PDF İndir

Tez No: 486742
Yazar: CAN FIRTINA
Danışmanlar: YRD. DOÇ. DR. CAN ALKAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2017
Dil: İngilizce
Üniversite: İhsan Doğramacı Bilkent Üniversitesi
Enstitü: Mühendislik ve Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 81

Özet

Yeni Nesil Dizileme teknolojileri birçok değişkende birbirleri arasında farklılık göstermektedir. Kısa parçalı dizileme ya da uzun parçalı dizileme teknolojileri arasında yapılacak bir seçim ise parçaların doğruluk oranı ya da uzunlukları arasında bir tercih gerektirir. Bu tezde ilk olarak, kısa parçaların kullamıyla yapılan analizlerin yeniden üretilebilirliği konusundaki problemleri belirtiyorum. Yeni nesil dizileme teknolojileri kullanılarak genomik farklılıkların karakteristikleri üzerinde yaptığımız geniş çalışma göstermektedir ki tekrarlayan dizileme parçaları, dizilerin muğlak bir şekilde haritalanmasına sebep olabilir. Kısa parçalar tekrarlamaya daha yatkın olduklarından dolayı bu parçaların kullanıldığı deneylerin yeniden üretilebilmesinde problemler yaşanması mümkündür. Bu tezde ikinci olarak, özgün bir algoritma olan Hercules'i sunuyorum. Hercules, uzun parçalardaki hataların düzeltilmesi için makine öğrenimi tekniğini kullanan ilk algoritmadır. De novo yöntemiyle haritalama, yapısal farklılıkların araştırılması gibi birçok araştırma uzun ve hatasız parçaların kullanımını gerektirmektedir. Bu durumlarda, araştırmacılar genellikle uzun parçalardaki hataların düzeltilmesini kısa parçalar ile yapmaktadırlar. çizge yapısı ve hizalama temelli güncel düzeltme yöntemleri, dizileme teknolojisinin hata profilini göz ardı etmektedirler. Hata profilini el alan, hafıza ve zaman konusunda elverişli makine öğrenimi teknikleri, hataları daha iyi düzeltme ve daha her iki teknolojiyi daha iyi birleştirme konusunda potansiyele sahiptirler. Sunduğumuz algoritma, her bir uzun parçayı, kullanılan teknolojinin hata profiline uygun bir profile Hidden Markov Model'i şeklinde tasarlamaktadır. Algoritmamız, geçiş ve emisyon olasılıklarını bütün uzun parçalar için öğrenip, değiştirerek uzun parçalardaki hataların düzeltilmesini sağlamaktadır. DNA diziliminden iki adet veri dizisi (CH17-157L1 ve CH17-227A2) ve RNA diziliminden bir adet veri dizisi (human brain cerebellum polyA) kullanarak, Hercules tarafından hataların giderildiği parçaların, diğer algoritmalar kullanılarak hataların düzeltilmesine kıyasla en yüksek haritalama oranına ve uzun parçaların büyük bölümü kısa parçalarla kaplandığı durumlarda en yüksek hatasızlık oranına sahip olduğunu gösteriyoruz.

Özet (Çeviri)

Next Generation Sequencing technologies differ by several parameters where the choice to use whether short or long read sequencing platforms often leads to trade-offs between accuracy and read length. In this thesis, I first demonstrate the problems in reproducibility in analyses using short reads. Our comprehensive analysis on the reproducibility of computational characterization of genomic variants using high throughput sequencing data shows that repeats might be prone to ambiguous mapping. Short reads are more vulnerable to repeats and, thus, may cause reproducibility problems. Next, I introduce a novel algorithm Hercules, the first machine learning-based long read error correction algorithm. Several studies require long and accurate reads including de novo assembly, fusion and structural variation detection. In such cases researchers often combine both technologies and the more erroneous long reads are corrected using the short reads. Current approaches rely on various graph based alignment techniques and do not take the error profile of the underlying technology into account. Memory- and time- efficient machine learning algorithms that address these shortcomings have the potential to achieve better and more accurate integration of these two technologies. Our algorithm models every long read as a profile Hidden Markov Model with respect to the underlying platform's error profile. The algorithm learns a posterior transition/emission probability distribution for each long read and uses this to correct errors in these reads. Using datasets from two DNA-seq BAC clones (CH17-157L1 and CH17-227A2), and human brain cerebellum polyA RNA-seq, we show that Hercules-corrected reads have the highest mapping rate among all competing algorithms and highest accuracy when most of the basepairs of a long read are covered with short reads.

Benzer Tezler

Tez No
233914
İsveç'te meydana gelen ölümlü trafik kazalarının tamamen ortadan kaldırılması için geliştirilen stratejinin Türkiye için uygulanabilirliğinin değerlendirilmesi
Traffic accidents in Sweden occur mortal developed strategies to completely eliminate the applicability to the assessment of Turkey
ÖZCAN KERİMOĞLU
Yüksek Lisans
Türkçe
2009
Kazalar Gazi Üniversitesi
Trafik Planlaması ve Uygulaması Ana Bilim Dalı
YRD. DOÇ. DR. SEDA HATİPOĞLU
Tez No
485607
Vergi uyuşmazlıklarına yol açan hallerin tespiti ve muhasebeleştirilmesi
Determination and accounting of factors leading tax disputes
MUHAMMET EMRE DİRİ
Yüksek Lisans
Türkçe
2017
Maliye Çukurova Üniversitesi
İşletme Ana Bilim Dalı
PROF. DR. TURGUT ÇÜRÜK
Tez No
75551
Sayısal arazi modeli ve batimetrik verilerin kıyı bilgi sistemine entegrasyonu
Başlık çevirisi yok
CİHANGİR AYDÖNER
Yüksek Lisans
Türkçe
1998
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
Uzaktan Algılama Ana Bilim Dalı
PROF. DR. DERYA MAKTAV
Tez No
956294
Comprehensive analysis of meteorological and hydrological drought: temporal and spatial ınsights
Meteoroloji̇k ve hi̇droloji̇k kurakliğin kapsamli i̇ncelenmesi̇: zamansal ve uzamsal i̇nceleme
AHMAD SULAIMAN AHMAD ABU ARRA
Doktora
İngilizce
2025
Mühendislik Bilimleri Yıldız Teknik Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. EYÜP ŞİŞMAN
Tez No
39196
Kadastro paftalarının geometrik niteliğinin yükseltilmesinde ve yenilenmesinde homojenleştirme algoritmaları
Başlık çevirisi yok
NECLA ULUĞTEKİN
Doktora
Türkçe
1993
Jeodezi ve Fotogrametri İstanbul Teknik Üniversitesi
PROF.DR. DOĞAN UÇAR

Geri Dön