Efficient online comparison and visualization of high throughput genomic variant lists
Yüksek hacimli genomik varyant listelerinin verimli çevrim içi karşılaştırma ve görselleştirilmesi
- Tez No: 945209
- Danışmanlar: DOÇ. DR. MEHMET BAYSAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 69
Özet
Geçtiğimiz yıllarda artan veri işleme hızları ve düşen DNA dizileme maliyetleri, genetik analizin yaygınlaşmasını sağlamıştır. Bir hastanın genetik verileri tıp uygulamalarına yardımcı olabilir ve kişiselleştirilmiş tedavilerin geliştirilmesine katkı sağlayabilir. En önemli genetik veri türlerinden biri varyant verisidir. Varyantların karşılaştırılması ve görselleştirilmesi sık gerçekleştirilen işlemlerdir ancak bu yetkinliği sağlayan araçlar bulunmamaktadır. Halihazırda her bir karşılaştırma ve görselleştirme için ayrı betikler yazılması gerekmektedir. Bu nedenle bu işlemlerin grafik bir arayüz üzerinden yapılabilmesini sağlamak özellikle kodlama konusunda pratik olmayan kullanıcılar açısından değerlidir. Genetik varyant verilerinin oluşturulma ve analiz süreçlerinde değişebilen pek çok parametre vardır. Bunlar DNA örneğinin dizilenmesiyle ilgili olabileceği gibi ham veri işlenirken kullanılacak yazılımlarla ilgili de olabilir. Yalnızca kullanılan hizalama veya varyant tespit algoritmalarının bile sonuç üzerinde büyük etkileri vardır. Bu nedenle farklı veri işleme süreçlerinin çıktılarının hem kendi aralarında hem de yüksek güvenilirlikli veriler ile karşılaştırılması, hangi sürecin en iyi performansı gösterdiğinin bulunması açısından değerlidir. Ayrıca bulguların geçerliliğini artırmak amacıyla farklı yöntemlerle elde edilmiş çıktıların birleştirilmesi de değerli olabilir. Elde edilen sonuçların görselleştirilmesi, anlaşılırlıkları konusunda büyük fayda sağlar. Bu tez, varyant verilerinin etkin bir biçimde karşılaştırılmalarını ve görselleştirilmelerini sağlayan çevrimiçi bir araç sunmaktadır. Literatürde varyant verilerini işleyen ve bu işlemlerin farklı yönlerine ve zorluklarına hitap eden çeşitli araçlar bulunmaktadır ancak bu araçlardan hiçbiri farklı dosyaların karşılaştırılmasını grafik bir arayüz üzerinden sağlamamaktadır. Bu tezde sunulan yazılım aracı, varyant dosyalarının kullanıcı dostu grafik bir arayüz üzerinden karşılaştırılmaları ve görselleştirilmelerini sağlamak için tasarlanmıştır. Yazılım, veri görselleştirme odağıyla geliştirilmesinden dolayı Python 3 programlama dili kullanılmıştır. Bu yönde çevrim içi araç geliştirmeye yönelik olan ve Flask ve React yazılım geliştirme araçlarını paketleyen Dash kütüphanesi tercih edilmiştir. Varyant dosyalarını okuma amacıyla scikit-allel kütüphanesi kullanılmıştır. Veri işleme amacıyla Pandas ve NumPy kütüphaneleri, görselleştirme üretmek için Matplotlib, Plotly ve venn kütüphaneleri kullanılmıştır. Kullanıcı verisinin depolanması için Redis kullanılmıştır. Uygulama, Docker ile dağıtıma hazırlanmış ve İstanbul Teknik Üniversitesi tarafından sağlanan bir sunucuda, nginx arkasında erişime açılmıştır ve https://bioinformatics.itu.edu.tr/vcf-observer adresinden dünya genelinden erişilebilir bulunmaktadır. Uygulamada sunulan karşılaştırmalar üç türlüdür: tüm verinin toplu analizi, dosya çiftlerinin analizi ve dosyaların doğrulanmaları. Tüm verinin analizi amacıyla Venn diyagramları sunulmaktadır. Dosyalar arası kesişimlerde bulunan varyantlar, 6 kümeye kadar görselleştirilebilmektedir. Dosya çiftleri arası benzerlik, Jaccard benzerliği ile kümelenmiş ısı haritası üzerinden gösterilmektedir. Dosyaların doğrulanması kesinlik ve duyarlılık ölçülerinin dağılım grafikleri ile gösterilmektedir. Dosyalar, kullanıcı tarafından belirlenen dinamik özellikleri üzerinden gruplandırılabilmektedir. Gruplandırma yapıldığında tüm analizlerde dosyalar yerine gruplar kullanılmaktadır. Her bir dosya grubu seçime bağlı olan bir veya birden fazla özelliği aynı olan dosyaların birleştirilmesiyle elde edilir ve bu birleştirme, çoğunluk, kesişim veya birleşim ile yapılabilir. Analiz öncesinde varyantlar çeşitli şekillerde filtrelenebilmektedir. Bu, her bir varyant için bulan yazılımın belirttiği geçerliliğe göre olabildiği gibi kromozoma ve varyant türüne göre de olabilmektedir. Bunun yanında varyantlar, içinde veya dışında bulundukları genomik bölgelere göre de filtrelenebilmektedir. Bu şekilde aralıklara göre filtreleme sağlamak amacıyla optimal bir algoritma geliştirilmiş ve bu filtreleme için gereken sürede, basit yaklaşımlı algoritmaya kıyasla %50 ve üstü miktarda koşma süresinde düşüş olabildiği görülmüştür. Bu algoritma, varyantların tanımlanmış genomik bölgelerde bulunma durumlarını tespit etmektedir. Bu işlem için her bir varyantın her bir bölgenin aralığında bulunup bulunmadığı sorgulanabilir. Ancak bu, birbirine çok uzak varyant ve bölgelerin de karşılaştırılmasına sebep olur. Bunun yerine, hem varyantların hem de bölgelerin sıralı oldukları durumda, her bir varyantın sadece en yakın olduğu bölgelerle karşılaştırılmasını sağlamak mümkündür. Veriler, uygulama içerisinde halihazırda sıralı tutulduklarından bu yaklaşımın getirdiği fazladan bir işlem maliyeti yoktur. Sıralılığın varsayılabildiği durumda, varyantların ve bölgelerin sırayla üzerinden geçilmesi ve karşılaştırılması sırasında şu gerçekler ortaya çıkar: bir varyant, karşılaştırıldığı bir bölgenin öncesindeyse daha sonraki bölgelerin hiçbiriyle örtüşemez ve bir varyant bir bölgenin sonrasındaysa önceki bölgelerin hiçbiriyle örtüşme imkanı yoktur. Bundan dolayı hem varyantlar hem de bölgeler sırayla kontrol edildikleri durumda her iki listenin üzerinden birer geçiş ile kayda değer bir optimizasyon sağlanmaktadır. Bunun yanında, her bir kromozomun verisinin ayrılması ve paralel işlenmesi de anlamlı bir hızlanma sağlamaktadır. Geliştirilen uygulama, kullanıcı dostu olmak üzere tasarlanmıştır. Uygulamanın grafik arayüzünde iki bölüm bulunmaktadır: sol tarafta kontrol alanı ve sağ tarafta sonuç gösterim alanı. Kontrol alanında dosya yükleme ve analiz parametresi belirlemeye yönelik kontroller bulunmaktadır. Sonuç gösterim alanında ise dosya yükleme ve analiz isteği sonuçları gösterilmektedir. Uygulamanın dosya yükleme ve analiz işlevleri sekmelere ayrılmıştır ve yeni kullanıcılara uygulamayı tanıtmak amacıyla da bir giriş sekmesi bulunmaktadır. Dosya yükleme bölümünde dört kategoride veri kabul edilir: karşılaştırılacak dosyalar, doğrulama amaçlı referans verisi, dosyalar hakkında özellik verileri ve filtreleme amaçlı genomik aralıklar. Bunlardan, karşılaştırılacak dosyalar dışındaki üç veri kategorisi opsiyoneldir. Karşılaştırılacak dosyaların ve doğrulama dosyalarının, dijital varyant saklama formatı olan“Variant Call Format”ta olmaları beklenmektedir. Genomik aralıklar, baş ve son noktalarının belirtildiği“Browser Extensible Data”formatında olmalıdır. Kullanıcı tarafından belirlenen dosya özellikleri ise tablo verisi saklama amaçlı“Comma-Separated Values”formatında olmalıdır. Tüm veriler sıkıştırılmış olarak da kabul edilmektedir. Uygulamanın sunduğu işlevler iki vaka çalışması üzerinden örneklendirilmiştir. Çalışmalardan birinde kanser hücrelerinden elde edilen genetik veriler incelenmiş ve MuTect2 algoritmasının daha istikrarlı ve genel olarak başarılı sonuçlar verdiği görülmüştür. Diğer çalışmada ise sağlıklı hücrelerin genetik verisi üzerinden bir analiz gerçekleştirilmiş ve Samtools yazılımının bulgularının daha kesin ve duyarlı olduğu görülmüştür. Bunun yanında, kanser verisinde farklı hizalama algoritmalarıyla elde edilmiş bulguların kesişimlerinin kullanılmasıyla kesinlik değerlerinde kayda değer bir artış gözlemlenmiştir. Ancak birleşim alındığında herhangi bir başarım arttırımı gözlemlenmemiştir. Bu tez, varyant listesi dosyası karşılaştırması, doğrulaması ve görselleştirmesi için bir çevrim içi tarayıcı uygulaması sunmaktadır. Kullanıcı dostu bir grafik arayüz sunan uygulama, kullanıcıların verilerini kolaylıkla incelemeleri ve anlamalarını sağlar ve literatürde bulunmayan işlevsellik sunar. Kullanıcılar yüksek kaliteli figürler üretebilir ve analizlerine göre varyant listeleri alabilirler. Uygulama ücretsiz erişime açıktır ve 2025'in ilk 4 ayında 20'den fazla ülkeden 90'dan fazla kullanıcı tarafından kullanılmıştır. Bu uygulamanın sunduğu fonksiyonlar çeşitli açılardan iyileştirilebilir. Varyant gösterim farklılıklarının giderilmesi amacıyla varyant normalizasyonu gerçekleştirilebilir. Kısmi varyant eşleşmeleri ayrı puanlamaya tabi tutulabilir ve doğrulama amaçlı işlemler ön tanımlara göre yapılabilir. Bu işlevlerin kullanıcı dostu bir biçimde sunulabilmesi için uzun vadeli kullanıcı ve dosya yönetimi sağlanabilir.
Özet (Çeviri)
Over recent years, the proliferation of high-throughput sequencing has led to the generation of large amounts of genetic data. One of the most significant types of this data is variant data. The comparison and visualization of variant data are commonly performed operations, however, there are no tools addressing this need. At present, each operation must be performed via specialized scripts. Hence, a graphical interface facilitating these operations is highly valuable, especially for users not comfortable working with code and the command line. This thesis presents a user-friendly web application for comparing and visualizing genetic variants. This application provides functionality absent in literature and allows users to get insights into their data. Due to the complex nature of obtaining this data, it is valuable to compare results produced via differing methods of raw data generation and processing. The presented tool addresses capabilities for comparing numerous files individually to one another as well as comparing them collectively. Benchmarking capabilities are also provided based on user-provided ground truth files. Due to the potential benefits of merging files of differing origin, file grouping based on user-defined metadata is also provided. Commonly, there are regions of interest in a genome, to which analysis may be wished to be limited. As such, filtering functionality is provided based on genomic regions and chromosomes. An efficient genomic interval-based filtering algorithm is presented and described. This application was developed using Python 3 and utilizes the Plotly Dash library for web development which combines Flask and React to produce efficient data analysis web applications. It is deployed on a server provided by Istanbul Technical University and is accessible at https://bioinformatics.itu.edu.tr/vcf-observer freely. Case studies investigating results obtained from quality control and reproducibility studies are provided in detail along with relevant visualizations produced using the application. Various filtering and grouping parameters are investigated and results pertaining to the performances of different data production methodologies are described via results obtained from the application. Throughout the first 4 months of 2025, the application has received over 90 unique users uploading data from over 20 different countries. It provides novel functionality through a user-friendly interface, facilitating accessible variant data exploration to researchers and clinicians.
Benzer Tezler
- Üretimde kullanılan operatör destek odaklı artırılmış gerçeklik teknolojilerinin kullanılabilirlik kavramı kapsamında değerlendirilmesi
Evaluation of operator support-based augmented reality technologies used in production within the concept of usability
OSMAN ER
Yüksek Lisans
Türkçe
2022
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ALP ÜSTÜNDAĞ
- Peyzaj tasarımı görselleştirmelerinde 3 boyutlu modelleme ile yapay zekâ araçlarının karşılaştırılması
Comparison of 3D modeling and artificial intelligence tools in landscape design visualizations
TÜRKAN AZERİ
Yüksek Lisans
Türkçe
2025
Peyzaj MimarlığıAkdeniz ÜniversitesiPeyzaj Mimarlığı Ana Bilim Dalı
DOÇ. DR. AHMET BENLİAY
- Emlak vergilerinin rayiç değer endeksli toplanması pratiğinin incelenmesi: İstanbul-Gaziosmanpaşa ilçesi örneği
Analyzing the practice of collection of property taxes based on market value: A case of Istanbul-Gaziosmanpaşa district
AHMET IŞIK
Yüksek Lisans
Türkçe
2022
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. TAHSİN YOMRALIOĞLU
- Analysis and comparison of fully homomorphic encryption approaches over integers
Tam sayılar üzerindeki tam homomorfik şifreleme yaklaşımlarının analizi ve karşılaştırılması
CANSU BOZKURT
Yüksek Lisans
İngilizce
2022
MatematikOrta Doğu Teknik ÜniversitesiKriptografi Ana Bilim Dalı
DOÇ. MURAT CENK
DR. CANSU BETİN ONUR
- The analysis of multimedia principles on Spanish vocabulary acquisition and retention
Çoklu ortam ilkelerinin İspanyolca kelime edinimi ve kalıcılığına etkilerinin incelenmesi
BURCU ŞEN
Yüksek Lisans
İngilizce
2022
Eğitim ve ÖğretimBahçeşehir ÜniversitesiEğitim Teknolojisi Bilim Dalı
DOÇ. DR. YAVUZ SAMUR