Visualization based analysis of gene networks using high dimensional model representation
Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi
- Tez No: 887621
- Danışmanlar: DR. ÖĞR. ÜYESİ SÜHA TUNA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Matematik, Computer Engineering and Computer Science and Control, Science and Technology, Mathematics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Bilişim Enstitüsü
- Ana Bilim Dalı: Hesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
- Bilim Dalı: Hesaplamalı Bilim ve Mühendislik Bilim Dalı
- Sayfa Sayısı: 77
Özet
Genetik çalışmalar, hastalıklarda altta yatan biyolojik mekanizmaların anlaşılmasında devrim niteliğinde ilerlemeler sağlamıştır. Bu ilerlemeler, genetik bilgilere dayalı sağlık hizmetlerinin kişiselleştirilmesinde önemli bir rol oynamaktadır. Araştırmacılar, insan genomunun karmaşık mekanizmalarını keşfederek, çeşitli fenotipik sonuçlara katkıda bulunan genetik varyasyonları tespit edebilirler. Bu keşifler, hastalıkların genetik temellerini anlamada ve bu sayede risk grubunda yer alan bireylerin erken tespitinde ve aynı zamanda yeni tedavi stratejileri geliştirmede kritik öneme sahiptir. Bu alandaki temel ilerlemelerden biri, gen ağ analizidir. Bu yaklaşım genler arasındaki karmaşık etkileşimleri ve hücresel süreçleri nasıl düzenlediklerini inceler. Gen ağ analizleri, genlerin birbirleriyle olan ilişkilerini ve bu ilişkilerin biyolojik fonksiyonlar üzerindeki etkilerini ortaya çıkartarak daha kapsamlı bir biyolojik anlayış sağlar ve bu sayede hastalık mekanizmalarında yer alan yolları açığa çıkarır. Genom çapında birleşim çalışmaları (GWAS), gen ağ analizinde kullanılan metodlar arasında kilit bir rol oynamaktadır. GWAS, büyük ölçekli veri setlerinden genetik ilişkileri belirlemek için kullanılan güçlü bir araçtır. GWAS, belirli bir hastalığı veya hastalığa ait genetik özelliğine sahip olan bireylerde daha sık görülen küçük varyasyonları, tek nükleotid polimorfizmleri (SNP'ler), genom çapında taramayı içermektedir. Bu ilişkileri ayırt ederek, GWAS hastalık duyarlılığını ve ilerlemesine katkıda bulunan genetik faktörleri belirler ve kişiselleştirilmiş tıp hizmetlerine ve hedefe yönelik tedaviler için temel oluşturur. Kişiselleştirilmiş tıp, bireylerin genetik profillerine dayalı olarak daha etkili tedavi yaklaşımları geliştirmeyi mümkün kılar. Farklı genetik analiz tekniklerinin bir araya getirilmesi, araştırmacıların hastalıkların genetik yapılarını daha iyi anlamalarını sağlar ve bu da teşhis, tedavi ve önleme alanlarında önemli ilerlemelere yol açar. Bu entegrasyon, genetik bilgilerin klinik uygulamalarda nasıl kullanılabileceğini belirler ve sağlık alanındaki yenilikçi çözümler için temel oluşturur. Gen ağları analizi ve yol analizi, genetik çalışmaların vazgeçilmez bileşenleridir ve biyolojik sistemler içindeki genlerin karmaşık etkileşimlerini ve fonksiyonlarını açıklar. Bu yöntemler, genetik araştırmalarda derinlemesine bilgi sağlar ve hastalıkların moleküler temelini aydınlatmada büyük bir rol oynar. Ancak, her iki yöntemde de özellikle yüksek boyutlu genom verileriyle uğraşırken önemli hesaplama zorluklarıyla karşılaşılır. Bu zorluklar, verilerin karmaşıklığı ve veri setlerinin büyüklüğü nedeniyle ortaya çıkar. Bu sebepler nedeniyle veri analizi süreci oldukça karmaşık hale gelmektedir. Gen profilleri ve genetik varyasyonlar içeren geniş veri kümelerinin analizi, ölçeğini ve karmaşıklığını yönetebilen gelişmiş hesaplama yöntemlerini gerektirir. Geleneksel istatistiksel yöntemler yerine veri görselleştirme, ağ modelleme ve makine öğrenimi algoritmaları gibi karmaşık hesaplama yaklaşımlarını gerektirir. Bu yöntemler, verilerin daha etkin bir şekilde analiz edilmesini ve yorumlanmasını sağlar. Gen ağlarının karmaşıklığı ve gen regülasyon mekanizmalarını anlamak, karmaşık biyolojik süreçleri doğru bir şekilde simüle etmek için güçlü hesaplama araçları gerektirir; bu zorlukları aşmak, gen ağlarının ve yollarının sağlık ve hastalık üzerindeki rollerini daha derinlemesine anlamamıza olanak tanır. Özellikle kompleks hastalıkların incelenmesinde, gen ağlarının doğru bir şekilde modellenmesi ve analiz edilmesi kritik bir öneme sahiptir. Yol analizinde, araştırmacılar, GWAS gibi çeşitli kaynaklardan elde edilen verileri kullanarak hedef genleri belirler ve Kyoto Genlerin ve Genomların Ansiklopedisi (KEGG) veritabanlarını kullanarak bu genleri bilinen yollarla ilişkilendirirler. KEGG veritabanı, biyolojik yolları ve bunların genlerle olan ilişkilerini anlamada önemli bir kaynaktır. Ancak, özellikle yüksek boyutlu ve büyük genom veri kümeleriyle çalışıldığında, yol analizi çalışmaları önemli hesaplama zorluklarıyla karşılaşır. Bu zorlukların üstesinden gelmek için DNA dizilerinin görsel analizini içeren yenilikçi yöntemler geliştirilmiştir; bunlar arasında Kaos Oyunu Temsili (CGR) ve varyant mantık yapısına dayalı DNA dizilerinin görsel analiz yöntemi olan VARCH bulunmaktadır. Genetik dizilerin görsel temsili, potansiyel genetik sinyal yolları belirlemeye ve biyolojik süreçleri daha iyi anlamaya yardımcı olur. Görsel analiz yöntemleri, karmaşık genetik verilerin anlaşılmasını kolaylaştırır ve genetik araştırmalarda yeni perspektifler sunar. Bu hesaplama yöntemlerinin gen ağları ve yol analizlerine entegre edilmesi, genetik etkileşimlerin karmaşık yapısını tam olarak anlamak ve bunların hastalıklar üzerindeki etkilerini anlamak için hayati öneme sahiptir. Böylece, genetik araştırmalarda daha hassas ve doğru sonuçlar elde edilir. Tez kapsamında, gen ağları analizimize katkılar sunan iki adet görselleştirme ve bir data ayrıştırma yöntemi kullanıldı. Bu yöntemler, genetik verilerin daha iyi anlaşılmasını ve analiz edilmesini sağlayan güçlü araçlardır. Kaos Oyunu Temsili, varyant mantık yapısına dayalı DNA dizilerinin görsel analizi olan VARCH ve Yüksek Boyutlu Model Gösterilim (HDMR) yöntemlerini kullandık. CGR, biyoinformatikte yaygın kullanılan bir yöntem olup, genetik dizileri görsel olarak yorumlanabilir diyagramlara çevirerek dizilerdeki karmaşık yapıları ve desenleri açıklar. CGR yöntemi, genetik dizilerin görselleştirilmesi ile büyük veri setlerindeki yapısal özellikleri ortaya çıkarır. Öte yandan, VARCH, gen sekanslarını bir özellik vektörüne dönüştürerek, bu sekansların karmaşık yapılarını başarıyla yakalamaktadır. VARCH, genetik verilerin detaylı analizini mümkün kılarak, araştırmacıların gen sekanslarındaki önemli paternleri tespit etmelerini sağlar. Her iki yöntem de, araştırmamızda hasta ve kontrol gruplarını ayırt edebilecek potansiyel genetik nitelikleri aramamızda etkili olmuştur. Bu sayede, belirli hastalık fenotiplerine özgü genetik işaretçileri daha kolay belirleyebildik. Bunun ile birlikte, genlerin karmaşık yapılarının basitleştirilmesi için kullanılabilecek önemli bir teknik olan boyut indirgeme için HDMR methodunu kullandık. HDMR, yüksek boyutlu veri setlerinde önemli bilgileri koruyarak veri boyutunu azaltmak için etkili bir yöntemdir. Kullanılan mTOR veri setindeki verilerin görselleştirme yöntemlerinden elde edilen $N$ boyutlu tensörlere uygulanan HDMR, hesaplama açısından belirgin bir verimlilik sağlamış ve aynı zamanda yüksek sınıflandırma performansı göstermiştir. Bu teknik, büyük veri setlerinde hızlı ve doğru analiz yapmayı mümkün kılarak araştırma sürecini hızlandırmıştır. Buna ek olarak, gizli kalan genetik ilişkileri ve desenlerin ortaya çıkarılmasına olanak tanımıştır. Bu sayede, genetik verilerin derinlemesine analizi ile hasta ve kontrol gruplarına ait verilerin yüksek doğruluk yüzdesiyle sınıflandırılmasına dair bulgular elde edilmiştir. Bu hesaplama tekniklerinin entegrasyonu, mTOR yolu genetik verilerinin analizinde tutarlı çözümler sunarak, çeşitli fenotipik sonuçları destekleyen genetik mekanizmaların daha iyi anlaşılmasını sağlamıştır. Sonuç olarak, bu yöntemler, genetik araştırmalarda daha derinlemesine ve kapsamlı analizler yapmamıza olanak tanıyarak, genetik varyasyonların hastalıklar üzerindeki etkilerini daha iyi kavramamızı sağlamıştır. Tez kapsamında, çeşitli fenotipik sonuçlarla ilişkilendirilen karmaşık genetik desenlerin daha derinlemesine anlaşılmasına katkı sağlayacak ve yüksek sınıflandırma performansı sağlayacak hesaplama yöntemlerin incelenmesi amaçlanmıştır. Bu kapsamda, mTOR yolu ile ilişkili genetik verilerin analizi için güncel hesaplama teknikleri kullanılarak daha ayrıntılı sonuçlar elde edilmeye çalışılmıştır. mTOR yolu kaynaklı genetik verilere odaklanılarak, genlere ait nitelikleri açığa çıkarmak için güncel hesaplama metodlarını kullanılmıştır. Temel amaç, CGR, VARCH ve HDMR yöntemlerinin gen ağ analizlerindeki etkinliğini değerlendirmek olup bu yöntemlerin etkinliğini değerlendirirken, her birinin genetik verileri ne kadar yüksek oranda temsil edebildiği ve analiz sonuçlarının doğruluğunun incelenmesidir. Elde edilen genetik veriler sınıflandırma yöntemi ile analiz edildiğinde, önemli sonuçlar elde edildiği gözlemlenmiştir. Hem CGR hem de VARCH yöntemleri genetik sınıflamada dikkate değer bir doğruluk gösterdi. Bu doğruluk oranları, genetik varyasyonların doğru bir şekilde tespit edilmesi ve sınıflandırılması açısından önemli bir başarıdır. VARCH metodu hem dengeli dağılmış datasetinde hem de dengesiz (imbalanced) datasetlerle, doğruluk ve hassasiyet metrikleri açısından CGR'ye göre belirgin bir avantaj sağladı. VARCH yöntemi bu üstünlüğü, genetik verilerin daha hassas ve detaylı bir şekilde analiz edilmesine olanak tanımaktadır. Bu üstünlük, VARCH yöntemi hata oranlarını önemli ölçüde azaltma yeteneği ile daha da vurgulandı. Özellikle, genetik hastalıkların erken teşhisi ve tedavi stratejilerinin geliştirilmesinde VARCH yöntemi kritik bir rol oynayabilir. Bununla birlikte, her yöntemin ilişkilendirilen hesaplama maliyetlerini detaylı olarak inceledik ve hesaplama karmaşıklığı ile doğruluk arasındaki denge hakkında bir anlayış sağladık. Bu denge, yöntemlerin pratik uygulamalarda ne kadar verimli olabileceğini ve büyük veri setleriyle çalışırken hangi yöntemin daha uygun olacağını belirlememize yardımcı oldu. Optimize edilecek parametrelerin daha fazla ve performansı CGR'den daha iyi olmasına karşın VARCH'ın hesaplama gereksinimleri açık bir şekilde ortaya konmuştur. Bu çalışma, gen karmaşıklıklarını çözme konusunda hesaplama araçlarının potansiyelini ortaya koyarken, hesaplama kısıtlamalarını dikkatlice aşmanın önemini vurgulamakta ve araştırmacıların en uygun yöntemi seçme ve optimize etme konusunda rehberlik etmektedir.
Özet (Çeviri)
Genetic studies have revolutionized our understanding of the biological mechanisms underlying health and disease. By exploring the intricate details of the human genome, researchers can identify genetic variations that contribute to various phenotypic outcomes. One of the key advancements in this field is gene network analysis, which examines the complex interactions between genes and how they regulate cellular processes. This approach provides a comprehensive view of the biological systems and uncovers the pathways involved in disease mechanisms. Genome-Wide Association Studies (GWAS) play a pivotal role among the methodologies utilized in gene network analysis. GWAS involves scanning the genome for slight variations, known as single nucleotide polymorphisms (SNPs), that occur more frequently in individuals with a particular disease or trait than in those without. By identifying these associations, GWAS helps pinpoint genetic factors contributing to disease susceptibility and progression, paving the way for personalized medicine and targeted therapeutic strategies. By integrating various variant analysis techniques, researchers can develop a deeper understanding of the genetic architecture of diseases, leading to significant advancements in diagnostics, treatment, and prevention. Gene network and pathway analyses are essential components of genetic studies, offering insights into genes' complex interactions and functions within a biological systems. However, both face significant computational challenges, mainly when dealing with high-dimensional genomic data. Analyzing vast datasets containing gene expression profiles and genetic variations demands sophisticated computational methods capable of handling their scale and complexity. Conventional statistical methods frequently require assistance to become effective, demanding complex computational approaches like data visualization, network modeling, and machine learning algorithms. In addition, the complexity of biological networks and pathways makes analysis even more complicated, necessitating the use of powerful computational tools to interpret regulatory mechanisms and simulate complex biological processes correctly. Overcoming these challenges is crucial for gaining deeper insights into gene networks and pathways, thereby advancing our understanding of their roles in health and disease. In pathway analysis, scientists employ data collected from many sources, such as Genome-Wide Association Studies (GWAS), to identify target genes and connect them to known pathways using Kyoto Encyclopedia of Genes and Genomes (KEGG) databases. However, pathway analysis presents major computing challenges, especially when large, high-dimensional genomic datasets are involved. Researchers have developed innovative methods such as High Dimensional Model Representation (HDMR), Chaos Game Representation (CGR), and visual analysis of DNA sequences based on a variant logic construction method called VARCH to overcome these challenges. By mapping genetic sequences into visual representations, these innovative approaches can help identify potential genetic markers and better understand biological processes. These computational methods must be included in gene network and pathway investigations to fully understand the complex architecture of genetic interactions and how they affect health and diseases. In this thesis, we harnessed three sophisticated computational methodologies: Chaos Game Representation, visual analysis of DNA sequences based on variant logic construction called VARCH, and High Dimensional Model Representation, each offering unique contributions to the variant analysis, respectively CGR, a prevalent technique in bioinformatics, translates genetic sequences into visually interpretable diagrams, clarifying complex structures and patterns in the sequences. On the other hand, VARCH converts sequences into a feature space, successfully capturing each aspect of their complexity and uncertainty. These techniques are effective instruments in our search for potential genetic markers that might help us distinguish between the patient and control groups in our investigation. Furthermore, we utilized HDMR for dimension reduction, an essential technique for simplifying the complex structure in high-dimensional genomic data. By condensing data dimensions, HDMR facilitated more efficient and accurate classification, enabling us to uncover sensitive genetic relationships and patterns that might have remained hidden otherwise. Integrating these computational techniques provided robust solutions for analyzing genetic data from the mTOR pathway, enriching our comprehension of the genetic mechanisms supporting various phenotypic outcomes. In our study, we begin on a mission to deepen our comprehension of the intricate genetic patterns intertwined with diverse phenotypic outcomes. Focusing on genetic data sourced from the mTOR pathway, we leveraged state-of-the-art computational methodologies to unravel hidden insights. Our primary objective was to assess the efficacy of CGR, VARCH, and HDMR in gene network analyses. As we analyzed the data, the results were quite compelling. Both CGR and VARCH methods demonstrated notable accuracy in genetic classification, with VARCH exhibiting a significant edge over CGR in terms of accuracy and sensitivity metrics. This superiority was underscored by VARCH's ability to considerably minimize binary cross-entropy (BCE) loss values, demonstrating the ability to reduce errors in predictions. However, we examined the computing overheads associated with each methodology in detail, providing insight into the challenging trade-off between computational complexity and accuracy. Despite the more significant parameters, VARCH's computational requirements were apparent, although its performance was better than CGR's. Our study demonstrates the potential of computational tools for unraveling gene complexities while also acting as an essential reminder of how crucial it is to overcome the complex environment of computational constraints carefully, helping researchers search for the best possible method selection and optimization.
Benzer Tezler
- İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
- TP53 META: A webtool to visualize effects of TP53 modulators and mutations on expression profiles with a focus on breast cancer
TP53 META: TP53 modülatörleri ve mutasyonlarının meme kanseri odağında gen ifade profillerine etkilerini görselleştiren bir web aracı
ABDUL MOIZ AFTAB
Yüksek Lisans
İngilizce
2024
Biyolojiİhsan Doğramacı Bilkent ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
DOÇ. DR. ÖZLEN KONU KARAKAYALI
- Multi-resolution visualization of large scale protein networks enriched with gene ontology annotations
Gen ontoloji açıklamalı büyük ölçekli protein ağlarının yüksek çözünürlüklü görselleştirilmesi
SEVGİ YAŞAR
Yüksek Lisans
İngilizce
2009
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. TOLGA CAN
- A multi-layered graphical model of the relation among SNPs, genes, and pathways based on subgraph search
SNP, gen ve yolaklar arasındaki ilişkinin ortaklıklarına göre çok katmanlı bir grafik ile modellenmesi
GÖKHAN ERSOY
Yüksek Lisans
İngilizce
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik ÜniversitesiBiyoenformatik Ana Bilim Dalı
DOÇ. DR. YEŞİM AYDIN SON
DOÇ. DR. TOLGA CAN
- CAP-RNAseq: An online platform for RNA-seq data clustering, annotation and prioritization based on gene essentiality and congruence between mRNA and protein levels
CAP-RNAseq: Gen esansiyelliğine ve mRNA ve protein düzeyleri arasindaki uyuma dayalı RNA-seq veri kümeleme, annotasyon ve önceliklendirme için çevrimiçi bir platform
MERVE VURAL ÖZDENİZ
Doktora
İngilizce
2024
Biyoistatistikİhsan Doğramacı Bilkent ÜniversitesiNörobilim Ana Bilim Dalı
DOÇ. DR. ÖZLEN KONU KARAKAYALI