Geri Dön

Metabolism-oriented multiomics data integration

Farklı omı̇k verı̇lerı̇n metabolı̇zma odaklı entegrasyonu

  1. Tez No: 887183
  2. Yazar: AYCAN ŞAHİN
  3. Danışmanlar: DOÇ. ALİ ÇAKMAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 129

Özet

Biyolojik süreçler ve işlevler, onbinlerce molekülün etkileşiminden ortaya çıkar ve bu onları doğası gereği karmaşık hale getirir. Biyolojik bilimler alanında büyük verinin ve yüksek verimli teknolojilerin ortaya çıkışı ve kapsamlı çoklu omik verilerin varlığı, bunların analizi için çeşitli metodolojilerin ve algoritmaların geliştirilmesine yol açmıştır. Bütünleştirici analizlere ulaşmak için çeşitli matematiksel ve hesaplamalı teknikler geliştirilmiş olup, bunlar beş ana alt gruba ayrılabilir. İlk olarak, veri seti birleştirme tabanlı entegrasyon yöntemleri, omik ölçümlerini tek bir tabloya entegre ederek analiz eder. Bu yöntemler, farklı veri tiplerini birleşik bir veri setinde bir araya getirerek analitik süreci kolaylaştırmayı amaçlar. Ancak, farklı teknolojilerden elde edilen verilerin temel dağılımlarının farklılık göstermesi nedeniyle önemli zorluklarla karşılaşırlar. Bu farklılıklar, sonuçların yorumlanmasını ve karşılaştırılmasını karmaşıklaştırabilir ve uygun şekilde ele alınmazsa yanıltıcı sonuçlara yol açabilir. İkinci olarak, korelasyon tabanlı entegrasyon, bir veri setindeki öğeler ile diğer veri setindeki öğeler arasındaki korelatif bağlantıları belirlemeye çalışır. Bu yaklaşım, farklı omik katmanlar arasındaki ilişkileri ve etkileşimleri ortaya çıkarmak için veri noktaları arasındaki korelasyonları analiz eder. Potansiyeline rağmen, korelasyon tabanlı entegrasyon, veri setlerindeki değişimlerin farklı zaman ölçekleri nedeniyle sıklıkla zorluklarla karşılaşır. Zamansal uyumsuzluklar, gerçek biyolojik ilişkileri belirsizleştirerek, altta yatan süreçlerin eksik veya yanlış anlaşılmasına yol açabilir [1,2]. Üçüncü olarak, çok değişkenli tabanlı entegrasyon, kısmi en küçük kareler (PLS) ve ana bileşen analizi (PCA) gibi standart çok değişkenli tekniklerin çeşitlerini kullanır [3,4]. Bu teknikler, verileri modellemek, tahminler yapmak, değişkenler ve örnekler arasındaki ilişkileri bulmak ve içsel veri değişimini görselleştirmek için kullanılır. Çok değişkenli analizlerin gücünden yararlanarak, bu yaklaşım yüksek boyutlu verileri etkili bir şekilde ele alabilir ve karmaşık veri setlerindeki anahtar desenleri ve bağlantıları belirleyebilir. Bu yöntem, biyolojik verilerin çok boyutlu yapısını aydınlatmak ve biyolojik sistemlerin birbirine bağlı doğası hakkında içgörüler sağlamak için özellikle değerlidir. Dördüncü olarak, yol tabanlı entegrasyon yöntemleri, Wikipathways [5] ve KEGG [6] gibi veritabanlarındaki mevcut biyolojik bilgileri kullanır. Bu yöntemler, ölçülen metabolitleri ve transkriptleri otomatik olarak yollara haritalayarak, koşullar arasındaki davranış değişiklikleri veya belirli bir fenotipik son nokta ile yol davranışı arasındaki korelasyonları belirlemek için araştırmacılara yardımcı olur [7]–[9]. Reaksiyon akışlarına odaklanan modelleme çabalarının aksine, yol tabanlı teknikler, gözlemlenen verilerin işlevsel bağlamını anlamak için sistematik bir yaklaşım sunar ve belirli yolların biyolojik önemini ve hastalık mekanizmalarındaki rollerini vurgular. Son olarak, ağ tabanlı yöntemler, karmaşık sistem etkileşimlerini moleküler öğeler olarak birbirine bağlı düğümler ağı şeklinde kavramsallaştırarak, genotip-fenotip ilişkileri ve biyolojik yollar gibi bilgilendirici alt ağlar öne sürer [10]. Çoklu omik verilerini birbirine bağlı ağlar olarak temsil ederek, bu yöntemler veri setlerindeki etkileşimleri etkili bir şekilde değerlendirebilir ve öğeler arasındaki bağımlılıkları gösterebilir. Entegre analiz için önceden bilgi dahil etmek, hastalık mekanizmalarını anlamak ve ilaç keşfini kolaylaştırmak açısından özellikle değerlidir. Bu yöntemler, biyolojik etkileşimlerin girift ağını ve sağlık ve hastalık üzerindeki etkilerini keşfetmek için kapsamlı bir çerçeve sunar. Bu tezde, genomik, transkriptomik, proteomik ve metabolomik gibi ana omik veri setlerini kapsayan kapsamlı bir metabolizma odaklı entegre çoklu omik veri analizi yöntemi tanıtıyoruz. Metodolojimiz, analizimizin temel çerçevesi olarak hizmet veren entegre bir çoklu omik etkileşim ağı inşa etmeyi içerir. Entegre ağ, ekspresyon, çeviri, transkripsiyon faktörleri, post-transkripsiyonel düzenleme (örneğin, miRNA'lar aracılığıyla) gibi biyolojik etkileşimlerin geniş bir yelpazesini kapsar. Ağı oluşturmak için üç farklı türde veritabanı kullanılır. Bunlar arasında TF (transkripsiyon faktörü) - hedef veritabanları (örneğin, insan ve fare transkripsiyonel düzenleyici ağlarının elle düzenlenmiş bir veritabanı olan TRRUST), miRNA-hedef veritabanları (örneğin, ilgili literatürü manuel olarak tarayarak toplanan miRTarBase) ve genom ölçeğinde metabolik ağ veritabanları (örneğin, insan metabolik ağ modeli olan Recon3D) bulunmaktadır. İlk olarak, genler, proteinler ve metabolitleri kapsayan ölçülen biyolojik öğeleri bu ağa haritalıyoruz. Daha sonra, bu öğelerin seviyelerindeki değişiklikleri ölçmek için fold değişimlerini hesaplıyoruz. Bu değişikliklerin tüm biyolojik sistemi nasıl etkilediğini anlamak için bilgi yayılma modellerini kullanarak fold değişimlerini ağ boyunca yayıyoruz. Bu adım, başlangıç ölçümlerinin tüm ağ boyunca zincirleme etkilerini yakalamamıza olanak tanır ve biyolojik etkileşimlerin bütünsel bir görünümünü sağlar. Yayılma adımının ardından, metabolik reaksiyonların sınırlarını yayılan ölçümler temelinde güncelliyoruz. Bu düzenleme, ölçülen öğelerdeki değişikliklere yanıt olarak metabolik süreçlerin dinamik doğasını yansıttığı için çok önemlidir. Analizi bireylere özelleştirmek için, akış değişkenliği analizi için kişiselleştirilmiş bir amaç fonksiyonu yapılandırıyoruz. Bu kişiselleştirilmiş yaklaşım, metabolik süreçlerdeki bireysel değişkenliği dikkate almamızı sağlar ve daha doğru ve ilgili içgörüler elde etmemizi sağlar. Son olarak, reaksiyon ve yol fark skorlarını hesaplamak için genişletilmiş bir Metabolitics algoritması uyguluyoruz. Bu skorlar, metabolik reaksiyonlar ve yolların detaylı bir değerlendirmesini sunarak, önemli değişiklikleri vurgular ve altta yatan metabolik süreçler hakkında kapsamlı içgörüler sağlar. Metabolitics, çeşitli hastalık durumlarında metabolit değişimlerinin sistem düzeyinde analizine olanak tanır. Önerilen algoritmayı iki farklı omik veri setini, yani transkriptomik ve metabolomik, entegre etmek ve beş farklı modelleme yaklaşımını değerlendirmek için altı farklı kanser türüne (yani, meme, prostat, berrak hücreli böbrek kanseri (ccRCC3 ve ccRCC4), kolon adenokarsinomu ve pankreas) uyguluyoruz: Sadece Metabolomik, Toplam Yayılım Modeli, Maksimum Yayılım Modeli, Ortalama Yayılım Modeli ve Doğrusal Eşik Yayılım Modeli. Toplam Yayılım Modeli'nde bir düğümün değeri, aktivatör komşularının ağırlıklı katkılarını toplayarak ve baskılayıcı komşularının ağırlıklı katkılarını çıkararak etkilenir. Maksimum Yayılım Modeli, aksine, bir düğümün değerini, aktivatör komşular arasında maksimum ağırlıklı değeri alarak ve baskılayıcı komşular arasındaki maksimum ağırlıklı değeri çıkararak hesaplar ve en önemli etkileri vurgular. Ortalama Yayılım Modeli, yalnızca sıfır olmayan katkıları dikkate alarak, aktivatör ve baskılayıcı komşularının ağırlıklı değerlerini ortalamasını alır ve düğümün değerini ortalama baskılayıcı etkisini ortalama aktivatör etkisinden çıkararak belirler. Son olarak, Doğrusal Eşik Yayılım Modeli, düğümün değerini, etkilenme değerinin belirli bir eşiğe ulaşması durumunda etkinleştirir ve düğümün değerini etkileşim türüne göre hesaplar. Değerlendirme için, çeşitli kanser türleri ile ilişkili metabolomik ve gen ekspresyon verilerini analiz etmek için bir makine öğrenme boru hattı geliştirdik. Benedetti ve arkadaşlarının [11] Zenodo'da erişilebilir olan tümör metabolizması üzerine yaptıkları son çalışmadan halka açık omik veri setlerini, özellikle transkriptomik ve metabolomik verileri kullandık. Veri seti, 11 farklı kanser türü arasında toplam 15 veri setine dağılmış 764 tümör örneği ve 224 bitişik normal örnek olmak üzere toplam 988 örnek içermektedir. Sağlıklı kontrollerden örnek bulunmayan beş kanser türü hariç, bu kanser türlerinden altısına odaklandık. Özellikle, çalışmamız prostat kanseri, meme kanseri, berrak hücreli böbrek kanseri (ccRCC3 ve ccRCC4), kolon adenokarsinomu ve pankreas adenokarsinomunu içermektedir. Ana hedefimiz, bu profillerden türetilen özellikleri kullanarak örnekleri 'sağlıklı' veya 'kanserli' olarak doğru bir şekilde sınıflandırmaktı. Modelimizin performansını değerlendirmek için sonuçların hem sağlam hem de genelleştirilebilir olmasını sağlamak için katmanlı çapraz doğrulama kullandık. Bulgularımız, entegre analizlerin sadece metabolomik verileri kullanmaktan önemli ölçüde daha iyi sınıflandırma performansı sağladığını göstermektedir. Örneğin, Doğrusal Eşik Yayılım Modeli, ccRCC3 veri setinde 0.899 gibi yüksek puanlar elde ederken, Sadece Metabolomik model 0.714'te kaldı. Benzer şekilde, kolon adenokarsinomu veri setinde, Toplam Yayılım Modeli 0.897 ile üstün performans sergilerken, Sadece Metabolomik modeli 0.787 puan aldı. Bu sonuçlar, çoklu omik verilerin entegrasyonunun öngörü doğruluğunu artırmada ve biyolojik etkileşimlerin anlaşılmasında kritik rol oynadığını vurgular. Ayrıca, entegre ağ içerisindeki çeşitli omik veri türlerinin dağılımını analiz ederek, farklı hastalık durumları boyunca biyolojik fenomenlerin yorumlanabilirliğini ve anlama derinliğini artırır.

Özet (Çeviri)

Biological processes and functions arise from the interactions of tens of thousands of molecules, making them inherently complex. The advent of big data and high-throughput technologies in the area of biological sciences and the presence of extensive multi-omics data have prompted the development of diverse methodologies and algorithms for their analysis. To achieve integrative analyses, a range of mathematical and computational techniques have been developed, categorized into five main subgroups. Firstly, data set concatenation-based integration methods combine omics measurements into a single table for integrated analysis. These methods aim to streamline the analytical process by merging diverse data types into a unified dataset. However, they face significant challenges due to the differing underlying distributions of data derived from various technologies. These discrepancies can complicate the interpretation and comparison of results, potentially leading to misleading conclusions if not appropriately addressed. Secondly, correlation-based integration seeks to identify correlative links between elements from one dataset and elements from another. This approach is designed to uncover relationships and interactions across different omics layers by analyzing the correlations between their respective data points. Despite its potential, correlation-based integration often encounters difficulties due to the different time scales of change in the datasets. Temporal mismatches can obscure genuine biological relationships, leading to an incomplete or inaccurate understanding of the underlying processes [1,2] . Thirdly, multivariate-based integration utilizes variations of standard multivariate techniques, such as partial least squares (PLS) and principal component analysis (PCA) [3,4]. These techniques are employed to model data, make predictions, find relationships between variables and samples, and visualize inherent data variation. By leveraging the strengths of multivariate analysis, this approach can effectively handle high-dimensional data and identify key patterns and associations within complex datasets. This method is particularly valuable for elucidating the multidimensional structure of biological data and providing insights into the interconnected nature of biological systems. Fourthly, pathway-based integration methods utilize existing biological knowledge from databases like Wikipathways [5] and KEGG [6]. These methods automatically map measured metabolites and transcripts to pathways, enabling researchers to identify pathways with significant behavioral changes between conditions or correlations between pathway behavior and a phenotypic endpoint of interest [7]–[9]. Unlike modeling efforts that focus on reaction fluxes, pathway-based techniques offer a systematic approach to understanding the functional context of the observed data, highlighting the biological significance of specific pathways and their role in disease mechanisms. Lastly, network-based methods conceptualize complex system interactions as networks of connected nodes (molecular features), suggesting connections like genotype-phenotype relationships and informative subnetworks such as biological pathways [10]. By representing multi-omics data as interconnected networks, these methods can effectively assess interactions within the datasets and demonstrate dependencies among features. Incorporating prior knowledge for integrative analysis, network-based methods are particularly valuable for understanding disease mechanisms and facilitating drug discovery. They provide a comprehensive framework for exploring the intricate web of biological interactions and their implications for health and disease. In this thesis, we introduce a comprehensive metabolism-oriented integrated multi-omics data analysis method which can accommodate major omics datasets including genomics, transcriptomics, proteomics, and metabolomics. Our methodology entails constructing an integrated multi-omic interaction network, which serves as the foundational framework for our analysis. The integrated network covers a wide range of biological interactions, such as expression, translation, transcription factors, post-transcriptional regulation (e.g., through miRNAs), etc. Three different types of databases are used to construct the network. These include TF (transcription factor) - target databases (e.g., TRRUST, a manually curated database of human and mouse transcriptional regulatory networks), miRNA-target databases (e.g., miRTarBase, collected by manually surveying pertinent literature), and genome-scale metabolic network databases (e.g., Recon3D, human metabolic network model). Initially, we map the measured biological entities, encompassing genes, proteins, and metabolites, onto this network. Subsequently, we compute fold-changes for these entities to quantify the alterations in their levels under different conditions. To understand how these changes impact the overall biological system, we utilize information diffusion models to propagate the fold-changes through the network. This step allows us to capture the cascading effects of the initial measurements across the entire network, providing a holistic view of the biological interactions. Following the propagation step, we update the bounds of metabolic reactions based on the propagated measurements. This adjustment is crucial as it reflects the dynamic nature of metabolic processes in response to the changes in the measured entities. To tailor the analysis to specific individuals, we configure a personalized objective function for flux variability analysis. This personalized approach enables us to account for individual variability in metabolic processes, leading to more accurate and relevant insights. Finally, we apply an extended Metabolitics algorithm to compute reaction and pathway differential scores. These scores offer a detailed assessment of the metabolic reactions and pathways, highlighting significant changes and providing comprehensive insights into the underlying metabolic processes. Metabolitics allows for system-level analysis of metabolite changes under various disease conditions. We apply the proposed algorithm to six different cancers (i.e., breast, prostate, clear-cell renal carcinoma cancer (ccRCC3 and ccRCC4), colon adenocarcinoma, and pancreas) to integrate two different omics datasets, namely, transcriptomics and metabolomics and evaluated five different modeling approaches: Metabolomics-Only, Sum Diffusion Model, Max Diffusion Model, Mean Diffusion Model, and Linear Threshold Diffusion Model. In the Sum Diffusion Model, a node's value is influenced by summing the weighted contributions of its activator neighbors and subtracting the weighted contributions of its repressor neighbors. The Max Diffusion Model, in contrast, calculates a node's value by taking the maximum weighted value among activator neighbors and subtracting the maximum weighted value among repressor neighbors, highlighting the most significant influences. The Mean Diffusion Model averages the weighted values of activator and repressor neighbors, considering only non-zero contributions, and determines the node's value by subtracting the average repressor influence from the average activator influence. Lastly, the Linear Threshold Diffusion Model activates a node if its influence value meets a certain threshold and calculates the node's value based on interaction type. For evaluation, we developed a machine learning pipeline to analyze metabolomic and gene expression data associated with various types of cancer. We utilized publicly available omic datasets, specifically transcriptomics and metabolomics data from a recent study by Benedetti et al. [11] on tumor metabolism, which is accessible on Zenodo. The dataset comprises 764 tumor samples and 224 adjacent normal samples, totaling 988 samples across 11 different cancer types, organized into 15 datasets. We focused our analysis on 6 of these cancer types, as the remaining 5 lacked samples from healthy controls. Specifically, our study includes prostate cancer, breast cancer, clear-cell renal carcinoma (ccRCC3 and ccRCC4), colon adenocarcinoma, and pancreas adenocarcinoma. Our main goal was to accurately classify samples as either 'healthy' or 'cancerous' by using transformed features derived from these profiles. To assess the performance of our model, we employed stratified cross-validation, ensuring that the results were both robust and generalizable. Our findings demonstrate that integrated analysis significantly enhances classification performance compared to using metabolomics data alone. For instance, the Linear Threshold Diffusion Model consistently achieved high scores, such as 0.899 in the ccRCC3 dataset, whereas the Metabolomics Only model lagged behind at 0.714. Similarly, in the colon adenocarcinoma dataset, the Sum Diffusion Model excelled with a score of 0.897, surpassing the Metabolomics-Only model which scored 0.787. These results underscore the critical role of integrating multi-omics data in improving predictive accuracy and advancing our understanding of biological interactions. Also, it enhances the interpretability and depth of understanding of biological phenomena across different disease states by analyzing the distribution of diverse omics data types within the integrated network.

Benzer Tezler

  1. Antibiyotik üretiminde kullanılan mupirosin etken maddesinin çevreye yönelik olarak arıtılması.

    Environment oriented treatment of mupirocin active ingredient used in the production process of antibiotics.

    NAİL SERHAN ÜREK

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Metalurji Mühendisliğiİstanbul Teknik Üniversitesi

    Metalurji ve Malzeme Mühendisliği Ana Bilim Dalı

    PROF. DR. MAHMUT ERCAN AÇMA

  2. N-alkilbenzimidazol palladyum kompleksleri ve C-C bağ oluşum tepkimeleri

    N-alkylbenzimidazole palladium complexes and C-C bond formation reactions

    SEMA ŞEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Kimyaİnönü Üniversitesi

    Kimya Ana Bilim Dalı

    PROF. DR. İSMAİL ÖZDEMİR

    DR. ÖZNUR DOĞAN ULU

  3. Büyüme hormonu eksikliği tanılı çocuklarda adipositokin düzeyleri, karotis intima media kalınlığı ve visseral yağ dağılımı arasındaki ilişkinin değerlendirilmesi

    Relationship between adipocytokine levels, carotid intima media thickness and visceral fat distribution in children with growth hormone deficiency

    TUĞÇE BOZKURT

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2016

    Çocuk Sağlığı ve HastalıklarıPamukkale Üniversitesi

    Çocuk Sağlığı ve Hastalıkları Ana Bilim Dalı

    YRD. DOÇ. DR. SEBAHAT YILMAZ AĞLADIOĞLU

  4. Ankilozan spondilit hastalığının tedavisine yönelik hesaplamalı ilaç geliştirme çalışmaları

    Computational drug development studies for the treatment of ankylosing spondylitis disease

    MUHAMMET BAHATTİN ŞIHLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    BiyomühendislikRecep Tayyip Erdoğan Üniversitesi

    İleri Teknolojiler Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖZDE YALÇIN ÖZKAT

  5. Tip 1 diyabetli çocuğa sahip ebeveynlerin kırılgan çocuk sendromu durumu açısından değerlendirilmesi

    Evaluating in terms of vulnerable child syndrome of the parents that has TYPE 1 diabetes children

    GÜLCEM FINDIKKIRAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    HemşirelikHasan Kalyoncu Üniversitesi

    Hemşirelik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ZERRİN ÇİĞDEM