Estimating metabolic flux variability with machine learning
Metabolik akış değerlerinin makine öğrenmesi ile tahmini
- Tez No: 943121
- Danışmanlar: DOÇ. DR. ALİ ÇAKMAK
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 109
Özet
1958 yılında Crick tarafından ortaya atılan Merkezi Dogma teorisi, genetik bilginin DNA'dan proteinlere ve ardından metabolizmanın düzenlenmesine nasıl aktarıldığını açıklamaktadır. Bu teori, omik bilimlerin gelişmesinin temelini oluşturmuştur. Metabolomik, hücre içi biyokimyasal süreçlerde üretilen ve tüketilen küçük moleküller olan metabolitlerin konsantrasyon değişimlerini geniş ölçekte inceleyen bir bilim dalıdır. Metabolomik veriler, çevresel faktörler ve genetik yapı gibi değişkenlerin fenotip üzerindekia etkilerini anlamada önemli bilgiler sunar. Geçtiğimiz yıllar içerisinde hastalıkların erken teşhisi ve tedavi süreçlerinde yapay zekanın metabolomik alanında kullanımı önemli ölçüde artmıştır. Metabolomiğin an odak noktası olan metabolitler, hücrelerdeki biyokimyasal reaksiyonlara katılan küçük moleküllerdir (örneğin glikoz, kolesterol, amino asitler vb.). Ortak bir görevin parçası olarak zincirleme çalışan biyokimyasal reaksiyonlar, yolaklar olarak gruplanırlar. Birbirlerine metanolitler üzerinden bağlana yolaklar da büyük bir metabolik ağın parçalarını oluşturur. Hücrelerdeki metabolit miktar değişimlerini incelemek için çeşitli yöntemler kullanılmaktadır. Bunlar arasında en yaygın kullanılan yöntemlerden birisi Akı Değişkenliği Analizidir (FVA). Akı, bir biyokimyasal reaksiyon içerisinde birim zamanda substratlardan ürünlere dönüştürülen metabolit miktarını temsil eder. Akı değerleri çevresel değişkenlere uyum sağlamak için sık sık değişebildiğinden, yaygın yaklaşımlardan biri reaksiyon akılarının mümkün olabilecek minimum ve maksimum değerlerini içeren aralıkları incelemektir. Akı Değişkenliği Analizi, biyolojik ağ modellerindeki her bir reaksiyon için Lineer Programlama ile bir optimizasyon problemi çözerek minimum ve maksimum akı değerlerini hesaplar. Bu hesaplama maaliyetli ve zaman alan bir süreçtir. Örnek sayısına ve çalışılan biyolojik ağ modelindeki reaksiyon sayısına göre saatler hatta günlerce sürebilir. Bu çalışmada metabolik yolak akı aralıklarının makine öğrenmesi yöntemleri ile hızlı ve doğru bir şekilde hesaplanması problemine odaklanılmıştır. Bu problemi çözmek üzere farklı mimari ve algoritmalar üzerine inşa edilmiş Çok Çıktılı Regresyon (Multi-out Regression) modellerinin kullanılması önerilmiştir. Geleneksel Akı Değişkenliği Analizi yöntemi ile saatlerce süren hesaplama işlemleri, tahminleme modelleri ile saniyenin altına düşürülmüştür. Bu çalışma sayesinde Metabolomik alanında yapılan çalışmalarının daha da hızlanacağı ve kaynak kısıtından dolayı oluşan darboğazın önüne geçileceği ön görülmüştür. Çalışmada literatürdeki birçok çalışmadan veri öbekleri toplanarak büyük bir veri kümesi elde edilmiştir. Bu veri kümelerini birlikte kullanabilmek amacıyla metabolomik veriler, veri kümesindeki“faktör”(deneysel odak, örneğin kanser, sağlıklı, tedaviye iyi yanıt veren veya vermeyen, vb.) değerine göre ölçeklendirilerek, modellerde öznitelik olarak kullanılmıştır. Metabolomik veriler ile birlikte, metabolitler ile metabolik yollar arasındaki ilişkileri daha iyi yansıtabilmek amacıyla, metabolik yollara ait ortalama metabolit değerleri öznitelik olarak hesaplanmıştır. Bu tezde birçok farklı denetimli makine öğrenmesi yöntemi yolak akı değişkenliği tahmini için uyarlanmıştır. Denetimli makine öğrenmesi yöntemlerinde, öğrenim esnasında gerçek akı aralıkları kullanılır. Gerçek akı aralığı değerleri (ground truth), geleneksel Akı Değişkenliği Analizi yöntemi ile hesaplanarak elde edilmiştir. Metabolik ağ olarak genom ölçekli Recon3D metabolik ağı kullanılmıştır. Bu metabolik ağda bulunan 10.600 reaksiyon için minimum ve maksimum akı değerleri hesaplanmıştır. Hedef uzayın boyutunu azaltıp, problemi sadeleştirmek amacıyla reaksiyonların akı değerlerinden, metabolik yolların akı değerleri elde edilmiştir. Kullandığımız metabolik ağ modelinde 98 yolak bulunmaktadır. Böylece hedef uzay 21.200'den 196'ya indirgenmiştir. Çalışmada temel model oluşturma sürecinde geleneksel makine öğrenimi yöntemleri ve derin öğrenme yaklaşımları kullanılmıştır. Geleneksel yöntemler arasında, her bir çıktı değişkeni için ayrı model eğitimi gerektiren Çok Çıktılı Regresyon modelleri, Random Forest ve XGBoost algoritmalarıyla uygulanmıştır. Derin öğrenme alanında ise Tam Bağlantılı Sinir Ağları (FCNN), Değişken Otomatik Kodlayıcı (VAE), Evrişimsel Sinir Ağları (CNN), Grafik Sinir Ağları (GNN), Dönüştürücü ve Sinirsel Belirsiz Karar Toplulukları (NODE) gibi çeşitli mimariler geliştirilerek metabolitler arasındaki ilişkileri ve bu metabolitlerin biyolojik işlevlerinin modellenmesi amaçlanmıştır. Derin öğrenme modellerinde, LeakyReLU aktivasyon fonksiyonu, Batch Normalizasyonu, Dropout katmanları ve AdamW optimizasyon algoritması gibi teknikler kullanılarak aşırı öğrenme (overfitting) ve gradyan sorunlarının önüne geçilmiştir. Özellikle GNN yapısında, metabolik ağın çizge yapısı kullanılarak metabolit, reaksiyon ve yolak ilişkileri detaylı şekilde temsil edilmiştir. Modellerin genel hedefi, metabolit verileri üzerinden biyokimyasal yolak akı aralıklarının hızlı ve doğru tahmin edilmesini sağlamaktır. Model eğitimi için, Metabolomics Workbench ve MetaboLights veri tabanlarından elde edilen, 22.000'den fazla bireye ait ölçümleri içeren geniş bir metabolomik veri kümesi kullanılmıştır. Her bir veri kümesi kendi içinde en az 122 metabolit içerirken, toplamda 1.090 farklı metabolit içermektedir. Modellerin bağımsız performans değerlendirmesi, meme kanseri, berrak hücreli böbrek karsinomu, kolorektal adenokarsinom, pankreas adenokarsinomu ve prostat adenokarsinomu dahil olmak üzere beş farklı kanser türüne ait veri setlerinde gerçekleştirilmiştir. Kanser datasetleri toplamda 550 birey içermektedir. Veri kümelerindeki metabolit değerleri öncelikle kendi içlerinde sağlıklı bireylerin ölçümlerine dayalı, Kat Değişimi Ölçekleyici (Fold Change Scaler) tekniği ile ölçeklenmiştir. Veri kümelerinin birleştirilmesinin ardından, farklı veri dağılımlarının model performansına olumsuz etkisini azaltmak amacıyla, metabolit ölçüm değerleri ile yolakların akı aralık değerleri Standart Normalizasyon ile ölçeklenmiştir. Farklı veri kümelerinin birleştirilmesi ile birlikte çalışmada kullanılan metabolit kapsamı genişletilebilmiştir fakat bununla birlikte \%90'ın üzerinde boşluklardan oluşan bir dataset elde edilmiştir. Verideki boşluklar, ölçeklenmeden sonra ortalama değer ile doldurulmuştur. Regresyon performansı 10 katlı çapraz doğrulama tekniği kullanılarak ve bağımsız testler için model eğitiminde kullanılmayan kanser veri kümeleri kullanılarak değerlendirilmiştir. Performans ölçümü için Kök Ortalama Kare Hatası (Root Mean Square Error (RMSE)) ve Mutlak Ortalama Hata (Mean Absolute Error (MAE)) gibi hata metrikleri kullanılmıştır. Regresyon sonuçları incelendiğinde Random Forest (RF) ve XGBoost algoritmalarının, derin öğrenme yöntemlerinden daha iyi performans gösterdiği gözlemlenmiştir. Derin öğrenme modelleri arasında ise Evrişimsel Sinir Ağları (CNN) ve FT-Transformer görece daha güçlü performans sergilemiştir. Regresyon analizinin ardından, model tarafından tahmin edilen çıktıların gerçek hayattaki potansiyel kullanım performansları da değerlendirilmiştir. Bu amaçla, kanser veri kümelerinde yer alan hastalık etiketleri kullanılarak ikili sınıflandırma problemleri oluşturulmuştur. Gerçek akı aralık değerleri ile eğitilmiş sınıflandırma modellerinden elde edilen başarı ile, regresyon modelleri aracılığıyla tahmin edilen akı aralık değerleri kullanılarak eğitilen sınıflandırma problemlerindeki başarı karşılaştırılmıştır. Sınıflandırma performansını değerlendirmek amacıyla F1 skoru kullanılmıştır. Buna ek olarak, metabolik yol seviyesindeki akı aralık değerleri ile hastalık etiketleri arasındaki ilişkiler gerçek akı aralığı değerleri üzerinden incelenmiş ve istatistiksel olarak anlamlı farklılık gösteren metabolik yolaklar tespit edilmiştir. Ardından, benzer bir analiz önerilen yöntemler ile tahmin edilen akı aralığı değerleri üzerinden de tekrarlanmış ve bu iki analiz sonucu hesaplanan istatiksel olarak önemli derecede farklılık gösteren yolaklar karşılaştırılmış; iki sonuç kümesinin kesişimleri analiz edilerek biyolojik bağlamda benzerlik analizleri yapılmıştır. Çalışma kapsamında 14 farklı makine öğrenmesi modeli önerilmiştir. Bunlar arasında Random Forest (RF), XGBoost, CNN ve FT-Transformer ön plana çıkmıştır. Daha detaylı olarak RF ve XGBoost sırası ile 84.97 ve 81.55 RMSE değerleri ile en iyi regresyon performansını sağlamışlardır. Gerçek yolak akı aralık değerleri ile eğitilen kanser sınıflandırma modellerinin ortalama F1 skoru 0.88'ken, tahmin edilen yolak akı aralığı değerleri ile eğitilen Random Forest, XGBoost, CNN ve FT-Transformer modellerinin 0.80 ve üzeri F1 skoru elde ettiği görülmüştür. Bu modellerden elde edilen akı aralık değerleri üzerinden hesaplanan istatistiksel olarak hastaları sağlıklardan önemli derecede ayırt edici metabolik yolak kümeleri, gerçek akı aralığı değerleri üzerinden hesaplanan ayırt edici önemli yolak kümeleri ile \%50'den fazla benzerlik göstermektedir. Çalışma hızı olarak XGBoost açık ara önde olan yöntemdir ve mevcut çözümü 25000 kat hızlandırmıştır. Literatürdeki güncel yaklaşımlarla karşılaştırıldığında, önerilen yöntemlerin tüm değerlendirme senaryolarında daha üstün performans sergilediği görülmüştür. Random Forest ve XGBoost birçok açıdan benzer başarı sergilemiş olsa da, XGBoost hesaplama hızındaki üstünlüğü nedeniyle bu çalışmada tercih edilen yöntem olmuştur.
Özet (Çeviri)
In recent years, the use of artificial intelligence in metabolomics for early disease diagnosis and treatment processes has increased significantly. Metabolomics is the scientific field that studies and analyzes metabolite abundances within an organism. Metabolites are small chemicals (e.g., glucose, cholesterol, amino acids, etc.) that participate in biochemical reactions in cells. Various methods are employed to study metabolic activities in cells. In this study, focus on computing flux intervals of reactions.“Flux”represents the rate of conversion of input metabolites to output metabolites in reactions. Since flux values frequently change to adapt to different changes, one of the common approaches is to study the feasible flux intervals (i.e., min and maximum values of a reaction flux). The most widely used technique for calculating reaction flux intervals is the Flux Variability Analysis (FVA). FVA computes the minimum and maximum flux rates in metabolic networks by solving an optimization problem for each reaction using linear programming. However, this calculation is computationally expensive and time-consuming, often taking hours or even days, depending on the size of the data and the number of reactions in the biological network model. To address this problem, we propose several machine learning techniques, enabling simultaneous flux value predictions for all reactions. The use of prediction models reduces the computational time of FVA from minutes to under a second. This advancement is expected to accelerate metabolomics research and mitigate the problems arising from resource limitations. We employ both traditional machine learning methods and deep learning approaches. Among traditional methods, multi-output regression models such as Random Forest and XGBoost were implemented, each requiring separate training per output variable. On the deep learning side, a variety of architectures, including including Fully Connected Neural Networks (FCNN), Variational AutoEncoders (VAE), Convolutional Neural Networks (CNN), Graph Neural Networks (GNN), Transformers, and Neural Oblivious Decision Ensembles (NODE) are developed to model the relationships between metabolites and their roles. Techniques such as LeakyReLU activation, Batch Normalization, Dropout layers, and the AdamW optimizer were applied to prevent overfitting and gradient issues. Particularly, the GNN architecture leveraged the graph structure of the metabolic network to explicitly capture the detailed relationships among metabolites, reactions, and pathways. The overall objective of these models is to enable rapid and accurate prediction of biochemical pathway changes based on input metabolomics data. For training, a large number of metabolomics datasets encompassing measurements for more than 22,000 individuals are obtained from the Metabolomics Workbench and Metabolights. An independent performance evaluation of the models is performed on independent datasets of five different cancer types, including breast cancer, clear cell renal carcinoma, colon adenocarcinoma, pancreatic adenocarcinoma, and prostate adenocarcinoma. Metabolite values within the datasets were first scaled using a Fold Change Scaler based on the healthy individuals' measurements. After merging the datasets, the standard normalization was applied to the metabolite and pathway change values to reduce the adverse impact of differing data distributions on model performance. Missing values were imputed with zeros. Regression performance was assessed using 10-fold cross-validation and also independently validated on separate cancer datasets. Metrics such as RMSE and MAE were employed for performance evaluation. The regression results indicated that Random Forest (RF) and XGBoost outperformed deep learning models. Among deep learning approaches, CNN and FT-Transformer models showed relatively stronger performance. In total, 14 different methods are studied, with Random Forest, XGBoost, CNN, and FT-Transformer standing out. RF and XGBoost achieved RMSE values of 84.97 and 81.55, respectively. The average disease classification F1 score obtained using ground truth labels was 0.88, while the classification models with the predicted values achieved an F1 score of 0.80. The important feature sets of these models showed over 50\% similarity in term of statistically significant metabolic pathways associated with disease labels. Regarding computational speed, XGBoost was the fastest by far, accelerating the existing solution by a factor of 25,000. Compared to the state-of-the-art in the literature, the proposed methods demonstrated superior performance across all evaluated scenarios. While Random Forest and XGBoost demonstrated comparable performance in many aspects, XGBoost's superior speed led to its recommendation for use in this study.
Benzer Tezler
- Development of microfluidic platforms for therapeutic purposes
Mikroakışkan platformların terapötik amaçlı geliştirilmesi
ELİF GENÇTÜRK
Doktora
İngilizce
2021
BiyomühendislikBoğaziçi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. ŞEFİKA KUTLU ÜLGEN
- Quantitative analysis of relationships between fluxome and metabolome in Escherichia coli
Başlık çevirisi yok
HİLAL TAYMAZ NİKEREL
Doktora
İngilizce
2010
BiyoteknolojiTechnische Universiteit Delft (Delft University of Technology)PROF. DR. J. J. HEIJNEN
DR. W. M. VAN GULIK
- İn vitro gaz üretim tekniği ile metabolik enerji değerlerinin tahmininde en uygun regresyon yönteminin belirlenmesi
Determination of the most appropriate regression method to estimate metabolic energy values by in vitro gas production technique
ÖMER GÜLBOY
Yüksek Lisans
Türkçe
2014
BiyoistatistikOndokuz Mayıs ÜniversitesiZootekni Ana Bilim Dalı
DOÇ. DR. HASAN ÖNDER
- Hipertiroidili hastalarda kardiyovasküler risk faktörü olarak asimetrik dimetilarjinin düzeyi
Estimating asymmetric dimethylarginine levels as a cardiovascular risk factor in hyperthyroid patients
AYŞEGÜL ALÇELİK
Tıpta Uzmanlık
Türkçe
2010
Endokrinoloji ve Metabolizma HastalıklarıDüzce ÜniversitesiKardiyoloji Ana Bilim Dalı
DOÇ. DR. HAKAN ÖZHAN
- Tümörlü doku tespiti için pennes'in biyoısı transfer yaklaşımıyla kan perfüzyon parametresinin tahmininde hibrit bir model: zaman domeninde sonlu farklar yöntemi ve sezgisel algoritmalar
A hybrid model for estimating blood perfusion parameter by pennes' bioheat transfer approach for tumor tissue detection: finite differences time domain method and heuristic algorithms
BARIŞ GÜRSU
Yüksek Lisans
Türkçe
2023
BiyofizikGazi ÜniversitesiBiyofizik Ana Bilim Dalı
PROF. DR. ELÇİN ÖZGÜR BÜYÜKATALAY