Geri Dön

A deep learning architecture for missing metabolite concentration prediction

Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi

  1. Tez No: 887071
  2. Yazar: SADİ ÇELİK
  3. Danışmanlar: DOÇ. DR. ALİ ÇAKMAK
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 89

Özet

Geçtiğimiz on yıl içerisinde hastalıkların tanı ve tedavisinde derin öğrenme yöntemlerinin kullanımı bioinformatik alanında artmıştır. Omik bilimler, DNA'nın işlevlerini inceleyen ve hastalığa bağlı genetik varyantları tanımlamaya odaklanan genomik, RNA seviyelerinin genom bazında niteliksel ve miktarlı incelenmesine olanak sağlayan transkriptomik, organizmadaki protein ağlarını ve hücre, doku içindeki protein miktarını inceleyen proteomik ve metabolomikten oluşmaktadır. Metabolomik, bir organizma içinde var olan tüm metabolitlerin tanımlanması ve ölçülmesini inceleyen, fizyolojik ve patolojik durumlarda kapsamlı bir analiz sağlayan bir omik bilimidir. Metabolomik veriler metabolomik fonksiyonun bir ölçüsüdür. Normal ölçüm aralığının dışındaki sapmalar kişideki hastalık durumunu ifade etmektedir. Metabolomik verilerin analizi birden fazla farklı bioinformatik araçlarının kullanılmasını içerir. Metabolitlerin ölçümleri, sıvı kromatografisi (SK) ve gaz kromatografisi (GK) gibi ön filtreleme işlemlerini içeren çeşitli kütle spektrometrisi (KS) ve nükleer manyetik rezonans (NMR) cihazları ile gerçekleşmektedir. Hastalardan alınan kan, tükürük, idrar gibi çeşitli vücut sıvıları, yapılan çalışmanın hedefine ve hipotezine göre analiz edilmektedir. Metabolomik veritabanlarının biyolojik açıdan etkili bir biçimde yorumlanması ve güçlü veri analizi için, veri kalitesinin yüksek olması ve ön işleme yapılması gereklidir. Ölçüm cihazlarından alınan ham veriler çeşitli işlemlere tabi tutulur. Bu işlemler, cihazdaki ham sinyallerin işlenmesi, sinyallerin gruplandırılması ve filtrelenmesi aşamalarıdır. Bu işlemler sırasında veri kaybı yaşanması olasıdır. Metabolitlerin göreceli miktar ölçümlerini içeren çeşitli çalışmalarda, verilerde tespit edilen eksik değerler, analiz sonuçlarının performansını olumsuz etkileyebilir. Son yıllarda, eksik değerlerin doğru hesaplanması için derin öğrenme tabanlı üretken modellerin kullanılması oldukça yaygınlaşmıştır. Daha güçlü veri analizi gerçekleştirmek için bu eksik değerleri Değişimli Otomatik Kodlayıcı (DOK) gibi denetlenmemiş üretken modeller kullanarak hesaplayabiliriz. Böylece yeniden üretilen değerler, eksik değerleri de gidererek güçlü bir performans seviyesine ulaşabilir. DOK modeli, kodlayıcı ve çözücü adında iki ayrı yapay sinir ağı modelinin birbirleriyle dönüşümlü çalışmasıyla oluşur. Kodlayıcı, aldığı veriyi örtülü alan denilen daraltılmış bir uzaya sıkıştırır. Çözücü ise örtülü alandan örnekler alarak ilk veriyi yeniden inşa etmeye çalışır. Örtülü alan, normal otomatik kodlayıcılardan farklı olarak rastsaldır. Bir başka deyişle, bu olasılıksal alandan üretilen örnekler rastgeledir. Örneklerin rastgele olması, geri yayınımlı öğrenim algoritmasının çalışmamasına, ortalama ve standart sapma cinsinden kısmi türevlerin alınamamasına, dolayısıyla modelin öğrenmemesine sebep olmaktadır. Bu sorunu çözebilmek için parametre değiştirme hilesi uygulanır. Ortalaması sıfır, standart sapması bir olan normal dağılımdan rastgele üretilmiş bir epsilon değeri alınarak rastgele yapılan örnekleme kararlı bir şekle çevrilir. Normalde görüntü üretmek için kullanılan DOK modelleri, çalışmamızda eksik metabolit ölçüm değerlerini tahmin etmek için yeniden tasarlanmıştır. Görüntü üretiminde kodlayıcı ve çözücü ağları evrişimli sinirsel ağ cinsindeyken eksik değer üretiminde tam bağlantılı ağ cinsindedir. Zarar fonksiyonu olarak model, orjinal veri ve yeniden inşa edilen veri arasındaki kayıp ve standart normal dağılım ile örtülü alanda oluşan dağılımın arasında farklılığı ölçen Kullback-Leibler diverjansının toplamını kullanır. Model, zarar fonksiyonunu minimize ederek nöronların ağırlık ve sapmalarını optimize etmeye çalışır. Bu çalışma, Metabolomik veri kümelerindeki eksik metabolit değerleri doğru bir şekilde tahmin edebilecen etkili modeller geliştirmeyi amaçlamaktadır. Bu amaçla, Metabolomics Workbench ve MetaboLights veritabanlarından çok sayıda metabolomik çalışma topladık. Bu veri setleri, metabolit kümeleri ve bunları üreten temel deneysel teknolojiler açısından heterojendir. Dolayısıyla imputasyon modellerini eğitmek için bu çeşitli veri kümelerini bir arada kullanmak zordur. Bu zorluğun üstesinden gelmek için üç farklı model ve veri seti birleştirme stratejisi öneriyoruz: Küme Birleşimi Temelli Birleşme, İteratif Benzerlik Temelli Birleşme ve Modelle Yönetilen Toplu Birleşme. Bu yöntemler kapsamında verisetleri birleştirilip çeşitli DOK modelleri eğitilmiştir. Küme Birleşimi Temelli Birleşme yöntemiyle, çalışmalar kendi veritabanlarında ortak metabolit düzlemine getirildikten sonra sanal bir şekilde birleştirilmiştir. Kesişmeyen değerler boş kabul edildiğinden günün sonunda çok seyrek bir veri matrisi eğitime hazırlanmıştır. Her bir veritabanı (Metabolomics Workbench ve Metabolights) için birer DOK modeli eğitilmiştir. İteratif Benzerlik Temelli Birleşme yöntemiyle, her bir çalışma için optimal birleştirilebilecek çalışmalar, ölçülen metabolitlerin Jaccard benzerliği üzerinden hesaplanıp, belirli bir seyrekliliği geçmemek kaydıyla kaydedilmiştir. Her bir çalışma için bir tane optimal birleşme seti mevcuttur. Her bir birleşme seti için bir tane DOK modeli eğitilmiştir. Aynı çalışmaları içeren birleşme setlerinden üretilen modeller, tekrarı önlemek için silinmiştir. Modelle Yönetilen Toplu Birleşme yöntemiyle ise çalışmalar kendi veritabanlarında ikili ikili birleştirilip, birleşimde oluşan eksikler daha önceki modeller kullanılarak tahmin edilmiştir. İkili birleştirme işlemi, büyük tek bir model oluşturulana kadar devam etmiştir. Toplamda N_log_2N tane özgün model oluşturulmuştur (N = çalışma sayısı). İlk aşamalarda üretilen modellerin güvenirliliği son modellere göre daha yüksektir. DOK modellerimizin optimum yapılandırmasını belirlemek için çeşitli ön deneyler yapılmıştır. Bu ön deneyler, verilerde gerçekten var olan eksik ölçümleri hangi yöntemle dolduracağımız ve hangi en etkili veri ön işleme planını uygulayacağımız konusunda sonuçlar vermiştir. Verideki gerçek boşluklar doldurulup, veriler ön işleme hattına sokulduktan sonra tutarlı ve güvenilir bulgular sağlamak için k-katmanlı çapraz doğrulama tekniği kullanılmıştır. Eğitim öncesinde, klinik verisetlerindeki eksiklik örüntülerini taklit etmek için dolu olan verilerde rastgele boşluklar oluşturulmuştur ve modeller bu eksik verilerle eğitilmiştir. Bu işlemin oluşturulma amacı, ideal koşullarda gelecek yeni bir veride potansiyel olarak bir eksiliğin olmasıdır. Veri setlerinin boyutu büyüdükçe RastgeleOrmanRegresör'ü daha yavaş çalıştığından KNN doldurma yöntemi, orijinal eksik verileri doldurmada standart yöntem olarak seçilmiştir. Veri kümelerine yapılan log dönüşümlerinin farklı tabanlarla uygulanması ve Yeo-Johnson dönüşümü, DOK modellerinin performansını artırmıştır. Deneysel sonuçlarımız, önerilen çerçeve ile eğitilmiş modellerimizin metabolomik çalışmalardaki eksik verileri doğru bir şekilde hesaplayabildiğini göstermektedir.

Özet (Çeviri)

In the last decade, the use of deep learning methods for the diagnosis and treatment of diseases has become a widespread practice in the field of bioinformatics. Metabolomics is an omics science dealing with the identification and measurement of all metabolites in an organism, and can provide a comprehensive analysis of the metabolic profile both in physiological and pathological conditions. Metabolomics data serve as a measure of metabolic function. In particular, relative ratios and perturbations that are outside of the normal range signify disease conditions. The analysis workflow of metabolomics data involves the application of different bioinformatics tools. The quantification of metabolites is accomplished by the utilization of a wide range of different combinations of mass spectrometry (MS) in conjunction with liquid chromatography (LC), gas chromatography (GC), and nuclear magnetic resonance (NMR) techniques. For a proper biological interpretation of metabolomic datasets and powerful data analysis, preprocessing is essential to ensure high data quality. In various studies containing metabolite measurements, missing values in the data may affect the performance of the analysis results significantly. In recent years, the application of deep learning-based generative models for the accurate imputation of missing values has gained popularity. Unsupervised generative models like variational autoencoders (VAE) can impute missing values to perform more powerful data analysis. This work aims to develop effective models that can accurately predict missing metabolite values in metabolomics datasets. To this end, a number of human metabolomics studies from the Metabolomics Workbench and MetaboLights databases are collected. These datasets are heterogeneous in terms of their metabolite sets and the underlying experimental technologies that generated them. Hence, it is challenging to utilize these diverse datasets together to train imputation models. To tackle this challenge, we propose three different models and dataset merging strategies, namely, Union-based Merging, Iterative Similarity-based Merging, and Model-guided Agglomerative Merging. We perform several experiments to determine the optimal setup configuration for the training pipeline. This includes finding the best initial missing value imputation approach and the most effective data pretreatment scheme. After handling the original missing values and applying a preprocessing pipeline to the input data, k-fold cross-validation is carried out to ensure consistent and reliable model evaluation. Before training, random missingness simulations are performed to mimic different missing value patterns in clinical datasets, and the models are trained with those patterns. During our empirical evaluation, we observe that the complexity drawback of IterativeImputer with RandomForestRegressor is more evident in larger datasets. For this reason, KNNImputer method is chosen as the standard missing filling method for initial missing values in our proposed merging approaches. Moreover, the application of log transformations with different bases and the Yeo-Johnson transformation of the datasets results in improved VAE model performances. Furthermore, our experimental results show that the performance of the proposed framework scales over large datasets to create accurate metabolite- and dataset-independent imputation models to predict missing values in metabolomics studies.

Benzer Tezler

  1. A deep learning based recommendation system design for banking customers using interaction data

    Ardışıl veriler kullanılarak bankacılık müşterileri için derin öğrenme tabanlı tavsiye motoru tasarımı

    HASAN AVCI

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBahçeşehir Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CEMAL OKAN ŞAKAR

  2. Deep learning for background scene reconstruction

    Başlık çevirisi yok

    ŞEYMA KARAGÖZOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Trinity College Dublin

    DR. FRANCOİS PİTİE

  3. Deep learning for background scene reconstruction

    Arka plan görüntülerinin yeniden yapılandırması için derin öğrenme

    ŞEYMA KARAGÖZOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Elektrik ve Elektronik MühendisliğiDiğer

    Mühendislik Bilimleri Ana Bilim Dalı

    DR. FRANCOİS PİTİE

  4. Nesnelerin internetinde derin öğrenmeye dayalı veri analizi ve bilgi çıkarımı

    Deep learning based data analysis and information extraction in the internet of things

    İBRAHİM KÖK

    Doktora

    Türkçe

    Türkçe

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. SUAT ÖZDEMİR

  5. Video deinterlacing and demosaicing by deep learning

    Derin öğrenme ile video binisimsizlestirme ve demozaikleme

    RONGLEI JI

    Doktora

    İngilizce

    İngilizce

    2024

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik ve Elektronik Mühendisliği Ana Bilim Dalı

    PROF. DR. AHMET MURAT TEKALP