Geri Dön

Omik verilerinde otomatik makine öğrenimi algoritmalarının performansının değerlendirilmesi

Performance evaluation of automated machine learning algorithmsin omics data

  1. Tez No: 615974
  2. Yazar: MELTEM ÜNLÜSAVURAN
  3. Danışmanlar: DOÇ. DR. GÖKMEN ZARARSIZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: AutoML, Gen ifade verisi, Makine öğrenmesi, Omik veri, Sınıflandırma, AutoML, Gene expression data, Machine learning, Omics data, Classification
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: Erciyes Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 131

Özet

Omik çalışmalar sağlık alanında birçok problemi çözmeye yardımcı olmuştur. Omik teknolojiler yüksek miktarda veri üretmektedirler. Verilerden anlamlı bilginin elde edilmesi için istatistiksel analiz yöntemlerine başvurulmaktadır. Makine öğrenmesi, omik verilerden anlamlı bilgilerin elde edilmesi için sıklıkla kullanılmaktadır. Bu çalışma kapsamında sınıflandırma problemleri ele alınmıştır. Sınıflandırma problemlerini çözmek için çok sayıda makine öğrenmesi yöntemi bulunmaktadır. Araştırmacıların bu yöntemler arasından hangisini uygulayacaklarına karar vermeleri gerekmektedir. Uygulanacak yöntemlerin, ayarlanması gereken çeşitli parametreleri bulunmaktadır. Bu yöntem ve parametrelerden en uygun seçimin yapılması için otomatik makine öğrenmesi yöntemleri geliştirilmiştir. Otomatik makine öğrenmesi ile veri analiz sürecinin otomatik gerçekleştirilmesi hedeflenmiştir. Mevcut geliştirilmiş otomatik makine öğrenmesi yöntemleri, makine öğrenme sürecinin ön işleme, değişken seçimi, model seçimi, parametre seçimi gibi bazı basamaklarını otomatikleştirmiştir. Biz de bu çalışmada otomatik makine öğrenmesi yöntemlerinin omik veriler için performansını araştırdık. Kullanılan toplam 29 omik verisinden 16'sı mikrodizi verisi, 6'sı RNA-dizileme verisi ve 7'si metabolomik verisidir. Verilerin tamamı gerçek veri setleridir. Bu verileri sınıflandırmak için otomatik makine öğrenmesi yöntemlerinden H2O ve TPOT kullanılmıştır. Makine öğrenmesi yöntemlerinden ise RF, DVM ve NSC yöntemleri kullanılmıştır. Her bir yöntemin birbirlerine karşı avantaj ve dezavantajlarının araştırılması amaçlanmıştır. Analiz sonuçlarına göre mikrodizi verilerinden Alizadeh-V1, Armstrong-V1, Armstrong-V2, Bittner, Chen, Chowdary, Garber, Gordon, Laiho, Lapointe-V1 ve West; RNA dizileme verilerinden Alzheimer, Fare Embriyo, Fare Kök Hücre, Rahim Ağzı Kanseri ve Lemfoblastoid; metabolomik verilerinden ST000369, ST000389, ST000388, ST000390, ST000356 ve ST000391 ile H2O ve TPOT yöntemiyle en iyi sınıflandırma performansları elde edilmiştir. Toplam 11 veride ise RF, DVM ve NSC yöntemleriyle en iyi sınıflandırma performansları elde edilmiştir. Sonuç olarak her veri için kullanılabilecek en iyi performansı gösteren bir yaklaşım bulunamamıştır. Daha kesin değerlendirmelerin yapılabilmesi için gelecek çalışmalarda simülasyon çalışmaları ve daha farklı veri setleri ile denemelerin yapılması gerekmektedir.

Özet (Çeviri)

Omics studies have helped solve many health problems. Omics technologies create large amounts of data. In order to obtain meaningful information from the data, statistical analysis methods are used. Machine learning is often used to obtain meaningful information from omics data. In this study, classification problems are discussed. Many machine learning methods exist to solve classification problems. Researchers must decide which of these methods to use. Methods to be applied have several parameters that need to be set. Automated machine learning methods have been developed in order to make the most appropriate selection of these methods and parameters. Automated machine learning is aimed at automating the data analysis process. The current developed automated machine learning methods have automated some of the steps of the machine learning process such as pre-processing, feature selection, model selection, parameter selection. In this study, we researched the performance of automated machine learning methods for omics data. Of the 29 omics data used, 16 were microarray data, 6 were RNA-sequencing data and 7 were metabolomics data. All data are real datasets. Automatic machine learning methods H2O and TPOT have been used to classify these data. Machine learning methods RF, SVM and NSC have been used to classify these data. It is aimed to research the advantages and disadvantages of each method against each other. According to the analysis results, the best classification performances for Alizadeh-V1, Armstrong-V1, Armstrong-V2, Bittner, Chen, Chowdary, Garber, Gordon, Laiho, Lapointe-V1 and West from microarray data, Alzheimer, Mouse Embryo, Mouse Stem Cell, Cervical and Lymphoblastoid from RNA sequencing datasets, ST000369, ST000389, ST000388, ST000390, ST000356 and ST000391 from metabolomics data were obtained by H2O and TPOT methods. The best classification performance in 11 datasets were obtained with RF, DVM and NSC methods. As a result, the best performing approach for each datasets could not be found. In order to make more accurate assessments, in the future studies should be conducted with simulation studies and experiments with different data sets.

Benzer Tezler

  1. Metabolism-oriented multiomics data integration

    Farklı omı̇k verı̇lerı̇n metabolı̇zma odaklı entegrasyonu

    AYCAN ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. ALİ ÇAKMAK

  2. A deep learning architecture for missing metabolite concentration prediction

    Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi

    SADİ ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ALİ ÇAKMAK

  3. Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data

    Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı

    ERSİN ONUR ERDOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA

  4. Cell subtype specific roles of glial cells in alzheimer's disease by network-based analysis of single-cell multi-omic data

    Tek hücreli çoklu omik verilerin ağ tabanlı analizi ile alzheimer hastalığında glial hücrelerin hücre alt tipine özgü rolleri

    ATILAY İLGÜN

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    BiyomühendislikGebze Teknik Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    PROF. DR. TUNAHAN ÇAKIR

  5. Bayesian networks for omics data analysis in hepatocellular carcinoma single-cell sequencing

    Hepatosellüler karsinomun tekil hücre diziliminde omiklerin veri analizi için Bayes ağları

    MUNTADHER ZAHID JIHAD

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    GenetikHacettepe Üniversitesi

    Biyoenformatik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ İDİL YET