Omik verilerinde otomatik makine öğrenimi algoritmalarının performansının değerlendirilmesi

Performance evaluation of automated machine learning algorithmsin omics data

PDF İndir

Tez No: 615974
Yazar: MELTEM ÜNLÜSAVURAN
Danışmanlar: DOÇ. DR. GÖKMEN ZARARSIZ
Tez Türü: Yüksek Lisans
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: AutoML, Gen ifade verisi, Makine öğrenmesi, Omik veri, Sınıflandırma, AutoML, Gene expression data, Machine learning, Omics data, Classification
Yıl: 2019
Dil: Türkçe
Üniversite: Erciyes Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 131

Özet

Omik çalışmalar sağlık alanında birçok problemi çözmeye yardımcı olmuştur. Omik teknolojiler yüksek miktarda veri üretmektedirler. Verilerden anlamlı bilginin elde edilmesi için istatistiksel analiz yöntemlerine başvurulmaktadır. Makine öğrenmesi, omik verilerden anlamlı bilgilerin elde edilmesi için sıklıkla kullanılmaktadır. Bu çalışma kapsamında sınıflandırma problemleri ele alınmıştır. Sınıflandırma problemlerini çözmek için çok sayıda makine öğrenmesi yöntemi bulunmaktadır. Araştırmacıların bu yöntemler arasından hangisini uygulayacaklarına karar vermeleri gerekmektedir. Uygulanacak yöntemlerin, ayarlanması gereken çeşitli parametreleri bulunmaktadır. Bu yöntem ve parametrelerden en uygun seçimin yapılması için otomatik makine öğrenmesi yöntemleri geliştirilmiştir. Otomatik makine öğrenmesi ile veri analiz sürecinin otomatik gerçekleştirilmesi hedeflenmiştir. Mevcut geliştirilmiş otomatik makine öğrenmesi yöntemleri, makine öğrenme sürecinin ön işleme, değişken seçimi, model seçimi, parametre seçimi gibi bazı basamaklarını otomatikleştirmiştir. Biz de bu çalışmada otomatik makine öğrenmesi yöntemlerinin omik veriler için performansını araştırdık. Kullanılan toplam 29 omik verisinden 16'sı mikrodizi verisi, 6'sı RNA-dizileme verisi ve 7'si metabolomik verisidir. Verilerin tamamı gerçek veri setleridir. Bu verileri sınıflandırmak için otomatik makine öğrenmesi yöntemlerinden H2O ve TPOT kullanılmıştır. Makine öğrenmesi yöntemlerinden ise RF, DVM ve NSC yöntemleri kullanılmıştır. Her bir yöntemin birbirlerine karşı avantaj ve dezavantajlarının araştırılması amaçlanmıştır. Analiz sonuçlarına göre mikrodizi verilerinden Alizadeh-V1, Armstrong-V1, Armstrong-V2, Bittner, Chen, Chowdary, Garber, Gordon, Laiho, Lapointe-V1 ve West; RNA dizileme verilerinden Alzheimer, Fare Embriyo, Fare Kök Hücre, Rahim Ağzı Kanseri ve Lemfoblastoid; metabolomik verilerinden ST000369, ST000389, ST000388, ST000390, ST000356 ve ST000391 ile H2O ve TPOT yöntemiyle en iyi sınıflandırma performansları elde edilmiştir. Toplam 11 veride ise RF, DVM ve NSC yöntemleriyle en iyi sınıflandırma performansları elde edilmiştir. Sonuç olarak her veri için kullanılabilecek en iyi performansı gösteren bir yaklaşım bulunamamıştır. Daha kesin değerlendirmelerin yapılabilmesi için gelecek çalışmalarda simülasyon çalışmaları ve daha farklı veri setleri ile denemelerin yapılması gerekmektedir.

Özet (Çeviri)

Omics studies have helped solve many health problems. Omics technologies create large amounts of data. In order to obtain meaningful information from the data, statistical analysis methods are used. Machine learning is often used to obtain meaningful information from omics data. In this study, classification problems are discussed. Many machine learning methods exist to solve classification problems. Researchers must decide which of these methods to use. Methods to be applied have several parameters that need to be set. Automated machine learning methods have been developed in order to make the most appropriate selection of these methods and parameters. Automated machine learning is aimed at automating the data analysis process. The current developed automated machine learning methods have automated some of the steps of the machine learning process such as pre-processing, feature selection, model selection, parameter selection. In this study, we researched the performance of automated machine learning methods for omics data. Of the 29 omics data used, 16 were microarray data, 6 were RNA-sequencing data and 7 were metabolomics data. All data are real datasets. Automatic machine learning methods H2O and TPOT have been used to classify these data. Machine learning methods RF, SVM and NSC have been used to classify these data. It is aimed to research the advantages and disadvantages of each method against each other. According to the analysis results, the best classification performances for Alizadeh-V1, Armstrong-V1, Armstrong-V2, Bittner, Chen, Chowdary, Garber, Gordon, Laiho, Lapointe-V1 and West from microarray data, Alzheimer, Mouse Embryo, Mouse Stem Cell, Cervical and Lymphoblastoid from RNA sequencing datasets, ST000369, ST000389, ST000388, ST000390, ST000356 and ST000391 from metabolomics data were obtained by H2O and TPOT methods. The best classification performance in 11 datasets were obtained with RF, DVM and NSC methods. As a result, the best performing approach for each datasets could not be found. In order to make more accurate assessments, in the future studies should be conducted with simulation studies and experiments with different data sets.

Benzer Tezler

Tez No
887183
Metabolism-oriented multiomics data integration
Farklı omı̇k verı̇lerı̇n metabolı̇zma odaklı entegrasyonu
AYCAN ŞAHİN
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. ALİ ÇAKMAK
Tez No
887071
A deep learning architecture for missing metabolite concentration prediction
Eksik metabolit miktarı tahmini için bir derin öğrenme mimarisi
SADİ ÇELİK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ALİ ÇAKMAK
Tez No
687060
Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data
Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı
ERSİN ONUR ERDOĞAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA
Tez No
850798
Cell subtype specific roles of glial cells in alzheimer's disease by network-based analysis of single-cell multi-omic data
Tek hücreli çoklu omik verilerin ağ tabanlı analizi ile alzheimer hastalığında glial hücrelerin hücre alt tipine özgü rolleri
ATILAY İLGÜN
Yüksek Lisans
İngilizce
2024
Biyomühendislik Gebze Teknik Üniversitesi
Biyomühendislik Ana Bilim Dalı
PROF. DR. TUNAHAN ÇAKIR
Tez No
661476
Bayesian networks for omics data analysis in hepatocellular carcinoma single-cell sequencing
Hepatosellüler karsinomun tekil hücre diziliminde omiklerin veri analizi için Bayes ağları
MUNTADHER ZAHID JIHAD
Yüksek Lisans
İngilizce
2021
Genetik Hacettepe Üniversitesi
Biyoenformatik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ İDİL YET

Geri Dön