Gen ifade veri setlerinde boyut indirgeme yöntemlerinin sınıflama performansına etkilerinin karşılaştırılması

Comparison of the effect of dimension reduction methods on classification performance in gene expression data sets

PDF İndir

Tez No: 639740
Yazar: FATMA HİLAL YAĞIN
Danışmanlar: DOÇ. DR. HARİKA GÖZDE GÖZÜKARA BAĞ
Tez Türü: Yüksek Lisans
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Boyut İndirgeme, Gen İfade Veri Seti, Özellik Çıkarımı, Özellik Seçimi, Sınıflandırma, Dimension Reduction, Gene Expression Data Set, Feature Extraction, Feature Selection, Classification
Yıl: 2020
Dil: Türkçe
Üniversite: İnönü Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 68

Özet

Amaç: Bu çalışmanın amacı, yüksek boyutlu Akut Miyeloid Lösemi (AML) hastalığı gen ifade veri setinde boyut indirgeme yöntemlerinin (LASSO, temel bileşenler analizi (PCA) ve bağımsız bileşenler analizi (ICA)) çeşitli destek vektör makinesi sınıflandırma yöntemlerine etkilerinin karşılaştırılmasıdır. Materyal ve Metot: Bu çalışmada GEO veri deposunda GDS3057 kodu ile yüklenen Akut miyeloid lösemi (AML: Acute myeloid leukemia) gen ifade veri seti kullanılmıştır. Veri setinde 38 sağlıklı donörden alınan normal hematopoietik hücreler ile 26 AML hastasından gelen lösemik blastlar arasındaki gen ifade profilleri bulunmaktadır. AML veri seti 64 kişi ve 22283 gene ait ifade seviyelerini içermektedir. Veri setine filtreleme işlemi yapıldıktan sonra, LASSO, temel bileşenler analizi(PCA), bağımsız bileşenler analizi (ICA) yöntemleri uygulanarak boyut indirgeme analizleri yapılmıştır. Bu yöntemlerden elde edilen boyutu indirgenmiş veri setlerine Doğrusal, Polinomiyal ve Radyal tabanlı çekirdek fonksiyonlu Destek Vektör Makinesi (DVM) yöntemleri uygulanmıştır. Modelleme analizlerinde yeniden örnekleme yöntemi olarak 10 tekrarlı 10 katlı çapraz geçerlik yöntemi kullanılmıştır. Hiperparametre optimizasyonu için rasgele arama yöntemi kullanılmıştır. Oluşturulan modellerin performansını değerlendirmek için doğru sınıflama oranı, duyarlılık, seçicilik, kesinlik ve F ölçütü değerlerinin ortalamaları verilmiştir. Bu ölçütlere ek olarak boyut indirgeme analizlerinin modelleme süresine etkilerini görebilmek için analiz süreleri de saniye olarak verilmiştir. Bulgular: Filtreleme işlemi yapıldıktan sonra AML veri setinde 6201 gen kalmıştır. PCA/ICA uygulandıktan sonra AML gen ifade veri setinden 10 bileşen çıkarılmıştır. LASSO uygulandıktan sonra ise veri setinden AML hastalığı için biyobelirteç olabilecek 21 gen seçilmiştir. Kurulan modellerin test verileri için doğruluk oranları sonuçlarına göre veri setine PCA uygulandıktan sonra Polinomiyal çekirdek fonksiyon ile kurulan model en yüksek doğruluk oranını vermiştir. Yapılan analizlerin tümü için Polinomiyal çekirdek fonksiyon ile kurulan DVM modelleri en iyi performansı göstermiştir. Sonuç: Gen ifade veri setleri ile sınıflandırma modelleri oluşturulmadan önce boyut indirgeme yöntemleri kullanılarak yüksek boyutluluk sorunu giderilmeli, modeller daha sonra kurulmalıdır. Bu sayede analiz süresi kısalır ve modellerin tahmin performansı artar. AML gen ifade veri setinde Polinomiyal çekirdek fonksiyon ile kurulan DVM modelleri, Doğrusal ve Radyal tabanlı çekirdek fonksiyonu ile kurulan DVM modellerine göre daha iyi sonuç vermiştir. Ancak birden fazla veri setinde ve/veya simüle veri setinde bu yöntemleri deneyerek sonuçları karşılaştırmak daha kesin sonuçlara ulaşılması açısından önemlidir.

Özet (Çeviri)

Aim: The aim of this study is to compare the effects of size reduction methods (LASSO, principal components analysis (PCA) and independent components analysis (ICA)) on various support vector machine classification methods in the high-dimensional Acute Myeloid Leukemia (AML) disease gene expression data set. Material and Method: In this study, Acute myeloid leukemia (AML: Acute myeloid leukemia) data set loaded with GDS3057 code was used in the GEO data warehouse. The data set includes gene expression profiles between normal hematopoietic cells from 38 healthy donors and leukemic blasts from 26 AML patients. The AML data set contains expression levels for 64 people and 22283 genes. After filtering the data set, dimention reduction analyzes were performed by applying LASSO, PCA, ICA, methods. Support Vector Machine (DVM) methods with linear, polynamial and radial based kernel functions were applied to the size-reduced data sets obtained from these methods. In modeling analysis, 10-repeated 10-fold cross validity method was used as the resampling method. Random search method was used for hyperparameter optimization. In order to evaluate the performance of the model, the average accuracy rate, sensitivity, spectivity, precision and F criteria values of 500 replicate samples are given. In addition to these criteria, analysis times are given in seconds to see the effects of size reduction analyzes on modeling time. Results: After filtering, 6201 genes remained in the AML data set. After applying PCA / ICA, 10 components removed from the AML gene expression dataset. After applying LASSO, 21 genes that could be biomarkers for AML disease selected from the data set. According to the results of the accuracy rates for the test data of the created models, the model established with the polynomial kernel function after applying PCA to the data set gave the highest accuracy rate. The best performance for all analyzes obtained from DVM models with polynamial kernel function. Conclusion: Before creating classification models with gene expression data sets, the problem of high dimensionality should be eliminated by using dimention reduction methods and models should be established later. In this way, the analysis time is shortened and increases the prediction performance of the models . DVM models with polynamial kernel function in the AML gene expression dataset gave better results than DVM models with linear and radial based kernel function. However, comparing the results by trying these methods in more than one dataset and / or simulated dataset is important for achieving more precise results.

Benzer Tezler

Tez No
742502
Yüksek boyutlu sağkalım verilerinin denetimli temel bileşenler, cezalı cox regresyon ve aşırı öğrenme makineleri yöntemleri ile karşılaştırmalı analizi
Comparative analysis of high dimensional survival data with supervised principal components, penalized cox regression and extreme learning machines methods
FULDEN CANTAŞ TÜRKİŞ
Doktora
Türkçe
2022
Biyoistatistik Aydın Adnan Menderes Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. İMRAN KURT ÖMÜRLÜ
Tez No
887780
İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
Tez No
735445
Insan pankreas kanserinin biyoinformatik araçlar ile genom boyu ifade analizi
Genome wide expression analysis of human pancreatic cancer with bioinformatics tools
LÜTFİYE KADIOĞLU DALKILIÇ
Doktora
Türkçe
2022
Biyoteknoloji Fırat Üniversitesi
Biyoloji Ana Bilim Dalı
DOÇ. DR. ABDULLAH ASLAN
Tez No
535890
Count based clustering and classification of RNA-seq data
RNA dizileme verilerinin kesikli yöntemler ile sınıflandırılması ve kümelendirilmesi
DİNÇER GÖKSÜLÜK
Doktora
İngilizce
2019
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. AHMET ERGUN KARAAĞAOĞLU
Tez No
633878
Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi
The effect of feature selection methods on the success of classification methods in microarray gene expression data
ÖZLEM ARIK
Doktora
Türkçe
2020
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT

Geri Dön