Geri Dön

Gen ifade veri setlerinde boyut indirgeme yöntemlerinin sınıflama performansına etkilerinin karşılaştırılması

Comparison of the effect of dimension reduction methods on classification performance in gene expression data sets

  1. Tez No: 639740
  2. Yazar: FATMA HİLAL YAĞIN
  3. Danışmanlar: DOÇ. DR. HARİKA GÖZDE GÖZÜKARA BAĞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Boyut İndirgeme, Gen İfade Veri Seti, Özellik Çıkarımı, Özellik Seçimi, Sınıflandırma, Dimension Reduction, Gene Expression Data Set, Feature Extraction, Feature Selection, Classification
  7. Yıl: 2020
  8. Dil: Türkçe
  9. Üniversite: İnönü Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Amaç: Bu çalışmanın amacı, yüksek boyutlu Akut Miyeloid Lösemi (AML) hastalığı gen ifade veri setinde boyut indirgeme yöntemlerinin (LASSO, temel bileşenler analizi (PCA) ve bağımsız bileşenler analizi (ICA)) çeşitli destek vektör makinesi sınıflandırma yöntemlerine etkilerinin karşılaştırılmasıdır. Materyal ve Metot: Bu çalışmada GEO veri deposunda GDS3057 kodu ile yüklenen Akut miyeloid lösemi (AML: Acute myeloid leukemia) gen ifade veri seti kullanılmıştır. Veri setinde 38 sağlıklı donörden alınan normal hematopoietik hücreler ile 26 AML hastasından gelen lösemik blastlar arasındaki gen ifade profilleri bulunmaktadır. AML veri seti 64 kişi ve 22283 gene ait ifade seviyelerini içermektedir. Veri setine filtreleme işlemi yapıldıktan sonra, LASSO, temel bileşenler analizi(PCA), bağımsız bileşenler analizi (ICA) yöntemleri uygulanarak boyut indirgeme analizleri yapılmıştır. Bu yöntemlerden elde edilen boyutu indirgenmiş veri setlerine Doğrusal, Polinomiyal ve Radyal tabanlı çekirdek fonksiyonlu Destek Vektör Makinesi (DVM) yöntemleri uygulanmıştır. Modelleme analizlerinde yeniden örnekleme yöntemi olarak 10 tekrarlı 10 katlı çapraz geçerlik yöntemi kullanılmıştır. Hiperparametre optimizasyonu için rasgele arama yöntemi kullanılmıştır. Oluşturulan modellerin performansını değerlendirmek için doğru sınıflama oranı, duyarlılık, seçicilik, kesinlik ve F ölçütü değerlerinin ortalamaları verilmiştir. Bu ölçütlere ek olarak boyut indirgeme analizlerinin modelleme süresine etkilerini görebilmek için analiz süreleri de saniye olarak verilmiştir. Bulgular: Filtreleme işlemi yapıldıktan sonra AML veri setinde 6201 gen kalmıştır. PCA/ICA uygulandıktan sonra AML gen ifade veri setinden 10 bileşen çıkarılmıştır. LASSO uygulandıktan sonra ise veri setinden AML hastalığı için biyobelirteç olabilecek 21 gen seçilmiştir. Kurulan modellerin test verileri için doğruluk oranları sonuçlarına göre veri setine PCA uygulandıktan sonra Polinomiyal çekirdek fonksiyon ile kurulan model en yüksek doğruluk oranını vermiştir. Yapılan analizlerin tümü için Polinomiyal çekirdek fonksiyon ile kurulan DVM modelleri en iyi performansı göstermiştir. Sonuç: Gen ifade veri setleri ile sınıflandırma modelleri oluşturulmadan önce boyut indirgeme yöntemleri kullanılarak yüksek boyutluluk sorunu giderilmeli, modeller daha sonra kurulmalıdır. Bu sayede analiz süresi kısalır ve modellerin tahmin performansı artar. AML gen ifade veri setinde Polinomiyal çekirdek fonksiyon ile kurulan DVM modelleri, Doğrusal ve Radyal tabanlı çekirdek fonksiyonu ile kurulan DVM modellerine göre daha iyi sonuç vermiştir. Ancak birden fazla veri setinde ve/veya simüle veri setinde bu yöntemleri deneyerek sonuçları karşılaştırmak daha kesin sonuçlara ulaşılması açısından önemlidir.

Özet (Çeviri)

Aim: The aim of this study is to compare the effects of size reduction methods (LASSO, principal components analysis (PCA) and independent components analysis (ICA)) on various support vector machine classification methods in the high-dimensional Acute Myeloid Leukemia (AML) disease gene expression data set. Material and Method: In this study, Acute myeloid leukemia (AML: Acute myeloid leukemia) data set loaded with GDS3057 code was used in the GEO data warehouse. The data set includes gene expression profiles between normal hematopoietic cells from 38 healthy donors and leukemic blasts from 26 AML patients. The AML data set contains expression levels for 64 people and 22283 genes. After filtering the data set, dimention reduction analyzes were performed by applying LASSO, PCA, ICA, methods. Support Vector Machine (DVM) methods with linear, polynamial and radial based kernel functions were applied to the size-reduced data sets obtained from these methods. In modeling analysis, 10-repeated 10-fold cross validity method was used as the resampling method. Random search method was used for hyperparameter optimization. In order to evaluate the performance of the model, the average accuracy rate, sensitivity, spectivity, precision and F criteria values of 500 replicate samples are given. In addition to these criteria, analysis times are given in seconds to see the effects of size reduction analyzes on modeling time. Results: After filtering, 6201 genes remained in the AML data set. After applying PCA / ICA, 10 components removed from the AML gene expression dataset. After applying LASSO, 21 genes that could be biomarkers for AML disease selected from the data set. According to the results of the accuracy rates for the test data of the created models, the model established with the polynomial kernel function after applying PCA to the data set gave the highest accuracy rate. The best performance for all analyzes obtained from DVM models with polynamial kernel function. Conclusion: Before creating classification models with gene expression data sets, the problem of high dimensionality should be eliminated by using dimention reduction methods and models should be established later. In this way, the analysis time is shortened and increases the prediction performance of the models . DVM models with polynamial kernel function in the AML gene expression dataset gave better results than DVM models with linear and radial based kernel function. However, comparing the results by trying these methods in more than one dataset and / or simulated dataset is important for achieving more precise results.

Benzer Tezler

  1. Yüksek boyutlu sağkalım verilerinin denetimli temel bileşenler, cezalı cox regresyon ve aşırı öğrenme makineleri yöntemleri ile karşılaştırmalı analizi

    Comparative analysis of high dimensional survival data with supervised principal components, penalized cox regression and extreme learning machines methods

    FULDEN CANTAŞ TÜRKİŞ

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoistatistikAydın Adnan Menderes Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. İMRAN KURT ÖMÜRLÜ

  2. İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

    Variant analysis in human gene networks using surrogate modelling and machine learning

    FURKAN AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  3. Insan pankreas kanserinin biyoinformatik araçlar ile genom boyu ifade analizi

    Genome wide expression analysis of human pancreatic cancer with bioinformatics tools

    LÜTFİYE KADIOĞLU DALKILIÇ

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoteknolojiFırat Üniversitesi

    Biyoloji Ana Bilim Dalı

    DOÇ. DR. ABDULLAH ASLAN

  4. Count based clustering and classification of RNA-seq data

    RNA dizileme verilerinin kesikli yöntemler ile sınıflandırılması ve kümelendirilmesi

    DİNÇER GÖKSÜLÜK

    Doktora

    İngilizce

    İngilizce

    2019

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. AHMET ERGUN KARAAĞAOĞLU

  5. Mikrodizi gen ifade verilerinde farklı öznitelik seçim yöntemleri ile sınıflama yöntemlerinin performanslarının değerlendirilmesi

    The effect of feature selection methods on the success of classification methods in microarray gene expression data

    ÖZLEM ARIK

    Doktora

    Türkçe

    Türkçe

    2020

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. ERDEM KARABULUT