Geri Dön

Mikrodizi verilerinde kullanılan farklı normalleştirme yöntemlerinin derin öğrenme performanslarına etkisi

The effect of different normalization methods used in microarray data on DEEP learning performances

  1. Tez No: 755969
  2. Yazar: ASENA AYÇA ÖZDEMİR
  3. Danışmanlar: PROF. DR. GÜLHAN TEMEL, PROF. DR. SAİM YOLOĞLU
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: Mersin Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 103

Özet

Son yıllarda teknolojinin gelişmesi ile birlikte sağlık maliyetlerinin düşürülmesi, erken tanı koyulabilmesi, doğru tedavinin seçilebilmesi vb. nedenlerden dolayı sağlık araştırmalarına yatırım artmış, büyük veriyi saklama ve erişim daha olanaklı hale gelmiştir. Büyük veri elde edilebilen tekniklerden biri olan mikrodizi teknolojisi ile, aynı anda binlerce genin eş zamanlı ekspresyon değerleri elde edilebilmektedir. Biyoinformatik alanındaki gelişmeler sayesinde mikrodizilerden elde edilen veriler klasik yöntemler yerine, özellikle sağlık araştırmalarında hastalık teşhisinde, ilaç geliştirme, tıbbi görüntüleme, genetik araştırmalarda, tele-tıp gibi uygulamalarda sıklıkla kullanılmaya başlanan makine öğrenmesi ve derin öğrenme gibi ileri istatistiksel yöntemlerle analiz edilmeye başlamıştır. Ancak mikrodizi verileri biyolojik sebepler, deney aşamasında numune hazırlama, etiketleme, hibridizasyon veya tarama sırasında oluşan varyasyon ve gürültüler sebebiyle analiz sonucunda yanıltıcı sonuçlar verebilmektedir. Bu sorunun üstesinden gelmek için literatürde mikrodizi verileri için farklı normalizasyon yöntemleri geliştirilmiştir. Ancak geliştirilen normalizasyon yöntemlerinin hangisinin daha iyi sonuç verdiği hakkında net bir bilgi bulunmamaktadır. Mikrodizi verilerinde en sık kullanılan normalleştirme yöntemleri Döngüsel Loess, Kantil ve Medyan yöntemidir. Bu normalizasyon yöntemlerinin derin öğrenme sınıflama performansı üzerine etkilerini incelediğimizde, düşük varyans, gürültü ve aşağı ve yukarı düzenlenmiş gen sayısındaki eşitsizliklerin derin öğrenme performansını etkilemediği, farklı normalizasyon yöntemlerinin ham veri yapısından farklı olmadığı görülmüştür. Varyasyonun arttırıldığında ise Kantil normalizasyon yönteminin, ham veri ve diğer normalizasyon yöntemlerine kıyasla daha başarılı olduğu gözlenmiştir. Derin öğrenme sonuçlarında en yüksek performans gösteren durumun orta düzey gen sayısı ve yüksek örnek genişliği olduğu görülmüştür. Bu sebeplerden dolayı mikrodizi verilerine derin öğrenme modellerinin kullanılması durumunda, verilerin normalizasyonunda Kantil yönteminin seçilmesi ve fazla gen ile model oluşturmak yerine örnek genişliğinin daha yüksek tutulması sınıflama performanslarının yükselmesini sağlayacaktır.

Özet (Çeviri)

With the development of technology in recent years, reducing health costs, early diagnosis, choosing the right treatment, etc. For these reasons, investment in health research has increased, and storing and accessing big data has become more possible. Simultaneous expression values of thousands of genes can be obtained at the same time with microarray technology, which is one of the techniques with which large data can be obtained. Thanks to the developments in bioinformatics, the data obtained from microarrays have begun to be analyzed by advanced statistical methods such as machine learning and deep learning, which are frequently used in applications such as disease diagnosis, drug development, medical imaging, genetic research, and tele-medicine, especially in health research, instead of classical methods. However, microarray data may give misleading results at the end of the analysis due to biological reasons, variation and noise during sample preparation, labeling, hybridization or scanning during the experiment. To overcome this problem, different normalization methods have been developed for microarray data in the literature. However, there is no clear information about which of the developed normalization methods gives better results. The most used normalization methods in microarray data are Cyclic Loess, Quantile and Median methods. When we examined the effects of these normalization methods on deep learning classification performance, it was seen that low variance, noise, and inequalities in the number of downregulated and upregulated genes did not affect deep learning performance, and that different normalization methods were not different from the raw data structure. When the variation was increased, it was observed that the quantile normalization method was more successful than the raw data and other normalization methods. In the deep learning results, it was seen that the highest performing condition was medium gene number and high sample size. For these reasons, in the case of using deep learning models on microarray data, choosing the Quantile method in the normalization of the data and keeping the sample size higher instead of creating a model with more genes will increase the classification performances.

Benzer Tezler

  1. RNA-dizileme verilerinin kümelenmesinde yeni istatistiksel yaklaşımlar

    Novel statistical approaches in clustering RNA-sequencing data

    AHU DURMUŞÇELEBİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    BiyoistatistikErciyes Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. GÖKMEN ZARARSIZ

  2. An integrative gene-expression analysis of axolotl limb wound healing and regeneration

    Aksolotl yara iyileşmesi ve rejenerasyonunun integratif gen ekspresyon analizi

    MUSTAFA SİBAİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Biyoistatistikİstanbul Medipol Üniversitesi

    Biyomedikal Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ CÜNEYD PARLAYAN

  3. Mikrodizi verilerinde farklı yapı ve sayıda ortaya çıkan eksik verilerin 1.tip hata üzerine etkisinin araştırılması

    Researching effect of missing values occured different structures and numbers onto TYPE I error in microarray datas

    ASENA AYÇA ÖZDEMİR

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    BiyoistatistikMersin Üniversitesi

    Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı

    PROF. DR. EMİNE ARZU KANIK

  4. Çok amaçlı genetik algoritma kullanarak DNA mikrodizi verilerinin kümelenmesi

    Clustering DNA microarray data via multi-objective genetic algorithm

    MUSTAFA KAHRAMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2010

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFırat Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    DOÇ. DR. MEHMET KAYA

  5. Omik verilerinde otomatik makine öğrenimi algoritmalarının performansının değerlendirilmesi

    Performance evaluation of automated machine learning algorithmsin omics data

    MELTEM ÜNLÜSAVURAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    BiyoistatistikErciyes Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. GÖKMEN ZARARSIZ