Mikrodizi verilerinde kullanılan farklı normalleştirme yöntemlerinin derin öğrenme performanslarına etkisi

The effect of different normalization methods used in microarray data on DEEP learning performances

PDF İndir

Tez No: 755969
Yazar: ASENA AYÇA ÖZDEMİR
Danışmanlar: PROF. DR. GÜLHAN TEMEL, PROF. DR. SAİM YOLOĞLU
Tez Türü: Doktora
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Mersin Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 103

Özet

Son yıllarda teknolojinin gelişmesi ile birlikte sağlık maliyetlerinin düşürülmesi, erken tanı koyulabilmesi, doğru tedavinin seçilebilmesi vb. nedenlerden dolayı sağlık araştırmalarına yatırım artmış, büyük veriyi saklama ve erişim daha olanaklı hale gelmiştir. Büyük veri elde edilebilen tekniklerden biri olan mikrodizi teknolojisi ile, aynı anda binlerce genin eş zamanlı ekspresyon değerleri elde edilebilmektedir. Biyoinformatik alanındaki gelişmeler sayesinde mikrodizilerden elde edilen veriler klasik yöntemler yerine, özellikle sağlık araştırmalarında hastalık teşhisinde, ilaç geliştirme, tıbbi görüntüleme, genetik araştırmalarda, tele-tıp gibi uygulamalarda sıklıkla kullanılmaya başlanan makine öğrenmesi ve derin öğrenme gibi ileri istatistiksel yöntemlerle analiz edilmeye başlamıştır. Ancak mikrodizi verileri biyolojik sebepler, deney aşamasında numune hazırlama, etiketleme, hibridizasyon veya tarama sırasında oluşan varyasyon ve gürültüler sebebiyle analiz sonucunda yanıltıcı sonuçlar verebilmektedir. Bu sorunun üstesinden gelmek için literatürde mikrodizi verileri için farklı normalizasyon yöntemleri geliştirilmiştir. Ancak geliştirilen normalizasyon yöntemlerinin hangisinin daha iyi sonuç verdiği hakkında net bir bilgi bulunmamaktadır. Mikrodizi verilerinde en sık kullanılan normalleştirme yöntemleri Döngüsel Loess, Kantil ve Medyan yöntemidir. Bu normalizasyon yöntemlerinin derin öğrenme sınıflama performansı üzerine etkilerini incelediğimizde, düşük varyans, gürültü ve aşağı ve yukarı düzenlenmiş gen sayısındaki eşitsizliklerin derin öğrenme performansını etkilemediği, farklı normalizasyon yöntemlerinin ham veri yapısından farklı olmadığı görülmüştür. Varyasyonun arttırıldığında ise Kantil normalizasyon yönteminin, ham veri ve diğer normalizasyon yöntemlerine kıyasla daha başarılı olduğu gözlenmiştir. Derin öğrenme sonuçlarında en yüksek performans gösteren durumun orta düzey gen sayısı ve yüksek örnek genişliği olduğu görülmüştür. Bu sebeplerden dolayı mikrodizi verilerine derin öğrenme modellerinin kullanılması durumunda, verilerin normalizasyonunda Kantil yönteminin seçilmesi ve fazla gen ile model oluşturmak yerine örnek genişliğinin daha yüksek tutulması sınıflama performanslarının yükselmesini sağlayacaktır.

Özet (Çeviri)

With the development of technology in recent years, reducing health costs, early diagnosis, choosing the right treatment, etc. For these reasons, investment in health research has increased, and storing and accessing big data has become more possible. Simultaneous expression values of thousands of genes can be obtained at the same time with microarray technology, which is one of the techniques with which large data can be obtained. Thanks to the developments in bioinformatics, the data obtained from microarrays have begun to be analyzed by advanced statistical methods such as machine learning and deep learning, which are frequently used in applications such as disease diagnosis, drug development, medical imaging, genetic research, and tele-medicine, especially in health research, instead of classical methods. However, microarray data may give misleading results at the end of the analysis due to biological reasons, variation and noise during sample preparation, labeling, hybridization or scanning during the experiment. To overcome this problem, different normalization methods have been developed for microarray data in the literature. However, there is no clear information about which of the developed normalization methods gives better results. The most used normalization methods in microarray data are Cyclic Loess, Quantile and Median methods. When we examined the effects of these normalization methods on deep learning classification performance, it was seen that low variance, noise, and inequalities in the number of downregulated and upregulated genes did not affect deep learning performance, and that different normalization methods were not different from the raw data structure. When the variation was increased, it was observed that the quantile normalization method was more successful than the raw data and other normalization methods. In the deep learning results, it was seen that the highest performing condition was medium gene number and high sample size. For these reasons, in the case of using deep learning models on microarray data, choosing the Quantile method in the normalization of the data and keeping the sample size higher instead of creating a model with more genes will increase the classification performances.

Benzer Tezler

Tez No
614296
RNA-dizileme verilerinin kümelenmesinde yeni istatistiksel yaklaşımlar
Novel statistical approaches in clustering RNA-sequencing data
AHU DURMUŞÇELEBİ
Yüksek Lisans
Türkçe
2019
Biyoistatistik Erciyes Üniversitesi
Biyoistatistik Ana Bilim Dalı
DOÇ. DR. GÖKMEN ZARARSIZ
Tez No
566814
An integrative gene-expression analysis of axolotl limb wound healing and regeneration
Aksolotl yara iyileşmesi ve rejenerasyonunun integratif gen ekspresyon analizi
MUSTAFA SİBAİ
Yüksek Lisans
İngilizce
2019
Biyoistatistik İstanbul Medipol Üniversitesi
Biyomedikal Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ CÜNEYD PARLAYAN
Tez No
417394
Mikrodizi verilerinde farklı yapı ve sayıda ortaya çıkan eksik verilerin 1.tip hata üzerine etkisinin araştırılması
Researching effect of missing values occured different structures and numbers onto TYPE I error in microarray datas
ASENA AYÇA ÖZDEMİR
Yüksek Lisans
Türkçe
2015
Biyoistatistik Mersin Üniversitesi
Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
PROF. DR. EMİNE ARZU KANIK
Tez No
269977
Çok amaçlı genetik algoritma kullanarak DNA mikrodizi verilerinin kümelenmesi
Clustering DNA microarray data via multi-objective genetic algorithm
MUSTAFA KAHRAMAN
Yüksek Lisans
Türkçe
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fırat Üniversitesi
Biyomühendislik Ana Bilim Dalı
DOÇ. DR. MEHMET KAYA
Tez No
615974
Omik verilerinde otomatik makine öğrenimi algoritmalarının performansının değerlendirilmesi
Performance evaluation of automated machine learning algorithmsin omics data
MELTEM ÜNLÜSAVURAN
Yüksek Lisans
Türkçe
2019
Biyoistatistik Erciyes Üniversitesi
Biyoistatistik Ana Bilim Dalı
DOÇ. DR. GÖKMEN ZARARSIZ

Geri Dön