Derin öğrenme tekniğinin yeni nesil sekanslama deneylerinde uygulanması
Implementation of deep learning technique on next generation sequence data experiments
- Tez No: 686642
- Danışmanlar: PROF. DR. MEHMET NURULLAH ORMAN
- Tez Türü: Doktora
- Konular: Biyoistatistik, Genetik, Biostatistics, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: Türkçe
- Üniversite: Ege Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
- Bilim Dalı: Biyoistatistik Bilim Dalı
- Sayfa Sayısı: 99
Özet
Biyolojik veri işleme teknolojisinin yaygınlaşmasıyla, yeni nesil sekanslama (NGS) teknolojisi, pek çok alanda yürütülen biyolojik araştırmaların vazgeçilmez bir parçası haline gelmiştir. Bu alanda teknolojilerin daha ucuz ve yaygın kullanımı, genetik ve tıbbi araştırmaların yönünü değiştirmiştir. Yeni nesil sekanslama teknolojileri yardımıyla tüm genom, transkriptom veya daha küçük hedef bölgelerdeki milyarlarca nükleotid dizilenebilmektedir. Bu dizileme sonucunda karşımıza çok büyük boyutlu veri matrisleri çıkmaktadır. Çok büyük boyutlardaki veri yapılarından anlamlı bilgileri saptayan sistemler, çok katmanlı yapay sinir ağlarını kullanan derin öğrenme yaklaşımına gereksinimi arttırmıştır. Bu durum araştırmacıların çalışmalarında klasik istatistiksel yaklaşımlar yerine ileri istatistik yöntemler ve bilgisayar teknolojilerini kullanmalarını zorunlu hale getirmiştir. Bu tez çalışmasında bulut tabanlı sistem kullanılarak gerçek ve simüle tüm genom verisinde derin öğrenme ve makine öğrenme algoritmalarının 'iki durumlu sınıf' için tahminleme performansı, optimize parametrelerin elde edilmesi amaçlanmıştır. Genetik veride en önemli sorunlar, bu verilerin saklanması, düzenlenmesi ve modellenmesidir. Bulut sistemi araştırmacılara bu aşamalarda hız kazandırmaktadır. Araştırmada derin öğrenme algoritmasının hiperparametrelerinin değişim etkisi gösterilmiştir. Ayrıca derin öğrenme modellerinin performansı son dönemin popüler makine öğrenme algoritmalarından XGBoost ve LightGBM algoritmalarının performansı ile karşılaştırılmıştır. Epoch 500, 1000, 2000 ve LR 0,01 ve 0,001 alındığında DL modellerinin performansı raporlanmıştır. Gerçek ve simüle veride en yüksek sınıflama tahminleri 2000 epoch ve 0,001 LR değerlerinde elde edilirken, DL epoch değeri 500 ve LR'nin 0,01 olduğu durumlarda XGBoost algoritması daha yüksek performans göstermiştir. Ayrıca sınıf dengesizliğinin olduğu durumlarda da derin öğrenme algoritmalarının Recall ve Precision değerlerini birbirine çok yakın tahminleme başarısı, toplum tabanlı çalışmalarda da yöntemin sonuçlarına güvenilebilir olduğunu araştırmacılara göstermektedir. Genetik veriler işlenmesi ve değerlendirmesi zor verilerdir. Verilerin analizlerinin gerçekleştirilebilmesi, diğer araştırmacılarla paylaşılabilmesi ve tekrarlanabilirliğinin sağlanması için“GitHub”hazırlanarak hem araştırmanın şeffaflığı arttırılmış hem de bu tip verilere sahip araştırmacıların bu sistemi kullanması ve geliştirilmeye açık olması hedeflenmiştir. Çalışmadan elde edilen karşılaştırma sonuçları, araştırmacılara çalışmalarında zaman ve maliyet açısından fayda sağlayacaktır. Epoch, katman sayısı, iterasyon sayısı gibi parametrelerin değişiminin model performansına etkisini bilen araştırmacılar, bu çalışmanın çıktılarını kullanarak genetik verilerinin analiz sonuçlarını hızlı ve doğruluğu yüksek şekilde raporlayabileceklerdir.
Özet (Çeviri)
Next-generation sequencing technology has become an indispensable part of biological research in many areas when widespread use of biological data processing technology. The cheaper and widespread use of technologies in this field has changed the direction of genetic and medical research. By using NGS technologies, billions of nucleotides in the whole genome, transcriptome or smaller target regions can be sequenced. It leads to obtain very big matrices. Systems that detect meaningful information from very large data structures have increased the need for a deep learning approach using multi-layered artificial neural networks. This has made it obligatory for researchers to use advanced statistical methods and computer technologies rather than classical statistical approaches in their studies. This study aims to obtain the prediction performance and optimized parameters of deep learning and machine learning algorithms for the“binary classification”in real and simulated whole-genome sequencing data using a cloud-based system. The most important problems in genetic data are the storage, data management and modeling of the data. The cloud system accelerates researchers in these stages. In the research, the effect of hyperparameters of the deep learning algorithm has been demonstrated. In addition, the performance of deep learning models was compared with the performance of XGBoost and LightGBM algorithms, which are popular machine learning algorithms of the last period. The performance of the DL models was reported when the Epoch 500, 1000, 2000 and LR 0.01 and 0.001 were taken. While the highest classification performances in real and simulated data were obtained at 2000 epoch and 0.001 LR values, the XGBoost algorithm showed higher performance when the DL epoch value was 500 and LR was 0.01. In addition, the success of deep learning algorithms in estimating Recall and Precision values very close to each other in case of class imbalance shows that the results of the method can be trusted in population-based studies. Genetic datasets are difficult to process and evaluate. In order to analyze the data, share it with other researchers and ensure its reproducibility,“GitHub”was prepared, increasing the transparency of the research and it was aimed that researchers with such data would use this system and be open to development. The comparison results which were obtained from the study will benefit the researchers in terms of time and cost in their studies. Researchers who know the effect of parameters such as epoch, number of layers, number of iterations on model performance will be able to report the analysis results of genetic data quickly and accurately by using the outputs of this study.
Benzer Tezler
- Next-generation MIMO systems: From index modulation to deep learning
Yeni nesil çok-girişli çok-çıkışlı sistemler: İndis modülasyonundan derin öğrenmeye
BURAK ÖZPOYRAZ
Yüksek Lisans
İngilizce
2022
Elektrik ve Elektronik MühendisliğiKoç ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. ERTUĞRUL BAŞAR
- Dikgen olmayan çoklu erişim tabanlı 5G ve ötesi haberleşme sistemlerinin başarım analizi
Performance analysis of non-orthogonal multiple access-based 5G and beyond communication systems
İNCİ UMAKOĞLU
Doktora
Türkçe
2024
Elektrik ve Elektronik MühendisliğiKütahya Dumlupınar ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. MUSTAFA NAMDAR
DR. ÖĞR. ÜYESİ ARİF BAŞGÜMÜŞ
- Artificial intelligence based detection schemes for secure wireless communication
Güvenli telsiz iletişimin sağlanmasına yönelik yapay zeka tabanlı sınıflandırma metotları
SELEN GEÇGEL
Yüksek Lisans
İngilizce
2019
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. GÜNEŞ ZEYNEP KARABULUT KURT
- Efficient deep learning approaches for signal and image analysis applications
Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları
ONUR CAN KOYUN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Sinema eğitiminde yeni yaklaşımlar: Newyork film akademesi
Кино билим берү́ү́дөгү́жаңы ыкмалар: Нью-Йорк киноакадемиясы
ÖVÜNÇ ÇELİKEZEN
Yüksek Lisans
Türkçe
2022
İletişim BilimleriKırgızistan-Türkiye Manas Üniversitesiİletişim Bilimleri Ana Bilim Dalı
PROF. DR. MEHMET SEZAİ TÜRK