Geri Dön

Derin öğrenme tekniğinin yeni nesil sekanslama deneylerinde uygulanması

Implementation of deep learning technique on next generation sequence data experiments

  1. Tez No: 686642
  2. Yazar: SU ÖZGÜR
  3. Danışmanlar: PROF. DR. MEHMET NURULLAH ORMAN
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Genetik, Biostatistics, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: Türkçe
  9. Üniversite: Ege Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
  12. Bilim Dalı: Biyoistatistik Bilim Dalı
  13. Sayfa Sayısı: 99

Özet

Biyolojik veri işleme teknolojisinin yaygınlaşmasıyla, yeni nesil sekanslama (NGS) teknolojisi, pek çok alanda yürütülen biyolojik araştırmaların vazgeçilmez bir parçası haline gelmiştir. Bu alanda teknolojilerin daha ucuz ve yaygın kullanımı, genetik ve tıbbi araştırmaların yönünü değiştirmiştir. Yeni nesil sekanslama teknolojileri yardımıyla tüm genom, transkriptom veya daha küçük hedef bölgelerdeki milyarlarca nükleotid dizilenebilmektedir. Bu dizileme sonucunda karşımıza çok büyük boyutlu veri matrisleri çıkmaktadır. Çok büyük boyutlardaki veri yapılarından anlamlı bilgileri saptayan sistemler, çok katmanlı yapay sinir ağlarını kullanan derin öğrenme yaklaşımına gereksinimi arttırmıştır. Bu durum araştırmacıların çalışmalarında klasik istatistiksel yaklaşımlar yerine ileri istatistik yöntemler ve bilgisayar teknolojilerini kullanmalarını zorunlu hale getirmiştir. Bu tez çalışmasında bulut tabanlı sistem kullanılarak gerçek ve simüle tüm genom verisinde derin öğrenme ve makine öğrenme algoritmalarının 'iki durumlu sınıf' için tahminleme performansı, optimize parametrelerin elde edilmesi amaçlanmıştır. Genetik veride en önemli sorunlar, bu verilerin saklanması, düzenlenmesi ve modellenmesidir. Bulut sistemi araştırmacılara bu aşamalarda hız kazandırmaktadır. Araştırmada derin öğrenme algoritmasının hiperparametrelerinin değişim etkisi gösterilmiştir. Ayrıca derin öğrenme modellerinin performansı son dönemin popüler makine öğrenme algoritmalarından XGBoost ve LightGBM algoritmalarının performansı ile karşılaştırılmıştır. Epoch 500, 1000, 2000 ve LR 0,01 ve 0,001 alındığında DL modellerinin performansı raporlanmıştır. Gerçek ve simüle veride en yüksek sınıflama tahminleri 2000 epoch ve 0,001 LR değerlerinde elde edilirken, DL epoch değeri 500 ve LR'nin 0,01 olduğu durumlarda XGBoost algoritması daha yüksek performans göstermiştir. Ayrıca sınıf dengesizliğinin olduğu durumlarda da derin öğrenme algoritmalarının Recall ve Precision değerlerini birbirine çok yakın tahminleme başarısı, toplum tabanlı çalışmalarda da yöntemin sonuçlarına güvenilebilir olduğunu araştırmacılara göstermektedir. Genetik veriler işlenmesi ve değerlendirmesi zor verilerdir. Verilerin analizlerinin gerçekleştirilebilmesi, diğer araştırmacılarla paylaşılabilmesi ve tekrarlanabilirliğinin sağlanması için“GitHub”hazırlanarak hem araştırmanın şeffaflığı arttırılmış hem de bu tip verilere sahip araştırmacıların bu sistemi kullanması ve geliştirilmeye açık olması hedeflenmiştir. Çalışmadan elde edilen karşılaştırma sonuçları, araştırmacılara çalışmalarında zaman ve maliyet açısından fayda sağlayacaktır. Epoch, katman sayısı, iterasyon sayısı gibi parametrelerin değişiminin model performansına etkisini bilen araştırmacılar, bu çalışmanın çıktılarını kullanarak genetik verilerinin analiz sonuçlarını hızlı ve doğruluğu yüksek şekilde raporlayabileceklerdir.

Özet (Çeviri)

Next-generation sequencing technology has become an indispensable part of biological research in many areas when widespread use of biological data processing technology. The cheaper and widespread use of technologies in this field has changed the direction of genetic and medical research. By using NGS technologies, billions of nucleotides in the whole genome, transcriptome or smaller target regions can be sequenced. It leads to obtain very big matrices. Systems that detect meaningful information from very large data structures have increased the need for a deep learning approach using multi-layered artificial neural networks. This has made it obligatory for researchers to use advanced statistical methods and computer technologies rather than classical statistical approaches in their studies. This study aims to obtain the prediction performance and optimized parameters of deep learning and machine learning algorithms for the“binary classification”in real and simulated whole-genome sequencing data using a cloud-based system. The most important problems in genetic data are the storage, data management and modeling of the data. The cloud system accelerates researchers in these stages. In the research, the effect of hyperparameters of the deep learning algorithm has been demonstrated. In addition, the performance of deep learning models was compared with the performance of XGBoost and LightGBM algorithms, which are popular machine learning algorithms of the last period. The performance of the DL models was reported when the Epoch 500, 1000, 2000 and LR 0.01 and 0.001 were taken. While the highest classification performances in real and simulated data were obtained at 2000 epoch and 0.001 LR values, the XGBoost algorithm showed higher performance when the DL epoch value was 500 and LR was 0.01. In addition, the success of deep learning algorithms in estimating Recall and Precision values very close to each other in case of class imbalance shows that the results of the method can be trusted in population-based studies. Genetic datasets are difficult to process and evaluate. In order to analyze the data, share it with other researchers and ensure its reproducibility,“GitHub”was prepared, increasing the transparency of the research and it was aimed that researchers with such data would use this system and be open to development. The comparison results which were obtained from the study will benefit the researchers in terms of time and cost in their studies. Researchers who know the effect of parameters such as epoch, number of layers, number of iterations on model performance will be able to report the analysis results of genetic data quickly and accurately by using the outputs of this study.

Benzer Tezler

  1. Next-generation MIMO systems: From index modulation to deep learning

    Yeni nesil çok-girişli çok-çıkışlı sistemler: İndis modülasyonundan derin öğrenmeye

    BURAK ÖZPOYRAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Elektrik ve Elektronik MühendisliğiKoç Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ERTUĞRUL BAŞAR

  2. Dikgen olmayan çoklu erişim tabanlı 5G ve ötesi haberleşme sistemlerinin başarım analizi

    Performance analysis of non-orthogonal multiple access-based 5G and beyond communication systems

    İNCİ UMAKOĞLU

    Doktora

    Türkçe

    Türkçe

    2024

    Elektrik ve Elektronik MühendisliğiKütahya Dumlupınar Üniversitesi

    Elektrik-Elektronik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MUSTAFA NAMDAR

    DR. ÖĞR. ÜYESİ ARİF BAŞGÜMÜŞ

  3. Artificial intelligence based detection schemes for secure wireless communication

    Güvenli telsiz iletişimin sağlanmasına yönelik yapay zeka tabanlı sınıflandırma metotları

    SELEN GEÇGEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı

    PROF. DR. GÜNEŞ ZEYNEP KARABULUT KURT

  4. Efficient deep learning approaches for signal and image analysis applications

    Sinyal ve görüntü analizi uygulamaları için verimli derin öğrenme yaklaşımları

    ONUR CAN KOYUN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  5. Sinema eğitiminde yeni yaklaşımlar: Newyork film akademesi

    Кино билим берү́ү́дөгү́жаңы ыкмалар: Нью-Йорк киноакадемиясы

    ÖVÜNÇ ÇELİKEZEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    İletişim BilimleriKırgızistan-Türkiye Manas Üniversitesi

    İletişim Bilimleri Ana Bilim Dalı

    PROF. DR. MEHMET SEZAİ TÜRK