Geri Dön

Genomik çalışmalarda kullanılan makine öğrenmesi modellerinin blokzincir temelli bir eko sistemde federe öğrenme yöntemiyle geliştirilmesi için kavramsal bir çalışma

A conceptual study for developing machine learning models used in genomic studies by federated learning method in a blockchain-based ecosystem

  1. Tez No: 741282
  2. Yazar: ERKAN OKTAY
  3. Danışmanlar: DR. ÖĞR. ÜYESİ ARAFAT SALİH AYDINER, DR. ÖĞR. ÜYESİ MUHAMMED ERKAN KARABEKMEZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoistatistik, Genetik, Computer Engineering and Computer Science and Control, Biostatistics, Genetics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: İstanbul Medeniyet Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Biyolojik Veri Bilimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 107

Özet

Sağlık teknolojilerindeki son gelişmelerle genetik verinin toplanması, kullanılması ve paylaşımı gittikçe hız kazanmaya başladı. Genetik veri, hastalıkların önlenmesi, doğru teşhisler koyma ve kişiselleştirilmiş tedaviler için fırsatlar sunmaktadır. Özellikle makine öğrenmesi (ML) alanındaki ilerlemelerle beraber genetik alandaki ML uygulamaları da hız kazanmaktadır. Ancak genetik alanda ML modellerinin geliştirilmesi için gerekli verinin kullanımında yasal ve teknolojik engeller vardır. Genetik veri kişisel veri sınıfına girer ve bu verilerin kullanımı ancak yasaların izin verdiği ölçülerde olabilir. Bir diğer engel ise genetik verilerin yüksek hacimli veriler olmasıdır. Bundan dolayı işlenmesi ve paylaşılması için güçlü altyapı gerektirmektedir. Genetik alandaki ML çalışmaları genelde bir araştırma kuruluşunun elindeki veri ve bilgi ile sınırlı kalmaktadır. ML alanında benzer çalışmalar yürüten, farklı araştırma kuruluşları arasında ortak çalışmaya imkân tanıyan, güvenli bir iş birliği platformunun kurulması tekrar kullanılabilirlik açısından ciddi verimlilik sağlayabilir. Ayrıca farklı bölgelerdeki kurumların bu tarz çalışmalara dahil edilmesi durumunda, bölgesel genetik farklılıkların sebep olduğu yanılma oranlarının azaltılabileceği düşünülmektedir. Bu çalışmada, yukarıda bahsedilen engellerin aşılarak, araştırma kuruluşları arasında iş birliğini destekleyecek blokzincir temelli bir platform tasarımı sunulmaktadır. Çalışmanın mimari tasarımında“yazlımın 4+1 görünümü”referans alınmış olup dizayn, senaryolar, mantıksal ilişkiler, geliştirme adımları ve süreçler UML diyagramları ile açıklanmaktadır. Blokzincir ile kurumlar arasındaki koordinasyon merkeziyetsiz bir şekilde sağlanmış olacak ve geliştirilen ML modelleri federe öğrenme (FL) yardımı ile birleştirilerek ana modeller üretilebilecektir. İş birliği içerisinde üretilen modeller farklı kurumlar tarafından yeniden kullanılabilir ve tekrar tekrar eğitilerek güçlendirilebilir olacaklardır. Blokzincir alandaki çalışmaların birçoğu birey verisinin güvenli bir şekilde diğer kurumlar ile paylaşılması, veri sahipliğinin kullanıcıya verilmesi ve izinsiz veri kullanımının engellenmesine yönelik yapılmıştır. FL alanındaki çalışmalarda ise ML eğitim süreçlerinde cihazların iş birliği yapabileceği modeller sunulmuştur. Bizim önerdiğimiz tasarım bireyden ziyade kurumlar arasında ki iş birliğine odaklanır. Bu çalışma kurumların sunucuları üzerinde çalışan ML modellerinin bir araya getirilerek daha güçlü modellerin geliştirilebileceği bir ortam önerisi sunar. Bu çoklu iş birliği yaklaşımının performans ve verimliliği arttıracağı düşünülmektedir.

Özet (Çeviri)

Towards the recent developments in healthcare technologies, it is started to accelerate genomic data collecting, using, and sharing. Genetic data promises opportunities for disease prevention, accurate diagnoses, and personalized treatments. Especially with the advances in the field of machine learning (ML), its applications in the field of genetics have also accelerated. However, the usage of genomic data for the development of ML models has big obstacles in technological and legal. Genetic data is counted in the category of personal data and the use of this data can only be within the scope of permitted by law. Another obstacle is the high volume of genetic data. Therefore, it requires a strong infrastructure for processing and sharing ML studies in the field of genetics are generally limited by the data and information available at a single research institution. Having a secure cooperation environment between different research institutions carrying out similar ML application studies may provide significant efficiency because of the reusability of applications. In addition, it is thought that when institutions from different regions are included in such studies, the rate of the error caused by regional genetic differences will decrease. In this study, we propose a blockchain-based platform design that will support cooperation between research institutions by overcoming the aforementioned obstacles. Scenarios, logical relationships, development steps, and processes are explained with UML diagrams with reference to the design“4+1 architectural view model”. The collaboration of research institutions will be provided by blockchain network as decentralized. Furthermore, thanks to the federated learning (FL) method main models will be improved by combining the developed ML models. The Models developed in the edge institutions will be reusable by other institutions and the models can be strengthened with the contribution of the stakeholders by training repeatedly. Most of the studies in the field of blockchain are related to secure data sharing, giving data ownership to the user, and preventing unauthorized data use. On the other hand, the studies in FL field have been focused on the cooperation of devices in ML training processes. According to our study, the collaboration of institutions is taken into consideration rather than individuals. It offers an environment for aggregating ML models, which are trained in the local servers of the institutions, to generate high performed models. It is thought that this multi-collaboration approach will increase performance and productivity.

Benzer Tezler

  1. Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data

    Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları

    İSMAİL BİLGEN

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. BEHÇET UĞUR TÖREYİN

  2. Determining novel target genes in WNT/𝛽-catenin signaling pathway using machine learning

    WNT/beta-catenin sinyal yolağında makine öğrenmesi ile hedef genler belirlenmesi

    CEMRE KEFELİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Genetikİstanbul Üniversitesi

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ANDRES OCTAVIO ARAVENA DUARTE

  3. İlişkili genom dizilim kümeleri arasındaki bağıntıların analizi için yapay öğrenme yöntemleri

    Machine learning methods for analysing correlations among sets of related genome sequences

    NAZİFE ÇEVİK

    Doktora

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. OLCAY KURŞUN

  4. Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data

    Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı

    ERSİN ONUR ERDOĞAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-Cerrahpaşa

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA

  5. Prediction of the effects of single amino acid variations on protein functionality with structural and annotation centric modeling

    Tekil amino asit mutasyonlarının protein işlevleri üzerindeki etkisinin yapısal ve anotasyon odaklı yaklaşımla tahmini

    FATMA CANKARA

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    GenetikOrta Doğu Teknik Üniversitesi

    Sağlık Bilişimi Ana Bilim Dalı

    DOÇ. DR. NURCAN TUNÇBAĞ

    DOÇ. DR. TUNCA DOĞAN