Genomik çalışmalarda kullanılan makine öğrenmesi modellerinin blokzincir temelli bir eko sistemde federe öğrenme yöntemiyle geliştirilmesi için kavramsal bir çalışma

A conceptual study for developing machine learning models used in genomic studies by federated learning method in a blockchain-based ecosystem

PDF İndir

Tez No: 741282
Yazar: ERKAN OKTAY
Danışmanlar: DR. ÖĞR. ÜYESİ ARAFAT SALİH AYDINER, DR. ÖĞR. ÜYESİ MUHAMMED ERKAN KARABEKMEZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoistatistik, Genetik, Computer Engineering and Computer Science and Control, Biostatistics, Genetics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: İstanbul Medeniyet Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Biyolojik Veri Bilimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 107

Özet

Sağlık teknolojilerindeki son gelişmelerle genetik verinin toplanması, kullanılması ve paylaşımı gittikçe hız kazanmaya başladı. Genetik veri, hastalıkların önlenmesi, doğru teşhisler koyma ve kişiselleştirilmiş tedaviler için fırsatlar sunmaktadır. Özellikle makine öğrenmesi (ML) alanındaki ilerlemelerle beraber genetik alandaki ML uygulamaları da hız kazanmaktadır. Ancak genetik alanda ML modellerinin geliştirilmesi için gerekli verinin kullanımında yasal ve teknolojik engeller vardır. Genetik veri kişisel veri sınıfına girer ve bu verilerin kullanımı ancak yasaların izin verdiği ölçülerde olabilir. Bir diğer engel ise genetik verilerin yüksek hacimli veriler olmasıdır. Bundan dolayı işlenmesi ve paylaşılması için güçlü altyapı gerektirmektedir. Genetik alandaki ML çalışmaları genelde bir araştırma kuruluşunun elindeki veri ve bilgi ile sınırlı kalmaktadır. ML alanında benzer çalışmalar yürüten, farklı araştırma kuruluşları arasında ortak çalışmaya imkân tanıyan, güvenli bir iş birliği platformunun kurulması tekrar kullanılabilirlik açısından ciddi verimlilik sağlayabilir. Ayrıca farklı bölgelerdeki kurumların bu tarz çalışmalara dahil edilmesi durumunda, bölgesel genetik farklılıkların sebep olduğu yanılma oranlarının azaltılabileceği düşünülmektedir. Bu çalışmada, yukarıda bahsedilen engellerin aşılarak, araştırma kuruluşları arasında iş birliğini destekleyecek blokzincir temelli bir platform tasarımı sunulmaktadır. Çalışmanın mimari tasarımında“yazlımın 4+1 görünümü”referans alınmış olup dizayn, senaryolar, mantıksal ilişkiler, geliştirme adımları ve süreçler UML diyagramları ile açıklanmaktadır. Blokzincir ile kurumlar arasındaki koordinasyon merkeziyetsiz bir şekilde sağlanmış olacak ve geliştirilen ML modelleri federe öğrenme (FL) yardımı ile birleştirilerek ana modeller üretilebilecektir. İş birliği içerisinde üretilen modeller farklı kurumlar tarafından yeniden kullanılabilir ve tekrar tekrar eğitilerek güçlendirilebilir olacaklardır. Blokzincir alandaki çalışmaların birçoğu birey verisinin güvenli bir şekilde diğer kurumlar ile paylaşılması, veri sahipliğinin kullanıcıya verilmesi ve izinsiz veri kullanımının engellenmesine yönelik yapılmıştır. FL alanındaki çalışmalarda ise ML eğitim süreçlerinde cihazların iş birliği yapabileceği modeller sunulmuştur. Bizim önerdiğimiz tasarım bireyden ziyade kurumlar arasında ki iş birliğine odaklanır. Bu çalışma kurumların sunucuları üzerinde çalışan ML modellerinin bir araya getirilerek daha güçlü modellerin geliştirilebileceği bir ortam önerisi sunar. Bu çoklu iş birliği yaklaşımının performans ve verimliliği arttıracağı düşünülmektedir.

Özet (Çeviri)

Towards the recent developments in healthcare technologies, it is started to accelerate genomic data collecting, using, and sharing. Genetic data promises opportunities for disease prevention, accurate diagnoses, and personalized treatments. Especially with the advances in the field of machine learning (ML), its applications in the field of genetics have also accelerated. However, the usage of genomic data for the development of ML models has big obstacles in technological and legal. Genetic data is counted in the category of personal data and the use of this data can only be within the scope of permitted by law. Another obstacle is the high volume of genetic data. Therefore, it requires a strong infrastructure for processing and sharing ML studies in the field of genetics are generally limited by the data and information available at a single research institution. Having a secure cooperation environment between different research institutions carrying out similar ML application studies may provide significant efficiency because of the reusability of applications. In addition, it is thought that when institutions from different regions are included in such studies, the rate of the error caused by regional genetic differences will decrease. In this study, we propose a blockchain-based platform design that will support cooperation between research institutions by overcoming the aforementioned obstacles. Scenarios, logical relationships, development steps, and processes are explained with UML diagrams with reference to the design“4+1 architectural view model”. The collaboration of research institutions will be provided by blockchain network as decentralized. Furthermore, thanks to the federated learning (FL) method main models will be improved by combining the developed ML models. The Models developed in the edge institutions will be reusable by other institutions and the models can be strengthened with the contribution of the stakeholders by training repeatedly. Most of the studies in the field of blockchain are related to secure data sharing, giving data ownership to the user, and preventing unauthorized data use. On the other hand, the studies in FL field have been focused on the cooperation of devices in ML training processes. According to our study, the collaboration of institutions is taken into consideration rather than individuals. It offers an environment for aggregating ML models, which are trained in the local servers of the institutions, to generate high performed models. It is thought that this multi-collaboration approach will increase performance and productivity.

Benzer Tezler

Tez No
919748
A radiogenomics-based approach to clinical decision making
Klinik karar vermede radyogenomik tabanlı bir yaklaşım
MERVE KAŞIKCI ÇAVDAR
Doktora
İngilizce
2025
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Ana Bilim Dalı
PROF. DR. ERDEM KARABULUT
DOÇ. DR. ERDAL COŞGUN
Tez No
879686
Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
Tez No
739767
Determining novel target genes in WNT/𝛽-catenin signaling pathway using machine learning
WNT/beta-catenin sinyal yolağında makine öğrenmesi ile hedef genler belirlenmesi
CEMRE KEFELİ
Yüksek Lisans
İngilizce
2022
Genetik İstanbul Üniversitesi
Moleküler Biyoloji ve Genetik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANDRES OCTAVIO ARAVENA DUARTE
Tez No
394551
İlişkili genom dizilim kümeleri arasındaki bağıntıların analizi için yapay öğrenme yöntemleri
Machine learning methods for analysing correlations among sets of related genome sequences
NAZİFE ÇEVİK
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OLCAY KURŞUN
Tez No
687060
Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data
Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı
ERSİN ONUR ERDOĞAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Üniversitesi-Cerrahpaşa
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA

Geri Dön