Genomik çalışmalarda kullanılan makine öğrenmesi modellerinin blokzincir temelli bir eko sistemde federe öğrenme yöntemiyle geliştirilmesi için kavramsal bir çalışma
A conceptual study for developing machine learning models used in genomic studies by federated learning method in a blockchain-based ecosystem
- Tez No: 741282
- Danışmanlar: DR. ÖĞR. ÜYESİ ARAFAT SALİH AYDINER, DR. ÖĞR. ÜYESİ MUHAMMED ERKAN KARABEKMEZ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Biyoistatistik, Genetik, Computer Engineering and Computer Science and Control, Biostatistics, Genetics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: İstanbul Medeniyet Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Biyolojik Veri Bilimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 107
Özet
Sağlık teknolojilerindeki son gelişmelerle genetik verinin toplanması, kullanılması ve paylaşımı gittikçe hız kazanmaya başladı. Genetik veri, hastalıkların önlenmesi, doğru teşhisler koyma ve kişiselleştirilmiş tedaviler için fırsatlar sunmaktadır. Özellikle makine öğrenmesi (ML) alanındaki ilerlemelerle beraber genetik alandaki ML uygulamaları da hız kazanmaktadır. Ancak genetik alanda ML modellerinin geliştirilmesi için gerekli verinin kullanımında yasal ve teknolojik engeller vardır. Genetik veri kişisel veri sınıfına girer ve bu verilerin kullanımı ancak yasaların izin verdiği ölçülerde olabilir. Bir diğer engel ise genetik verilerin yüksek hacimli veriler olmasıdır. Bundan dolayı işlenmesi ve paylaşılması için güçlü altyapı gerektirmektedir. Genetik alandaki ML çalışmaları genelde bir araştırma kuruluşunun elindeki veri ve bilgi ile sınırlı kalmaktadır. ML alanında benzer çalışmalar yürüten, farklı araştırma kuruluşları arasında ortak çalışmaya imkân tanıyan, güvenli bir iş birliği platformunun kurulması tekrar kullanılabilirlik açısından ciddi verimlilik sağlayabilir. Ayrıca farklı bölgelerdeki kurumların bu tarz çalışmalara dahil edilmesi durumunda, bölgesel genetik farklılıkların sebep olduğu yanılma oranlarının azaltılabileceği düşünülmektedir. Bu çalışmada, yukarıda bahsedilen engellerin aşılarak, araştırma kuruluşları arasında iş birliğini destekleyecek blokzincir temelli bir platform tasarımı sunulmaktadır. Çalışmanın mimari tasarımında“yazlımın 4+1 görünümü”referans alınmış olup dizayn, senaryolar, mantıksal ilişkiler, geliştirme adımları ve süreçler UML diyagramları ile açıklanmaktadır. Blokzincir ile kurumlar arasındaki koordinasyon merkeziyetsiz bir şekilde sağlanmış olacak ve geliştirilen ML modelleri federe öğrenme (FL) yardımı ile birleştirilerek ana modeller üretilebilecektir. İş birliği içerisinde üretilen modeller farklı kurumlar tarafından yeniden kullanılabilir ve tekrar tekrar eğitilerek güçlendirilebilir olacaklardır. Blokzincir alandaki çalışmaların birçoğu birey verisinin güvenli bir şekilde diğer kurumlar ile paylaşılması, veri sahipliğinin kullanıcıya verilmesi ve izinsiz veri kullanımının engellenmesine yönelik yapılmıştır. FL alanındaki çalışmalarda ise ML eğitim süreçlerinde cihazların iş birliği yapabileceği modeller sunulmuştur. Bizim önerdiğimiz tasarım bireyden ziyade kurumlar arasında ki iş birliğine odaklanır. Bu çalışma kurumların sunucuları üzerinde çalışan ML modellerinin bir araya getirilerek daha güçlü modellerin geliştirilebileceği bir ortam önerisi sunar. Bu çoklu iş birliği yaklaşımının performans ve verimliliği arttıracağı düşünülmektedir.
Özet (Çeviri)
Towards the recent developments in healthcare technologies, it is started to accelerate genomic data collecting, using, and sharing. Genetic data promises opportunities for disease prevention, accurate diagnoses, and personalized treatments. Especially with the advances in the field of machine learning (ML), its applications in the field of genetics have also accelerated. However, the usage of genomic data for the development of ML models has big obstacles in technological and legal. Genetic data is counted in the category of personal data and the use of this data can only be within the scope of permitted by law. Another obstacle is the high volume of genetic data. Therefore, it requires a strong infrastructure for processing and sharing ML studies in the field of genetics are generally limited by the data and information available at a single research institution. Having a secure cooperation environment between different research institutions carrying out similar ML application studies may provide significant efficiency because of the reusability of applications. In addition, it is thought that when institutions from different regions are included in such studies, the rate of the error caused by regional genetic differences will decrease. In this study, we propose a blockchain-based platform design that will support cooperation between research institutions by overcoming the aforementioned obstacles. Scenarios, logical relationships, development steps, and processes are explained with UML diagrams with reference to the design“4+1 architectural view model”. The collaboration of research institutions will be provided by blockchain network as decentralized. Furthermore, thanks to the federated learning (FL) method main models will be improved by combining the developed ML models. The Models developed in the edge institutions will be reusable by other institutions and the models can be strengthened with the contribution of the stakeholders by training repeatedly. Most of the studies in the field of blockchain are related to secure data sharing, giving data ownership to the user, and preventing unauthorized data use. On the other hand, the studies in FL field have been focused on the cooperation of devices in ML training processes. According to our study, the collaboration of institutions is taken into consideration rather than individuals. It offers an environment for aggregating ML models, which are trained in the local servers of the institutions, to generate high performed models. It is thought that this multi-collaboration approach will increase performance and productivity.
Benzer Tezler
- Machine-learning approaches for neurological disorder diagnosis from genomic and neuroimaging data
Genomik ve nörogörüntüleme verilerinden nörolojik bozukluk teşhisi için makine öğrenmesi yaklaşımları
İSMAİL BİLGEN
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. BEHÇET UĞUR TÖREYİN
- Determining novel target genes in WNT/𝛽-catenin signaling pathway using machine learning
WNT/beta-catenin sinyal yolağında makine öğrenmesi ile hedef genler belirlenmesi
CEMRE KEFELİ
Yüksek Lisans
İngilizce
2022
Genetikİstanbul ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ANDRES OCTAVIO ARAVENA DUARTE
- İlişkili genom dizilim kümeleri arasındaki bağıntıların analizi için yapay öğrenme yöntemleri
Machine learning methods for analysing correlations among sets of related genome sequences
NAZİFE ÇEVİK
Doktora
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. OLCAY KURŞUN
- Machine learning approach to quantification of intra-tumour heterogeneity using genomic, epigenomic and proteomic data
Genomik, epigenomik ve proteomik verileri kullanarak tümor içi heterojenite nicelleştirmesine makine öğrenmesi yaklaşımı
ERSİN ONUR ERDOĞAN
Yüksek Lisans
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi-CerrahpaşaBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGÜR CAN TURNA
- Prediction of the effects of single amino acid variations on protein functionality with structural and annotation centric modeling
Tekil amino asit mutasyonlarının protein işlevleri üzerindeki etkisinin yapısal ve anotasyon odaklı yaklaşımla tahmini
FATMA CANKARA
Yüksek Lisans
İngilizce
2020
GenetikOrta Doğu Teknik ÜniversitesiSağlık Bilişimi Ana Bilim Dalı
DOÇ. DR. NURCAN TUNÇBAĞ
DOÇ. DR. TUNCA DOĞAN