Genomic data analysis using machine learning methods for disease and disease-gene prediction
Hastalık ve hastalıkla ilişkili gen tahmini için makine öğrenmesi yöntemleri kullanılan genomik veri analizi
- Tez No: 882807
- Danışmanlar: PROF. DR. SADIK FİKRET GÜRGEN, PROF. DR. ARZUCAN ÖZGÜR TÜRKMEN
- Tez Türü: Doktora
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Boğaziçi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 113
Özet
Genomik hastalıklar, DNA'daki belirli mutasyonlar veya mutasyonların kombinasyonları nedeniyle ortaya çıkar. Bu kombinasyon her hasta için farklı olabilir ve her mutasyonun etkisi hastalık için farklıdır. Bu çalışmada hastalıkların genomik nedenlerine odaklanıyoruz. İki araştırma problemini tanımladık. Birincisi, mutasyon listesi olarak temsil edilen genetik koddan hastalığı tespit etmektir. İkincisi hastalık-gen ilişkilerini tespit etmektir. Bu tezde kansere odaklandık ve üç yöntem önerdik. Bir yaklaşımda, mutasyonların listesi bir belge olarak modellendi ve mutasyonlar da belgedeki kelimeler olarak modellendi. Bu varsayıma dayanarak, bu hasta mutasyon belgeleri için temsil modelleri önerdik ve bunları hastalık tahmini için kullandık. Başka bir yaklaşım için, hastaların ve genlerin/proteinlerin düğüm olduğu ve mutasyonların kenarları tanımladığı yeni bir heterojen grafik ortamı modelledik. Soruna yönelik her iki yaklaşım da seçilen algoritmalarla önemli ölçüde daha iyi sınıflandırma performanslarıyla sonuçlandı ve bu da girdi mutasyonları için yeni tasarımlarımızın başarısını gösterdi. İki sınıflandırma çerçevesinin parametreleri analiz edildi ve bu sistemlerin her biri için hastalık tahmini için en etkili genlerin bir listesi oluşturuldu. Bu genlerin kanser literatüründe nedensel veya hedef genler olarak çalışıldığı görülmüştür. Ek olarak, etkili genlerin bu listesi, bir gen seçim algoritması olarak gen ekspresyon alanına aktarıldı ve hastalığın gerçek tahmin oranını arttırdığı görüldü. Önerilen sistemler kanser verileri üzerinde test edilmiştir ancak diğer genomik hastalıklara da kolayca uyarlanabilir.
Özet (Çeviri)
Genomic diseases arise due to certain mutations or combinations of mutations in the DNA. This combination can be different for each patient and the effect of each mutation is different for the disease. In this study, we are focussing on the genomic causes of diseases. We defined two research problems. One is to detect the disease from the genetic code, represented as list of mutations. The second is to detect disease-gene associations. In this thesis, we focussed on cancer and proposed three frameworks. In one approach, the list of mutations was modelled as a document and the mutations were modelled as words in the document. Based on this assumption, we proposed representation models for these patient mutation documents and used them for disease prediction. For another approach, we modelled a novel heterogeneous graph environment in which patients and genes/proteins are the nodes and mutations define the edges. Both approaches to the problem resulted in significantly better classification performances with the selected algorithms, demonstrating the success of our novel designs for the input mutations. The parameters of the two classification frameworks were analysed and a list of the most effective genes for disease prediction was generated for each of these systems. These genes were found to be studied as causal or target genes in the cancer literature. In addition, this list of effective genes was transferred to the gene expression domain as a gene selection algorithm and was found to increase the rate of true prediction of disease. The proposed systems were tested on cancer data but can be easily adapted to other genomic diseases.
Benzer Tezler
- Makina öğrenme yöntemleriyle genom dizilim verilerinin analizi
Analysis of genome sequence data using machine learning methods
ERGÜN GÜMÜŞ
Doktora
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET SERTBAŞ
- Nöroblastomların segmentasyon derin öğrenme algoritmaları kullanarak patolojik görüntü analizi ile MYCN durumu entegre sınıflandırması
MYCN status integrated classification of neuroblastomas by pathological image analysis using segmentation deep learning algorithms
SÜMEYYE EKMEKCİ
Doktora
Türkçe
2023
PatolojiDokuz Eylül ÜniversitesiMoleküler Patoloji Ana Bilim Dalı
PROF. DR. ERDENER ÖZER
- Visualization based analysis of gene networks using high dimensional model representation
Yüksek boyutlu model gösterilim kullanılarak gen ağlarının görselleştirme tabanlı analizi
PINAR GÜLER
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiHesaplamalı Bilimler ve Mühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA
- Optimization models for survival analysis to identify key gene sets in cancer
Kanser hastalığında önemli gen kümelerini belirlemek için geliştirilen en iyileme modelleri
ONUR DERELİ
Doktora
İngilizce
2020
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği ve Operasyon Yönetimi
PROF. DR. CEYDA OĞUZ
- Integration of multi-omics data for enlightening the molecular mechanisms of cancer: a case study on breast cancer subtype identification
Kanserin moleküler mekanizmalarını aydınlatmak için multi-omik verilerin entegrasyonu: meme kanseri alt tip tanımlaması üzerine bir vaka çalışması
MİRAY ÜNLÜ YAZICI
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAbdullah Gül ÜniversitesiBiyomühendislik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU GÜNGÖR