Predicting disease-gene associations via machine learning
Makine öğrenmesi ile gen-hastalık ilişkisi tahmini
- Tez No: 896629
- Danışmanlar: PROF. DR. TUNCA DOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 126
Özet
Hastalık etiyolojisini aydınlatma ve ileri tanı ve tedavi araçları geliştirme arayışında, hastalık-gen ilişkilerinin bilinmesi büyük önem taşımaktadır. Manuel kürasyona dayalı geleneksel yaklaşımlar, sınırlı ölçeklenebilirlik ve hassasiyet nedeniyle yetersiz kalmaktadır. Öte yandan, çizge sinir ağları (ÇSA), biyolojik ağlar içindeki karmaşık ilişkisel verinin analizini mümkün kılmaktadır. Bugüne kadar geliştirilmiş olan ÇSA tabanlı yöntemler bilinmeyen biyolojik ilişkilerin tahmini konusunda olumlu sonuçlar üretmiş olsa da, biyoloji ve tıp alanlarında kullanılabilirlik için tahmin performansı genelleme yetenekleri yüksek seviyede olan yeni modellerin geliştirilmesine ihtiyaç duyulmaktadır. Bu çalışmada, hastalık-gen ilişkilerini tahmin etmek için kodlayıcı-kod çözücü mimarisi ile tasarlanmış bir derin öğrenme modeli olan GLADIGATOR'u (Çizge Öğrenme Tabanlı Hastalık Gen İlişkilendirmesi) öneriyoruz. GLADIGATOR, öncelikle genler ve hastalıklar olarak iki biyolojik bileşen tipini ve aralarındaki bağlantıları entegre eden heterojen bir çizge oluşturur. Model, kaynak biyolojik veri tabanlarında mevcut gen-gen, hastalık-hastalık ve hastalık-gen ilişkilerinin yanı sıra Prot-T5 protein dil modeli tarafından oluşturulan protein dizi temsillerini ve BioBert dil modeli tarafından oluşturulan hastalık temsillerini düğüm özellik vektörleri olarak kullanılarak eğitilmiştir. Yapılan analizlerde, GLADIGATOR'un üstün tahmin doğruluğuna sahip olduğu gözlenmiştir. Ayrıca, model, 14 farklı hastalık-gen ilişki tahmini yöntemiyle karşılaştırıldığında en yüksek performansı sergileyen model olarak konumlanmıştır. Seçili gen-hastalık tahmin örnekleri üzerinde yapılan literatür odaklı çalışmalar, tahmin edilen yeni ilişkilerinin biyolojik uygunluğunu doğrulamıştır ve belirli hastalıklar için potansiyel aday genlerin belirlenmesinde ÇSA temelli yaklaşımın etkinliğinin altını çizmiştir. Bu sonuçlar, ileride gerçekleştirilecek deneysel doğrulama analizleri sonucunda, yeni ilaçların keşfedilmesi için değerli bilgiler sağlayabilir. GLADIGATOR yalnızca hastalık-gen ilişkisi tahmini için geliştirilen hesaplamalı yaklaşımları zenginleştirmekle kalmamış, aynı zamanda da yeni biyolojik ilişkilerinin ortaya çıkarılmasını potansiyel olarak hızlandırarak biyomedikal araştırmalarda ÇSA'nın dönüştürücü yeteneğini vurgulamıştır.
Özet (Çeviri)
In the quest to elucidate disease etiology and develop advanced diagnostic and treatment tools, knowing disease-gene relationships is of great importance. Traditional approaches based on manual curation fall short due to limited scalability and precision. On the other hand, graph neural networks (GNN) enable the analysis of complex relational data within biological networks. Although the GNN-based methods developed to date have produced positive results in predicting unknown biological relationships, there is a current need to develop new models with high prediction performance and generalisation capabilities for usability in biology and medicine. In this thesis study, we propose GLADIGATOR (Graph Learning bAsed DIsease Gene AssociaTiOn pRediction), a deep learning model designed with the encoder-decoder architecture to predict disease-gene associations. GLADIGATOR creates a heterogeneous graph that primarily integrates two types of biological components, genes and diseases, and the connections between them. The model was trained using gene-gene, disease-disease and gene-disease relationships existing in source biological databases, as well as protein sequence representations generated by the Prot-T5 protein language model and disease representations generated by the BioBert language model, as node feature vectors. As the outcome of the analyses conducted, it was observed that GLADIGATOR had superior prediction accuracy. Additionally, the model was positioned as the highest performer among 14 different disease-gene association prediction methods. Literature-driven studies on selected predictions have confirmed the biological relevance of predicted novel associations and highlighted the effectiveness of the GNN-based approach in identifying potential candidate genes for specific diseases. These results may provide valuable information for discovering new drugs as a result of future experimental validation analyses. GLADIGATOR has not only enriched computational approaches developed for disease-gene association prediction but also emphasised the transformative abilities of GNNs in biomedical research by potentially accelerating the discovery of new biological relationships.
Benzer Tezler
- Predicting multiple types of biological relationships with integrative non-negative matrix factorization
Bütüncül negatif olmayan matris faktörizasyonu ile çoklu biyolojik ilişki türlerinin öngörülmesi
ONUR SAVAŞ KARTLI
Yüksek Lisans
İngilizce
2022
BiyoistatistikOrta Doğu Teknik ÜniversitesiBiyoenformatik Ana Bilim Dalı
DOÇ. DR. YEŞİM AYDIN SON
DOÇ. DR. TUNCA DOĞAN
- Evre 5 kronik böbrek hastalığı tanısı alan olgularda KLF5 ve mir-145-5P ekspresyon düzeylerinin sarkopeni ve preaterosklerotik belirteçlerle ilişkisinin incelenmesi
Determination of the relationship of KLF5 and mir-145-5P expression with sarcopenia and preaterosclerotic markers in stage 5 chronic kidney disease
HANDE NUR CESUR BALTACI
Tıpta Uzmanlık
Türkçe
2024
GenetikAnkara ÜniversitesiTıbbi Genetik Ana Bilim Dalı
DOÇ. HALİL GÜRHAN KARABULUT
DR. ÖĞR. ÜYESİ EZGİ GÖKPINAR İLİ
- Amyotrofik lateral skleroz (ALS) hastalarında mitokondriyal fonksiyon bozukluğu ile ilgili genleri hedef alan mirna'ların in siliko ve in vitro yöntemlerle araştırılması
In silico and in vitro analysis of mirnas that target genes associated with mitochondrial dysfunction in patients with amyotrophic lateral sclerosis (ALS)
GÜLÇİN BAYKAL
Yüksek Lisans
Türkçe
2023
BiyolojiYıldız Teknik ÜniversitesiMoleküler Biyoloji ve Genetik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ŞENAY VURAL KORKUT
- Computational approaches to study drug resistance mechanisms
İlaç direnç mekanizmaları için işlemsel yaklaşımlar
ZOYA KHALID
Doktora
İngilizce
2017
BiyolojiSabancı ÜniversitesiMoleküler Biyoloji-Genetik ve Biyomühendislik Ana Bilim Dalı
Prof. Dr. İSMAİL ÇAKMAK
- İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi
Variant analysis in human gene networks using surrogate modelling and machine learning
FURKAN AYDIN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SÜHA TUNA