Predicting multiple types of biological relationships with integrative non-negative matrix factorization
Bütüncül negatif olmayan matris faktörizasyonu ile çoklu biyolojik ilişki türlerinin öngörülmesi
- Tez No: 732223
- Danışmanlar: DOÇ. DR. YEŞİM AYDIN SON, DOÇ. DR. TUNCA DOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: İngilizce
- Üniversite: Orta Doğu Teknik Üniversitesi
- Enstitü: Enformatik Enstitüsü
- Ana Bilim Dalı: Biyoenformatik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 125
Özet
Yüksek seviyedeki karmaşıklığı ve çeşitliliği nedeniyle çok modlu biyolojik veri üzerinde bütünleştirici araştırmalar gerçekleştirmek zorludur. Biyolojik bileşenler ve kavramlar (genler, proteinler, ilaçlar, hastalıklar, vb.) arasındaki ilişkileri ortaya çıkarmak için kullanılan laboratuvar deneylerinin yüksek maliyetleri ve zamansal gereksinimleri nedeniyle bahsi geçen ilişkilerin birçoğu halen bilinmemektedir. Bu tez, bilinen protein-protein, ilaç-hedef, gen-hastalık ve ilaç-yan etki ilişkilerinden yararlanarak bilinmeyen ilişkileri tahmin etmeyi amaçlamaktadır. Bu görevi gerçekleştirmek için öncelikle UniProt, String, Stitch, Sider, Drugbank, Drugcentral, DisGENET ve KEGG veri tabanlarından biyolojik veri kümeleri elde edilmiş ve ikili ilişki matrisleri olarak yeniden biçimlendirilmiştir. Bu matrislerden bazıları ilişki ağırlıkları olarak kullanılacak sürekli değerler içermektedir. Biyolojik veri tabanlarındaki mevcut verinin yüksek seviyede eksik olması nedeniyle seyrek matrisler elde edilmiştir. Daha sonra, literatürde benzer problemleri başarılı bir şekilde çözebildiği gösterilen“negatif olmayan matris üçlü faktörizasyon”algoritması kullanılarak, matris çarpanlarına ayırma yaklaşımıyla biyolojik ilişkileri tahmin eden bir model geliştirilmiştir. Bu model hem sınıflandırma hem de regresyona dayalı metrikler kullanılarak eğitilmiş ve değerlendirilmiştir. Çalışmanın devamında, optimize edilmiş model kullanılarak proteinler, ilaçlar, hastalıklar ve yan etkiler arasındaki ikili ilişkilerin büyük ölçekli tahmini gerçekleştirilmiştir ve bu sayede yeni ilaç-yan etki, ilaç-hastalık, ilaç-hedef ve gen/protein-hastalık etkileşimleri elde edilmiştir. Her bir ilişki tipi için en yüksek skora sahip ilk 250 tahmin değerlendirilmiştir ve seçilenler literatüre başvurularak doğrulanmıştır. Bu tez çalışmasından elde edilen biyolojik etkileşim odaklı tahmin sonuçlarının yaşam bilimleri araştırmacılarının deneysel çalışmalarını planlamalarına yardımcı olacağını umuyoruz.
Özet (Çeviri)
Integrative research on multi-modal biological data is difficult due to their complexity and diverse structure. A critical issue in bioinformatics and computational biology is that many of the associations/relationships between biological components and concepts (i.e., genes, proteins, drugs, diseases, etc.) are still unknown due to the high costs and temporal requirements of wet-lab experiments that uncover them. This thesis aims to predict unknown relationships in biological data by leveraging documented protein-protein, drug-target, gene-disease, and drug-side effect associations. To accomplish this task, first, biological datasets are obtained from UniProt, String, Stitch, Sider, Drugbank, Drugcentral, DisGENET, and KEGG databases, and their relationships are extracted and re-formatted as multiple pairwise relationship matrices. Some of these matrices contain continuous values to be used as association weights. We obtain highly sparse matrices mainly due to the high amount of missing data in biological databases. Second, we predicted missing relationships via integrative matrix factorization, using the non-negative matrix tri-factorization algorithm which is shown to successfully solve similar problems in the literature. For this, a prediction model is trained and evaluated using both classification and regression-based metrics. Subsequently, large-scale prediction of pairwise relationships between proteins, drugs, diseases, and side effects is accomplished using the optimized model. We obtained new predictions for drug-side effect, drug-disease, drug-target protein, and gene/protein-disease interactions. We evaluated the top 250 predictions with the highest scores and validated selected ones from the literature. We hope that the results of this thesis study will help life scientists in planning experimental work by providing preliminary sets of biological associations.
Benzer Tezler
- Empowering heterogeneous networks for drug-target affinity prediction
İlaç-hedef bağlılık ilgisi tahmini için heterojen ağları güçlendirme
SELEN PARLAR ÖZÇELİK
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBoğaziçi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. ARZUCAN ÖZGÜR TÜRKMEN
DOÇ. DR. ELİF ÖZKIRIMLI ÖLMEZ
- Heterojen biyomedikal verinin bilgi çizgeleri ve derin öğrenme tabanlı analizi ile protein fonksiyonlarının otomatik tahmini
Automated prediction of protein functions with knowledge graph representations and deep learning-based analysis of heterogeneous biomedical data
ERVA ULUSOY
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBiyoinformatik Ana Bilim Dalı (Disiplinlerarası)
DOÇ. DR. TUNCA DOĞAN
- Predicting and analyzing rna and protein modifications by combining deep protein language models with transformers
Derin protein dil modellerini transformatörlerle birleştirerek rna ve protein modifikasyonlarini tahmin etmek ve analiz etmek
NECLA NİSA SOYLU
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÖzyeğin ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMRE SEFER
- Accelerating molecular docking using machine learning methods
Kenetleme hesaplarının makine öğrenme metotları ile hızlandırılması
ABDULSALAM YAZID BANDE
Yüksek Lisans
İngilizce
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
Assist. Prof. Dr. SEFER BADAY
- The body keeps the score: Childhood adversity andsomatic symptoms in adulthood
Başlık çevirisi yok
BESTE AYDOĞAN
Yüksek Lisans
İngilizce
2021
University of Groningen (Rijksuniversiteit Groningen)DR. MARİJE AAN HET ROT
PROF. DR. ISABELLA NİESTEN