Biological data integration and relation prediction by matrix factorization

Matris factorizasyonu yöntemi ile biyolojik veri entegrasyonu ve ilişki tahmini

PDF İndir

Tez No: 621689
Yazar: GÖKÇE ABAY
Danışmanlar: DR. ÖĞR. ÜYESİ AYBAR CAN ACAR, DOÇ. DR. TUNCA DOĞAN
Tez Türü: Yüksek Lisans
Konular: Genetik, Genetics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2020
Dil: İngilizce
Üniversite: Orta Doğu Teknik Üniversitesi
Enstitü: Enformatik Enstitüsü
Ana Bilim Dalı: Sağlık Bilişimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 119

Özet

Yaşam bilimleri alanındaki yeni teknolojik gelişmeler sayesinde, üretilen moleküler sekans verisi miktarı son yıllarda fazlasıyla artmıştır. Bu verinin bilim dünyasına faydalı olabilmesi için anlamlandırılması gerekmektedir. Geleneksel olarak bu anlamlandırma işlemi, deneyler ile üretilen moleküler verinin elle işlenmesi ve biyolojik veri tabanlarında saklanması suretiyle yapılır. Ancak bu verinin muazzam büyüklükte olması, otomatik ve sistematik analiz ihtiyacını doğurmaktadır. Bu sistematik analizin önemli bir kısmını, farklı veri tabanlarından elde edilen ögelerin arasındaki ilişkilerin tanımlanması ile verinin birleştirilmesi oluşturmaktadır. Bu çalışmada negatif olmayan matris faktorizasyonu (non-negative matrix factorization – NMF) yöntemi ile büyük çaplı gen/protein verisini birleştirecek bir yaklaşım önerilmektedir. NMF ürün tavsiye sistemlerinde sıklıkla kullanılan ve başarılı uygulamaları olan bir yöntemdir. NMF ayrıca biyoenformatik ve kemoenformatik gibi çeşitli alanlardaki çoklu-ilişkili verinin birleştirilmesinde de kullanılmıştır. Bu çalışmanın amacı doğrultusunda, öncelikle moleküler işlev, biyolojik süreç, hücre-içi konumlandırma ve hastalık ilişkileri gibi protein anotasyonlarını UniProt-GOA, DisGeNET gibi farklı kaynaklardan topladık ve bunları ikili ilişki matrisleri olarak düzenledik. Sonrasında bu çok-boyutlu ilişkili biyomoleküler sekans anotasyon verisine (genler/proteinler ve işlevler, genler/proteinler ve hastalıklar, hastalıklar ve işlevler) çeşitli NMF tabanlı algoritmaları uyguladık; ardından her modelin sonuçlarını ilişkili verideki esas yapıyı öğrenme yeteneği üzerinden çapraz doğrulama aracılığıyla değerlendirdik. Sonuçlar, NMF'in bilinen protein anotasyonlarının çoğunu herhangi bir sekans veya yapı tabanlı protein özelliği kullanmadan elde etme yeteneğinin olduğunu gösterdi (AUROC: 0.80 – 0.94, doğruluk: 0.53 – 0.64, F1-skoru: 0.06 – 0.40, MCC: 0.13 – 0.38). Bu çalışmanın nihai amacı, NMF'i kullanarak bu biyolojik varlıklar arasındaki bilinmeyen ikili ilişkileri tahmin etmektir. Devamında ise, bu varlıkları (proteinler, işlevler ve hastalık girdileri) faktorizasyon işlemiyle üretilmiş az ranklı öznitelik matrislerini kullanarak bilgilendirici ve artıksız niceliksel öznitelik vektörleri olarak sunmaktır. Bu öznitelik matrislerinin gelecekte proteinlerin otomatik anotasyonu veya biyolojik ağ oluşturulması gibi çeşitli veri madenciliği ve makine öğrenmesi uygulamalarında kullanılması hedeflenilmektedir.

Özet (Çeviri)

The available molecular sequence data has increased greatly in the last decades, thanks to the new technological developments in the field of life-sciences. In order for this data to be useful to the scientific community, it should be characterized. Traditionally, this characterization is done manually, where the experimentally produced molecular data is curated and stored in the biological databases. The huge volume of the currently available data summons the need for the automatic and systematic analysis. A crucial part of this systematic analysis is data integration with the identification of the relationships between the elements from different biological data types. In this study, we propose to integrate large-scale gene/protein annotation data by using non-negative matrix factorization (NMF), which is a frequently used method for recommender systems with successful real-world applications. NMF has also been employed for uniting multi-relational data in many different fields including bioinformatics and cheminformatics. Within the purposes of this study, we first collected protein annotations such as molecular functions, biological processes, sub-cellular localizations and disease relations from different resources such as UniProt-GOA and DisGeNET, and organized them as binary relation matrices. We then applied various NMF-based algorithms to this multi-dimensional relational biomolecular sequence annotation data (i.e. genes/proteins vs. functions, genes/proteins vs. diseases, diseases vs. functions) and evaluated the results of each model in terms of their capacity to learn the intrinsic structure in relational data, via cross-validation. The results indicated that NMF has the capacity to retrieve most of the known protein annotations without using any sequence or structure-based protein features (AUROC: 0.80 – 0.94, accuracy: 0.53 – 0.64, F1-score: 0.06 – 0.40, MCC: 0.13 – 0.38). Using NMF, the ultimate aim here is to predict the unknown binary relationships between these biological entities; and to represent these entities (i.e., proteins, functions and disease entries) as informative and non-redundant quantitative feature vectors (using the low-rank feature matrices generated by the factorization process), which can be used in diverse data mining and machine learning tasks in the future, such as the automated annotations of proteins or the construction of biological knowledge graphs.

Benzer Tezler

Tez No
2198
Akışkan yataklı reaktörde biyolojik denitrifikasyon sürecinin incelenmesi
Başlık çevirisi yok
M.GÜRKAN DUMLU
Doktora
Türkçe
1983
Çevre Mühendisliği İstanbul Teknik Üniversitesi
DOÇ. DR. DERİN ORHON
Tez No
46117
Direkt güneş ışınımının spektral dağılımının belirlenmesi
Başlık çevirisi yok
BAHAR OĞUZHAN
Yüksek Lisans
Türkçe
1995
Metalurji Mühendisliği İstanbul Teknik Üniversitesi
DOÇ.DR. SEMA TOPÇU
Tez No
247383
Yeni tanı konulmuş multipıl miyelomlu hastalarda Serum-IL-6, IL-1beta, TNF-alfa, VEGF ve HGF düzeyleri ile klinik seyir ilişkisi
The relation with between patients who were newly diagnosed multiple myeloma 's serum IL-6, IL-1beta, TNF-alpha, VEGF and HGF levels and clinical course
NACİYE DEMİREL YILDIRIM
Tıpta Uzmanlık
Türkçe
2009
Hematoloji İstanbul Üniversitesi
İç Hastalıkları Ana Bilim Dalı
PROF. DR. SEVGİ KALAYOĞLU BEŞIŞIK
Tez No
363577
Meyve dokularında niteliksel ölçüm yapabilen elle tutulabilir spektroskopik donanım tasarımı ve gerçeklemesi
Design and implementation of a hand-held devi̇ce to spectroscopically assess fruit quality
ALİ SARIKAŞ
Yüksek Lisans
Türkçe
2014
Biyoteknoloji İstanbul Teknik Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. FATMA İNCİ ÇİLESİZ
Tez No
633414
Deep learning for prediction of drug-target interaction space and protein functions
İlaç-hedef protein etkileşim uzayı ve protein fonksiyonlarının tahmini için derin öğrenme
AHMET SÜREYYA RİFAİOĞLU
Doktora
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET VOLKAN ATALAY
PROF. DR. RENGÜL ÇETİN ATALAY

Geri Dön