Efficient optimization algorithms for computational biology
Hesaplamalı biyolojide etkin eniyileme algoritmaları
- Tez No: 854797
- Danışmanlar: PROF. DR. MEHMET GÖNEN
- Tez Türü: Doktora
- Konular: Endüstri ve Endüstri Mühendisliği, Industrial and Industrial Engineering
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Koç Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Endüstri Mühendisliği ve Operasyon Yönetimi
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 122
Özet
Etkin eniyileme algoritmalarının geliştirilmesi, biyolojik verilerin taşıdığı benzersiz zorluklar ve gereksinimler nedeniyle hesaplamalı biyoloji için hayati öneme sahiptir. Bu algoritmalar, araştırmacıların geniş ve karmaşık veri kümelerinden anlamlı içgörüler elde etmesine olanak tanıyarak, biyolojik sistemlere ilişkin anlayışımızı ileriye taşıyabilir ve yeni tedavi yöntemleri geliştirmemize yardımcı olabilir. Bu tezde, kanser alt tiplendirmesi ve ilaç-hedef etkileşimlerinin tahmini için hesaplamalı biyoloji algoritmaları geliştirdik. Üç yeni hesaplamalı yöntem önermekte ve bu yöntemlerin kanser veri kümeleri ile ilaç-hedef veri kümeleri üzerinde gerçekleştirilmiş deneylerini sunmaktayız. Bu tezin ilk kısmında, yolak/gen kümeleri üzerinde tanımlanmış çoklu çekirdekleri kullanarak kanser alt tiplerini belirlemek için bir kümeleme algoritması olan GSPS'yi sunuyoruz. Kanser alt tiplerini belirlemek; kişiselleştirilmiş tedaviyi etkili bir şekilde sağlamak, yeni ilaçlar geliştirmek, risk faktörlerini karakterize etmek, ve hastalıkların temel mekanizmalarını anlamak için önemlidir. GSPS, kanser kohortlarındaki hasta alt tiplerini elde etmek için bağımsız bir araçtır, yerelleştirilmiş çoklu çekirdekli k-ortalama kümelemede büyük ölçekli eniyileme problemlerini çözen verimli bir ayrıştırma algoritması kullanmaktadır. Kanser Genom Atlası'nda yer alan 33 kanser türünün primer tümörlerinin gen ifade profilleri üzerinde üç farklı yolak/gen kümesi koleksiyonu kullanarak kümeleme deneyleri gerçekleştiriyoruz. Öne sürdüğümüz yöntemi, yolak/gen kümeleri ve gen ifade profillerini entegre edebilen üç standart algoritma ile karşılaştırıyoruz. Yaklaşımımız, sağkalım analizlerinde istatistiksel olarak anlamlı olarak daha iyi veya benzer performans göstermektedir. Yöntemimiz ayrıca elde edilen kanser alt tipleri ve yolak/gen kümesi koleksiyonları arasındaki ilişkiler ile ilgili yorumlanabilir bilgi üretebilmektedir. Bu tezin ikinci kısmında, heterojen verilerin modellemesi sorununu etkin bir şekilde çözmek için manifold eniyileme tabanlı çekirdek korumalı gömme (MOKPE) adlı yeni bir çerçeve öneriyoruz. Biyoinformatik uygulamalarının birçoğunda, veriler farklı heterojen kaynaklardan gelmektedir. En bilinen ve yaygın örneklerden biri, ilaç keşfinde ve yeniden amaçlandırmasında önemli bir yere sahip olan ilaç-hedef etkileşimlerinin (İHE) belirlenmesidir. Modelimiz, ilaç-hedef etkileşimlerini ve ilaç-ilaç, hedef-hedef benzerliklerini aynı anda koruyarak heterojen ilaç ve hedef verilerini birleşik bir gömme alanına yansıtmaktadır. Dört farklı ilaç-hedef etkileşim ağı veri setinde, daha önce bilinmeyen yeni ilaçlar için İHE'leri kestirim amacıyla on tekrarlı on katlı çapraz doğrulama gerçekleştirdik. Sınıflandırma değerlendirme metrikleri, literatürdeki benzerlik tabanlı en iyi başarım gösteren yöntemlere kıyasla daha iyi veya benzer performans gösterdi. MOKPE'yi ayrıca, ilaç ve hedeflerin bilindiği bir ağdaki muhtemel yeni İHE'leri tahmin etme görevinde de değerlendirdik ve olumlu sonuçlar aldık. Bu tezde ayrıca, MOKPE'yi çoklu ilaç-ilaç ve hedef-hedef benzerliklerini kullanabilecek şekilde, İHE kestirimlerinin doğruluğunu ve yorumlanabilirliğini arttırma amacıyla genişlettik, ve MOKPE+'yı geliştirdik. Bu amaçla, yerelleştirilmiş bir yaklaşım kullanarak, daha önce bilinmeyen yeni ilaçların benzerlik ağırlıklarını kestirebilme, gürültülü girdiyi temizleyebilme gibi özelliklere sahip bir benzerlik seçme ve birleştirme yöntemini takip ettik. Dört farklı ilaç-hedef etkileşim ağı veri setinde, daha önce bilinmeyen yeni ilaçlar için İHE'leri kestirim amacıyla beş tekrarlı on katlı çapraz doğrulama gerçekleştirdik. Bu benzerlik seçim ve entegrasyon yöntemini hem MOKPE+ ile hem de daha önce karşılaştırma yaptığımız temel referans modellerinde kullandık. Ayrıca, çoklu sayıda benzerlikleri kullanmak için özel olarak geliştirilmiş yöntemleri de aynı veriler ile kullandık. Sınıflandırma değerlendirme metrikleri, MOKPE+'nın, hem bu yöntemi kullanan diğer temel modeller, hem de çoklu benzerlikleri doğrudan kullanabilen yapay öğrenme modelleri ile kıyaslandığında daha iyi veya benzer performans sergilediğini göstermiştir.
Özet (Çeviri)
The development of efficient optimization algorithms is crucial for computational biology due to the unique challenges and requirements of biological data. These algorithms may enable researchers to extract meaningful insights from vast and complex data sets, driving forward our understanding of biological systems and improving therapeutic interventions. In this thesis, we have developed algorithms for computational biology in cancer subtyping and drug-target interaction prediction. Identifying cancer subtypes is important for providing personalized treatment effectively, developing new drugs, characterizing risk factors, and understanding the underlying mechanisms of diseases. In the first part of this thesis, we present a clustering algorithm, named GSPS, that uses multiple kernels defined on pathways/gene sets for identifying cancer subtypes. GSPS employs an efficient decomposition algorithm for solving large scale optimization problems within the localized multiple kernel k-means clustering and provides a standalone framework for obtaining patient subtypes on cancer cohorts. We perform clustering experiments on gene expression profiles of primary tumors for 33 cancer types of the Cancer Genome Atlas using three different pathway/gene set collections. We compare our proposed method against three standard algorithms that can integrate pathway and gene expression profiles. Our approach shows statistically significantly better or comparable performance on survival analyses. Our method is also able to produce interpretable information between obtained cancer subtypes and pathway/gene set collections. In the second part of this thesis, we also propose a novel framework, manifold optimization based kernel preserving embedding (MOKPE), to efficiently solve the problem of modeling heterogeneous data. In many applications of bioinformatics, data stem from distinct heterogeneous sources. One of the well-known examples is the identification of drug-target interactions (DTIs), which is of significant importance in drug discovery and repurposing. Our model projects heterogeneous drug and target data into a unified embedding space by preserving drug-target interactions and drug-drug, target-target similarities simultaneously. We performed ten replications of ten-fold cross validation on four different drug-target interaction network data sets for predicting DTIs for previously unseen drugs. The classification evaluation metrics showed better or comparable performance compared to previous similarity-based state-of-the-art methods. We also evaluated MOKPE on predicting unknown DTIs of a given network. In this thesis, we also extended MOKPE, and developed MOKPE+, to use multiple drug-drug and target-target similarities with the aim of increasing the accuracy and interpretability of DTI predictions. For this purpose, using a localized approach, we followed a similarity selection and fusion method that has features such as estimating the similarity weights of previously unseen new drugs and cleaning noisy input. We performed ten-fold cross-validation with five replications to predict DTIs for new drugs on four different drug-target interaction network data sets. We used this similarity selection and integration method both with MOKPE+ and in the baseline models we have previously compared. We also used methods specifically developed to exploit multiple similarities. Classification evaluation metrics showed that MOKPE+ showed better or similar performance compared to both other baseline models and machine learning models that can use multiple similarities directly.
Benzer Tezler
- Efficient machine learning models for cancer biology
Kanser biyolojisi için etkin yapay öğrenme modelleri
AYYÜCE BEGÜM BEKTAŞ
Doktora
İngilizce
2022
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. MEHMET GÖNEN
- Computational identification of possibly overlapping driver pathways in cancer
Kanserde birbiriyle örtüşebilen sürücü yolakların işlemsel yöntemlerle belirlenmesi
ILYES BAALI
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAntalya Bilim ÜniversitesiElektrik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. HİLAL KAZAN
Prof. Dr. CESİM ERTEN
- Parça yerleştirme algoritmalarının postal oluşturma problemine uygulanması
Başlık çevirisi yok
FİLİZ BUNYAK
Yüksek Lisans
Türkçe
1996
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ.DR. FÜSUN TUNALI (SEÇUK)
- Sequence alignment using swarm intelligence
Topluluk zekası kullanarak biyodizin hizalama
VOLKAN USLAN
Yüksek Lisans
İngilizce
2010
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. İHSAN ÖMÜR BUCAK
- Optimization of epigenome-wide CRISPR-CAS9 knockout screen analysis to prioritize cancer therapeutics
Kanser tedavilerine öncelik vermek için epigenom genelinde crispr-CAS9 tekniğinin analizinin optimizasyonu
EZGİ KURT
Yüksek Lisans
İngilizce
2023
BiyolojiKoç ÜniversitesiHücresel ve Moleküler Tıp Ana Bilim Dalı
PROF. DR. TUĞBA BAĞCI ÖNDER
DR. ÖĞR. ÜYESİ HAMZAH SYED