Geri Dön

İnsan gen yolaklarında ikâme modelleme ve makine öğrenmesi kullanarak varyant analizi

Variant analysis in human gene networks using surrogate modelling and machine learning

  1. Tez No: 887780
  2. Yazar: FURKAN AYDIN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ SÜHA TUNA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Genetik, Tıbbi Biyoloji, Computer Engineering and Computer Science and Control, Genetics, Medical Biology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Bilişim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
  13. Sayfa Sayısı: 75

Özet

Son yıllarda, genetik kompleks hastalıkların incelenmesi ve doğru bir şekilde tahmin edilebilemesi için birden fazla gen verisinin birleştirilmesini içeren kapsamlı bir analiz gerektiği anlaşılmıştır. Bu kapsamda, Genom Çapında İlişkilendirme Çalışmaları ve Poligenik Risk Skorları, kompleks hastalıkların genetik temellerini anlamamızda önemli ilerlemeler sağlamıştır. Genom Çapında İlişkilendirme Çalışmaları, birçok bireyin genomlarını analiz ederek belirli hastalıklarla ilişkili genetik ayrımları tanımlar ve kompleks özelliklerin genetik yapısına dair fikir sunar. Poligenik Risk Skorları ise Genom Çapında İlişkilendirme Çalışmaları tarafından tanımlanan birçok genetik varyantın etkilerini birleştirerek, bireyin belirli bir hastalığa olan genetik yatkınlığını ölçer. Ayrıca, çok boyutlu gen yolaklarını analiz edebilecek ve eğitilebilir hale getirecek güçlü matematiksel modeller geliştirilmiştir. Makine öğrenmesi ve yapay zeka alanında geliştirilen yeni yöntemler ise gen yolaklarının eğitimi ve test edilmesi için önemli olanaklar sunmaktadır. Bu çalışmada, birden çok gen tarafından etki edilen kalıtımsal hastalıkların belli bir birey için var olup olmadığına karar verecek bir model geliştirilmiştir. Modeli eğitmek ve doğruluğunu test etmek amacıyla iki farklı gen yolağı kullanılmıştır. Bunlar mTOR ve TGF-β gen yolaklarıdır. Tezde kullanılan gen yolakları, gerçek hastalıklara karşılık gelen gen yolaklarının analizleri sonucunda elde edilen verilerin kullanımı ile oluşturulan yapay gen yolaklarıdır. Sırasıyla 31 ve 93 gen içeren bu gen yolakları, insan verisi kullanılmadığı için herhangi bir izne ihtiyaç duymadan kullanılabilir durumdadır. Çalışmada önerilen modelle, gen yolakları öncelikle ön işleme adımına tabi tutulmuştur. Bu adım, özellik çıkartma ve boyut indirgeme olmak üzere iki aşamadan oluşmaktadır. Özellik çıkartma aşamasında, her bir gen için Kaos Oyunu Temsili metodu uygulanmış ve her bir gen, iki boyutlu bir desen ile ifade edilebilir hale getirilmiştir. Daha sonra, bu iki boyutlu desenler gen sırası dikkate alınarak bir Kaos Oyunu Temsilinin kübü oluşturulmuştur. Kaos Oyunu Temsili yöntemi, gen verilerini görselleştirmek ve analiz etmek için güçlü bir araçtır ve gen yolağı analizi gibi çeşitli uygulamalarda yaygın olarak kullanılmaktadır. Ardından, Çok Değişkenliliği Yükseltilmiş Çarpımlar Gösterimi tekniği kullanılarak, üç boyutlu olan Kaos Oyunu Temsili kübü daha düşük boyutlu bileşenlere indirgenmiştir. Bu bileşenler arasından iki boyutlu olanlar seçilerek birleştirilmiştir. Ortaya çıkan Çok Değişkenliliği Yükseltilmiş Çarpımlar Gösteriminin bileşenleri, tüm bir gen yolağını temsil eden bir resim oluşturmuştur. İkinci olarak boyut indirgeme aşaması uygulanmıştır. Boyut indirgeme aşamasında, özellik seçme aşamasıyla oluşturulan ve gen yolağını temsil eden iki boyutlu resim, Temel Bileşen Analizi yöntemi kullanılarak bir vektöre indirgenmiştir. Bu işlem sırasında, temsil resminin her bir satırı bir girdi gibi koordinat düzlemine verilerek Temel Bileşen Analizi yöntemi uygulanmıştır. Bu yöntem sonucunda ortaya çıkan Temel Bileşen Analizinin bileşenleri bu verilerin bir temsili kabul edilmiştir. Bu yaklaşım sayesinde, iki boyutlu bir resim Temel Bileşen Analizinin bileşenleri ile ifade edilebilen bir vektöre dönüştürülmüştür. Vektörün temsildeki tutarlılığını ölçmek için her bileşen seçimi için ayrı ayrı testler yapılmıştır. Ön işleme adımı tamamlandıktan sonra, makine öğrenmesi aşamasına geçilmiştir. Bu aşamada, Destek Vektör Makinesi algoritması kullanılmıştır. Her bir gen yolağı için oluşturulan vektör, algoritmaya girdi olarak verilmiş ve 5-katlı Çapraz Doğrulama yöntemi ile eğitim ve testler gerçekleştirilmiştir. 5-katlı Çapraz Doğrulama yöntemi sayesinde, sağlıklı ve hasta grupları bağımsız iki alt gruba ayrılarak eğitim ve test veri setlerinin ayrılması sağlanmıştır. 5-katlı olduğu için bu işlem birbirinden bağımsız beş farklı şekilde gerçekleştirilmiştir. Bu yöntemle elde edilen sonuçlar, eğitim ve test kümelerinin seçiminden kaynaklı hataları minimize etmiştir. Elde edilen sonuçlar grafiklerle gösterilmiş ve analiz edilmiştir. Python ve MATLAB, çalışmada çeşitli hesaplama tekniklerini ve algoritmaları uygulamak için kullanılmıştır. Python, NumPy, Pandas ve Scikit-learn gibi geniş kütüphaneleriyle veri manipülasyonu, istatistiksel analiz, Kaos Oyunu Temsili yöntemi ve makine öğrenmesi uygulamaları için kullanılmıştır. MATLAB ise güçlü matematiksel ve görselleştirme araçlarıyla karmaşık sayısal hesaplamalar ve Çok Değişkenliliği Yükseltilmiş Çarpımlar Gösterimi yönteminin sonuçlarının görselleştirilmesi için kullanılmıştır. Bu iki güçlü programlama ortamının kombinasyonu, genetik verilerin etkin bir şekilde işlenmesi ve analiz edilmesini sağlamış, doğru ve tekrarlanabilir sonuçlar elde edilmesine yardımcı olmuştur. Geliştirilen model ile mTOR ve TGF-β gen yolakları için sırasıyla \%99 ve \%90'ın üzerinde doğruluk elde edilmiştir. Sonuç olarak, önerilen model, karmaşık gen yolakları için sağlam ve tutarlı bir sınıflandırma sağlamış, genotipe dayalı hasta ve sağlıklı gruplar arasında ayrım yapmada umut verici sonuçlar elde etmiştir. Bu bulgular, genetik hastalıkların tahmini ve teşhisi açısından önemli sonuçlar içerir. Gelecekte, modelin daha büyük ve çeşitli veri setleriyle uygulanması, farklı makine öğrenmesi algoritmalarının entegrasyonu, modelin performansını daha da artırabilir ve genetik biliminin daha geniş bir alanınında uygulanabilirliğini sağlayabilir. Bu iyileştirmeler, daha doğru ve kapsamlı modellerin geliştirilmesine katkıda bulunabilir, böylece sağlık sonuçlarını iyileştirme ve genetik hastalıkları anlama konusundaki bilgi birikimimizi artırabilir.

Özet (Çeviri)

In recent years, Genome-Wide Association Studies and Polygenic Risk Scores have significantly advanced our understanding of the genetic basis of complex diseases. Genome-Wide Association Studies analyze the genomes of many individuals to identify genetic markers linked to specific diseases, providing insights into the genetic architecture of complex traits. Polygenic Risk Scores aggregate the effects of multiple genetic variants identified through Genome-Wide Association Studies, offering a quantitative measure of an individual's genetic predisposition to a particular disease. These approaches, combined with powerful mathematical models, have demonstrated that the analysis and accurate prediction of complex diseases caused by multiple genes requires a comprehensive approach that integrates multiple gene sequences. Moreover, these models have been instrumental in uncovering intricate patterns and relationships that are not apparent through traditional analysis methods. Advances in machine learning and artificial intelligence have provided new opportunities for training and testing gene networks. These innovations are critical for the field of bioinformatics, as they enhance our ability to predict and understand complex genetic diseases, thereby facilitating the development of personalized medicine and targeted therapies. In this thesis, a novel computational model has been developed to predict complex diseases caused by multiple genes, which is a crucial task in the field of bioinformatics. The significance of this work lies in its potential to improve early diagnosis and personalized treatment strategies for patients with genetic predispositions to certain diseases. The model addresses a critical gap in existing methodologies by integrating advanced computational techniques to handle the complexity and high dimensionality of genetic data. In the present study, a model was developed to determine whether an individual is susceptible to inherited diseases caused by multiple genes. Two distinct gene networks were used to train and test the proposed model. These gene sequences, designated mTOR and TGF-β, were generated using data derived from the analysis of real disease-associated gene sequences. The mTOR and TGF-β gene sequences, comprising 31 and 93 genes, respectively, do not reflect real data and can be used without any restrictions. This makes them ideal for experimental and developmental purposes without ethical concerns. The proposed model integrates multiple gene sequences and utilizes machine learning and artificial intelligence techniques to analyze and classify the data. The integration of these advanced technologies is pivotal for managing the complexity inherent in genetic data. The approach involves a two-stage pre-processing consisting of feature extraction and dimension reduction. Initially, the Chaos Game Representation method is applied to each gene, which enables the representation of each gene as a two-dimensional pattern. This method facilitates the visualization of complex genetic information, making it easier to identify patterns that may be indicative of disease. The Chaos Game Representation method is particularly advantageous due to its ability to maintain the spatial relationships of nucleotides within a sequence, thereby preserving important biological information. Subsequently, the two-dimensional patterns were concatenated in a sequential manner, considering the gene order, and a Chaos Game Representation cube was constructed. The Chaos Game Representation method is a powerful tool for visualizing and analyzing gene data and has been widely used in various applications, including gene expression analysis and gene sequence analysis. The Chaos Game Representation method involves representing each gene as a two-dimensional pattern, where each pixel in the pattern corresponds to a specific nucleotide in the gene sequence. The resulting pattern is a compact and informative representation of the gene sequence, which can be used for further analysis and classification. The Chaos Game Representation method has several advantages, including its ability to capture non-linear relationships within the data and its robustness to noise and outliers. Subsequently, the Enhanced Multivariance Products Representation technique is employed to reduce the dimensionality of the data, and further feature extraction tasks resulting in a lower-dimensional representation of the three-dimensional Chaos Game Representation cube. This step is essential for reducing the complexity of data and identifying informative features. The Enhanced Multivariance Products Representation technique is a powerful tool for dimensionality reduction and has been widely used in various applications, including signal and image processing. This step is crucial in capturing the relationships within the gene sequences. The resulting representation was a lower-dimensional signal that captured the essential features of the original data. Two-dimensional components were selected from among the components and were combined. The resulting image, constructed using Enhanced Multivariance Products Representation components, possesses the property of representing the entire gene sequence. Principal Component Analysis was then applied to further reduce the dimensionality of the data, yielding a compact representation of the entire gene sequence. Principal Component Analysis is a widely used technique for dimensionality reduction and has been applied in various fields, including bioinformatics, computational biology, image processing, and signal processing. The Principal Component Analysis method represents data as a set of principal components, which are orthogonal vectors that capture the underlying patterns and relationships within the data. The method then selects the most informative principal components that are used to represent the data in a lower-dimensional space. The intersection of the Principal Component Analysis components in the unit circle was accepted as a representation of the data. This approach enabled the transformation of a 2-dimensional image into a vector, with the Principal Component Analysis components serving as a compact representation of the original data. The resulting representation is a compact and informative representation of the original data that can be used for further analysis and classification. To evaluate the consistency of vector representation, separate tests were conducted for each component selection. This rigorous validation ensures the reliability and robustness of the feature extraction process. The machine learning step was applied after the completion of the pre-processing step. The model was trained and tested using a Support Vector Machines algorithm with 5-fold cross-validation, which ensured the robustness and reliability of the results. The 5-fold cross-validation approach involves dividing the data into five folds, where four folds are used for training and one fold is used for testing. This process was repeated five times, and the results were averaged to obtain a robust estimate of the model's performance. The Support Vector Machines algorithm is a widely used machine-learning technique that has been applied in various fields, including genetics, image processing, and text classification. The model was trained using a set of labeled data, where each sample was associated with a specific class label. The model was then evaluated using a separate test set that was used to estimate the accuracy of the model. This methodical approach ensures that the model's predictions are both reliable and generalizable, minimizing the risk of overfitting and improving its applicability to real-world scenarios. This study utilized Python and MATLAB to execute various computational methods and algorithms. Python, which offers extensive libraries such as NumPy, Pandas, and Scikit-learn, was adopted for data manipulation, statistical analysis, Chaos Game Representation, and machine-learning implementations. MATLAB, known for its robust mathematical and visualization tools, was employed for complex numerical computations and the visualization of Enhanced Multivariance Products Representation results. These two powerful programming environments facilitated the efficient processing and analysis of genetic data, ensuring accurate and reproducible outcomes. The accuracy of the model was evaluated using two gene sequences, mTOR and TGF-β, that are commonly associated with complex diseases. The results demonstrated high accuracy rates of 99\% and 90\%, respectively, indicating that the proposed model is effective in predicting complex diseases caused by multiple genes. The high accuracy rates suggest that the model can capture the underlying patterns and relationships within the gene sequences and accurately distinguish between healthy and diseased groups based on genotype. The proposed model provides a robust and consistent classification of complex gene sequences, demonstrating promising results in the field of genetics. These findings have significant implications for the prediction and diagnosis of genetic diseases. By accurately identifying individuals at risk for complex diseases, healthcare providers can implement targeted prevention and treatment strategies. This capability is particularly important in the context of precision medicine, where treatments are tailored to the individual characteristics of each patient. Additionally, the methodologies developed in this study can be applied to other areas of genetics research, potentially leading to further advancements in the field. The integration of machine learning with genetic analysis opens new avenues for understanding the genetic basis of diseases and developing novel therapeutic approaches. Future work may involve applying the proposed model to larger and more diverse datasets to validate its effectiveness and generalizability. Furthermore, integrating additional machine learning algorithms and exploring ensemble techniques could further enhance the model's performance and applicability to a broader range of genetic conditions. These improvements could lead to even more accurate and comprehensive models, ultimately contributing to better healthcare outcomes and advancing our understanding of genetic diseases.

Benzer Tezler

  1. The effect of alcohol addiction on mrna and microrna expression in brain tissue

    Alkol bağımlılığının beyin dokusundaki mikrorna ve mrna üzerine etkisi

    ZEYNEP AYDIN SİNİRLİOĞLU

    Doktora

    İngilizce

    İngilizce

    2016

    GenetikFatih Üniversitesi

    Biyoteknoloji Ana Bilim Dalı

    DOÇ. DR. FAHRİ AKBAŞ

  2. Mapping intracellular immune responses against lentiviral vectors in natural killer cells using genome scale CRISPR knockout

    CRISPR genom susturma kütüphaneleri ile NK hücrelerde antiviral sinyal yolaklarının tespit edilmesi

    AYDAN SARAÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Allerji ve İmmünolojiSabancı Üniversitesi

    Biyomühendislik Ana Bilim Dalı

    YRD. DOÇ. DR. TOLGA SÜTLÜ

    DR. ABDULLAH KARADAĞ

  3. Redox regulation of human p53 tumor suppressor gene activity: identification of redox genes that play role in human p53 reporter gene activity

    İnsan p53 tümör baskılayıcı gen aktivitesinin redox regülasyonu: insan p53 raportör gen aktivitesinde rol oynayan redoks genlerinin belirlenmesi

    BEREN ATAÇ

    Yüksek Lisans

    İngilizce

    İngilizce

    2008

    Biyokimyaİzmir Yüksek Teknoloji Enstitüsü

    Moleküler Biyoloji ve Genetik Ana Bilim Dalı

    DOÇ. DR. AHMET KOÇ

  4. Epilobium hirsutum L. ekstresinin prostat kanseri hücre hatlarındaki sitotoksik etkisinin moleküler düzeyde incelenmesi

    Investigation of the cytotoxic effect of Epilobium hirsutum L. extract on prostate cancer cell lines at the molecular level

    BUSE VATANSEVER

    Doktora

    Türkçe

    Türkçe

    2020

    BiyolojiBursa Uludağ Üniversitesi

    Biyoloji Ana Bilim Dalı

    PROF. DR. HULUSİ MALYER

    PROF. DR. HALE ŞAMLI

  5. Molecular characterization of phenylethanol resistance in Saccharomyces cerevisiae

    Feniletanol direncinin Saccharomyces cerevısıae'de moleküler karakterizasyonu

    CAN HOLYAVKİN

    Doktora

    İngilizce

    İngilizce

    2023

    Biyoteknolojiİstanbul Teknik Üniversitesi

    Moleküler Biyoloji-Genetik ve Biyoteknoloji Ana Bilim Dalı

    PROF. DR. ZEYNEP PETEK ÇAKAR