Geri Dön

Ağaç tabanlı makine öğrenmesi yöntemleri ile genomik verilerin sınıflandırılmasına yönelik klinik karar destek sisteminin geliştirilmesi

Development of a clinical decision support system for classification of genomic data with TREE-based machine learning methods

  1. Tez No: 811322
  2. Yazar: İPEK BALIKÇI ÇİÇEK
  3. Danışmanlar: PROF. DR. SAİM YOLOĞLU
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Açıklanabilir Yapay Zeka, Ağaç Tabanlı Öğrenme, Karar Destek Sistemi, Genomik, Makine Öğrenmesi, Sınıflandırma, Yapay Zekâ, Explainable Artificial Intelligence, Tree-Based Learning, Decision Support System, Genomics, Machine Learning, Classification, Artificial Intelligence
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İnönü Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 91

Özet

Amaç: Bu çalışmanın amacı, MTX ile nefrotoksisitesi olan ve patolojisi olmayan sıçanlardan alınan böbrek doku örneklerinin genomik analizleri sonucu elde edilen büyük verilerin biyoinformatik analizlerinin yapılması ve sonuçların görselleştirilmesi amacıyla bir yazılım geliştirilmesidir. Ayrıca verilerin makine öğrenmesi yöntemlerinden ağaç tabanlı öğrenme yöntemleri ile modellenmesi ve açıklanabilir yapay zeka yöntemleri ile modelin yorumlanabilirliğini sağlayarak nefrotoksisite tanısına yönelik olası biyobelirteçlerin belirlenmesi amaçlanmıştır. Materyal ve Metot: Bu çalışmada 20 adet dişi Wistar Albino cinsi sıçan alınarak oluşturulmuş bir deney düzeneğinden elde edilen genomik veriler kullanılmıştır. Biyoinformatik analiz yapmak için R programlama dili kullanıldı. Modellerde ağaç tabanlı makine öğrenmesi yöntemlerinden karar ağaçları, Random Forest, AdaBoost, Baged CART ve XGBoost modelleri kullanılmıştır. XGBoost modelinin yorumlanabilirliğini artırmak için Local Interpretable Model-Agnostic Explanations ve SHapley Additive Explanations yöntemleri kullanılmıştır. Modellerin ve açıklanabilir yapay zeka yöntemlerinin analizinde Python programlama dili kullanılmıştır. Bulgular: Çalışmada kullanılan genomik veri seti 16.386 lncRNA ifadesini içermektedir. Biyoinformatik analiz sonuçlarına göre nefrotoksisite ve kontrol grupları için lncRNA ların 35 tanesi yukarı regülasyon göstermiş iken 17 tanesi aşağı regülasyon göstermiştir. Boruta değişken seçimi ile seçilmiş olan lncRNA lar ile yapılan modellemeler sonucunda performans ölçütlerine göre XGBoost yöntemi en başarılı makine öğrenimi yöntemi olmuştur. SHAP'ın bir sonucu olarak, Nefrotoksisite için öngörücü biyobelirteç adaylarından en önemli ilk üçü rna-XR_591534.3 (LOC103691816), rna-XR_351582.4 (LOC102555118), rna-XR_005499541.1 (LOC120099962) idi. Sonuç: Bu çalışma yapılan biyoinformatik analiz, modellemeler ve modelleme yorumlanabilirliği sonucunda nefrotoksisitesi olan sıçanlar ile kontrol grubunda yer alan sıçanların lncRNA ekspresyon verileri kullanılarak nefrotoksisite için olası genomik biyobelirteçleri belirlenmiştir.

Özet (Çeviri)

Aim: The aim of this study is to develop a software for bioinformatic analysis of large data obtained as a result of genomic analysis of kidney tissue samples taken from rats with nephrotoxicity and without pathology with MTX and to visualize the results. In addition, it was aimed to model the data with tree-based learning methods, one of the machine learning methods, and to determine possible biomarkers for the diagnosis of nephrotoxicity by providing the interpretability of the model with explainable artificial intelligence methods. Material and Method: In this study, genomic data obtained from an experimental setup created by taking 20 female Wistar Albino rats were used. R programming language was used to perform bioinformatic analysis. Decision trees, Random Forest, AdaBoost, Bagged CART and XGBoost models from tree-based machine learning methods were used in the models. Local Interpretable Model-Agnostic Explanations and SHapley Additive Explanations methods were used to improve the interpretability of the XGBoost model. Python programming language was used in the analysis of models and explainable artificial intelligence methods. Results: The genomic dataset used in the study includes 16,386 lncRNA expressions. According to the results of bioinformatics analysis, 35 of the lncRNAs for nephrotoxicity and control groups showed up-expression, while 17 of them showed down-expression. As a result of the models made with lncRNAs selected by Boruta variable selection, the XGBoost method has been the most successful machine learning method according to performance criteria. As a result of SHAP, the top three most important candidates for predictive biomarkers for Nephrotoxicity were RNA-XR_591534.3 (LOC103691816), RNA-XR_351582.4 (LOC102555118), RNA-XR_005499541.1 (LOC120099962). Conclusion: As a result of the bioinformatic analysis, models and modeling interpretability performed in this study, possible genomic biomarkers for nephrotoxicity were determined by using lncRNA expression data of rats with nephrotoxicity and rats in the control group.

Benzer Tezler

  1. Makine öğrenmesi yöntemleri ile bıtcoın trend dönüşlerinin tahmin edilmesi

    Predicting bitcoin trends reversals with machine learning methods

    SERGÜL ÜRGENÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    İstatistikMimar Sinan Güzel Sanatlar Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. BARIŞ AŞIKGİL

  2. Development of a machine learning prediction model for construction safety management

    İnşaat iş güvenliği yönetimi için makine öğrenmesine dayalı tahmin modeli geliştirilmesi

    KERİM KOÇ

    Doktora

    İngilizce

    İngilizce

    2022

    İnşaat MühendisliğiYıldız Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. ASLI PELİN GÜRGÜN

  3. Ağaç temelli makine öğrenmesi yöntemleri ile kredi risk analizi

    Credit risk analysis using tree based machine learning methods

    SAFA BOZKURT COŞKUN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    İstatistikİstanbul Ticaret Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. MÜNEVVER TURANLI

  4. A new agro-meteorological drought index based on remote sensing

    Uzaktan algılama temelli yeni bir agro-meteorolojik kuraklık indeksi

    EYYUP ENSAR BAŞAKIN

    Doktora

    İngilizce

    İngilizce

    2024

    İnşaat Mühendisliğiİstanbul Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET CÜNEYD DEMİREL

  5. Tree-based machine learning methods combined with swarm intelligence feature selection for intrusion detection

    Saldırı tespiti için sürü zekası özellik seçimi ile birleştirilmiş ağaç tabanlı makine öğrenimi yöntemleri

    EMRA DEMİR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAdana Alparslan Türkeş Bilim Ve Teknoloji Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    DOÇ. DR. YASİN KAYA