Ağaç tabanlı makine öğrenmesi yöntemleri ile genomik verilerin sınıflandırılmasına yönelik klinik karar destek sisteminin geliştirilmesi
Development of a clinical decision support system for classification of genomic data with TREE-based machine learning methods
- Tez No: 811322
- Danışmanlar: PROF. DR. SAİM YOLOĞLU
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Açıklanabilir Yapay Zeka, Ağaç Tabanlı Öğrenme, Karar Destek Sistemi, Genomik, Makine Öğrenmesi, Sınıflandırma, Yapay Zekâ, Explainable Artificial Intelligence, Tree-Based Learning, Decision Support System, Genomics, Machine Learning, Classification, Artificial Intelligence
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İnönü Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 91
Özet
Amaç: Bu çalışmanın amacı, MTX ile nefrotoksisitesi olan ve patolojisi olmayan sıçanlardan alınan böbrek doku örneklerinin genomik analizleri sonucu elde edilen büyük verilerin biyoinformatik analizlerinin yapılması ve sonuçların görselleştirilmesi amacıyla bir yazılım geliştirilmesidir. Ayrıca verilerin makine öğrenmesi yöntemlerinden ağaç tabanlı öğrenme yöntemleri ile modellenmesi ve açıklanabilir yapay zeka yöntemleri ile modelin yorumlanabilirliğini sağlayarak nefrotoksisite tanısına yönelik olası biyobelirteçlerin belirlenmesi amaçlanmıştır. Materyal ve Metot: Bu çalışmada 20 adet dişi Wistar Albino cinsi sıçan alınarak oluşturulmuş bir deney düzeneğinden elde edilen genomik veriler kullanılmıştır. Biyoinformatik analiz yapmak için R programlama dili kullanıldı. Modellerde ağaç tabanlı makine öğrenmesi yöntemlerinden karar ağaçları, Random Forest, AdaBoost, Baged CART ve XGBoost modelleri kullanılmıştır. XGBoost modelinin yorumlanabilirliğini artırmak için Local Interpretable Model-Agnostic Explanations ve SHapley Additive Explanations yöntemleri kullanılmıştır. Modellerin ve açıklanabilir yapay zeka yöntemlerinin analizinde Python programlama dili kullanılmıştır. Bulgular: Çalışmada kullanılan genomik veri seti 16.386 lncRNA ifadesini içermektedir. Biyoinformatik analiz sonuçlarına göre nefrotoksisite ve kontrol grupları için lncRNA ların 35 tanesi yukarı regülasyon göstermiş iken 17 tanesi aşağı regülasyon göstermiştir. Boruta değişken seçimi ile seçilmiş olan lncRNA lar ile yapılan modellemeler sonucunda performans ölçütlerine göre XGBoost yöntemi en başarılı makine öğrenimi yöntemi olmuştur. SHAP'ın bir sonucu olarak, Nefrotoksisite için öngörücü biyobelirteç adaylarından en önemli ilk üçü rna-XR_591534.3 (LOC103691816), rna-XR_351582.4 (LOC102555118), rna-XR_005499541.1 (LOC120099962) idi. Sonuç: Bu çalışma yapılan biyoinformatik analiz, modellemeler ve modelleme yorumlanabilirliği sonucunda nefrotoksisitesi olan sıçanlar ile kontrol grubunda yer alan sıçanların lncRNA ekspresyon verileri kullanılarak nefrotoksisite için olası genomik biyobelirteçleri belirlenmiştir.
Özet (Çeviri)
Aim: The aim of this study is to develop a software for bioinformatic analysis of large data obtained as a result of genomic analysis of kidney tissue samples taken from rats with nephrotoxicity and without pathology with MTX and to visualize the results. In addition, it was aimed to model the data with tree-based learning methods, one of the machine learning methods, and to determine possible biomarkers for the diagnosis of nephrotoxicity by providing the interpretability of the model with explainable artificial intelligence methods. Material and Method: In this study, genomic data obtained from an experimental setup created by taking 20 female Wistar Albino rats were used. R programming language was used to perform bioinformatic analysis. Decision trees, Random Forest, AdaBoost, Bagged CART and XGBoost models from tree-based machine learning methods were used in the models. Local Interpretable Model-Agnostic Explanations and SHapley Additive Explanations methods were used to improve the interpretability of the XGBoost model. Python programming language was used in the analysis of models and explainable artificial intelligence methods. Results: The genomic dataset used in the study includes 16,386 lncRNA expressions. According to the results of bioinformatics analysis, 35 of the lncRNAs for nephrotoxicity and control groups showed up-expression, while 17 of them showed down-expression. As a result of the models made with lncRNAs selected by Boruta variable selection, the XGBoost method has been the most successful machine learning method according to performance criteria. As a result of SHAP, the top three most important candidates for predictive biomarkers for Nephrotoxicity were RNA-XR_591534.3 (LOC103691816), RNA-XR_351582.4 (LOC102555118), RNA-XR_005499541.1 (LOC120099962). Conclusion: As a result of the bioinformatic analysis, models and modeling interpretability performed in this study, possible genomic biomarkers for nephrotoxicity were determined by using lncRNA expression data of rats with nephrotoxicity and rats in the control group.
Benzer Tezler
- Makine öğrenmesi yöntemleri ile bıtcoın trend dönüşlerinin tahmin edilmesi
Predicting bitcoin trends reversals with machine learning methods
SERGÜL ÜRGENÇ
Yüksek Lisans
Türkçe
2023
İstatistikMimar Sinan Güzel Sanatlar Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. BARIŞ AŞIKGİL
- Development of a machine learning prediction model for construction safety management
İnşaat iş güvenliği yönetimi için makine öğrenmesine dayalı tahmin modeli geliştirilmesi
KERİM KOÇ
Doktora
İngilizce
2022
İnşaat MühendisliğiYıldız Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. ASLI PELİN GÜRGÜN
- Ağaç temelli makine öğrenmesi yöntemleri ile kredi risk analizi
Credit risk analysis using tree based machine learning methods
SAFA BOZKURT COŞKUN
Yüksek Lisans
Türkçe
2023
İstatistikİstanbul Ticaret Üniversitesiİstatistik Ana Bilim Dalı
PROF. DR. MÜNEVVER TURANLI
- A new agro-meteorological drought index based on remote sensing
Uzaktan algılama temelli yeni bir agro-meteorolojik kuraklık indeksi
EYYUP ENSAR BAŞAKIN
Doktora
İngilizce
2024
İnşaat Mühendisliğiİstanbul Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET CÜNEYD DEMİREL
- Tree-based machine learning methods combined with swarm intelligence feature selection for intrusion detection
Saldırı tespiti için sürü zekası özellik seçimi ile birleştirilmiş ağaç tabanlı makine öğrenimi yöntemleri
EMRA DEMİR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAdana Alparslan Türkeş Bilim Ve Teknoloji ÜniversitesiBilişim Teknolojileri Ana Bilim Dalı
DOÇ. DR. YASİN KAYA