Makine öğrenmesi temelli 16S mikrobiyom verilerinin işlenmesi için iş hattı: Tip 1 diyabet için vaka çalışması
Machine learning based 16s microbiome processing pipeline: A case study for type 1 diabetes
- Tez No: 920086
- Danışmanlar: DR. ÖĞR. ÜYESİ İDİL YET
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Genetik, Mikrobiyoloji, Biostatistics, Genetics, Microbiology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoinformatik Ana Bilim Dalı (Disiplinlerarası)
- Bilim Dalı: Biyoenformatik Bilim Dalı
- Sayfa Sayısı: 96
Özet
Vücudun farklı bölgelerinde yaşayan mikroorganizma topluluğu mikrobiyota, bu topluluk ve sahip olduğu genetik materyal mikrobiyomdur. İnsan vücudunda yer alan mikrobiyom ve insan sağlığı arasında yakın bir ilişki bulunmaktadır. Genetik, diyet ve yaş mikrobiyom kompozisyonuna etki etmektedir. Yapılan çalışmalar bağırsak mikrobiyomunun çeşitli hastalıklar ile yakından ilişkili olduğunu tespit etmiştir. Tip 1 Diyabet Mellitus, immün sistemin beta hücrelerini tahrip etmesiyle oluşan insülin eksikliği ile karakterize bir hastalıktır. Yapılan çalışmalar Tip 1 Diyabet Mellitus'un bağırsak mikrobiyomu ile ilişkili olduğunu kanıtlamıştır. Bu tez kapsamında, farklı popülasyonlar ve yaş gruplarını içeren Tip 1 Diyabet Mellitus hastası ve sağlıklı bireylerin gaita örneklerinden izole edilmiş 16S rRNA dizilerinin Makine Öğrenmesi modelleriyle tahmininin iyi bir performansla gerçekleştirilmesine yönelik işlenmesi için bir iş hattı geliştirilmiştir. İtalya ve Çin'de yapılan iki çalışmanın üç farklı açık erişimli veri seti kullanılmıştır. Veriler QIIME2 adlı biyoinformatik aracı ile deblur eklentisi kullanılarak işlenmiş, SILVA Veritabanı kullanılarak taksonomik sınıflandırmaları yapılmıştır. LEfSe testi ile veri setleri arasında farklılık yaratan taksonlar olup olmadığına bakılmış, veri setleri arasında farklılık yaratan 185 takson tespit edilmiştir. Literatür araştırması sonucunda bu taksonlardan bazılarının Tip 1 Diyabet Mellitus ilişkili olduğu tespit edilmiştir. Taksonomik tablonun Makine Öğrenmesi modellerinin performansını düşüren çok boyutlu yapısının engellenmesi, ayrıca verinin hastalık durumunu en iyi temsil edecek biçimde özetlenmesi amaçlanmıştır. Bu amaçla Shannon-Wiener indisi, Simpson indisi ve Bray Curtis Başlıca Koordinatlar Analizi bileşenleri hesaplanmıştır. Modele maksimum bilgi verilmesi için çeşitlilik hesaplamaları Takım, Aile ve Cins taksonomik seviyelerinde gerçekleştirilmiştir. Veri setleri ve yaş bilgisi kategorik olarak modele çeşitlilik indeksleriyle birlikte verilmiştir. Makine Öğrenmesi modelleri olarak Destek Vektörleri, Yapay Sinir Ağları ve Rassal Ormanlar modelleri kullanılmıştır. Özellik öneminin anlaşılması için SHAP değeri hesaplanmıştır. QIIME2 sample-classifier modeli, tez kapsamında kullanılan modellerle kıyaslanmıştır. Modellere K-Katlı Çapraz Doğrulama yapılmıştır. K 10 değerinde Rassal Ormanlar modeli en iyi performans göstermiştir. SHAP değeri hesaplamasında veri seti bilgisi her model için en önemli özellik olarak görülmüştür. Tez kapsamında geliştirilen Rassal Ormanlar ve Destek Vektörleri modelleri, tezde kullanılan verilerle yapılan Tip 1 Diyabet Mellitus tahmininde QIIME2 modeline göre daha başarılı bir performans sergilemiştir.
Özet (Çeviri)
The community of microorganisms residing in different regions of the body is referred to as the microbiota, while this community along with its genetic material is called the microbiome. There is a close relationship between the human microbiome and human health. Genetics, diet, and age influence the composition of the microbiome. Studies have determined that the gut microbiome is closely associated with various diseases. Type 1 Diabetes Mellitus (T1DM) is a disease characterized by insulin deficiency due to the destruction of beta cells by the immune system. Research has proven a relationship between Type 1 Diabetes Mellitus and the gut microbiome. Within the scope of this thesis, a pipeline has been developed to process 16S rRNA sequences isolated from stool samples of Type 1 Diabetes Mellitus patients and healthy individuals from different populations and age groups to predict disease status with high performance using Machine Learning models. Three different publicly available datasets from studies conducted in Italy and China were used. The data were processed with the deblur plugin in the bioinformatics tool QIIME2, and taxonomic classifications were performed using the SILVA Database. The LEfSe test was applied to investigate whether there were taxa differentiating the datasets, identifying 185 taxa that varied between datasets. A literature review determined that some of these taxa were associated with Type 1 Diabetes Mellitus. The study aimed to address the high-dimensional structure of the taxonomic table, which can reduce the performance of Machine Learning models, and to summarize the data in a way that best represents disease status. To this end, Shannon-Wiener and Simpson diversity indices, as well as Bray-Curtis Principal Coordinates Analysis components, were calculated. Diversity calculations were performed at the taxonomic levels of Phylum, Family, and Genus to provide maximum information to the model. The datasets and age information were provided to the model categorically, along with diversity indices. Machine Learning models such as Support Vector Machines, Artificial Neural Networks, and Random Forests were employed. SHAP values were calculated to understand feature importance. The QIIME2 sample-classifier model was compared with the models used in the thesis. Cross-validation was performed on the models using K-fold validation with K=10, and the Random Forest model demonstrated the best performance. In SHAP value calculations, dataset information was identified as the most important feature for all models. The Random Forest and Support Vector Machines models developed in this thesis outperformed the QIIME2 model in predicting Type 1 Diabetes Mellitus using the data utilized in the study.
Benzer Tezler
- Makine öğrenmesi temelli bir mobil uygulamanın fazla kilolu ve obez kadınlarda fiziksel aktivite düzeyine etkisi: Randomize kontrollü çalışma
The effect of a machine learning-based mobile application on physical activity levels in overweight and obese women: A randomized controlled trial
EZGİ HASRET KOZAN ÇIKIRIKÇI
Doktora
Türkçe
2025
Halk Sağlığıİstanbul Üniversitesi-CerrahpaşaHalk Sağlığı Hemşireliği Ana Bilim Dalı
PROF. DR. MELEK NİHAL ESİN
- A machine learning approach for marginal fulfillment cost estimation in last mile delivery
Makine öğrenmesi temelli sınırsal teslimat maliyeti tahmini
ALİ NALBANT
Yüksek Lisans
İngilizce
2023
Endüstri ve Endüstri MühendisliğiKoç ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BARIŞ YILDIZ
- Makine öğrenmesi temelli fiziksel aktivite kestirim sistemi tasarım ve uygulaması
Design and implementation of the machine learning based physical activity estimation system
HASAN TAŞDEMİR
Yüksek Lisans
Türkçe
2022
Mekatronik MühendisliğiMarmara ÜniversitesiMekatronik Ana Bilim Dalı
PROF. DR. MUSTAFA CANER AKÜNER
DR. ÖĞR. ÜYESİ GAZİ AKGÜN
- Machine learning-based interference mitigation and ghost target reduction for one-bit quantized Simo FMCW automotive radars
Makine öğrenmesi temelli bir-bit örneklenmiş Simo FMCW otomotiv radarlar için girişim temizleme ve hyalet hedef azaltma
MUSA BURAK BAYTOK
Yüksek Lisans
İngilizce
2024
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
PROF. DR. ALİ ÖZGÜR YILMAZ
- Machine learning based antenna array beamforming
Makine ögrenmesi temelli anten dizisi hüzme yönlendirme
MUHAMMED UĞUR KILIÇ
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik MühendisliğiDokuz Eylül ÜniversitesiElektrik ve Elektronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZGÜR TAMER