Sınıflandırma model performansını geliştirmede ortak karar yaklaşımı ile biyobelirteç keşfi
A consensus approach with biomarker discovery to increase performance of classification model
- Tez No: 456200
- Danışmanlar: YRD. DOÇ. DR. AYÇA ÇAKMAK PEHLİVANLI
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, İstatistik, Biostatistics, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2016
- Dil: Türkçe
- Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 96
Özet
Biyobelirteç keşfi (Biomarker discovery), hastalık riskinin belirlenmesi, hastalığın şiddetinin saptanması, yeni tedavi stratejilerinin geliştirilmesi gibi önemli amaçlar için kullanılmaktadır. Ayrıca ilaçların etki edeceği hastalık mekanizmasının en iyi şekilde anlaşılması açısından ilaç tasarım sürecinin de önemli bir adımı olarak görülmektedir. Genlerin, proteinlerin ve diğer önemli biyolojik moleküllerin kapsamlı analizlerini yapabilen yüksek verimli teknolojilerin ortaya çıkmasıyla beraber, hastalıklara ilişkin biyobelirteçlerin tanımlanabilmesi için önemli bir fırsat elde edilmiştir. Ancak bu yüksek boyutlu veri kümelerinden biyolojik etki açısından anlamlı biyobelirteçlerin saptanması hem zaman hem de maliyet açısından oldukça zahmetlidir. Bu problemin çözümü için istenilen sayıda ve yaklaşımda filtre yöntemi ve sınıflandırma algoritması kullanmaya olanak veren, esnek yapıya sahip yeni bir ortak karar yaklaşımı önerilmiştir. Bu yaklaşım biyobelirteç içeren Diyabet ve açıklayıcı değişkenleri Molecular Operating Environment programı ile hesaplanan Fontaine olmak üzere iki farklı veri seti üzerine uygulanmıştır. Uygulama, yeniden örnekleme ve sınıf dağılımı dengeleme, farklı filtre yöntemleri ile en iyi değişken kümesi belirleme ve ortak karar ile sınıflama başarısını elde etme aşamaları çerçevesinde gerçekleştirilmiştir. Bu çalışmada önerilen yaklaşımın esnek yapısı farklı tasarımları ortaya koyabilmektedir. Bu kapsamda yapılan tasarım sonucunda her iki veri seti için yerine koyarak örneklendirilmiş veri seti en yüksek doğru sınıflandırma oranını vermiştir. Diyabet veri setinde diyabetik ve non-diyabetik bireylerin ayrıştırılmasında açlık kan şekeri ve HbA1c düzeylerinin en etkili değişkenler olduğu saptanmış ve bu değişkenlerin tıbbi literatürde diyabet hastalığının saptanmasında kullanılan gerçek biyobelirteçler olduğu gözlenmiştir. Ortak karar yaklaşımı ile sınıflandırma sonucunda Diyabet veri seti %94,6, Fontaine veri seti ise %83,21 başarı düzeyinde doğru sınıflandırılmıştır.
Özet (Çeviri)
Biomarker discovery is used for important purposes such as identification of disease risk, detection of disease severity, development of new treatment strategies. It is also seen as an important step in the drug design process in terms of the best understanding of the disease mechanism. The advent of high throughput technologies capable of comprehensive analysis of genes, proteins and other biological molecules has provided an unprecedented opportunity for the identification of biomarkers of disease processes. However, the identification of biomarkers that are biologically effective from these high-dimensional data sets is both costly and time-consuming. In order to solve this problem, a new consensus approach with a flexible structure is proposed, which allows using the filter method and classification algorithm in the desired number and approximation. This approach has been applied to two different data sets, namely the biomarker containing Diabetes and the Fontaine calculated by the Molecular Operating Environment program. Implementation, resampling, and class distribution balancing have been performed within the framework of determining the best attribute set with different filter methods and achieving the common classification success. The flexible structure of the approach proposed in this study is to present different designs. As a result of the design made in this context, the replacement data set for both data sets gave the highest classification accuracy. Fasting blood glucose and HbA1c levels were found to be most effective features in the Diabetes data set. It was observed that these features are the actual biomarkers used to diagnose diabetes mellitus in medical literature. Consequently, classification with the consensus approach, the Diabetes data sets was correctly classified 94.6% and the Fontaine data sets as 83.21%.
Benzer Tezler
- Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
- On the performance of cooperative diversity with amplify-and-forward relays over weibull fading channels
İşbirlikli kablosuz haberleşme için kuvvetlendir-ve-aktar tipi weibull sönümleme kanalı üzerinden performans analizi
BAKARY GUINDO
Yüksek Lisans
İngilizce
2018
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
PROF. DR. AHMET HAMDİ KAYRAN
- Smart city concept and urban planning: Geographical analysis of the smart city index and implications for Turkish context
Akıllı kent kavramı ve kent planlama: Akıllı kent indeksinin coğrafi çözümlemesi ve Türkiye bağlamına ilişkin çıkarsamalar
KABEER SALEH TIJJANI
Yüksek Lisans
İngilizce
2022
Şehircilik ve Bölge PlanlamaMersin ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
YRD. DOÇ. DR. YASEMİN SARIKAYA LEVENT
- Clustering of manifold-modeled data based on tangent space variations
Manifold modelli datanın tanjant uzayı değişikliklerine dayalı kümelenmesi
GÖKHAN GÖKDOĞAN
Yüksek Lisans
İngilizce
2017
Elektrik ve Elektronik MühendisliğiOrta Doğu Teknik ÜniversitesiElektrik-Elektronik Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. ELİF VURAL
- Medical data analysis and model development based on machine learning using apache spark technology
Apache spark teknolojisi kullanılarak sağlık verilerinin analizi ve makine öğrenimine dayalı modelin geliştirilmesi
ANAR TAGHIYEV
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSelçuk ÜniversitesiBilişim Teknolojileri Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM ALPASLAN ALTUN