Yüksek boyutlu medikal verilerde yeni bir istatistiksel öğrenme yaklaşımı
A new statistical learning approach forhigh-dimensional medical data
- Tez No: 916239
- Danışmanlar: PROF. DR. AYÇA ÇAKMAK PEHLİVANLI
- Tez Türü: Doktora
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: Türkçe
- Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: İstatistik Bilim Dalı
- Sayfa Sayısı: 73
Özet
Günümüzde, veri boyutlarındaki hızlı artış ve karmaşık veri yapılarının ortaya çıkması, makine öğrenimi modellerinin kullanımını kaçınılmaz hale getirmiş, yüksek boyutlu veriler için etkili değişken seçiminin önemini artırmıştır. Özellikle sağlık gibi kritik alanlarda, hastalık teşhisi ve tedavi süreçlerinde kullanılan makine öğrenimi yöntemleri, yüksek boyutlu ve az gözlemli veri kümeleri nedeniyle ciddi zorluklarla karşılaşmaktadır. Bu tür veri kümelerinde boyutsallık laneti, artan hesaplama maliyetleri ve düşen model performansı gibi sorunlar yaratmaktadır. Bu nedenle, değişken seçimi ve boyut azaltma yöntemleri, makine öğrenimi modellerinin etkinliğini artırmak için temel bir gereklilik haline gelmiştir. Bu çalışmada, hem bağımlı hem de bağımsız değişkenler arasındaki ilişkileri dikkate alarak mevcut yöntemlerin sınırlamalarını aşmayı hedefleyen yenilikçi bir değişken seçimi yöntemi olan Minimum Tekrarlı Aralık Tabanlı Seçim (M2RS) geliştirilmiştir. M2RS, Python programlama dili ile bir kütüphane olarak tasarlanmış ve uygulanmıştır. Yöntem, bağımsız değişkenler arasındaki gereksiz tekrarları minimuma indirirken bağımlı değişkenle olan ilişkililiği maksimize etmeyi hedefleyen aralık tabanlı bir seçim önermektedir. M2RS yöntemi, literatürde yaygın olarak kullanılan ERGS ve mRMR yöntemlerinin güçlü yönlerini bir araya getirerek karşılaştırmalı bir performans analizi ile değerlendirilmiştir. Çalışmada, altı adet kanser mikrodizi (merkezi sinir sistemi, cilt kanseri, pankreas kanseri, lösemi, yumurtalık kanseri, kolon tümörü) ve ek olarak mutajenite veri setleri kullanılmıştır. Sonuçlar, M2RS'in sınıflandırma algoritmalarının başarısını %18'e kadar artırabildiğini göstermiştir. Korelasyon ısı haritası analizleri, yöntemin gereksiz değişkenleri düşük önem sıralarına taşıyarak kritik değişkenleri ön plana çıkardığını ve böylece model performansını artırdığını doğrulamaktadır. M2RS'in genelleme potansiyeli, farklı veri türleri ve sınıflandırma algoritmaları üzerinde test edilerek ortaya konulmuştur. Sağlıkta çeşitli kanser verilerindeki etkinliğinin yanı sıra, yöntemin ilaç molekülleri ve toksikoloji gibi farklı alanlarda da uygulanabilir olduğu gözlemlenmiştir. Sonuç olarak, M2RS yöntemi, bağımsız değişkenler arasındaki ilişkileri dikkate alan yenilikçi yapısı, farklı veri kümelerine uygulanabilirliği ve elde ettiği dikkat çekici performans sonuçlarıyla, boyut azaltma ve değişken seçimi alanında hem akademik hem de pratik uygulamalar için güçlü ve etkili bir çözüm sunmaktadır.
Özet (Çeviri)
In today's world, the rapid increase in data sizes and the emergence of complex data structures have made the use of machine learning models inevitable, highlighting the importance of effective feature selection for high-dimensional data. Particularly in critical fields such as healthcare, machine learning methods used in disease diagnosis and treatment processes face significant challenges due to high-dimensional and small-sample datasets. In such datasets, the curse of dimensionality leads to problems such as increased computational costs and decreased model performance. Therefore, feature selection and dimensionality reduction methods have become essential requirements for enhancing the efficiency of machine learning models. In this study, an innovative feature selection method, Minimum Redundancy Range-Based Selection (M2RS), was developed to overcome the limitations of existing methods by considering the relationships between both dependent and independent variables. M2RS was designed and implemented as a Python library. The method proposes a range-based selection that aims to minimize redundancy repetitions among independent variables while maximizing their relevance to the dependent variable. The M2RS method was evaluated through a comparative performance analysis by integrating the strengths of widely used methods in the literature, such as ERGS and mRMR. The study utilized six cancer microarray datasets (central nervous system, skin cancer, pancreatic cancer, leukemia, ovarian cancer, colon tumor) and additional mutagenicity datasets. Results showed that M2RS could improve the accuracy of classification algorithms by up to 18%. Correlation heatmap analyses confirmed that the method prioritizes critical variables by relegating redundant ones to lower importance rankings, thereby enhancing model performance. The generalization potential of M2RS was demonstrated by testing it on different data types and classification algorithms. Beyond its effectiveness in cancer datasets in healthcare, the method was observed to be applicable in other fields, such as drug molecules and toxicology. In conclusion, the M2RS method offers a robust and effective solution for dimensionality reduction and feature selection with its innovative structure that considers the relationships between independent variables, applicability to diverse datasets, and notable performance outcomes. It provides significant benefits for both academic research and practical applications in the field.
Benzer Tezler
- Derin öğrenme tekniğinin yeni nesil sekanslama deneylerinde uygulanması
Implementation of deep learning technique on next generation sequence data experiments
SU ÖZGÜR
Doktora
Türkçe
2021
BiyoistatistikEge ÜniversitesiBiyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı
PROF. DR. MEHMET NURULLAH ORMAN
- Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi
Clustering next generation sequencing data based on deep learning
UĞUR TOPRAK
Doktora
Türkçe
2022
BiyoistatistikAnkara ÜniversitesiBiyoistatistik Ana Bilim Dalı
DOÇ. DR. BEYZA DOĞANAY ERDOĞAN
- Enhancing deep extreme learning machines: Novel multi-kernel autoencoders and implementation for detecting the chronic obstructive pulmonary disease
Derin aşırı öğrenme makinelerinin geliştirilmesi: Yeni çok çekirdekli autoencoderlar ve kronik obstruktif akciğer hastalığının belirlenmesinde uygulanması
GÖKHAN ALTAN
Doktora
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMustafa Kemal ÜniversitesiEnformatik Ana Bilim Dalı
YRD. DOÇ. DR. YAKUP KUTLU
- A comprehensive dataset including force cues for gesture recognition and skills assessment in robotic surgery
Robotik cerrahiide kuvvet ipuçları içeren kapsamlı bir veri seti hareket tanıma ve beceri değerlendirmesi
DENİZ EKİN CANBAY
Yüksek Lisans
İngilizce
2019
Mekatronik Mühendisliğiİstanbul Teknik ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NAZIM KEMAL ÜRE
DR. ÖĞR. ÜYESİ FANNY FICUCIELLO
- Vascular segmentation of brain MR angiography images using convolutional neural networks
Evrişimsel sinir ağları kullanarak beyin MR anjiyografi görüntülerinin vasküler segmentasyonu
YUSUF HÜSEYİN ŞAHİN
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. GÖZDE ÜNAL