Geri Dön

Yüksek boyutlu medikal verilerde yeni bir istatistiksel öğrenme yaklaşımı

A new statistical learning approach forhigh-dimensional medical data

  1. Tez No: 916239
  2. Yazar: DENİZ AĞIRDAN
  3. Danışmanlar: PROF. DR. AYÇA ÇAKMAK PEHLİVANLI
  4. Tez Türü: Doktora
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: Türkçe
  9. Üniversite: Mimar Sinan Güzel Sanatlar Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: İstatistik Bilim Dalı
  13. Sayfa Sayısı: 73

Özet

Günümüzde, veri boyutlarındaki hızlı artış ve karmaşık veri yapılarının ortaya çıkması, makine öğrenimi modellerinin kullanımını kaçınılmaz hale getirmiş, yüksek boyutlu veriler için etkili değişken seçiminin önemini artırmıştır. Özellikle sağlık gibi kritik alanlarda, hastalık teşhisi ve tedavi süreçlerinde kullanılan makine öğrenimi yöntemleri, yüksek boyutlu ve az gözlemli veri kümeleri nedeniyle ciddi zorluklarla karşılaşmaktadır. Bu tür veri kümelerinde boyutsallık laneti, artan hesaplama maliyetleri ve düşen model performansı gibi sorunlar yaratmaktadır. Bu nedenle, değişken seçimi ve boyut azaltma yöntemleri, makine öğrenimi modellerinin etkinliğini artırmak için temel bir gereklilik haline gelmiştir. Bu çalışmada, hem bağımlı hem de bağımsız değişkenler arasındaki ilişkileri dikkate alarak mevcut yöntemlerin sınırlamalarını aşmayı hedefleyen yenilikçi bir değişken seçimi yöntemi olan Minimum Tekrarlı Aralık Tabanlı Seçim (M2RS) geliştirilmiştir. M2RS, Python programlama dili ile bir kütüphane olarak tasarlanmış ve uygulanmıştır. Yöntem, bağımsız değişkenler arasındaki gereksiz tekrarları minimuma indirirken bağımlı değişkenle olan ilişkililiği maksimize etmeyi hedefleyen aralık tabanlı bir seçim önermektedir. M2RS yöntemi, literatürde yaygın olarak kullanılan ERGS ve mRMR yöntemlerinin güçlü yönlerini bir araya getirerek karşılaştırmalı bir performans analizi ile değerlendirilmiştir. Çalışmada, altı adet kanser mikrodizi (merkezi sinir sistemi, cilt kanseri, pankreas kanseri, lösemi, yumurtalık kanseri, kolon tümörü) ve ek olarak mutajenite veri setleri kullanılmıştır. Sonuçlar, M2RS'in sınıflandırma algoritmalarının başarısını %18'e kadar artırabildiğini göstermiştir. Korelasyon ısı haritası analizleri, yöntemin gereksiz değişkenleri düşük önem sıralarına taşıyarak kritik değişkenleri ön plana çıkardığını ve böylece model performansını artırdığını doğrulamaktadır. M2RS'in genelleme potansiyeli, farklı veri türleri ve sınıflandırma algoritmaları üzerinde test edilerek ortaya konulmuştur. Sağlıkta çeşitli kanser verilerindeki etkinliğinin yanı sıra, yöntemin ilaç molekülleri ve toksikoloji gibi farklı alanlarda da uygulanabilir olduğu gözlemlenmiştir. Sonuç olarak, M2RS yöntemi, bağımsız değişkenler arasındaki ilişkileri dikkate alan yenilikçi yapısı, farklı veri kümelerine uygulanabilirliği ve elde ettiği dikkat çekici performans sonuçlarıyla, boyut azaltma ve değişken seçimi alanında hem akademik hem de pratik uygulamalar için güçlü ve etkili bir çözüm sunmaktadır.

Özet (Çeviri)

In today's world, the rapid increase in data sizes and the emergence of complex data structures have made the use of machine learning models inevitable, highlighting the importance of effective feature selection for high-dimensional data. Particularly in critical fields such as healthcare, machine learning methods used in disease diagnosis and treatment processes face significant challenges due to high-dimensional and small-sample datasets. In such datasets, the curse of dimensionality leads to problems such as increased computational costs and decreased model performance. Therefore, feature selection and dimensionality reduction methods have become essential requirements for enhancing the efficiency of machine learning models. In this study, an innovative feature selection method, Minimum Redundancy Range-Based Selection (M2RS), was developed to overcome the limitations of existing methods by considering the relationships between both dependent and independent variables. M2RS was designed and implemented as a Python library. The method proposes a range-based selection that aims to minimize redundancy repetitions among independent variables while maximizing their relevance to the dependent variable. The M2RS method was evaluated through a comparative performance analysis by integrating the strengths of widely used methods in the literature, such as ERGS and mRMR. The study utilized six cancer microarray datasets (central nervous system, skin cancer, pancreatic cancer, leukemia, ovarian cancer, colon tumor) and additional mutagenicity datasets. Results showed that M2RS could improve the accuracy of classification algorithms by up to 18%. Correlation heatmap analyses confirmed that the method prioritizes critical variables by relegating redundant ones to lower importance rankings, thereby enhancing model performance. The generalization potential of M2RS was demonstrated by testing it on different data types and classification algorithms. Beyond its effectiveness in cancer datasets in healthcare, the method was observed to be applicable in other fields, such as drug molecules and toxicology. In conclusion, the M2RS method offers a robust and effective solution for dimensionality reduction and feature selection with its innovative structure that considers the relationships between independent variables, applicability to diverse datasets, and notable performance outcomes. It provides significant benefits for both academic research and practical applications in the field.

Benzer Tezler

  1. Derin öğrenme tekniğinin yeni nesil sekanslama deneylerinde uygulanması

    Implementation of deep learning technique on next generation sequence data experiments

    SU ÖZGÜR

    Doktora

    Türkçe

    Türkçe

    2021

    BiyoistatistikEge Üniversitesi

    Biyoistatistik ve Tıbbi Bilişim Ana Bilim Dalı

    PROF. DR. MEHMET NURULLAH ORMAN

  2. Derin öğrenmeye dayalı olarak yeni nesil dizileme verilerinin kümelenmesi

    Clustering next generation sequencing data based on deep learning

    UĞUR TOPRAK

    Doktora

    Türkçe

    Türkçe

    2022

    BiyoistatistikAnkara Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    DOÇ. DR. BEYZA DOĞANAY ERDOĞAN

  3. Enhancing deep extreme learning machines: Novel multi-kernel autoencoders and implementation for detecting the chronic obstructive pulmonary disease

    Derin aşırı öğrenme makinelerinin geliştirilmesi: Yeni çok çekirdekli autoencoderlar ve kronik obstruktif akciğer hastalığının belirlenmesinde uygulanması

    GÖKHAN ALTAN

    Doktora

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolMustafa Kemal Üniversitesi

    Enformatik Ana Bilim Dalı

    YRD. DOÇ. DR. YAKUP KUTLU

  4. A comprehensive dataset including force cues for gesture recognition and skills assessment in robotic surgery

    Robotik cerrahiide kuvvet ipuçları içeren kapsamlı bir veri seti hareket tanıma ve beceri değerlendirmesi

    DENİZ EKİN CANBAY

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Mekatronik Mühendisliğiİstanbul Teknik Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NAZIM KEMAL ÜRE

    DR. ÖĞR. ÜYESİ FANNY FICUCIELLO

  5. Vascular segmentation of brain MR angiography images using convolutional neural networks

    Evrişimsel sinir ağları kullanarak beyin MR anjiyografi görüntülerinin vasküler segmentasyonu

    YUSUF HÜSEYİN ŞAHİN

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. GÖZDE ÜNAL