Geri Dön

Lojistik regresyon analizi ve makine öğrenmesi algoritmaları ile prostat kanseri risk faktörlerinin belirlenmesi üzerine bir çalışma

A study on the determination of prostate cancer risk factors by logistic regression analysis and machine learning algorithms

  1. Tez No: 765878
  2. Yazar: SELMAN AKTAŞ
  3. Danışmanlar: PROF. DR. MURAT KİRİŞCİ
  4. Tez Türü: Doktora
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2022
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi-Cerrahpaşa
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Bilim Dalı
  13. Sayfa Sayısı: 71

Özet

Bağımlı değişkenler ile bağımsız değişkenler arasındaki neden-sonuç ilişkileri regresyon modelleri ile çözümlenmektedir. Regresyon modelleri kullanılan veri yapıları ve istenilen ön koşullar ile çeşitlenmektedir. Açıklanan (bağımlı) değişkenin niteliksel veri türünde olduğu durumlarda Lojistik Regresyon analizleri kullanılmaktadır. Lojistik regresyon analizleri (LR) bağımlı değişkeninin kategori sayısına göre çeşitlenmektedir. Bu çalışmada sadece bağımlı değişkenin kategori sayısının iki olduğu durumlarda kullanılan ikili (binary) lojistik regresyon analizi kullanılmıştır. İkili lojistik regresyon analizi özellikle tıp alanında hastalığa etki eden çevresel risk faktörlerini belirlemek, hasta-sağlıklı bireyleri sınıflandırmak ve tahminlemek amacıyla sıklıkla kullanılmaktadır. Bilgi çağı olarak nitelendirilen içinde bulunduğumuz çağ internet ve bilgisayar alanındaki gelişmeler ile yeni kavramları hayatımıza taşımıştır. Şüphesiz bu kavramların başında özellikle matematik, istatistik ve veri madenciliği alanlarının konusuna giren makine öğrenmesi kavramı gelmektedir. Bu kavram Alan. M. Turing tarafından 1950 yılında ortaya atılan makinelerin insanlar gibi düşünebilir mi? sorusundan türemiştir. Makine öğrenmesi yöntemleri günümüzde finans, mühendislik, otomotiv ve tıp gibi çeşitli alanlarda kullanılmaktadır. Makine öğrenmesinde; matematiksel ve istatistiksel yöntemleri temel alarak oluşturulan algoritmalar kullanılır. Çeşitli algoritmalarla eğitilen modeller, öğrenme işlemini tamamlayarak denemeler yapar. Makine öğrenmesinde temel olarak üç çeşit öğrenme vardır. Bu çalışmada girdi (bağımsız) değişkenleri ile çıktı (bağımlı) değişkenlerinin olduğu makine öğrenmesi türü olan denetimli (gözetimli) öğrenme kullanılmıştır. Makine öğrenmesinde temel amaç bağımsız değişkenler ile bağımlı değişkenin tahminini yaparak öğrenmeyi sağlamaktır. Bu çalışma da makine öğrenme yöntemleri ve lojistik regresyon analizini kullanarak prostat kanseri risk faktörlerini belirleyerek bu yöntemlerden en iyi sınıflandırmayı sağlayan yöntemi bulmayı amaçlamaktadır. Türkiye ve dünya genelinde erkeklerde yaygın olarak görülen prostat kanseri hastalığının risk faktörleri belirlenmiştir. 248'i hasta 253'ü sağlıklı 501 kişi ile analizler gerçekleştirilmiştir. Hastalığa ait risk faktörleri makine öğrenmesi yöntemlerinden olan destek makine vektörü (SVM), K-en yakın komşuluğu (KNN), Otomatik ki-kare etkileşim belirleme (CHAİD), C5.0 algoritmalarıyla ve LR ile ayrı ayrı belirlenmiştir. Oluşturulan modellerde yaş, sigara kullanımı ve ailede kanser hastalığının varlığı ortak risk faktörleri olarak bulunmuştur. Bunun yanında modellerde menide veya idrarda kan görülmesi, idrara çıkma sıklığı, gün içindeki yaşam şeklinin risk faktörü olduğu tespit edilmiştir. Doğru sınıflama yüzdesi LR'nin %92,2 SVM'nin %89,92 KNN'nin %88,48 CHAİD'in %91,36 ve C5.0'ın %88,48 dir. Prostat kanseri hastalarını sınıflandırmada en iyi sonucu İkili Lojistik Regresyon analizinin verdiği görülmüştür. Çalışmanın örneklem büyüklüğü yeterli olsa da yapılacak çalışmalarda gerçek veriler üzerinden daha büyük örneklemlerde analizlerin yapılması tavsiye edilmektedir.

Özet (Çeviri)

Cause-effect relationships between dependent variables and independent variables are analyzed with regression models. Regression models vary with the data structures used and the desired preconditions. Logistic Regression analyzes are used in cases where the explained (dependent) variable is of qualitative data type. Logistic regression analyzes (LR) vary according to the number of categories of the dependent variable. In this study, binary logistic regression analysis was used, which is used only when the number of categories of the dependent variable is two. Binary logistic regression analysis is frequently used, especially in the field of medicine, to determine the risk factors affecting the disease and to classify and predict patients and healthy individuals. The age we live in, which is described as the information age, has brought new concepts to our lives with the developments in the field of internet and computer. Undoubtedly, the first of these concepts is the concept of machine learning, which is especially encountered in the fields of mathematics, statistics and data mining. This concept is Field. Can machines, introduced by M. Turing in 1950, think like humans? derived from the question. Machine learning methods are used today in various fields such as finance, engineering, automotive and medicine. In machine learning, algorithms based on mathematical and statistical methods are used. Models trained with various algorithms complete the learning process and experiment. There are basically three types of learning in machine learning. In the study, supervised (supervised) learning, which is a type of machine learning with input (independent) variables and output (dependent) variables, was used. The main purpose is to provide learning by estimating the independent variables and the dependent variable. The study aims to determine the prostate cancer risk factors using machine learning methods and logistic regression analysis and to find the method that provides the best classification from these methods. Risk factors for prostate cancer, which is common in men in our country and around the world, have been determined. Analyzes were carried out with 501 people, 248 of whom were patients and 253 were healthy. The risk factors for the disease were determined separately by machine learning methods such as support machine vector (SVM), K-nearest neighbor (KNN), Automatic chi-square interaction detection (CHAID), C5.0 algorithms and LR. In the models created, age, smoking and the presence of cancer in the family were generally obtained as risk factors. In addition, it has been determined that blood in the semen or urine, frequency of urination, and daily life styles are risk factors in the models. The correct classification percentage is 92.2% of LR, 89.92% of SVM, 88.48% of KNN, 91.36% of CHAID and 88% of C5.0. It was seen that Binary Logistic Regression analysis gave the best results in classifying prostate cancer patients. Although the sample size of the study is sufficient, it is recommended to conduct analyzes in larger samples based on real data in future studies.

Benzer Tezler

  1. Analysis of cancer dataset with statistical learning

    Kanser veri setinin istatistiksel öğrenme ile analizi

    ASMAA SALIM HUSSAIEN ALWAZY

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SELİM BUYRUKOĞLU

    DR. ÖĞR. ÜYESİ GONCA BUYRUKOĞLU

  2. RFMLP based customer segmentation and customer churn analysis in heavy equipment industry using customer transactions data

    İş makinesi sektöründe müşteri işlem verilerini kullanarak RFMLP tabanlı müşteri segmentasyonu ve müşteri kayıp analizi

    MUSTAFA ÇAMLICA

    Yüksek Lisans

    İngilizce

    İngilizce

    2022

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. FETHİ ÇALIŞIR

  3. Kablo takımı üretim süresinin ve kusurlu ürün oluşumuna yönelik risk faktörlerinin makine öğrenmesi algoritmaları ile belirlenmesi

    Determination of harness production time and defective product formation risk factors with machine learning algorithms

    GÜLŞAH KURNAZ

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Endüstri ve Endüstri MühendisliğiOndokuz Mayıs Üniversitesi

    Akıllı Sistemler Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ NACİ MURAT

  4. Lojistik regresyon analizi ve makine öğrenmesi uygulamaları

    Logistic regression analysis and machine learning applications

    AYŞE ATALAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    MatematikHaliç Üniversitesi

    Matematik Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HASAN HALİT TALİ

  5. Bankacılık sektöründe tüzel müşteriler için makine öğrenmesi yöntemleri ile terk analizi

    Churn analysis with machine learning for corporate customers in banking industry

    SÜMEYYE AYDIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Endüstri ve Endüstri MühendisliğiYıldız Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NEZİR AYDIN