Lojistik regresyon analizi ve makine öğrenmesi algoritmaları ile prostat kanseri risk faktörlerinin belirlenmesi üzerine bir çalışma
A study on the determination of prostate cancer risk factors by logistic regression analysis and machine learning algorithms
- Tez No: 765878
- Danışmanlar: PROF. DR. MURAT KİRİŞCİ
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi-Cerrahpaşa
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Bilim Dalı
- Sayfa Sayısı: 71
Özet
Bağımlı değişkenler ile bağımsız değişkenler arasındaki neden-sonuç ilişkileri regresyon modelleri ile çözümlenmektedir. Regresyon modelleri kullanılan veri yapıları ve istenilen ön koşullar ile çeşitlenmektedir. Açıklanan (bağımlı) değişkenin niteliksel veri türünde olduğu durumlarda Lojistik Regresyon analizleri kullanılmaktadır. Lojistik regresyon analizleri (LR) bağımlı değişkeninin kategori sayısına göre çeşitlenmektedir. Bu çalışmada sadece bağımlı değişkenin kategori sayısının iki olduğu durumlarda kullanılan ikili (binary) lojistik regresyon analizi kullanılmıştır. İkili lojistik regresyon analizi özellikle tıp alanında hastalığa etki eden çevresel risk faktörlerini belirlemek, hasta-sağlıklı bireyleri sınıflandırmak ve tahminlemek amacıyla sıklıkla kullanılmaktadır. Bilgi çağı olarak nitelendirilen içinde bulunduğumuz çağ internet ve bilgisayar alanındaki gelişmeler ile yeni kavramları hayatımıza taşımıştır. Şüphesiz bu kavramların başında özellikle matematik, istatistik ve veri madenciliği alanlarının konusuna giren makine öğrenmesi kavramı gelmektedir. Bu kavram Alan. M. Turing tarafından 1950 yılında ortaya atılan makinelerin insanlar gibi düşünebilir mi? sorusundan türemiştir. Makine öğrenmesi yöntemleri günümüzde finans, mühendislik, otomotiv ve tıp gibi çeşitli alanlarda kullanılmaktadır. Makine öğrenmesinde; matematiksel ve istatistiksel yöntemleri temel alarak oluşturulan algoritmalar kullanılır. Çeşitli algoritmalarla eğitilen modeller, öğrenme işlemini tamamlayarak denemeler yapar. Makine öğrenmesinde temel olarak üç çeşit öğrenme vardır. Bu çalışmada girdi (bağımsız) değişkenleri ile çıktı (bağımlı) değişkenlerinin olduğu makine öğrenmesi türü olan denetimli (gözetimli) öğrenme kullanılmıştır. Makine öğrenmesinde temel amaç bağımsız değişkenler ile bağımlı değişkenin tahminini yaparak öğrenmeyi sağlamaktır. Bu çalışma da makine öğrenme yöntemleri ve lojistik regresyon analizini kullanarak prostat kanseri risk faktörlerini belirleyerek bu yöntemlerden en iyi sınıflandırmayı sağlayan yöntemi bulmayı amaçlamaktadır. Türkiye ve dünya genelinde erkeklerde yaygın olarak görülen prostat kanseri hastalığının risk faktörleri belirlenmiştir. 248'i hasta 253'ü sağlıklı 501 kişi ile analizler gerçekleştirilmiştir. Hastalığa ait risk faktörleri makine öğrenmesi yöntemlerinden olan destek makine vektörü (SVM), K-en yakın komşuluğu (KNN), Otomatik ki-kare etkileşim belirleme (CHAİD), C5.0 algoritmalarıyla ve LR ile ayrı ayrı belirlenmiştir. Oluşturulan modellerde yaş, sigara kullanımı ve ailede kanser hastalığının varlığı ortak risk faktörleri olarak bulunmuştur. Bunun yanında modellerde menide veya idrarda kan görülmesi, idrara çıkma sıklığı, gün içindeki yaşam şeklinin risk faktörü olduğu tespit edilmiştir. Doğru sınıflama yüzdesi LR'nin %92,2 SVM'nin %89,92 KNN'nin %88,48 CHAİD'in %91,36 ve C5.0'ın %88,48 dir. Prostat kanseri hastalarını sınıflandırmada en iyi sonucu İkili Lojistik Regresyon analizinin verdiği görülmüştür. Çalışmanın örneklem büyüklüğü yeterli olsa da yapılacak çalışmalarda gerçek veriler üzerinden daha büyük örneklemlerde analizlerin yapılması tavsiye edilmektedir.
Özet (Çeviri)
Cause-effect relationships between dependent variables and independent variables are analyzed with regression models. Regression models vary with the data structures used and the desired preconditions. Logistic Regression analyzes are used in cases where the explained (dependent) variable is of qualitative data type. Logistic regression analyzes (LR) vary according to the number of categories of the dependent variable. In this study, binary logistic regression analysis was used, which is used only when the number of categories of the dependent variable is two. Binary logistic regression analysis is frequently used, especially in the field of medicine, to determine the risk factors affecting the disease and to classify and predict patients and healthy individuals. The age we live in, which is described as the information age, has brought new concepts to our lives with the developments in the field of internet and computer. Undoubtedly, the first of these concepts is the concept of machine learning, which is especially encountered in the fields of mathematics, statistics and data mining. This concept is Field. Can machines, introduced by M. Turing in 1950, think like humans? derived from the question. Machine learning methods are used today in various fields such as finance, engineering, automotive and medicine. In machine learning, algorithms based on mathematical and statistical methods are used. Models trained with various algorithms complete the learning process and experiment. There are basically three types of learning in machine learning. In the study, supervised (supervised) learning, which is a type of machine learning with input (independent) variables and output (dependent) variables, was used. The main purpose is to provide learning by estimating the independent variables and the dependent variable. The study aims to determine the prostate cancer risk factors using machine learning methods and logistic regression analysis and to find the method that provides the best classification from these methods. Risk factors for prostate cancer, which is common in men in our country and around the world, have been determined. Analyzes were carried out with 501 people, 248 of whom were patients and 253 were healthy. The risk factors for the disease were determined separately by machine learning methods such as support machine vector (SVM), K-nearest neighbor (KNN), Automatic chi-square interaction detection (CHAID), C5.0 algorithms and LR. In the models created, age, smoking and the presence of cancer in the family were generally obtained as risk factors. In addition, it has been determined that blood in the semen or urine, frequency of urination, and daily life styles are risk factors in the models. The correct classification percentage is 92.2% of LR, 89.92% of SVM, 88.48% of KNN, 91.36% of CHAID and 88% of C5.0. It was seen that Binary Logistic Regression analysis gave the best results in classifying prostate cancer patients. Although the sample size of the study is sufficient, it is recommended to conduct analyzes in larger samples based on real data in future studies.
Benzer Tezler
- Prostat lezyonlarında benign-malign ayrımında ve PIRADS kategorisi belirlemede MR texture analizin ve makine öğrenmesinin rolü
Başlık çevirisi yok
ÖMER KOÇAK
Tıpta Uzmanlık
Türkçe
2025
Radyoloji ve Nükleer TıpSağlık Bilimleri ÜniversitesiRadyoloji Ana Bilim Dalı
DR. UĞUR KESİMAL
- Analysis of cancer dataset with statistical learning
Kanser veri setinin istatistiksel öğrenme ile analizi
ASMAA SALIM HUSSAIEN ALWAZY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin ÜniversitesiElektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELİM BUYRUKOĞLU
DR. ÖĞR. ÜYESİ GONCA BUYRUKOĞLU
- Radikal prostatektomi uygulanan prostat kanseri tanılı hastalarda tümörün histopatolojik özelliklerini öngörmede Ga-68 PSMA PET/BT temelli doku analizinin ve volümetrik parametrelerin değeri
The value of Ga-68 PSMA PET/CT-based textural analysis and volumetric parameters in predicting histopathological features of the tumor in patients with prostate cancer undergoing radical prostatectomy
GÜLŞAH YILMAZ
Tıpta Uzmanlık
Türkçe
2025
Radyoloji ve Nükleer TıpSağlık Bilimleri ÜniversitesiNükleer Tıp Ana Bilim Dalı
PROF. DR. BURCU ESEN AKKAŞ
- Huzursuz bacaklar sendromunda inflamatuar risk faktörlerinin lojistik regresyon analizi ve makine öğrenmesi algoritmaları ile incelenmesi
Investigation of inflammatory risk factors in restless legs syndrome using logistic regression analysis and machine learning algorithms
ÖZLEM AKDOĞAN
Yüksek Lisans
Türkçe
2025
Biyoistatistikİstanbul Üniversitesi-CerrahpaşaBiyoistatistik Ana Bilim Dalı
PROF. DR. MURAT KİRİŞCİ
- Karaciğer metastazlarının manyetik rezonans görüntülemede radiomiks özelliklerinin analizi ve makine öğrenmesi yöntemleri ile primer tümöre göre sınıflandırılması
Radiomics analysis of liver metastases on mri and classification for primary site with machine learning
YUNUS EMRE ÇAKMAKLI
Tıpta Uzmanlık
Türkçe
2025
Radyoloji ve Nükleer TıpSağlık Bilimleri ÜniversitesiRadyoloji Ana Bilim Dalı
DOÇ. DR. MEHMET ÖNCÜ