Lojistik regresyon analizi ve makine öğrenmesi algoritmaları ile prostat kanseri risk faktörlerinin belirlenmesi üzerine bir çalışma
A study on the determination of prostate cancer risk factors by logistic regression analysis and machine learning algorithms
- Tez No: 765878
- Danışmanlar: PROF. DR. MURAT KİRİŞCİ
- Tez Türü: Doktora
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2022
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi-Cerrahpaşa
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Biyoistatistik ve Tıp Bilişimi Bilim Dalı
- Sayfa Sayısı: 71
Özet
Bağımlı değişkenler ile bağımsız değişkenler arasındaki neden-sonuç ilişkileri regresyon modelleri ile çözümlenmektedir. Regresyon modelleri kullanılan veri yapıları ve istenilen ön koşullar ile çeşitlenmektedir. Açıklanan (bağımlı) değişkenin niteliksel veri türünde olduğu durumlarda Lojistik Regresyon analizleri kullanılmaktadır. Lojistik regresyon analizleri (LR) bağımlı değişkeninin kategori sayısına göre çeşitlenmektedir. Bu çalışmada sadece bağımlı değişkenin kategori sayısının iki olduğu durumlarda kullanılan ikili (binary) lojistik regresyon analizi kullanılmıştır. İkili lojistik regresyon analizi özellikle tıp alanında hastalığa etki eden çevresel risk faktörlerini belirlemek, hasta-sağlıklı bireyleri sınıflandırmak ve tahminlemek amacıyla sıklıkla kullanılmaktadır. Bilgi çağı olarak nitelendirilen içinde bulunduğumuz çağ internet ve bilgisayar alanındaki gelişmeler ile yeni kavramları hayatımıza taşımıştır. Şüphesiz bu kavramların başında özellikle matematik, istatistik ve veri madenciliği alanlarının konusuna giren makine öğrenmesi kavramı gelmektedir. Bu kavram Alan. M. Turing tarafından 1950 yılında ortaya atılan makinelerin insanlar gibi düşünebilir mi? sorusundan türemiştir. Makine öğrenmesi yöntemleri günümüzde finans, mühendislik, otomotiv ve tıp gibi çeşitli alanlarda kullanılmaktadır. Makine öğrenmesinde; matematiksel ve istatistiksel yöntemleri temel alarak oluşturulan algoritmalar kullanılır. Çeşitli algoritmalarla eğitilen modeller, öğrenme işlemini tamamlayarak denemeler yapar. Makine öğrenmesinde temel olarak üç çeşit öğrenme vardır. Bu çalışmada girdi (bağımsız) değişkenleri ile çıktı (bağımlı) değişkenlerinin olduğu makine öğrenmesi türü olan denetimli (gözetimli) öğrenme kullanılmıştır. Makine öğrenmesinde temel amaç bağımsız değişkenler ile bağımlı değişkenin tahminini yaparak öğrenmeyi sağlamaktır. Bu çalışma da makine öğrenme yöntemleri ve lojistik regresyon analizini kullanarak prostat kanseri risk faktörlerini belirleyerek bu yöntemlerden en iyi sınıflandırmayı sağlayan yöntemi bulmayı amaçlamaktadır. Türkiye ve dünya genelinde erkeklerde yaygın olarak görülen prostat kanseri hastalığının risk faktörleri belirlenmiştir. 248'i hasta 253'ü sağlıklı 501 kişi ile analizler gerçekleştirilmiştir. Hastalığa ait risk faktörleri makine öğrenmesi yöntemlerinden olan destek makine vektörü (SVM), K-en yakın komşuluğu (KNN), Otomatik ki-kare etkileşim belirleme (CHAİD), C5.0 algoritmalarıyla ve LR ile ayrı ayrı belirlenmiştir. Oluşturulan modellerde yaş, sigara kullanımı ve ailede kanser hastalığının varlığı ortak risk faktörleri olarak bulunmuştur. Bunun yanında modellerde menide veya idrarda kan görülmesi, idrara çıkma sıklığı, gün içindeki yaşam şeklinin risk faktörü olduğu tespit edilmiştir. Doğru sınıflama yüzdesi LR'nin %92,2 SVM'nin %89,92 KNN'nin %88,48 CHAİD'in %91,36 ve C5.0'ın %88,48 dir. Prostat kanseri hastalarını sınıflandırmada en iyi sonucu İkili Lojistik Regresyon analizinin verdiği görülmüştür. Çalışmanın örneklem büyüklüğü yeterli olsa da yapılacak çalışmalarda gerçek veriler üzerinden daha büyük örneklemlerde analizlerin yapılması tavsiye edilmektedir.
Özet (Çeviri)
Cause-effect relationships between dependent variables and independent variables are analyzed with regression models. Regression models vary with the data structures used and the desired preconditions. Logistic Regression analyzes are used in cases where the explained (dependent) variable is of qualitative data type. Logistic regression analyzes (LR) vary according to the number of categories of the dependent variable. In this study, binary logistic regression analysis was used, which is used only when the number of categories of the dependent variable is two. Binary logistic regression analysis is frequently used, especially in the field of medicine, to determine the risk factors affecting the disease and to classify and predict patients and healthy individuals. The age we live in, which is described as the information age, has brought new concepts to our lives with the developments in the field of internet and computer. Undoubtedly, the first of these concepts is the concept of machine learning, which is especially encountered in the fields of mathematics, statistics and data mining. This concept is Field. Can machines, introduced by M. Turing in 1950, think like humans? derived from the question. Machine learning methods are used today in various fields such as finance, engineering, automotive and medicine. In machine learning, algorithms based on mathematical and statistical methods are used. Models trained with various algorithms complete the learning process and experiment. There are basically three types of learning in machine learning. In the study, supervised (supervised) learning, which is a type of machine learning with input (independent) variables and output (dependent) variables, was used. The main purpose is to provide learning by estimating the independent variables and the dependent variable. The study aims to determine the prostate cancer risk factors using machine learning methods and logistic regression analysis and to find the method that provides the best classification from these methods. Risk factors for prostate cancer, which is common in men in our country and around the world, have been determined. Analyzes were carried out with 501 people, 248 of whom were patients and 253 were healthy. The risk factors for the disease were determined separately by machine learning methods such as support machine vector (SVM), K-nearest neighbor (KNN), Automatic chi-square interaction detection (CHAID), C5.0 algorithms and LR. In the models created, age, smoking and the presence of cancer in the family were generally obtained as risk factors. In addition, it has been determined that blood in the semen or urine, frequency of urination, and daily life styles are risk factors in the models. The correct classification percentage is 92.2% of LR, 89.92% of SVM, 88.48% of KNN, 91.36% of CHAID and 88% of C5.0. It was seen that Binary Logistic Regression analysis gave the best results in classifying prostate cancer patients. Although the sample size of the study is sufficient, it is recommended to conduct analyzes in larger samples based on real data in future studies.
Benzer Tezler
- Analysis of cancer dataset with statistical learning
Kanser veri setinin istatistiksel öğrenme ile analizi
ASMAA SALIM HUSSAIEN ALWAZY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin ÜniversitesiElektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SELİM BUYRUKOĞLU
DR. ÖĞR. ÜYESİ GONCA BUYRUKOĞLU
- RFMLP based customer segmentation and customer churn analysis in heavy equipment industry using customer transactions data
İş makinesi sektöründe müşteri işlem verilerini kullanarak RFMLP tabanlı müşteri segmentasyonu ve müşteri kayıp analizi
MUSTAFA ÇAMLICA
Yüksek Lisans
İngilizce
2022
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. FETHİ ÇALIŞIR
- Kablo takımı üretim süresinin ve kusurlu ürün oluşumuna yönelik risk faktörlerinin makine öğrenmesi algoritmaları ile belirlenmesi
Determination of harness production time and defective product formation risk factors with machine learning algorithms
GÜLŞAH KURNAZ
Yüksek Lisans
Türkçe
2019
Endüstri ve Endüstri MühendisliğiOndokuz Mayıs ÜniversitesiAkıllı Sistemler Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ NACİ MURAT
- Lojistik regresyon analizi ve makine öğrenmesi uygulamaları
Logistic regression analysis and machine learning applications
AYŞE ATALAR
Yüksek Lisans
Türkçe
2022
MatematikHaliç ÜniversitesiMatematik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HASAN HALİT TALİ
- Bankacılık sektöründe tüzel müşteriler için makine öğrenmesi yöntemleri ile terk analizi
Churn analysis with machine learning for corporate customers in banking industry
SÜMEYYE AYDIN
Yüksek Lisans
Türkçe
2021
Endüstri ve Endüstri MühendisliğiYıldız Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. NEZİR AYDIN