Makine öğrenmesi yöntemleri kullanarak kanser teşhisi
Cancer prediction using machine learning methods
- Tez No: 487852
- Danışmanlar: YRD. DOÇ. DR. MUSTAFA DAĞTEKİN, YRD. DOÇ. DR. TOLGA ENSARİ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2017
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 55
Özet
Göğüs kanseri, kadınlarda ölüme en fazla sebep olan kanser türüdür ve her 8 kadından birinde görülmektedir. Ölümcül olabilen bu hastalığa erken tanı konulabilmesi çok önemlidir. Mikrodizi teknolojisiyle çok büyük boyutta veriler kullanmak mümkün hale geldi. Bu çalışmada da mikrodizi verileri kullanılarak makine öğrenmesi yöntemleriyle sınıflandırma yapılmıştır. Bu veriler 122'si hasta 11'i sağlıklı olan toplam 133 bireye ait 1919 protein çeşidi bilgisinin bulunduğu 1. veri ve 46'sı hastalığın tekrarladığı 51'i tekrarlamadığı toplam 97 bireye 24481 protein çeşidinin bilgisinin bulunduğu 2. veridir. Uygulamalar Python programlama dili kullanılarak gerçekleştirildi. Burada verilere önce sınıflandırma algoritmalarının her biri ayrı ayrı herhangi bir öznitelik eleme-boyut indirgeme yöntemi uygulanmadan uygulandı. Daha sonra 2 farklı öznitelik indirgeme metodu uygulanıp sonuçları ilk durumla ve birbirleriyle karşılaştırıldı. Uygulanan makine öğrenmesi algoritmalar DVM, YSA, K-EYK, Karar Ağaçları, Rastgele Orman, Lojistik Regresyon, Adaboost ve Gradyan Boosting Makinesi'dir. İlk veri için, herhangi bir öznitelik indirgeme metodu uygulanmadan önce %99.23 ile lojistik regresyon yöntemi, ikinci veri için rastgele orman yöntemi %67.42 ile en yüksek sonuçları vermiştir. RLR ve YÖE öznitelik indirgeme metotları 50 adet en iyi öznitelikle sınıflandırma yapılacak şekilde uygulandıktan sonra ilk veride DVM, iki yöntemde de %99.23 ile en yüksek doğruluk oranıyla; ikinci veride ise RLR'de %87.87 ile, YÖE'de %88.82 ile yine DVM en iyi oranla sınıflandırma yapmıştır. Ayrıca ÇKA ile derin öğrenme yapıldı. Bu yapılırken farklı derinliklerde uygulanarak derinliğin artmasıyla sınıflandırmanın doğruluk oranı arasındaki ilişki incelendi. Katman sayısı arttırıldıkça ilk olarak değişmeyen doğruluk oranı, bir yerden sonra azalmaya başladı. Bulunan en yüksek doğruluk oranı, ilk veride %97.69 ikinci verideyse %68.72 oldu. Sonuç olarak derin öğrenmede katman sayısının sürekli arttırılması sınıflandırmanın doğruluk oranını arttırmayacağına varıldı.
Özet (Çeviri)
Breast cancer is the type of cancer that is the most common cause of death and it is seen in one of every 8 women. Early diagnosis of this fatal disease is very important. On the other hand, it has become possible to use very big data with microarray technology. We used microarray data in this study for classification of the patients using machine learning methods. The first data we have used contains 1919 kinds of protein belonging to a total of 133 individuals. 122 of these 133 individuals are breast cancer patients and 11 of them are healty; the second data contains 24481 kinds of protein belonging to a total of 97 individuals. 46 of these are the people the disease repeated and 51 are the people the disease did not repeat. The applications are implemented using the Python programming language. First, 7 different machine learning algorithms are applied to the data, without applying any feature selection methods. Then two different feature selection methods are applied. The results of the classifications are compared with each other and with the results of the first case. The methods applied are SVM, KNN, Decision Trees, Random Forest, Logistic Regression, Adaboost and Gradient Boosting Machines. Without applying any feature selection method, Logistic Regression algorithm gave the best result with %99.23 for the first data; random forest algorithm gave the best result with %67.42 for the second data. After applying the two different feature selection methods with the best 50 features are applied, SVM gave the best results with %99.23 for the first data; also gave the best result with %87.87 after RLR and with %88.82 for the second data. In this thesis study, deep learning is also applied to the same data via the MLP method. This method is applied using different number of layers and neurons to examine the effect of the number of layers and neurons on the classification accuracy. Furthermore, the deep learning is compared with the classical machine learning methods on the same data. It is determined that the increase in the number of layers sometimes decreased, sometimes didn't change the classification's accuracy. The highest accuracy achieved in the first data using deep learning is %97.69 and %68.72 in the second data. It has been found that some machine learning methods have reached higher accuracy than deep learning method on the data used.
Benzer Tezler
- Evrişimsel sinir ağları ve çekirge optimizasyon algoritması kullanarak kolon kanser hastalığı tesbiti
Colon cancer disease diagnose with convolutional neural network and grasshopper optimization algorithm
AMNA ALI A MOHAMED
Doktora
Türkçe
2024
Mühendislik BilimleriKastamonu ÜniversitesiMalzeme Bilimi ve Mühendisliği Ana Bilim Dalı
PROF. DR. AYBABA HANÇERLİOĞULLARI
- Skin lesion classification with machine learning
Makine öğrenmesi ile cilt lezyonu sınıflandırması
ESRA SENDEL
Yüksek Lisans
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. İSA YILDIRIM
- Breast cancer data classification using SVM, NB and KNN algorithms
SVM, NB ve KNN kullanımı ile göğüs kanseri veri sınıflandırması
BURCU MERAL
Yüksek Lisans
İngilizce
2019
Bilim ve Teknolojiİstanbul Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
PROF. DR. KAMİL ORUÇOĞLU
- Clinical assessment of the microwave imaging system forbreast cancer screening and early detection
Meme kanseri tarama ve erken tanı için mikrodalgagörüntüleme sisteminin klinik değerlendirmesi
ALEKSANDAR JANJIC
Doktora
İngilizce
2023
Elektrik ve Elektronik Mühendisliğiİstanbul Teknik ÜniversitesiElektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
Prof. Dr. MEHMET ÇAYÖREN
Prof. Dr. İBRAHİM AKDUMAN
- Zeki sınıflandırma ve kümeleme yöntemlerinin tıbbi tanı ve tedavide kullanımı
The usage of intelligent classification and clustering methods in medical diagnosis and treatment
UĞUR ERKİN KOCAMAZ
Doktora
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
PROF. DR. HARUN TAŞKIN