Breast cancer data classification using SVM, NB and KNN algorithms
SVM, NB ve KNN kullanımı ile göğüs kanseri veri sınıflandırması
- Tez No: 549184
- Danışmanlar: PROF. DR. KAMİL ORUÇOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilim ve Teknoloji, Science and Technology
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Matematik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 81
Özet
Deri kanserinden sonra, kadınlar arasında en sık görülen kanser türü göğüs kanseridir. Sadece kadınlar değil, erkekler de bu hastalıktan nadir bir şekilde de olsa muzdarip olabilir. Eğer erken teşhis edilirse yaşam oranı da çok yüksektir ve buna bağlı olarak ölüm oranında azalma görülür. Göğüs kanserinin en önemli belirtileri şişkinleşmiş veya kalınlaşmış dokunun alanıdır. Kötü huylu ve iyi huylu olarak adlandırılan iki tip tümör vardır. Tümörün tipine göre kanser hücresinin iyi huylu ya da kötü huylu olup olmadığına karar vermek gerekmektedir. Kötü huylu hücreler ölüme neden olan hücrelerdir. Göğüs kanserine neden olan birçok risk faktörü vardır; aile geçmişi, yaş, daha önceden iyi huylu (kanserli olmayan) hücre bulgusu teşhisi konması, genetik risk faktörü, alkol tüketimi, radyasyona maruz kalma vb. Mamogramlar göğüs kanseri taraması için kullanılır, ancak yine de mamogramlarında kanseri teşhis etmekte yanılma payı vardır. Göğüs kanseri 5 evrelidir. Başlangıç aşaması olan aşama 0'da, hücreler etrafındaki dokuları istila etmemiştir. En son evre olan 4. aşama ise, kanser beyin, karaciğer, akciğerler gibi hayati organlara yayılmaya başlamıştır. Göğüs kanseri genellikle son aşamalarda teşhis edildiği için ölüm oranları bu kadar yüksektir. Veri madenciliği, büyük miktarda veriden anlamlı sonuçlar çıkarmak için gerekli süreçlerin bütünüdür. Gizli kalıpları keşfetmeye yardımcı olacak birçok teknik vardır. İstatistik, yapay zeka, veri tabanı teknolojisi ve makine öğrenmesi kullanılan çok disiplinli bir beceridir. Artan ham veri nedeniyle, verilerin analiz edilmesi ve bu analizler baz alınarak çıkarımların yapılması hayati öneme sahiptir. Bu yüzden veri madenciliğinin değeri gün geçtikçe artmaktadır. Makine öğrenmesi, denetlenen öğrenmeyi ve denetimsiz öğrenmeyi sağlayan iki tür öğrenme yöntemi kullanır. Denetimli öğrenme, hem girdi hem de çıktı verilerine dayanan bir model geliştirmektir. Yani elimizdeki veri kümesinin ne olduğunu ve bu verilerden ne gibi sonuçlar çıkması gerektiğini biliriz. Sınıflandırma algoritmaları ve regresyon algoritmaları, denetlenen öğrenme modelinin türüdür. Temelde, kaynak veri ile hedef veri arasında bir ilişki arar ve bulur. Bazı sınıflandırma algoritmaları bu tezin de konusudur ve denetimli öğrenmenin örneklerindendir. Denetimsiz öğrenmede, verilerden elde edilmek istenen çıktının ne olduğunun daha önceden bilinmemesi ile oluşturulan modeldir. Kümeleme ve ilişkilendirme algoritmaları, denetimsiz öğrenmenin türüdür. Son yıllarda, makine öğrenme algoritmaları tıbbi alanda yaygın olarak kullanılmaya başlamıştır. Hedef sağlık alanında gelişmelere katkıda bulunmak ve hastalıkların teşhisinde yardımcı olmaktır. Örneğin, röntgen filmlerini kullanarak hastalığın teşhisinin koyulması ile sağlık alanında önemli adımların temelleri atılmıştır. Tüberkülozu bulmak, beyin kanamalarını veya Alzheimer hastalığını tespit etmek, röntgen filmlerine bakarak tanıları teşhis ve tedavi etmek veri bilimi sayesinde mümkün olmuştur. Bu nedenle, teknolojiyi sağlık alanında kullanmak önemli faydalar sağlamıştır. Makine algoritmaları kullanılarak sağlık alanında önemli gelişmeler ve yenilikler kaydedilmektedir. Bu tezin konusu da yine sağlık alanında en çok görülen kanser tiplerinden biri olan göğüs kanserinin önceden veya daha erken evrelerde keşfedilmesini sağlayacak bir algoritma oluşturmaktır. Oluşturulan bu algoritmaların doğruluk oranının en yüksek olması hedeflenmektedir. Göğüs kanseri hücresinin iyi huylu ya da kötü huylu olup olmadığını tespit etmek için kullanılan birçok sınıflandırma algoritması mevcuttur. Bunlardan k en yakın komşuluk, naif bayes ve destek vektör makinesi algoritmaları bu tezin de konusunu oluşturur. Göğüs kanseri, özellikle kadınlarda erken teşhis edilmedikçe ölüme neden olan başlıca kanser türüdür. Bunu önlemek ve erken teşhise yardımcı olmak için bu üç algoritmaların uygulanması ve sonuçlara göre doğruluk oranlarının karşılaştırılması yapılmıştır. K en yakın komşuluk sınıflandırma algoritması temel olarak bilinmeyen noktaya en yakın k tane komşunun seçilmesi ve oradaki çoğunluğun oyuna göre bilinmeyen noktanın çoğunluğun komşuluğuna atanmasını ifade eder. Bu yüzden tembel öğrenme algoritması olarak adlandırılır. Asıl hesaplama sınıflandırma adımına kadar ertelenir. Çok büyük veri setlerinde kullanılması tavsiye edilmez. Naif bayes algoritması, olasılık ilkelerinde bayes teoremini kullanarak verinin hangi kategoriden olduğunu tespit etmek için kullanılır. Destek vektör makine algoritmasının amacı, sınıflandırılacak veri için doğru hiper düzlemi sağlamak yani iki ayrı sınıfa sahip veri için bu verileri birbirinden ayıracak çizgiyi yada sınırı bulmaktır. Doğru hiper düzlem kıstası iki sınıfı en iyi ayıran, en uzak çizgiyi bulmaktır. İki sınıf arasındaki uzaklık marjin olarak adlandırılır. Marjin en yüksek değere sahipken algoritma en doğru hiper düzlemdedir denilebilir. Fakat veriler her zaman birbirinden keskin bir çizgi ile ayrılmayabilir. Bu tarz durumlarda çekirdek hilesi adı verilen bir yöntem kullanılır. Bu yöntem ile veri bir üst boyuta taşınır ve ayırma işlemi burada yapılır. En yaygın olarak kullanılan çekirdek yöntemleri; doğrusal, polinomiyal ve radial tabanlı fonksiyondur. Bu tezde de bu 3 çekirdek yöntemi göğüs kanseri veri setine uygulanmıştır ve radial tabanlı fonksiyonun diğerlerine göre daha etkili ve yüksek doğruluk ürettiği gözlenmiştir. Destek vektörleri genel olarak nesne tanıma; yüz ve parmak izi tanıma, el yazısı tanıma, yazı karakteri tanıma, tıbbi tahminler, kanser verileri gibi alanlarda sıklıkla kullanılır. Hem doğrusal hem doğrusal olmayan verilere uygulanabildiği için yaygın olarak kullanılan bir algoritmadır. Aynı zamanda yüksek doğruluk oranına sahiptir. Dezavantaj olarak çekirdek fonksiyonlarının pozitif tanımlı sürekli fonksiyonlar olması sayılabilir. Bu tezin amacı, Wisconsin Göğüs Kanseri Veri Tabanı veri seti kullanılarak bu üç sınıflandırma algoritmasının performanslarını ve doğruluk oranlarını karşılaştırmaktır. Bu veri seti hücrenin boyutu, yapısı, çapı gibi bilgilerden oluşmaktadır. Sınıflandırma algoritmalarını uygulamak için Wisconsin Göğüs Kanseri Veri Tabanı verileri test ve eğitim olmak üzere iki gruba ayrıldı. Buna göre 569 verinin bulunduğu WDBC veri setinin 381 kaydı eğitim için 188 kaydı test için kullanılmıştır. Yani veri kümesi 2/3 ü eğitim datası 1/3 ü test datası olmak üzere iki gruba ayrılmıştır. Bulgulara göre SVM algoritması NB ve KNN algoritmasından daha yüksek doğruluk oranına sahiptir. SVM algoritması 3 tane kernel fonksiyonu için uyguladığımızı daha önce söylemiştik. Buna göre lineer çekirdek için \%93.1, polinomiyal için \%85.1 ve radiyal tabanlı fonksiyon için \%98.4 lük bir doğruluk oranı elde edilmiştir.
Özet (Çeviri)
After skin cancer, the most common cancer type among women is the breast cancer. However rare, men can also suffer from this disease. Breast cancer also has the highest survival rate among all cancers if it was diagnosed in early stage of the disease. The death rate declines depending on how early it was detected, and discovery of new treatment techniques. The most important symptoms of breast cancer is a lump or area of thickened breast tissue. Most lumps are not cancerous, but deciding the type of tumor has vital importance. There are two types of breast tumors: malignant and benign. Malignant cells are the one that cause death. There are many risk factors that leads to breast cancer such as the family history, age, being diagnosed with certain benign (non-cancerous) breast tumors previously, genetic risk factors, alcohol consumption, radiation exposure. Mammograms are useful for breast cancer screening. Nevertheless they have limitations and it is possible that the cancer could not yet developed at the time of the mammography. Breast cancer has 5 stages. Stage 0 is the beginning phase in which the cells have not yet invaded surrounding tissues. In Stage 1, cancer cells spread in small area. In Stage 2 and 3, cancer cells increase in size. In the final stage 4, the cancer spread the vital organs like brain, liver, lungs. Data mining is a collection of algorithms and techniques that aim make meaningful conclusions from large amounts of data. It is a multidisciplinary discipline that uses statistics, artificial intelligence, database technology and machine learning. Machine learning uses two types of learning methods: supervised learning and unsupervised learning. Supervised learning aims to improve a model based on both input and output data. Classification and regression algorithms are the among the supervised learning models. Supervised learning algorithms search for relationships between input attributes and target attributes. In this thesis we investigate few classification algorithms. In unsupervised learning, the machine is not trained so machine has to find hidden structure in unlabelled data. Clustering and association is the type of unsupervised learning. Using technology in health care system provides crucial benefits. In recent years, machine learning algorithms have been immensely used in the medical field from disease diagnosis to improving patient care. Algorithms identifying patterns in medical images had huge impact and opened a different avenues of diagnosis and treatment in health care. Examples include detecting tuberculosis, brain aneurysms or Alzheimer. This thesis is focused on the application of several data mining techniques on Wisconsin breast cancer dataset. In order to improve breast cancer cell recognition, the proposed system includes comparisons of three different, commonly used machine learning algorithms: K-nearest-neighbor (KNN), naive Bayes (NB) and support vector machines (SVM). The aim of this dissertation is to employ these three classification algorithms on Wisconsin Breast Cancer Database dataset and compare three classification algorithms in terms of their performance and accuracy rate. According to the findings SVM algorithm beat the NB and KNN algorithms.
Benzer Tezler
- Çok değişkenli verilerde sınıflandırma ve sağlık verileri üzerine uygulaması
Classification of multivariate data and application on health data
ADIL HANI ABDULKAREEM ABDULKAREEM
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA CEM KASAPBAŞI
- Gail modeli ile makine öğrenmesi algoritmalarının meme kanseri risk değerlendirmesinde karşılaştırılması
Comparison of the machine learning algorithms in breast cancer risk assessment with the gail model
BERFU PARÇALI
Yüksek Lisans
Türkçe
2020
BiyoistatistikEskişehir Osmangazi ÜniversitesiBiyoistatistik Ana Bilim Dalı
PROF. DR. FEZAN MUTLU
- Application of particle swarm optimization for computer aided diagnosis of diseases
Bilgisayar destekli hastalık teşhisi için parçaçık sürü optimizasyonu tekniğinin uygulanması
FERDA SUNA DÖKME
Yüksek Lisans
İngilizce
2019
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. SELMA AYŞE ÖZEL
- Meme kanserli hastalarda Flor-18 florodeoksiglukoz pozitron emisyon tomografisi/bilgisayarlı tomografisinin radyomiks analizinin neoadjuvan kemoterapi yanıtını öngörü değeri
Predictive value of radiomics analysis of Flor-18 flurodeoxyglucose positron emission tomography/computed tomography in response to neoadjuvant chemotherapy in breast cancer patients
DİLEK ALGUR
Tıpta Uzmanlık
Türkçe
2024
Radyoloji ve Nükleer TıpErciyes ÜniversitesiNükleer Tıp Ana Bilim Dalı
PROF. DR. AHMET TUTUŞ
- Veri madenciliği teknikleri ile meme kanseri tahmini için mammogram görüntülerinin analizi
An analysis of mammogram imagesfor breast cancer predictionusing data mining techniques
MOHAMMED I.F MANSOUR
Yüksek Lisans
İngilizce
2020
Mekatronik MühendisliğiSakarya ÜniversitesiMekatronik Mühendisliği Ana Bilim Dalı
ÖĞR. GÖR. MUSTAFA ÇAĞRI KUTLU