Geri Dön

Breast cancer data classification using SVM, NB and KNN algorithms

SVM, NB ve KNN kullanımı ile göğüs kanseri veri sınıflandırması

  1. Tez No: 549184
  2. Yazar: BURCU MERAL
  3. Danışmanlar: PROF. DR. KAMİL ORUÇOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilim ve Teknoloji, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2019
  8. Dil: İngilizce
  9. Üniversite: İstanbul Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Matematik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 81

Özet

Deri kanserinden sonra, kadınlar arasında en sık görülen kanser türü göğüs kanseridir. Sadece kadınlar değil, erkekler de bu hastalıktan nadir bir şekilde de olsa muzdarip olabilir. Eğer erken teşhis edilirse yaşam oranı da çok yüksektir ve buna bağlı olarak ölüm oranında azalma görülür. Göğüs kanserinin en önemli belirtileri şişkinleşmiş veya kalınlaşmış dokunun alanıdır. Kötü huylu ve iyi huylu olarak adlandırılan iki tip tümör vardır. Tümörün tipine göre kanser hücresinin iyi huylu ya da kötü huylu olup olmadığına karar vermek gerekmektedir. Kötü huylu hücreler ölüme neden olan hücrelerdir. Göğüs kanserine neden olan birçok risk faktörü vardır; aile geçmişi, yaş, daha önceden iyi huylu (kanserli olmayan) hücre bulgusu teşhisi konması, genetik risk faktörü, alkol tüketimi, radyasyona maruz kalma vb. Mamogramlar göğüs kanseri taraması için kullanılır, ancak yine de mamogramlarında kanseri teşhis etmekte yanılma payı vardır. Göğüs kanseri 5 evrelidir. Başlangıç aşaması olan aşama 0'da, hücreler etrafındaki dokuları istila etmemiştir. En son evre olan 4. aşama ise, kanser beyin, karaciğer, akciğerler gibi hayati organlara yayılmaya başlamıştır. Göğüs kanseri genellikle son aşamalarda teşhis edildiği için ölüm oranları bu kadar yüksektir. Veri madenciliği, büyük miktarda veriden anlamlı sonuçlar çıkarmak için gerekli süreçlerin bütünüdür. Gizli kalıpları keşfetmeye yardımcı olacak birçok teknik vardır. İstatistik, yapay zeka, veri tabanı teknolojisi ve makine öğrenmesi kullanılan çok disiplinli bir beceridir. Artan ham veri nedeniyle, verilerin analiz edilmesi ve bu analizler baz alınarak çıkarımların yapılması hayati öneme sahiptir. Bu yüzden veri madenciliğinin değeri gün geçtikçe artmaktadır. Makine öğrenmesi, denetlenen öğrenmeyi ve denetimsiz öğrenmeyi sağlayan iki tür öğrenme yöntemi kullanır. Denetimli öğrenme, hem girdi hem de çıktı verilerine dayanan bir model geliştirmektir. Yani elimizdeki veri kümesinin ne olduğunu ve bu verilerden ne gibi sonuçlar çıkması gerektiğini biliriz. Sınıflandırma algoritmaları ve regresyon algoritmaları, denetlenen öğrenme modelinin türüdür. Temelde, kaynak veri ile hedef veri arasında bir ilişki arar ve bulur. Bazı sınıflandırma algoritmaları bu tezin de konusudur ve denetimli öğrenmenin örneklerindendir. Denetimsiz öğrenmede, verilerden elde edilmek istenen çıktının ne olduğunun daha önceden bilinmemesi ile oluşturulan modeldir. Kümeleme ve ilişkilendirme algoritmaları, denetimsiz öğrenmenin türüdür. Son yıllarda, makine öğrenme algoritmaları tıbbi alanda yaygın olarak kullanılmaya başlamıştır. Hedef sağlık alanında gelişmelere katkıda bulunmak ve hastalıkların teşhisinde yardımcı olmaktır. Örneğin, röntgen filmlerini kullanarak hastalığın teşhisinin koyulması ile sağlık alanında önemli adımların temelleri atılmıştır. Tüberkülozu bulmak, beyin kanamalarını veya Alzheimer hastalığını tespit etmek, röntgen filmlerine bakarak tanıları teşhis ve tedavi etmek veri bilimi sayesinde mümkün olmuştur. Bu nedenle, teknolojiyi sağlık alanında kullanmak önemli faydalar sağlamıştır. Makine algoritmaları kullanılarak sağlık alanında önemli gelişmeler ve yenilikler kaydedilmektedir. Bu tezin konusu da yine sağlık alanında en çok görülen kanser tiplerinden biri olan göğüs kanserinin önceden veya daha erken evrelerde keşfedilmesini sağlayacak bir algoritma oluşturmaktır. Oluşturulan bu algoritmaların doğruluk oranının en yüksek olması hedeflenmektedir. Göğüs kanseri hücresinin iyi huylu ya da kötü huylu olup olmadığını tespit etmek için kullanılan birçok sınıflandırma algoritması mevcuttur. Bunlardan k en yakın komşuluk, naif bayes ve destek vektör makinesi algoritmaları bu tezin de konusunu oluşturur. Göğüs kanseri, özellikle kadınlarda erken teşhis edilmedikçe ölüme neden olan başlıca kanser türüdür. Bunu önlemek ve erken teşhise yardımcı olmak için bu üç algoritmaların uygulanması ve sonuçlara göre doğruluk oranlarının karşılaştırılması yapılmıştır. K en yakın komşuluk sınıflandırma algoritması temel olarak bilinmeyen noktaya en yakın k tane komşunun seçilmesi ve oradaki çoğunluğun oyuna göre bilinmeyen noktanın çoğunluğun komşuluğuna atanmasını ifade eder. Bu yüzden tembel öğrenme algoritması olarak adlandırılır. Asıl hesaplama sınıflandırma adımına kadar ertelenir. Çok büyük veri setlerinde kullanılması tavsiye edilmez. Naif bayes algoritması, olasılık ilkelerinde bayes teoremini kullanarak verinin hangi kategoriden olduğunu tespit etmek için kullanılır. Destek vektör makine algoritmasının amacı, sınıflandırılacak veri için doğru hiper düzlemi sağlamak yani iki ayrı sınıfa sahip veri için bu verileri birbirinden ayıracak çizgiyi yada sınırı bulmaktır. Doğru hiper düzlem kıstası iki sınıfı en iyi ayıran, en uzak çizgiyi bulmaktır. İki sınıf arasındaki uzaklık marjin olarak adlandırılır. Marjin en yüksek değere sahipken algoritma en doğru hiper düzlemdedir denilebilir. Fakat veriler her zaman birbirinden keskin bir çizgi ile ayrılmayabilir. Bu tarz durumlarda çekirdek hilesi adı verilen bir yöntem kullanılır. Bu yöntem ile veri bir üst boyuta taşınır ve ayırma işlemi burada yapılır. En yaygın olarak kullanılan çekirdek yöntemleri; doğrusal, polinomiyal ve radial tabanlı fonksiyondur. Bu tezde de bu 3 çekirdek yöntemi göğüs kanseri veri setine uygulanmıştır ve radial tabanlı fonksiyonun diğerlerine göre daha etkili ve yüksek doğruluk ürettiği gözlenmiştir. Destek vektörleri genel olarak nesne tanıma; yüz ve parmak izi tanıma, el yazısı tanıma, yazı karakteri tanıma, tıbbi tahminler, kanser verileri gibi alanlarda sıklıkla kullanılır. Hem doğrusal hem doğrusal olmayan verilere uygulanabildiği için yaygın olarak kullanılan bir algoritmadır. Aynı zamanda yüksek doğruluk oranına sahiptir. Dezavantaj olarak çekirdek fonksiyonlarının pozitif tanımlı sürekli fonksiyonlar olması sayılabilir. Bu tezin amacı, Wisconsin Göğüs Kanseri Veri Tabanı veri seti kullanılarak bu üç sınıflandırma algoritmasının performanslarını ve doğruluk oranlarını karşılaştırmaktır. Bu veri seti hücrenin boyutu, yapısı, çapı gibi bilgilerden oluşmaktadır. Sınıflandırma algoritmalarını uygulamak için Wisconsin Göğüs Kanseri Veri Tabanı verileri test ve eğitim olmak üzere iki gruba ayrıldı. Buna göre 569 verinin bulunduğu WDBC veri setinin 381 kaydı eğitim için 188 kaydı test için kullanılmıştır. Yani veri kümesi 2/3 ü eğitim datası 1/3 ü test datası olmak üzere iki gruba ayrılmıştır. Bulgulara göre SVM algoritması NB ve KNN algoritmasından daha yüksek doğruluk oranına sahiptir. SVM algoritması 3 tane kernel fonksiyonu için uyguladığımızı daha önce söylemiştik. Buna göre lineer çekirdek için \%93.1, polinomiyal için \%85.1 ve radiyal tabanlı fonksiyon için \%98.4 lük bir doğruluk oranı elde edilmiştir.

Özet (Çeviri)

After skin cancer, the most common cancer type among women is the breast cancer. However rare, men can also suffer from this disease. Breast cancer also has the highest survival rate among all cancers if it was diagnosed in early stage of the disease. The death rate declines depending on how early it was detected, and discovery of new treatment techniques. The most important symptoms of breast cancer is a lump or area of thickened breast tissue. Most lumps are not cancerous, but deciding the type of tumor has vital importance. There are two types of breast tumors: malignant and benign. Malignant cells are the one that cause death. There are many risk factors that leads to breast cancer such as the family history, age, being diagnosed with certain benign (non-cancerous) breast tumors previously, genetic risk factors, alcohol consumption, radiation exposure. Mammograms are useful for breast cancer screening. Nevertheless they have limitations and it is possible that the cancer could not yet developed at the time of the mammography. Breast cancer has 5 stages. Stage 0 is the beginning phase in which the cells have not yet invaded surrounding tissues. In Stage 1, cancer cells spread in small area. In Stage 2 and 3, cancer cells increase in size. In the final stage 4, the cancer spread the vital organs like brain, liver, lungs. Data mining is a collection of algorithms and techniques that aim make meaningful conclusions from large amounts of data. It is a multidisciplinary discipline that uses statistics, artificial intelligence, database technology and machine learning. Machine learning uses two types of learning methods: supervised learning and unsupervised learning. Supervised learning aims to improve a model based on both input and output data. Classification and regression algorithms are the among the supervised learning models. Supervised learning algorithms search for relationships between input attributes and target attributes. In this thesis we investigate few classification algorithms. In unsupervised learning, the machine is not trained so machine has to find hidden structure in unlabelled data. Clustering and association is the type of unsupervised learning. Using technology in health care system provides crucial benefits. In recent years, machine learning algorithms have been immensely used in the medical field from disease diagnosis to improving patient care. Algorithms identifying patterns in medical images had huge impact and opened a different avenues of diagnosis and treatment in health care. Examples include detecting tuberculosis, brain aneurysms or Alzheimer. This thesis is focused on the application of several data mining techniques on Wisconsin breast cancer dataset. In order to improve breast cancer cell recognition, the proposed system includes comparisons of three different, commonly used machine learning algorithms: K-nearest-neighbor (KNN), naive Bayes (NB) and support vector machines (SVM). The aim of this dissertation is to employ these three classification algorithms on Wisconsin Breast Cancer Database dataset and compare three classification algorithms in terms of their performance and accuracy rate. According to the findings SVM algorithm beat the NB and KNN algorithms.

Benzer Tezler

  1. Çok değişkenli verilerde sınıflandırma ve sağlık verileri üzerine uygulaması

    Classification of multivariate data and application on health data

    ADIL HANI ABDULKAREEM ABDULKAREEM

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Ticaret Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA CEM KASAPBAŞI

  2. Gail modeli ile makine öğrenmesi algoritmalarının meme kanseri risk değerlendirmesinde karşılaştırılması

    Comparison of the machine learning algorithms in breast cancer risk assessment with the gail model

    BERFU PARÇALI

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    BiyoistatistikEskişehir Osmangazi Üniversitesi

    Biyoistatistik Ana Bilim Dalı

    PROF. DR. FEZAN MUTLU

  3. Application of particle swarm optimization for computer aided diagnosis of diseases

    Bilgisayar destekli hastalık teşhisi için parçaçık sürü optimizasyonu tekniğinin uygulanması

    FERDA SUNA DÖKME

    Yüksek Lisans

    İngilizce

    İngilizce

    2019

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇukurova Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. SELMA AYŞE ÖZEL

  4. Meme kanserli hastalarda Flor-18 florodeoksiglukoz pozitron emisyon tomografisi/bilgisayarlı tomografisinin radyomiks analizinin neoadjuvan kemoterapi yanıtını öngörü değeri

    Predictive value of radiomics analysis of Flor-18 flurodeoxyglucose positron emission tomography/computed tomography in response to neoadjuvant chemotherapy in breast cancer patients

    DİLEK ALGUR

    Tıpta Uzmanlık

    Türkçe

    Türkçe

    2024

    Radyoloji ve Nükleer TıpErciyes Üniversitesi

    Nükleer Tıp Ana Bilim Dalı

    PROF. DR. AHMET TUTUŞ

  5. Veri madenciliği teknikleri ile meme kanseri tahmini için mammogram görüntülerinin analizi

    An analysis of mammogram imagesfor breast cancer predictionusing data mining techniques

    MOHAMMED I.F MANSOUR

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Mekatronik MühendisliğiSakarya Üniversitesi

    Mekatronik Mühendisliği Ana Bilim Dalı

    ÖĞR. GÖR. MUSTAFA ÇAĞRI KUTLU