Geri Dön

Veri madenciliğinde kümeleme analizi yöntemlerinin incelenmesi ve sağlık bilimleri alanındaki uygulamaları

Evulation of cluster analysis in the methods of data mining and its applications in health sciences

  1. Tez No: 543604
  2. Yazar: NİHAN MÜNİSE KAZAZ
  3. Danışmanlar: PROF. DR. AHMET DİRİCAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Biyoistatistik, Biostatistics
  6. Anahtar Kelimeler: Veri Madenciliği, Tıp, Kümeleme, Weka, Kaggle, Data Mining, Medical Science, Clustering, Weka, Kaggle
  7. Yıl: 2019
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Sağlık Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 59

Özet

Veri madenciliği konusu tüm dünyada ve hemen her alanda ilgi görmüş ve kullanılmaya başlanmıştır. Çok değişkenli istatistiksel analiz yöntemleri bu anlamda verilere ait birden fazla özelliğin birarada incelenmesine olanak sağladığı için veri madenciliğinin çözüm odaklarını oluşturmuştur. Bu yöntemler içinde en çok tercih edilenlerden biri Kümeleme Analizi (Cluster Analysis)'dir. Kümeleme analizinde veriler, sadece taşıdıkları değerlere göre değil, diğer verilerle aralarındaki benzerlik ve uzaklığa göre kümelere ayrılır. Temel amaç, benzer özellikler gösteren değişkenleri biraraya getirmektir. Bu çalışmada kullanılan veriler,“www.kaggle.com”adlı internet sitesinden elde edilen, 768 kadına ait gerçek verilerdir. Bu site, herkesin erişimine açık, en başarılı sonucun elde edilmesine ve yöntemlerin tartışılmasına yönelik, kimi zaman ödüllü yarışmaların yapıldığı bir veri deposudur. Veri setinde sonuç (outcome) değişkeni de var olduğundan, yapılan analiz çalışmalarını gerçek durum ile kıyaslamak mümkün olmaktadır. Böylelikle algoritma ve değişkenlerin seçiminde ve uygulanmasında, gerçeğe en yakın karar alınabilmekte veya en uzak kararlardan kaçınılabilmektedir. Burada çalışılan K-Means ve Clara Algoritmaları için, daha çok sayıda veri ile çalışılabilmesini sağlayan yazılımlardan Weka ve R Studio tercih edilmiştir. Yapılan çalışma sonucunda, değişkenlerin gerek ortalamalarına bakarak, gerekse küme merkezlerine bakarak veriyi iki kümeye ayırmada değişkenlerin yeterli ve doğru olduğu görülmüştür. Veri setinin sonuç (outcome) sütununda diabet var-yok şeklindeki sınıflama ile kıyaslandığında, glucose, beden kitle indeksi, insülin seviyesi, ön kol kası (triceps) kalınlığının, referans değerlerinden yüksek olanların benzer veya aynı kümelerde yer alarak, diabet varlığında bu değişkenlerin belirleyici olduğu sonucuna ulaşılmıştır.

Özet (Çeviri)

Data mining has been used almost in all fields around world. The data clustering with the multivariate method of Cluster Analysis are not only depending on their values, but also similarity and distance between them. Main objective is to bring the variables that show similar characteristics together. The data used in this work is obtained from“www.kaggle.com”, and it is real data collected from 768 women. Occasionally the website organizes competitions, in which the participants with successful data analysis methods and results are awarded. Since the available data sets also contain the outcome variable, it is possible to compare with the actual situation. The truth decision can be taken with the proper algorithm selection.“Weka”and“R Studio”softwares were chosen for the solution of the K-Means and Clara algoritms. The work performed for this thesis indicated that it is possible to divide a data set into two clusters sufficiently and correctly by looking at the mean value of variables and the center of the clusters. Outcome variable of the used data set is“yes-no”for diabetes disease. Comparing the analysis results with the outcome variable, it is shown that if the values of glucose, body-mass-index, insulins levels and triceps thickness are higher than reference values, those women are assigned to the same or similar clusters, which indicate that those variables play a decisive role for a positive diabetes case.

Benzer Tezler

  1. Kohonen öz örgütlemeli haritalama yöntemi ile psikotik hastalıkların kümelenmesi

    Kohonen cluster of psychotic diseases by self organizing mapping method

    ASLI ÇİFTCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    BiyoistatistikHacettepe Üniversitesi

    Biyoistatistik Bilim Dalı

    DR. ÖĞR. ÜYESİ SEVİLAY KARAHAN

  2. Kümeleme analizi yöntemleri ile covıd-19 verilerinin incelenmesi

    Investigation of covid-19 data using with clustering analysis methods

    EZGİ SEREN CANBAY

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    İstatistikAnkara Üniversitesi

    İstatistik Ana Bilim Dalı

    DOÇ. DR. ESİN KÖKSAL BABACAN

  3. Analysis of the impact of clustering on Apriori data mining algorithm

    Kümelemenin Apriori veri madenciliği algoritmasına etkisinin incelenmesi

    NERGİS YILMAZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. GÜLFEM IŞIKLAR ALPTEKİN

  4. Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama

    Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders

    KEZİBAN SEÇKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    Siyasal BilimlerSakarya Üniversitesi

    İşletme Ana Bilim Dalı

    DOÇ. DR. ERMAN COŞKUN

  5. Arama motoru (google) reklamlarının veri madenciliği yöntemleri ile incelenmesi: Bir e-ticaret sitesi örneği

    Investigation of search engine advertisements with data mining techniques: The case of e-commercial site

    CEMAL FURKAN ÖZBEK

    Yüksek Lisans

    Türkçe

    Türkçe

    2021

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBandırma Onyedi Eylül Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. UFUK ÇELİK