Veri madenciliğinde kümeleme analizi yöntemlerinin incelenmesi ve sağlık bilimleri alanındaki uygulamaları
Evulation of cluster analysis in the methods of data mining and its applications in health sciences
- Tez No: 543604
- Danışmanlar: PROF. DR. AHMET DİRİCAN
- Tez Türü: Yüksek Lisans
- Konular: Biyoistatistik, Biostatistics
- Anahtar Kelimeler: Veri Madenciliği, Tıp, Kümeleme, Weka, Kaggle, Data Mining, Medical Science, Clustering, Weka, Kaggle
- Yıl: 2019
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Sağlık Bilimleri Enstitüsü
- Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 59
Özet
Veri madenciliği konusu tüm dünyada ve hemen her alanda ilgi görmüş ve kullanılmaya başlanmıştır. Çok değişkenli istatistiksel analiz yöntemleri bu anlamda verilere ait birden fazla özelliğin birarada incelenmesine olanak sağladığı için veri madenciliğinin çözüm odaklarını oluşturmuştur. Bu yöntemler içinde en çok tercih edilenlerden biri Kümeleme Analizi (Cluster Analysis)'dir. Kümeleme analizinde veriler, sadece taşıdıkları değerlere göre değil, diğer verilerle aralarındaki benzerlik ve uzaklığa göre kümelere ayrılır. Temel amaç, benzer özellikler gösteren değişkenleri biraraya getirmektir. Bu çalışmada kullanılan veriler,“www.kaggle.com”adlı internet sitesinden elde edilen, 768 kadına ait gerçek verilerdir. Bu site, herkesin erişimine açık, en başarılı sonucun elde edilmesine ve yöntemlerin tartışılmasına yönelik, kimi zaman ödüllü yarışmaların yapıldığı bir veri deposudur. Veri setinde sonuç (outcome) değişkeni de var olduğundan, yapılan analiz çalışmalarını gerçek durum ile kıyaslamak mümkün olmaktadır. Böylelikle algoritma ve değişkenlerin seçiminde ve uygulanmasında, gerçeğe en yakın karar alınabilmekte veya en uzak kararlardan kaçınılabilmektedir. Burada çalışılan K-Means ve Clara Algoritmaları için, daha çok sayıda veri ile çalışılabilmesini sağlayan yazılımlardan Weka ve R Studio tercih edilmiştir. Yapılan çalışma sonucunda, değişkenlerin gerek ortalamalarına bakarak, gerekse küme merkezlerine bakarak veriyi iki kümeye ayırmada değişkenlerin yeterli ve doğru olduğu görülmüştür. Veri setinin sonuç (outcome) sütununda diabet var-yok şeklindeki sınıflama ile kıyaslandığında, glucose, beden kitle indeksi, insülin seviyesi, ön kol kası (triceps) kalınlığının, referans değerlerinden yüksek olanların benzer veya aynı kümelerde yer alarak, diabet varlığında bu değişkenlerin belirleyici olduğu sonucuna ulaşılmıştır.
Özet (Çeviri)
Data mining has been used almost in all fields around world. The data clustering with the multivariate method of Cluster Analysis are not only depending on their values, but also similarity and distance between them. Main objective is to bring the variables that show similar characteristics together. The data used in this work is obtained from“www.kaggle.com”, and it is real data collected from 768 women. Occasionally the website organizes competitions, in which the participants with successful data analysis methods and results are awarded. Since the available data sets also contain the outcome variable, it is possible to compare with the actual situation. The truth decision can be taken with the proper algorithm selection.“Weka”and“R Studio”softwares were chosen for the solution of the K-Means and Clara algoritms. The work performed for this thesis indicated that it is possible to divide a data set into two clusters sufficiently and correctly by looking at the mean value of variables and the center of the clusters. Outcome variable of the used data set is“yes-no”for diabetes disease. Comparing the analysis results with the outcome variable, it is shown that if the values of glucose, body-mass-index, insulins levels and triceps thickness are higher than reference values, those women are assigned to the same or similar clusters, which indicate that those variables play a decisive role for a positive diabetes case.
Benzer Tezler
- Kohonen öz örgütlemeli haritalama yöntemi ile psikotik hastalıkların kümelenmesi
Kohonen cluster of psychotic diseases by self organizing mapping method
ASLI ÇİFTCİ
Yüksek Lisans
Türkçe
2018
BiyoistatistikHacettepe ÜniversitesiBiyoistatistik Bilim Dalı
DR. ÖĞR. ÜYESİ SEVİLAY KARAHAN
- Kümeleme analizi yöntemleri ile covıd-19 verilerinin incelenmesi
Investigation of covid-19 data using with clustering analysis methods
EZGİ SEREN CANBAY
Yüksek Lisans
Türkçe
2022
İstatistikAnkara Üniversitesiİstatistik Ana Bilim Dalı
DOÇ. DR. ESİN KÖKSAL BABACAN
- Analysis of the impact of clustering on Apriori data mining algorithm
Kümelemenin Apriori veri madenciliği algoritmasına etkisinin incelenmesi
NERGİS YILMAZ
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLFEM IŞIKLAR ALPTEKİN
- Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal BilimlerSakarya Üniversitesiİşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN
- Arama motoru (google) reklamlarının veri madenciliği yöntemleri ile incelenmesi: Bir e-ticaret sitesi örneği
Investigation of search engine advertisements with data mining techniques: The case of e-commercial site
CEMAL FURKAN ÖZBEK
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolBandırma Onyedi Eylül ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. UFUK ÇELİK