Veri madenciliğinde kümeleme analizi yöntemlerinin incelenmesi ve sağlık bilimleri alanındaki uygulamaları

Evulation of cluster analysis in the methods of data mining and its applications in health sciences

PDF İndir

Tez No: 543604
Yazar: NİHAN MÜNİSE KAZAZ
Danışmanlar: PROF. DR. AHMET DİRİCAN
Tez Türü: Yüksek Lisans
Konular: Biyoistatistik, Biostatistics
Anahtar Kelimeler: Veri Madenciliği, Tıp, Kümeleme, Weka, Kaggle, Data Mining, Medical Science, Clustering, Weka, Kaggle
Yıl: 2019
Dil: Türkçe
Üniversite: İstanbul Üniversitesi
Enstitü: Sağlık Bilimleri Enstitüsü
Ana Bilim Dalı: Biyoistatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 59

Özet

Veri madenciliği konusu tüm dünyada ve hemen her alanda ilgi görmüş ve kullanılmaya başlanmıştır. Çok değişkenli istatistiksel analiz yöntemleri bu anlamda verilere ait birden fazla özelliğin birarada incelenmesine olanak sağladığı için veri madenciliğinin çözüm odaklarını oluşturmuştur. Bu yöntemler içinde en çok tercih edilenlerden biri Kümeleme Analizi (Cluster Analysis)'dir. Kümeleme analizinde veriler, sadece taşıdıkları değerlere göre değil, diğer verilerle aralarındaki benzerlik ve uzaklığa göre kümelere ayrılır. Temel amaç, benzer özellikler gösteren değişkenleri biraraya getirmektir. Bu çalışmada kullanılan veriler,“www.kaggle.com”adlı internet sitesinden elde edilen, 768 kadına ait gerçek verilerdir. Bu site, herkesin erişimine açık, en başarılı sonucun elde edilmesine ve yöntemlerin tartışılmasına yönelik, kimi zaman ödüllü yarışmaların yapıldığı bir veri deposudur. Veri setinde sonuç (outcome) değişkeni de var olduğundan, yapılan analiz çalışmalarını gerçek durum ile kıyaslamak mümkün olmaktadır. Böylelikle algoritma ve değişkenlerin seçiminde ve uygulanmasında, gerçeğe en yakın karar alınabilmekte veya en uzak kararlardan kaçınılabilmektedir. Burada çalışılan K-Means ve Clara Algoritmaları için, daha çok sayıda veri ile çalışılabilmesini sağlayan yazılımlardan Weka ve R Studio tercih edilmiştir. Yapılan çalışma sonucunda, değişkenlerin gerek ortalamalarına bakarak, gerekse küme merkezlerine bakarak veriyi iki kümeye ayırmada değişkenlerin yeterli ve doğru olduğu görülmüştür. Veri setinin sonuç (outcome) sütununda diabet var-yok şeklindeki sınıflama ile kıyaslandığında, glucose, beden kitle indeksi, insülin seviyesi, ön kol kası (triceps) kalınlığının, referans değerlerinden yüksek olanların benzer veya aynı kümelerde yer alarak, diabet varlığında bu değişkenlerin belirleyici olduğu sonucuna ulaşılmıştır.

Özet (Çeviri)

Data mining has been used almost in all fields around world. The data clustering with the multivariate method of Cluster Analysis are not only depending on their values, but also similarity and distance between them. Main objective is to bring the variables that show similar characteristics together. The data used in this work is obtained from“www.kaggle.com”, and it is real data collected from 768 women. Occasionally the website organizes competitions, in which the participants with successful data analysis methods and results are awarded. Since the available data sets also contain the outcome variable, it is possible to compare with the actual situation. The truth decision can be taken with the proper algorithm selection.“Weka”and“R Studio”softwares were chosen for the solution of the K-Means and Clara algoritms. The work performed for this thesis indicated that it is possible to divide a data set into two clusters sufficiently and correctly by looking at the mean value of variables and the center of the clusters. Outcome variable of the used data set is“yes-no”for diabetes disease. Comparing the analysis results with the outcome variable, it is shown that if the values of glucose, body-mass-index, insulins levels and triceps thickness are higher than reference values, those women are assigned to the same or similar clusters, which indicate that those variables play a decisive role for a positive diabetes case.

Benzer Tezler

Tez No
513497
Kohonen öz örgütlemeli haritalama yöntemi ile psikotik hastalıkların kümelenmesi
Kohonen cluster of psychotic diseases by self organizing mapping method
ASLI ÇİFTCİ
Yüksek Lisans
Türkçe
2018
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Bilim Dalı
DR. ÖĞR. ÜYESİ SEVİLAY KARAHAN
Tez No
760621
Kümeleme analizi yöntemleri ile covıd-19 verilerinin incelenmesi
Investigation of covid-19 data using with clustering analysis methods
EZGİ SEREN CANBAY
Yüksek Lisans
Türkçe
2022
İstatistik Ankara Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. ESİN KÖKSAL BABACAN
Tez No
373715
Analysis of the impact of clustering on Apriori data mining algorithm
Kümelemenin Apriori veri madenciliği algoritmasına etkisinin incelenmesi
NERGİS YILMAZ
Yüksek Lisans
İngilizce
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Galatasaray Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. GÜLFEM IŞIKLAR ALPTEKİN
Tez No
296124
Metin madenciliğinde kullanılan yöntemlerin karşılaştırılması: Siyasi parti liderlerinin grup genel toplantı konuşmaları ile bir uygulama
Comparison of techniques and methodologies used in text mining: An application with group meeting speeches of Turkish political part leaders
KEZİBAN SEÇKİN
Yüksek Lisans
Türkçe
2011
Siyasal Bilimler Sakarya Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. ERMAN COŞKUN
Tez No
698048
Arama motoru (google) reklamlarının veri madenciliği yöntemleri ile incelenmesi: Bir e-ticaret sitesi örneği
Investigation of search engine advertisements with data mining techniques: The case of e-commercial site
CEMAL FURKAN ÖZBEK
Yüksek Lisans
Türkçe
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Bandırma Onyedi Eylül Üniversitesi
Yönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. UFUK ÇELİK

Geri Dön