Veri madenciliğinin K-ortalamalar kümeleme yönteminde başlangıç ağırlık merkezi noktalarının yörünge iterasyonu ile belirlenmesi

Developing algorithm for determining initial centroid points with orbit iteration in K-means clustering method of data mining

PDF İndir

Tez No: 682736
Yazar: AZİZ MAHMUT YÜCELEN
Danışmanlar: DR. ÖĞR. ÜYESİ ABDULLAH BAYKAL
Tez Türü: Doktora
Konular: Matematik, Mathematics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: Türkçe
Üniversite: Dicle Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Matematik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 128

Özet

Veri madenciliğinin en temel düşüncesi, veri kümesindeki her bir nesnenin sahip olduğu alt bilgileri ortaya çıkararak, veri kümesi hakkında istenilen bilgiye ulaşmaktır. Bu alt bilgi, veri madenciliğinde çeşitli matematiksel ve istatistiksel yöntemler ile ortaya çıkarılır. Veri madenciliğinin çalışma alanlarından biri de kümelemedir ve literatürde gözetimsiz öğrenme olarak da bilinir. Kümeleme tekniklerinin temel amacı, veri kümelerini istenilen sayıda küme veya gruplara ayırmaktır. K-Ortalamalar, kümeleme tekniklerinde en sık kullanılan bir yöntemdir. Her yöntemde olduğu gibi bu yönteminde eksiklikleri bulunmaktadır. K-Ortalamalar yönteminin en bilinen eksikliği, başlangıçta rasgele veri noktaları seçimiyle çalışmasıdır. Bu durumun, kümeleme başarısını da olumsuz bir şekilde etkilediği bilinen bir gerçektir. Çünkü her çalıştırıldığında birbirinden farklı sonuçlar üretir. Ayrıca yöntemi belirlenimci bir yöntem olmaktan çıkarmaktadır. Bu tez çalışmasında, K-Ortalamalar metotunun, belirlenimci olmayan yapısının ortadan kaldırılması ve kümeleme başarısının arttırılması hedeflenmiştir. Bu amaçla ilk olarak kümeleme metotlarına ait çalışmalar incelenmiştir. Ardından kümelemede kullanılan başlangıç ağırlık merkezi bulmaya yönelik çalışmalar araştırılmıştır. Bu bilgiler yardımıyla, veri noktalarının yörünge iterasyonuna dayanan yeni bir başlangıç ağırlık merkezi yöntemi tasarlanmıştır. Ayrıca bu yeni yöntem, Python programlama dilinde kodlanmış olup, suni ve gerçek veriler kümeleri üzerinde test edilmiştir. Yöntemde elde edilen sonuçlar, literatürde bulunan diğer çalışmaların sonuçları ile karşılaştırılmıştır. Elde edilen bulgulara göre tasarlanan yöntemin başarılı olduğu görülmüştür.

Özet (Çeviri)

The most basic idea of data mining is to reach the desired information about the data set by revealing the sub-information of each object in the data set. This sub-info is revealed by various mathematical and statistical methods in data mining One of the study areas of data mining is clustering and it is known as unsupervised learning in the published literature. The main purpose of clustering techniques is to divide datasets into any number of clusters or groups. K-Means is the most commonly used method in clustering techniques. As with any method, this method has its shortcomings too. The most well-known shortcoming of the K-Means method is that it works with the selection of random initial centroids. It is a known fact that this situation negatively affects clustering success. Because it produces different results each time it is run. Moreover it makes the method not a deterministic one. In this Ph.D. dissertation, it is aimed to remove the non-deterministic nature of the K-Means method and to increase the clustering success. For this purpose, firstly, the literature on clustering methods were analyzed. Then, studies to find the initial center of gravity used in clustering were figured out. With the help of this information, a new initial centroid method based on orbit iterations of data points is designed. In addition, this new method has been coded in the Python programming language and has been tested on artificial and real datasets. The results obtained from the method were compared with the results of other studies in the literature. According to the findings, the designed method was found to be successful.

Benzer Tezler

Tez No
844496
Sosyal medya mesajlarında veri madenciliği ile bilgi keşfi ve görsel analitik ortamda sunulması: COVID-19 tweet veri seti örneği
Information discovery with data mining in social media messages andpresenting in visual analytic environment: COVID-19 tweet dataset example
BURAK ÇAĞLAR
Doktora
Türkçe
2023
Jeodezi ve Fotogrametri Necmettin Erbakan Üniversitesi
Harita Mühendisliği Ana Bilim Dalı
DOÇ. DR. HÜSEYİN ZAHİT SELVİ
Tez No
760621
Kümeleme analizi yöntemleri ile covıd-19 verilerinin incelenmesi
Investigation of covid-19 data using with clustering analysis methods
EZGİ SEREN CANBAY
Yüksek Lisans
Türkçe
2022
İstatistik Ankara Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. ESİN KÖKSAL BABACAN
Tez No
586070
Uluslararası Öğrenci Değerlendirme Programı 2015 verilerinin veri madenciliğinde kümeleme yöntemleriyle incelenmesi
Examination of the Program for International Student Assessment 2015 data by clustering methods in data mining
MEHMET TAHA ESER
Doktora
Türkçe
2019
Eğitim ve Öğretim Hacettepe Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ DERYA ÇOBANOĞLU AKTAN
PROF. DR. CEM OKTAY GÜZELLER
Tez No
513497
Kohonen öz örgütlemeli haritalama yöntemi ile psikotik hastalıkların kümelenmesi
Kohonen cluster of psychotic diseases by self organizing mapping method
ASLI ÇİFTCİ
Yüksek Lisans
Türkçe
2018
Biyoistatistik Hacettepe Üniversitesi
Biyoistatistik Bilim Dalı
DR. ÖĞR. ÜYESİ SEVİLAY KARAHAN
Tez No
617466
Şehir içi toplu taşıma planlamasında akıllı kart veri madenciliği ile sefer sıklığı optimizasyonu
Optimization of headway with smart card data mining in urban public transportation planning
BEDRETTİN TÜRKER PALAMUTÇUOĞLU
Doktora
Türkçe
2020
Ulaşım Manisa Celal Bayar Üniversitesi
İşletme Ana Bilim Dalı
DOÇ. DR. MUSTAFA GERŞİL

Geri Dön