Kümeleme problemi için geçerlilik indeksleri üzerine

On validity indexes for the clustering problem

PDF İndir

Tez No: 760551
Yazar: BÜŞRA SARI
Danışmanlar: PROF. DR. BURAK ORDİN
Tez Türü: Yüksek Lisans
Konular: Matematik, Mathematics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2022
Dil: Türkçe
Üniversite: Ege Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Matematik Ana Bilim Dalı
Bilim Dalı: Bilgisayar Bilimleri Bilim Dalı
Sayfa Sayısı: 59

Özet

Veri kümeleme problemi mühendislikte, tıpta, ekonomide vb. pek çok alanda önemli uygulamalara sahip bir kombinatoryal optimizasyon problemidir. Veri kümeleme probleminde amaç küme içi benzerliğin enbüyüklenip, kümeler arası benzerliğin enküçüklenmesidir. Buna görede modellediği gerçek hayat problemi için gözle görülemeyen/gizli kalmış desenlerin ortaya çıkartılması amaçlanır. Geçmişten günümüze veri kümeleme probleminin çözümü için pek çok çözüm yöntemi önerilmiştir. Geliştirilen/geliştirilmekte olan yöntemlerin ilgili alanda ne kadar geçerliliğe sahip sonuçlar ürettiğini değerlendirmek zor ve önemli bir süreçtir. Literatürde bu değerlendirme süreci için çeşitli kümeleme geçerlilik indeksleri önerilmiştir. Herhangi bir kümeleme problemi üzerinde uygulanan çözüm algoritmasının sonucunun bir geçerlilik indeksi tarafından ne kadar geçerli olduğunun belirlenmesi kesin sınırları olmayan açık uçlu bir konudur. Bu tez çalışmasında, kümeleme probleminin çözümü için literatürde yeralan bazı küme geçerlilik indeksleri incelenmiştir. Bunun yanısıra dört gerçek veriseti üzerinde k-means ve global k-means algoritması uygulanarak elde edilen sonuçlar üzerinde içsel değerlendirme ölçülerinden Davies Bouldin ve dışsal değerlendirme ölçülerinden F-Ölçümü kullanılarak hesaplama denemelerinin sonuçları analiz edilmiştir.

Özet (Çeviri)

Data clustering problem can be found in engineering, medicine, economics etc. It is a combinatorial optimization problem with important applications in many fields. The purpose of the data clustering problem is to maximize the similarity within the cluster and to minimize the similarity between the clusters. Accordingly, it is aimed to reveal invisible/hidden patterns for the real life problem it models. Many solution methods have been proposed to solve the data clustering problem from past to present. It is a difficult and important process to evaluate the validity of the developed/under development methods in the relevant field. Various clustering validity indices have been proposed for this evaluation process in the literature. Determining how valid the result of the solution algorithm applied on any clustering problem is by a validity index is an open-ended issue with no clear boundaries. In this thesis, some clustering validity indexes in the literature were examined to solve the clustering problem. In addition, the results of the calculation trials were analyzed by using Davies Bouldin from internal evaluation measures and F-Measure from external evaluation measures on the results obtained by applying k-means and global k-means algorithm on four real datasets.

Benzer Tezler

Tez No
144196
Kümeleme analizi, çok boyutlu ölçekleme, doğrulayıcı ve açıklayıcı faktör analizi ile elde edilen yapı geçerliği kanıtlarının karşılaştırılması
A comparison of construct validity evidences obtained through cluster analysis, multidimensional scaling, confirmatory and exploratory factor analysis
DİLEK ŞİMŞEK
Yüksek Lisans
Türkçe
2006
Eğitim ve Öğretim Hacettepe Üniversitesi
Eğitim Bilimleri Ana Bilim Dalı
DR. NURİ DOĞAN
Tez No
441826
Kümeleme analizinde kullanılan bazı benzerlik indekslerinin karşılaştırılması
Comparison of similarity indices in cluster analysis
HAZAN KÜBRA HACIOĞLU
Yüksek Lisans
Türkçe
2016
İstatistik Gazi Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. SEMRA ERBAŞ
Tez No
510651
Bulanık kümeleme analizinde bulanık kümeleme algoritmalarının karşılaştırılması
A comparison of fuzzy cluster algorithms in fuzzy clustering analysis
ASLI KAYA
Yüksek Lisans
Türkçe
2018
İstatistik Anadolu Üniversitesi
İstatistik Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖZER ÖZDEMİR
Tez No
381422
Çevrimiçi öğrenme ortamındaki etkileşim verilerine göre öğrencilerin akademik performanslarının veri madenciliği yaklaşımı ile modellenmesi
A data mining approach to students' academic performance modeling in online learning environment based on their interaction data
GÖKHAN AKÇAPINAR
Doktora
Türkçe
2014
Eğitim ve Öğretim Hacettepe Üniversitesi
Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
PROF. DR. ARİF ALTUN
Tez No
283672
On clustering and classification methods in biosequence analysis
Biyosekans analizinde kümeleme ve sınıflandırma yöntemleri üzerine
ÇAĞIN KANDEMİR ÇAVAŞ
Doktora
İngilizce
2010
Biyomühendislik Dokuz Eylül Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. EFENDİ NASİBOĞLU

Geri Dön