Kategorik veri analizinde kullanılan algoritmaların performanslarının karşılaştırılması üzerine bir çalışma

A study comparing performances used algorithms in categorical data analysis

PDF İndir

Tez No: 342827
Yazar: FERHAN BAŞ
Danışmanlar: PROF. DR. SEMRA ORAL ERBAŞ
Tez Türü: Yüksek Lisans
Konular: İstatistik, Statistics
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2013
Dil: Türkçe
Üniversite: Gazi Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: İstatistik Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 68

Özet

Kümeleme analizi nesnelerin doğal gruplarını bulmak için kullanılan bir yöntemdir. Kümeleme yapılırken küme içi homojenlik ile kümeler arası heterojenliğin yüksek olması istenir. Sayısal verilerle kümeleme yapmak oldukça kolaydır ve sayısal verileri kümeleyen birçok yöntem vardır. Fakat kategorik veriler ile çalışmak sayısal verilerde olduğu kadar kolay değildir. Kategorik verileri kümelemek için çok fazla yöntem yoktur ve var olanların hangisinin en iyi olduğu ile ilgili kesin bir bilgi bulunmamaktadır. Veri sayısına ve veri yapısına göre her bir yöntemin birbirine üstünlükleri ve eksiklikleri vardır. Ayrıca iyi bir kümeleme yapmak için kullanılacak değişken sayısı büyük önem taşımaktadır. Bu çalışmada kategorik verilerin kümelenmesi ile ilgilenildi. Hiyerarşik kümeleme tekniklerinden tek bağlantı tekniği, tam bağlantı tekniği, ortalama bağlantı tekniği ve bölmeli kümeleme tekniklerinden K-modes algoritması kullanılarak kümeleme analizi yapıldı ve sonuçlar karşılaştırıldı. Nitelikli bir karşılaştırma yapmak için literatürde bu tür karşılaştırmaların yapılmasında yaygın olarak kullanılan gerçek veri setlerinden yararlanıldı. Analiz sonuçlarına göre veri sayısı büyüdükçe kümeleme performansı hiyerarşik tekniklerde azalırken K-modes algoritmasında arttığı tespit edildi.

Özet (Çeviri)

Cluster analysis is a method used to find natural groups of objects. Given a data set the main goal is to produce a partition with high internal intra-cluster similarity and high inter-cluster dissimilaity. Clustering with numerical data is quite easy and there are many methods for them. But clustering of categorical data is more difficult than clustering of numerical data. There is not many methods for clustering of categorical data and there is no certain information about which one is best. According to the number of data and data sutructure each has advantages and limitations. Also variable number is important for good clustering results. In this thesis dealt with clustering of categorical data. Hierarchical clustering techniques which are single linkage, complete linkage, average linkage and partitional clustering technique which is K-modes algorithm were compared. Well known real data sets were used for quality comparison. According to the analysis results when the number of data set grows clustering performances are decreasing in single linkage, complete linkage, average linkage while K-modes algoritm?s is increasing.

Benzer Tezler

Tez No
950068
Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity
Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini
AMMAR HOMAIDA
Doktora
İngilizce
2025
İstatistik Gazi Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. MERAL EBEGİL
Tez No
948194
Analyzing and predicting e-commerce customer behaviors using process mining techniques
E-ticarette müşteri davranışlarının süreç madenciliği ile analizi ve tahmin edilmesi
BİLAL TOPALOĞLU
Doktora
İngilizce
2025
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. BAŞAR ÖZTAYŞİ
DOÇ. DR. ONUR DOĞAN
Tez No
894445
PISA 2022 Türkiye örnekleminde bilgi ve iletişim teknolojisi kaynakları kullanımının okuma performansını yordama durumunun veri madenciliği teknikleriyle incelenmesi
Examining the predictive status of information and communication technology resources use on reading performance in PISA 2022 Turkey sample with data mining techniques
BARIŞ ŞAYBAK
Yüksek Lisans
Türkçe
2024
Eğitim ve Öğretim Bursa Uludağ Üniversitesi
Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
DOÇ. DR. SALİH BİRİŞÇİ
Tez No
947390
Derin öğrenme algoritmaları kullanarak öğrenci akademik performansının erken tahmini
Early prediction of student academic performance using deep learning algorithms
AHMET KALA
Doktora
Türkçe
2025
Endüstri ve Endüstri Mühendisliği Sakarya Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ORHAN TORKUL
DR. ÖĞR. ÜYESİ TUĞBA YILDIZ
Tez No
847173
Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

Geri Dön