Kategorik veri analizinde kullanılan algoritmaların performanslarının karşılaştırılması üzerine bir çalışma
A study comparing performances used algorithms in categorical data analysis
- Tez No: 342827
- Danışmanlar: PROF. DR. SEMRA ORAL ERBAŞ
- Tez Türü: Yüksek Lisans
- Konular: İstatistik, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2013
- Dil: Türkçe
- Üniversite: Gazi Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 68
Özet
Kümeleme analizi nesnelerin doğal gruplarını bulmak için kullanılan bir yöntemdir. Kümeleme yapılırken küme içi homojenlik ile kümeler arası heterojenliğin yüksek olması istenir. Sayısal verilerle kümeleme yapmak oldukça kolaydır ve sayısal verileri kümeleyen birçok yöntem vardır. Fakat kategorik veriler ile çalışmak sayısal verilerde olduğu kadar kolay değildir. Kategorik verileri kümelemek için çok fazla yöntem yoktur ve var olanların hangisinin en iyi olduğu ile ilgili kesin bir bilgi bulunmamaktadır. Veri sayısına ve veri yapısına göre her bir yöntemin birbirine üstünlükleri ve eksiklikleri vardır. Ayrıca iyi bir kümeleme yapmak için kullanılacak değişken sayısı büyük önem taşımaktadır. Bu çalışmada kategorik verilerin kümelenmesi ile ilgilenildi. Hiyerarşik kümeleme tekniklerinden tek bağlantı tekniği, tam bağlantı tekniği, ortalama bağlantı tekniği ve bölmeli kümeleme tekniklerinden K-modes algoritması kullanılarak kümeleme analizi yapıldı ve sonuçlar karşılaştırıldı. Nitelikli bir karşılaştırma yapmak için literatürde bu tür karşılaştırmaların yapılmasında yaygın olarak kullanılan gerçek veri setlerinden yararlanıldı. Analiz sonuçlarına göre veri sayısı büyüdükçe kümeleme performansı hiyerarşik tekniklerde azalırken K-modes algoritmasında arttığı tespit edildi.
Özet (Çeviri)
Cluster analysis is a method used to find natural groups of objects. Given a data set the main goal is to produce a partition with high internal intra-cluster similarity and high inter-cluster dissimilaity. Clustering with numerical data is quite easy and there are many methods for them. But clustering of categorical data is more difficult than clustering of numerical data. There is not many methods for clustering of categorical data and there is no certain information about which one is best. According to the number of data and data sutructure each has advantages and limitations. Also variable number is important for good clustering results. In this thesis dealt with clustering of categorical data. Hierarchical clustering techniques which are single linkage, complete linkage, average linkage and partitional clustering technique which is K-modes algorithm were compared. Well known real data sets were used for quality comparison. According to the analysis results when the number of data set grows clustering performances are decreasing in single linkage, complete linkage, average linkage while K-modes algoritm?s is increasing.
Benzer Tezler
- PISA 2022 Türkiye örnekleminde bilgi ve iletişim teknolojisi kaynakları kullanımının okuma performansını yordama durumunun veri madenciliği teknikleriyle incelenmesi
Examining the predictive status of information and communication technology resources use on reading performance in PISA 2022 Turkey sample with data mining techniques
BARIŞ ŞAYBAK
Yüksek Lisans
Türkçe
2024
Eğitim ve ÖğretimBursa Uludağ ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
DOÇ. DR. SALİH BİRİŞÇİ
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Karma veriler üzerinde etkin kümeleme algoritmalarının geliştirilmesi
Development of effective clustering algorithms on mixed data
ELVIN NASIBOV
Doktora
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge ÜniversitesiMatematik Ana Bilim Dalı
DOÇ. DR. BURAK ORDİN
- Öğrenci başarısını kestirmede makine öğrenme algoritmalarına dayalı yeni bir sınıflandırma modeli
A new classification model based on machine learning algorithms to predict student success
ŞERAFETTİN KUZUCUK
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimAkdeniz ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
DOÇ. DR. BİLAL BARIŞ ALKAN
- Machine learning in solar energy utilization
Solar enerji kullanımında makine öğrenmesi
BURCU ORAL
Doktora
İngilizce
2023
Kimya MühendisliğiBoğaziçi ÜniversitesiKimya Mühendisliği Ana Bilim Dalı
PROF. DR. RAMAZAN YILDIRIM