Geri Dön

Kategorik veri analizinde kullanılan algoritmaların performanslarının karşılaştırılması üzerine bir çalışma

A study comparing performances used algorithms in categorical data analysis

  1. Tez No: 342827
  2. Yazar: FERHAN BAŞ
  3. Danışmanlar: PROF. DR. SEMRA ORAL ERBAŞ
  4. Tez Türü: Yüksek Lisans
  5. Konular: İstatistik, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2013
  8. Dil: Türkçe
  9. Üniversite: Gazi Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 68

Özet

Kümeleme analizi nesnelerin doğal gruplarını bulmak için kullanılan bir yöntemdir. Kümeleme yapılırken küme içi homojenlik ile kümeler arası heterojenliğin yüksek olması istenir. Sayısal verilerle kümeleme yapmak oldukça kolaydır ve sayısal verileri kümeleyen birçok yöntem vardır. Fakat kategorik veriler ile çalışmak sayısal verilerde olduğu kadar kolay değildir. Kategorik verileri kümelemek için çok fazla yöntem yoktur ve var olanların hangisinin en iyi olduğu ile ilgili kesin bir bilgi bulunmamaktadır. Veri sayısına ve veri yapısına göre her bir yöntemin birbirine üstünlükleri ve eksiklikleri vardır. Ayrıca iyi bir kümeleme yapmak için kullanılacak değişken sayısı büyük önem taşımaktadır. Bu çalışmada kategorik verilerin kümelenmesi ile ilgilenildi. Hiyerarşik kümeleme tekniklerinden tek bağlantı tekniği, tam bağlantı tekniği, ortalama bağlantı tekniği ve bölmeli kümeleme tekniklerinden K-modes algoritması kullanılarak kümeleme analizi yapıldı ve sonuçlar karşılaştırıldı. Nitelikli bir karşılaştırma yapmak için literatürde bu tür karşılaştırmaların yapılmasında yaygın olarak kullanılan gerçek veri setlerinden yararlanıldı. Analiz sonuçlarına göre veri sayısı büyüdükçe kümeleme performansı hiyerarşik tekniklerde azalırken K-modes algoritmasında arttığı tespit edildi.

Özet (Çeviri)

Cluster analysis is a method used to find natural groups of objects. Given a data set the main goal is to produce a partition with high internal intra-cluster similarity and high inter-cluster dissimilaity. Clustering with numerical data is quite easy and there are many methods for them. But clustering of categorical data is more difficult than clustering of numerical data. There is not many methods for clustering of categorical data and there is no certain information about which one is best. According to the number of data and data sutructure each has advantages and limitations. Also variable number is important for good clustering results. In this thesis dealt with clustering of categorical data. Hierarchical clustering techniques which are single linkage, complete linkage, average linkage and partitional clustering technique which is K-modes algorithm were compared. Well known real data sets were used for quality comparison. According to the analysis results when the number of data set grows clustering performances are decreasing in single linkage, complete linkage, average linkage while K-modes algoritm?s is increasing.

Benzer Tezler

  1. PISA 2022 Türkiye örnekleminde bilgi ve iletişim teknolojisi kaynakları kullanımının okuma performansını yordama durumunun veri madenciliği teknikleriyle incelenmesi

    Examining the predictive status of information and communication technology resources use on reading performance in PISA 2022 Turkey sample with data mining techniques

    BARIŞ ŞAYBAK

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Eğitim ve ÖğretimBursa Uludağ Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    DOÇ. DR. SALİH BİRİŞÇİ

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. Karma veriler üzerinde etkin kümeleme algoritmalarının geliştirilmesi

    Development of effective clustering algorithms on mixed data

    ELVIN NASIBOV

    Doktora

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Matematik Ana Bilim Dalı

    DOÇ. DR. BURAK ORDİN

  4. Öğrenci başarısını kestirmede makine öğrenme algoritmalarına dayalı yeni bir sınıflandırma modeli

    A new classification model based on machine learning algorithms to predict student success

    ŞERAFETTİN KUZUCUK

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimAkdeniz Üniversitesi

    Eğitim Bilimleri Ana Bilim Dalı

    DOÇ. DR. BİLAL BARIŞ ALKAN

  5. Machine learning in solar energy utilization

    Solar enerji kullanımında makine öğrenmesi

    BURCU ORAL

    Doktora

    İngilizce

    İngilizce

    2023

    Kimya MühendisliğiBoğaziçi Üniversitesi

    Kimya Mühendisliği Ana Bilim Dalı

    PROF. DR. RAMAZAN YILDIRIM