Geri Dön

Veri madenciliğinde kategorik veri analizi:teknoloji bağımlılığı üzerine bir uygulama

Categorical data analysis in data mining:an application on technology addiction

  1. Tez No: 806595
  2. Yazar: RAMAZAN PEHLİVAN
  3. Danışmanlar: PROF. DR. ÇİĞDEM ARICIGİL ÇİLAN
  4. Tez Türü: Doktora
  5. Konular: İstatistik, İşletme, Statistics, Business Administration
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: Türkçe
  9. Üniversite: İstanbul Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: İşletme Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 201

Özet

Günümüzün büyük ve karmaşık verileri kategorik verileri de içerdiğinden; sağlıklı bir veri analizi için Kategorik Veri Analizi'ne ihtiyaç vardır. Bu çalışmada ileri istatistik teknikler gerektiren Kategorik Veri Analiz yöntemleri ele alınmış bu yöntemler Veri Madenciliği'nde kategorik veri analizi için alternatif çözümler olarak önerilmiştir. Veri Madenciliği süreci, kategorik veri setlerine uygulanan ileri modeller, teorik altyapıları ve R programlama dilinde uygulamalarıyla detaylandırılarak kapsamlı bir çerçeve çizilmiştir. Ayrıca kategorik verilere uygun bir kısım Veri Madenciliği yöntemleri de karşılaştırmalı yorumlarıyla aktarılmıştır. Teknoloji Bağımlılığı üzerine örnek bir veri setinde; kategorik verilerde Faktör Analizi ile yapısal geçerlilik araştırılmış, kontenjans tablo analizleri ve bağımsızlık testleri ile değişkenler arasındaki ilişkiler yorumlanmıştır. Lojistik Regresyon Modeli açıklanarak, Çoklu Sıralı Lojistik Regresyon detaylandırılmıştır. Modelin kurulması, varsayımların testi, parametre tahminleri yapılmış ve sonuçları yorumlanmıştır. Gizli Sınıf Analizi'nde, gizli sınıf modelleri araştırılmış ve ulaşılan nihai modelde gizli sınıfların karakteristik özellikleri ve eş değişkenlerin modele etkisi incelenmiştir. Kümeleme Analizi'nde kategorik verilere uygun olan K-Modes algoritması ile kümeleme yapılmıştır. Kümelemede optimal küme sayısı için Gizli Sınıf Analizi (GSA) nin gizli sınıf sayısından yararlanılması önerilmiştir. Uyum Analizi ile kategorik bağımsız değişkenlerin aralarındaki ilişkiler araştırılmış ve birbirleri ile uyumu iki boyutlu haritalarla açıklanmıştır. Sonuçta kontenjans tablosu analizleri, Lojistik Regresyon ve Uyum Analizi sonuçlarının birbirleriyle; GSA ve Kümeleme sonuçlarının da birbirleri ile tam uyumlu olduğu görülmüştür. Bu çalışma, önemli Kategorik Veri Analiz yöntemlerinin R programındaki kodlarıyla uygulamalarını ortaya koyan; kategorik verilerde Veri Madenciliği'ne geniş bir perspektif sunan ve Kategorik Veri Analiz yöntemlerini birer Veri Madenciliği yöntemi olarak öneren bir çalışmadır.

Özet (Çeviri)

Considering the fact that modern day big and complex data includes categorical data; Categorical Data Analysis is needed for a healthy data analysis. In this study, Categorical Data Analysis methods that require advanced statistical techniques were discussed and these methods were suggested as alternative solutions for Categorical Data Analysis in Data Mining. A comprehensive framework was drawn by detailing the Data Mining process and advanced models applied to categorical data sets, with their theoretical infrastructure and applications in the R programming language. In addition, some Data Mining methods suitable for categorical data were also given with their comparative interpretations. In a sample data set on Technology Addiction; structural validity was investigated with Factor Analysis in categorical data, and the relationships among variables were interpreted with contingency table analyses and independence tests.The Logistic Regression Model was explained and the Multiordinal Logistic Regression was detailed. Establishment of the model, testing of assumptions, parameter estimations were made and the results were interpreted. In Latent Class Analysis (LCA), hidden class models were investigated and the characteristic features of hidden classes and the effects of covariates on the model were examined in the final model. In Cluster Analysis, clustering was performed with the K-Modes algorithm, that is suitable for categorical data. It was suggested to use the hidden class number of LCA for the optimal number of clusters in clustering.The correlations between the categorical independent variables were investigated with the Correspondence Analysis and their compatibility with each other was explained with two-dimensional maps. As a result, contingency tables analysis, Logistic Regression and Correspondence Analysis results were found to be fully compatible with each other, and so were LCA and Clustering results. This study reveals the applications of important Categorical Data Analysis methods with the codes in the R program; it is a study that offers a broad perspective to Data Mining in categorical data and proposes Categorical Data Analysis methods as Data Mining methods.

Benzer Tezler

  1. Veri madenciliğinde kümeleme analizi ve hibrit verilerin kümelenmesi üzerine bir algoritma

    Clustering analysis in data mining and an algorithm on clustering hybrid data

    OSMAN ÇÖREKCİ

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Matematik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AYLA ŞAYLI

  2. Categories document using naïve bayes

    Başlık çevirisi yok

    ASSALAH ABDULWAHAB NON

    Yüksek Lisans

    İngilizce

    İngilizce

    2020

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SEFER KURNAZ

  3. Advancing electronic commerce using data minnig benefits

    Başlık çevirisi yok

    MOHAMED AMRO HELAL

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilim ve TeknolojiAltınbaş Üniversitesi

    Bilişim Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYÇA KURNAZ TÜRKBEN

  4. Türkçe sosyal medya içeriklerinin analizi için sanal asistan tasarımı

    Virtual assistant design for analysis of Turkish social media contents

    MELTEM UZAVCI

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilim ve TeknolojiSakarya Üniversitesi

    Yönetim Bilişim Sistemleri Ana Bilim Dalı

    DOÇ. DR. HALİL İBRAHİM CEBECİ

  5. Türkiye'deki seçmen eğilimlerinin veri madenciliği yöntemleri ile belirlenmesi ve bir uygulama

    Determination of voting tendencies in Turkey through data mining methods and an application

    ALİ BAYIR

    Yüksek Lisans

    Türkçe

    Türkçe

    2016

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Üniversitesi

    Enformatik Ana Bilim Dalı

    PROF. DR. SEVİNÇ GÜLSEÇEN