Veri madenciliğinde kategorik veri analizi:teknoloji bağımlılığı üzerine bir uygulama
Categorical data analysis in data mining:an application on technology addiction
- Tez No: 806595
- Danışmanlar: PROF. DR. ÇİĞDEM ARICIGİL ÇİLAN
- Tez Türü: Doktora
- Konular: İstatistik, İşletme, Statistics, Business Administration
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: Türkçe
- Üniversite: İstanbul Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: İşletme Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 201
Özet
Günümüzün büyük ve karmaşık verileri kategorik verileri de içerdiğinden; sağlıklı bir veri analizi için Kategorik Veri Analizi'ne ihtiyaç vardır. Bu çalışmada ileri istatistik teknikler gerektiren Kategorik Veri Analiz yöntemleri ele alınmış bu yöntemler Veri Madenciliği'nde kategorik veri analizi için alternatif çözümler olarak önerilmiştir. Veri Madenciliği süreci, kategorik veri setlerine uygulanan ileri modeller, teorik altyapıları ve R programlama dilinde uygulamalarıyla detaylandırılarak kapsamlı bir çerçeve çizilmiştir. Ayrıca kategorik verilere uygun bir kısım Veri Madenciliği yöntemleri de karşılaştırmalı yorumlarıyla aktarılmıştır. Teknoloji Bağımlılığı üzerine örnek bir veri setinde; kategorik verilerde Faktör Analizi ile yapısal geçerlilik araştırılmış, kontenjans tablo analizleri ve bağımsızlık testleri ile değişkenler arasındaki ilişkiler yorumlanmıştır. Lojistik Regresyon Modeli açıklanarak, Çoklu Sıralı Lojistik Regresyon detaylandırılmıştır. Modelin kurulması, varsayımların testi, parametre tahminleri yapılmış ve sonuçları yorumlanmıştır. Gizli Sınıf Analizi'nde, gizli sınıf modelleri araştırılmış ve ulaşılan nihai modelde gizli sınıfların karakteristik özellikleri ve eş değişkenlerin modele etkisi incelenmiştir. Kümeleme Analizi'nde kategorik verilere uygun olan K-Modes algoritması ile kümeleme yapılmıştır. Kümelemede optimal küme sayısı için Gizli Sınıf Analizi (GSA) nin gizli sınıf sayısından yararlanılması önerilmiştir. Uyum Analizi ile kategorik bağımsız değişkenlerin aralarındaki ilişkiler araştırılmış ve birbirleri ile uyumu iki boyutlu haritalarla açıklanmıştır. Sonuçta kontenjans tablosu analizleri, Lojistik Regresyon ve Uyum Analizi sonuçlarının birbirleriyle; GSA ve Kümeleme sonuçlarının da birbirleri ile tam uyumlu olduğu görülmüştür. Bu çalışma, önemli Kategorik Veri Analiz yöntemlerinin R programındaki kodlarıyla uygulamalarını ortaya koyan; kategorik verilerde Veri Madenciliği'ne geniş bir perspektif sunan ve Kategorik Veri Analiz yöntemlerini birer Veri Madenciliği yöntemi olarak öneren bir çalışmadır.
Özet (Çeviri)
Considering the fact that modern day big and complex data includes categorical data; Categorical Data Analysis is needed for a healthy data analysis. In this study, Categorical Data Analysis methods that require advanced statistical techniques were discussed and these methods were suggested as alternative solutions for Categorical Data Analysis in Data Mining. A comprehensive framework was drawn by detailing the Data Mining process and advanced models applied to categorical data sets, with their theoretical infrastructure and applications in the R programming language. In addition, some Data Mining methods suitable for categorical data were also given with their comparative interpretations. In a sample data set on Technology Addiction; structural validity was investigated with Factor Analysis in categorical data, and the relationships among variables were interpreted with contingency table analyses and independence tests.The Logistic Regression Model was explained and the Multiordinal Logistic Regression was detailed. Establishment of the model, testing of assumptions, parameter estimations were made and the results were interpreted. In Latent Class Analysis (LCA), hidden class models were investigated and the characteristic features of hidden classes and the effects of covariates on the model were examined in the final model. In Cluster Analysis, clustering was performed with the K-Modes algorithm, that is suitable for categorical data. It was suggested to use the hidden class number of LCA for the optimal number of clusters in clustering.The correlations between the categorical independent variables were investigated with the Correspondence Analysis and their compatibility with each other was explained with two-dimensional maps. As a result, contingency tables analysis, Logistic Regression and Correspondence Analysis results were found to be fully compatible with each other, and so were LCA and Clustering results. This study reveals the applications of important Categorical Data Analysis methods with the codes in the R program; it is a study that offers a broad perspective to Data Mining in categorical data and proposes Categorical Data Analysis methods as Data Mining methods.
Benzer Tezler
- Veri madenciliğinde kümeleme analizi ve hibrit verilerin kümelenmesi üzerine bir algoritma
Clustering analysis in data mining and an algorithm on clustering hybrid data
OSMAN ÇÖREKCİ
Yüksek Lisans
Türkçe
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiMatematik Mühendisliği Ana Bilim Dalı
DOÇ. DR. AYLA ŞAYLI
- Categories document using naïve bayes
Başlık çevirisi yok
ASSALAH ABDULWAHAB NON
Yüksek Lisans
İngilizce
2020
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiBilgi Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SEFER KURNAZ
- Advancing electronic commerce using data minnig benefits
Başlık çevirisi yok
MOHAMED AMRO HELAL
Yüksek Lisans
İngilizce
2023
Bilim ve TeknolojiAltınbaş ÜniversitesiBilişim Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYÇA KURNAZ TÜRKBEN
- Türkçe sosyal medya içeriklerinin analizi için sanal asistan tasarımı
Virtual assistant design for analysis of Turkish social media contents
MELTEM UZAVCI
Yüksek Lisans
Türkçe
2022
Bilim ve TeknolojiSakarya ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DOÇ. DR. HALİL İBRAHİM CEBECİ
- Türkiye'deki seçmen eğilimlerinin veri madenciliği yöntemleri ile belirlenmesi ve bir uygulama
Determination of voting tendencies in Turkey through data mining methods and an application
ALİ BAYIR
Yüksek Lisans
Türkçe
2016
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul ÜniversitesiEnformatik Ana Bilim Dalı
PROF. DR. SEVİNÇ GÜLSEÇEN