Anket verilerinin analizinde makine öğrenmesi modellerinin kullanımı
Use of machine learning models in analyzing survey data
- Tez No: 951797
- Danışmanlar: DR. ÖĞR. ÜYESİ İBRAHİM ZOR
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, İstatistik, Computer Engineering and Computer Science and Control, Statistics
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Hacettepe Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: İstatistik Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 119
Özet
Bu tez çalışmasında, anket verilerinin analizinde makine öğrenmesi yöntemlerinin uygulanabilirliği incelenmiştir. Çevrim içi yemek siparişi alışkanlıklarını içeren 385 gözlemli veri seti üzerinden sınıflama, kümeleme ve boyut indirgeme tekniklerinin başarımı değerlendirilmiştir. İlk olarak boyut indirgeme amacıyla Çoklu Uyum Analizi (Multiple Correspondence Analysis, MCA), Faktör Analizi, Otokodlayıcı (Autoencoder) ve Eş Dağılımlı Manifold Yakınsaması ve İzdüşümü (Uniform Manifold Approximation and Projection, UMAP) yöntemleri uygulanmış; ardından bu çıktılarla K-Ortalamalar (K-means), Hiyerarşik Kümeleme, Gauss Karma Modelleri (Gaussian Mixture Models, GMM) ve Gürültülü Uygulamaların Yoğunluk Tabanlı Uzamsal Kümelenmesi (Density-Based Spatial Clustering of Applications with Noise, DBSCAN) algoritmaları kullanılarak kümeler oluşturulmuştur. MCA + K-Ortalamalar yaklaşımı en yüksek Silhouette skoru ile öne çıkmış, kullanıcılar üç anlamlı profile ayrılmıştır. Sınıflama analizi kapsamında demografik bilgiler ve katılımcıların sipariş verme durumunu etkileyen çoğunluğu 5'li likert ölçekli sorular bağımsız değişkenler olarak ele alınarak çevrimiçi yemek siparişi verme durumu (Evet, Hayır) tahmin edilmiştir. Veri ön işleme ve dönüştürme adımlarının ardından Rastgele Orman, Aşırı Gradyan Arttırma (Extreme Gradient Boosting, XGBoost), Kategori Arttırma (Category Boosting, CatBoost), Gradyan Arttırma Makinesi (Gradient Boosting Machine, GBM) ve Lojistik Regresyon algoritmaları ile sınıflama analizleri gerçekleştirilmiş; modeller, 10 katlı çapraz doğrulama ve ızgara araması (Grid Search) yöntemi ile optimize edilmiştir. En başarılı sonuç, %94 doğruluk ve %91,88 F1 skoru ile Rastgele Orman modeli ile elde edilmiştir. Ancak MCA ile boyut indirgeme yapıldığında kategorik ve çok değişkenli veri setlerinde MCA'nın hem sınıflama başarısını hem de işlem verimliliğini artırabileceği görülmektedir. Araştırmada ayrıca metin türünde geri bildirimler analiz edilmiştir. Gizli Dirichlet Ayrıştırması (Latent Dirichlet Allocation, LDA) konu modellemesiyle“teslimat süreci”ve“ürün kalitesi”gibi ana temalar belirlenmiş, python dilinde yazılmış TextBlob kütüphanesi ile yapılan duygu analizinde yorumların %51'inin olumlu, %21'inin olumsuz olduğu tespit edilmiştir. Elde edilen bulgular, makine öğrenmesi algoritmalarının anket verilerinde sadece tahmin değil, keşifsel analizlerde de önemli olduğunu göstermektedir. Ayrıca bu çalışma, makine öğrenmesi modellerinin geleneksel istatistiksel yöntemlerle birlikte kullanıldığında daha güçlü analiz imkânı sağladığını ortaya koymuştur.
Özet (Çeviri)
In this thesis study, the applicability of machine learning methods in the analysis of survey data was examined. A dataset consisting of 385 observations related to online food ordering habits was used to evaluate the performance of classification, clustering, and dimensionality reduction techniques. First, for dimensionality reduction, Multiple Correspondence Analysis (MCA), Factor Analysis, Autoencoder, and Uniform Manifold Approximation and Projection (UMAP) were applied. Based on the outputs of these methods, clustering algorithms such as K-Means, Hierarchical Clustering, Gaussian Mixture Models (GMM), and Density-Based Spatial Clustering of Applications with Noise (DBSCAN) were employed. The MCA + K-Means approach yielded the highest Silhouette score and successfully identified three meaningful user profiles. In the classification analysis, demographic variables and responses (mostly 5-point Likert scale items) related to factors influencing participants' food ordering behavior were used as independent variables to predict the binary outcome of online food ordering behavior (Yes or No). After data preprocessing and transformation, classification was conducted using Random Forest, Extreme Gradient Boosting (XGBoost), Category Boosting (CatBoost), Gradient Boosting Machine (GBM), and Logistic Regression algorithms. The models were optimized using 10-fold cross-validation and Grid Search. The best performance was achieved by the Random Forest model, with 94% accuracy and an F1 score of 91.88%. Moreover, when dimensionality reduction was performed using MCA, it was observed that MCA could enhance both classification accuracy and computational efficiency in categorical and multivariate datasets. Additionally, text-based feedback was analyzed in the study. Topic modeling with Latent Dirichlet Allocation (LDA) revealed key themes such as“delivery process”and“product quality.”Sentiment analysis conducted with the TextBlob library in Python indicated that 51% of the comments were positive, while 21% were negative. The findings suggest that machine learning algorithms are valuable not only for prediction but also for exploratory analysis in survey data. Furthermore, this study demonstrates that combining machine learning models with traditional statistical methods can lead to more robust and insightful analyses.
Benzer Tezler
- Prediction of COVID 19 disease using chest X-ray images based on deep learning
Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini
ISMAEL ABDULLAH MOHAMMED AL-RAWE
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ADEM TEKEREK
- Yatılı bölge okulunda okuyan öğrencilerin umut düzeyleri ile akademik özgüven düzeyleri arasındaki ilişki
The relationship between hope levels and academic self-confidence levels of students in regional boarding school
CELALETTİN AKUŞ
Yüksek Lisans
Türkçe
2022
Eğitim ve ÖğretimÇanakkale Onsekiz Mart ÜniversitesiTemel Eğitim Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BERFU KIZILASLAN TUNÇER
- Tüketicilerin karar verme tarzları, güdülenmiş tüketici yenilikçiliği ve algılanan riskin satın almaya etkisi (spor malzemelerine yönelik bir araştırma)
The decision making styles of consumer, motivated consumer innovation and the effect of perceived risk on purchasing (a research on sporting goods)
BERNA CAN
Yüksek Lisans
Türkçe
2020
SporNiğde Ömer Halisdemir ÜniversitesiBeden Eğitimi ve Spor Ana Bilim Dalı
DOÇ. DR. ERCAN POLAT
- Makine öğrenmesi yöntemleri ile el ve yüz analizi tahminlemesi
Hand and face analysis prediction with machine learning methods
HÜSNEİREM KAYA
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KAYHAN AYAR
- Meslek lisesi bilişim teknolojileri öğretmenlerinin yapay zekâ ve makine öğrenmesi dersine yönelik eğilimlerinin belirlenmesi
Determining the tendency of vocational high school information technologies teachers towards artificial intelligence and machine learning course
ONUR KARAHAN
Yüksek Lisans
Türkçe
2023
Eğitim ve ÖğretimGazi ÜniversitesiBilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı
PROF. DR. SELÇUK ÖZDEMİR