Geri Dön

Anket verilerinin analizinde makine öğrenmesi modellerinin kullanımı

Use of machine learning models in analyzing survey data

  1. Tez No: 951797
  2. Yazar: MERİÇ HACIOĞLU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ İBRAHİM ZOR
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, İstatistik, Computer Engineering and Computer Science and Control, Statistics
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Hacettepe Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: İstatistik Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 119

Özet

Bu tez çalışmasında, anket verilerinin analizinde makine öğrenmesi yöntemlerinin uygulanabilirliği incelenmiştir. Çevrim içi yemek siparişi alışkanlıklarını içeren 385 gözlemli veri seti üzerinden sınıflama, kümeleme ve boyut indirgeme tekniklerinin başarımı değerlendirilmiştir. İlk olarak boyut indirgeme amacıyla Çoklu Uyum Analizi (Multiple Correspondence Analysis, MCA), Faktör Analizi, Otokodlayıcı (Autoencoder) ve Eş Dağılımlı Manifold Yakınsaması ve İzdüşümü (Uniform Manifold Approximation and Projection, UMAP) yöntemleri uygulanmış; ardından bu çıktılarla K-Ortalamalar (K-means), Hiyerarşik Kümeleme, Gauss Karma Modelleri (Gaussian Mixture Models, GMM) ve Gürültülü Uygulamaların Yoğunluk Tabanlı Uzamsal Kümelenmesi (Density-Based Spatial Clustering of Applications with Noise, DBSCAN) algoritmaları kullanılarak kümeler oluşturulmuştur. MCA + K-Ortalamalar yaklaşımı en yüksek Silhouette skoru ile öne çıkmış, kullanıcılar üç anlamlı profile ayrılmıştır. Sınıflama analizi kapsamında demografik bilgiler ve katılımcıların sipariş verme durumunu etkileyen çoğunluğu 5'li likert ölçekli sorular bağımsız değişkenler olarak ele alınarak çevrimiçi yemek siparişi verme durumu (Evet, Hayır) tahmin edilmiştir. Veri ön işleme ve dönüştürme adımlarının ardından Rastgele Orman, Aşırı Gradyan Arttırma (Extreme Gradient Boosting, XGBoost), Kategori Arttırma (Category Boosting, CatBoost), Gradyan Arttırma Makinesi (Gradient Boosting Machine, GBM) ve Lojistik Regresyon algoritmaları ile sınıflama analizleri gerçekleştirilmiş; modeller, 10 katlı çapraz doğrulama ve ızgara araması (Grid Search) yöntemi ile optimize edilmiştir. En başarılı sonuç, %94 doğruluk ve %91,88 F1 skoru ile Rastgele Orman modeli ile elde edilmiştir. Ancak MCA ile boyut indirgeme yapıldığında kategorik ve çok değişkenli veri setlerinde MCA'nın hem sınıflama başarısını hem de işlem verimliliğini artırabileceği görülmektedir. Araştırmada ayrıca metin türünde geri bildirimler analiz edilmiştir. Gizli Dirichlet Ayrıştırması (Latent Dirichlet Allocation, LDA) konu modellemesiyle“teslimat süreci”ve“ürün kalitesi”gibi ana temalar belirlenmiş, python dilinde yazılmış TextBlob kütüphanesi ile yapılan duygu analizinde yorumların %51'inin olumlu, %21'inin olumsuz olduğu tespit edilmiştir. Elde edilen bulgular, makine öğrenmesi algoritmalarının anket verilerinde sadece tahmin değil, keşifsel analizlerde de önemli olduğunu göstermektedir. Ayrıca bu çalışma, makine öğrenmesi modellerinin geleneksel istatistiksel yöntemlerle birlikte kullanıldığında daha güçlü analiz imkânı sağladığını ortaya koymuştur.

Özet (Çeviri)

In this thesis study, the applicability of machine learning methods in the analysis of survey data was examined. A dataset consisting of 385 observations related to online food ordering habits was used to evaluate the performance of classification, clustering, and dimensionality reduction techniques. First, for dimensionality reduction, Multiple Correspondence Analysis (MCA), Factor Analysis, Autoencoder, and Uniform Manifold Approximation and Projection (UMAP) were applied. Based on the outputs of these methods, clustering algorithms such as K-Means, Hierarchical Clustering, Gaussian Mixture Models (GMM), and Density-Based Spatial Clustering of Applications with Noise (DBSCAN) were employed. The MCA + K-Means approach yielded the highest Silhouette score and successfully identified three meaningful user profiles. In the classification analysis, demographic variables and responses (mostly 5-point Likert scale items) related to factors influencing participants' food ordering behavior were used as independent variables to predict the binary outcome of online food ordering behavior (Yes or No). After data preprocessing and transformation, classification was conducted using Random Forest, Extreme Gradient Boosting (XGBoost), Category Boosting (CatBoost), Gradient Boosting Machine (GBM), and Logistic Regression algorithms. The models were optimized using 10-fold cross-validation and Grid Search. The best performance was achieved by the Random Forest model, with 94% accuracy and an F1 score of 91.88%. Moreover, when dimensionality reduction was performed using MCA, it was observed that MCA could enhance both classification accuracy and computational efficiency in categorical and multivariate datasets. Additionally, text-based feedback was analyzed in the study. Topic modeling with Latent Dirichlet Allocation (LDA) revealed key themes such as“delivery process”and“product quality.”Sentiment analysis conducted with the TextBlob library in Python indicated that 51% of the comments were positive, while 21% were negative. The findings suggest that machine learning algorithms are valuable not only for prediction but also for exploratory analysis in survey data. Furthermore, this study demonstrates that combining machine learning models with traditional statistical methods can lead to more robust and insightful analyses.

Benzer Tezler

  1. Prediction of COVID 19 disease using chest X-ray images based on deep learning

    Derin öğrenmeye dayalı göğüs röntgen görüntüleri kullanarak COVID 19 hastalığının tahmini

    ISMAEL ABDULLAH MOHAMMED AL-RAWE

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. ADEM TEKEREK

  2. Yatılı bölge okulunda okuyan öğrencilerin umut düzeyleri ile akademik özgüven düzeyleri arasındaki ilişki

    The relationship between hope levels and academic self-confidence levels of students in regional boarding school

    CELALETTİN AKUŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Eğitim ve ÖğretimÇanakkale Onsekiz Mart Üniversitesi

    Temel Eğitim Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BERFU KIZILASLAN TUNÇER

  3. Tüketicilerin karar verme tarzları, güdülenmiş tüketici yenilikçiliği ve algılanan riskin satın almaya etkisi (spor malzemelerine yönelik bir araştırma)

    The decision making styles of consumer, motivated consumer innovation and the effect of perceived risk on purchasing (a research on sporting goods)

    BERNA CAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    SporNiğde Ömer Halisdemir Üniversitesi

    Beden Eğitimi ve Spor Ana Bilim Dalı

    DOÇ. DR. ERCAN POLAT

  4. Makine öğrenmesi yöntemleri ile el ve yüz analizi tahminlemesi

    Hand and face analysis prediction with machine learning methods

    HÜSNEİREM KAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ KAYHAN AYAR

  5. Meslek lisesi bilişim teknolojileri öğretmenlerinin yapay zekâ ve makine öğrenmesi dersine yönelik eğilimlerinin belirlenmesi

    Determining the tendency of vocational high school information technologies teachers towards artificial intelligence and machine learning course

    ONUR KARAHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Eğitim ve ÖğretimGazi Üniversitesi

    Bilgisayar ve Öğretim Teknolojileri Eğitimi Ana Bilim Dalı

    PROF. DR. SELÇUK ÖZDEMİR