Geri Dön

K-ortalamalar algoritmasına dayalı kümeleme analizi sistemi ve perakendecilik sektöründe uygulaması

Clustering analysis system based on K-means algorithm and its application in the retail sector

  1. Tez No: 515612
  2. Yazar: MERVE ÜSTÜNEL
  3. Danışmanlar: PROF. DR. AYLA ŞAYLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Veri Madenciliği, Kümeleme Analizi, K-Ortalamalar Algoritması, Elbow Metodu, Başlangıç Merkezlerin Seçimi, Kümeleme Değerlendirme Kriterleri, Data Mining, Clustering Analysis, K-Means Algorithm, Elbow Method, Selection of Initial Centers, Clustering Validation Criterions
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Matematik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 112

Özet

Gelişen ve değişen çevre koşulları, internetin küreselleşme derecesinin yükselmesi, farklı Ar-Ge (Araştırma Geliştirme) ve pazarlama yöntemleri ile rekabetin belirgin bir şekilde artması ve müşterileri memnun etmenin zorlaşması, veriden çıkarılacak bilginin önemini her geçen gün artırmaktadır. Bilginin bazı yöntemler kullanılarak analiz edilmesi ve elde edilen sonuçların konunun uzmanı tarafından yorumlanmasıyla geçmiş verilerden gelecek tahminleri yapma işlemi veri madenciliği (data mining) olarak belirtilebilir. Firmalar ve işletmeler için veri madenciliği, karar vericilerin karar vermelerini kolaylaştıran ve hızlı karar almasını sağlayan önemli ve stratejik bir araçtır. Verilerin benzer gruplara ayrılması, verilerin kümelenmesi, veri madenciliğindeki en temel tekniklerden biridir. Bu tez çalışmasında, hiyerarşik olmayan kümeleme yöntemlerinden biri olan K-Ortalamalar algoritmasından faydalanılarak müşteri satın alma davranışları analiz edilecektir. Kümelenen veriler ile hangi müşteri profilinin hangi markayı, hangi ürünü, ne zaman ve ne miktarda tercih ettiği belirlenecektir. Yapılan çalışmada amaç, müşteri tercihleri dikkate alınarak firma için hem talep yaratma, hem de doğru talebi doğru zamanda karşılama ve sunma gibi avantajların sağlanacağı bir sistem oluşturmak ve bu sistemden yararlanarak firma için veri analizi gerçekleştirmektir. Tez çalışması sırasında analiz için kullanılacak olan sistem Java dilinde geliştirilmiştir ve analiz sonuçları grafik ve tablo ile görselleştirilmiştir. Böylece, K-Ortalamalar algoritması için dinamik bir kümeleme analiz sistemi oluşturulmuştur. Analizde kullanılacak olan veri dosyası dünya perakende sektörü listesinde yer alan Migros Ticaret A.Ş. ye ait olup, gerçek verilerden oluşmaktadır. Veriler MS-SQL veri tabanında bir tabloda tutularak, tüm veri hazırlama işlemleri bu tablo üzerinde gerçekleştirilmiştir. Tez çalışmasından önce ilk olarak, aynı veri dosyası ile“Brand Loyalty Analysis System Using K-Means Algorithm”adlı müşterilerin marka bağımlılığını inceleyen bir makale üzerinde çalışılmıştır. Makale çalışmamızda, veri analiz için küme sayısı bir metoda bağlı olmaksızın tahmini olarak seçilmiştir. Ayrıca, başlangıç merkezlerin seçimi de rastgele gerçekleştirilmiştir. Sonuçlar; genel marka bağımlılığı, ürün bazında marka bağımlılığı ve kategori bazında marka bağımlılığı olarak üç farklı şekilde analiz edilmiştir ve uluslararası bir dergide yayınlanmıştır. Bununla birlikte veri analiz sistemi, tez çalışmasında kullanılmak üzere, küme sayısının seçiminde ve başlangıç merkezlerin seçiminde gereken bazı metotlar kullanılarak iyileştirilmiştir. Tez çalışmasında, değeri 2 ile 20 arasında seçilerek, her bir değeri için hata hesaplanmıştır ve veri dosyasının kaç kümeye ayrılması gerektiğine (optimal değerinin belirlenmesi) Elbow metodu kullanılarak karar verilmiştir. Belirlenen değeri için, başlangıç merkezlerin belirlenmesi amacıyla Maximin, Katsavounidis, PCA-Part, Var-Part ve K-Ortalamalar++ metotları kullanılmıştır. Optimal değerini belirleme yöntemi olarak seçilen Elbow metodu ile farklı başlangıç merkezleri seçiminin kümelemeye etkisi araştırılmıştır. Kümeleme sonuçları, kümeleme değerlendirme kriterleri olan Silhouette ve Calinski-Harabasz indeksleri kullanılarak değerlendirilmiştir ve sonuçlar firmaya sunulmuştur. Geliştirilen analiz sistemi, diğer firmalar ve işletmeler için de bir karar destek sistemi olarak kullanılabilir.

Özet (Çeviri)

Developing and changing environmental conditions, globalization of the internet, competition with different research and development activities and marketing methods, and difficulties in customers' satisfaction are increasing the importance of information obtained from data day by day. The analysis of the information using some methods, the interpretation of the obtained results by the subject matter experts and making future forecasts from historical data can be stated as data mining. Data mining for companies and businesses is an important and strategic tool that facilitates decision making and allows decision makers to make quick decisions. Separating of data into similar groups, clustering of data, is one of the most basic methods in data mining. In this thesis, customer buying behaviors will be analyzed using the K-Means algorithm which is one of the non-hierarchical clustering methods. With the clustered data, it will be determined which brand, which product, when and how much is preferred by different customer profiles. The aim of this thesis is to create a system that will provide advantages such as both creating demand and meeting the right demand at the right time considering the customer preferences, and also realize data analysis using this system for the company. The system to be used for the analysis during the thesis was developed in the Java language and the obtained results were visualized by graphics and tables. Thus, a dynamic clustering analysis system was established for the K-Means algorithm. The data file to be used in the analysis belongs to Migros Ticaret A.S. on the global powers of retailing and consists of actual data. The data were stored in a table in the MS-SQL database, and all data preparation operations were performed on this table. Before the thesis, an article reviewing the brand loyalty of the customers named“Brand Loyalty Analysis System Using K-Means Algorithm”with the same data file was studied first. In our article, the number of clusters for data analysis was estimated, regardless of a method. In addition, the selection of the initial centers was conducted randomly. The results that are general brand loyalty, brand loyalty based on item and brand loyalty based on category were published in an international journal. However, the analysis system has been improved by using some methods for selecting the number of clusters and selecting the initial centers. In this thesis, the error for each value is calculated by choosing values from 2 to 20, and how many clusters of the data should be separated (determining the optimal value) has been determined using the Elbow method. For the determined value; Maximin, Katsavounidis, PCA-Part, Var-Part and K-Means++ methods have been used to find the initial centers. With the Elbow method which is chosen as the method of determining the optimal value, the effect of cluster selection of different initial centers has been investigated. Clustering results have been evaluated using the Silhouette and Calinski-Harabasz criterions and were presented to the company. The developed analysis system can also be used as a decision support system for other companies and businesses.

Benzer Tezler

  1. Çokboyutlu veritabanlarında kümeleme yöntemleri.

    Çokboyutlu veritabanlarında kümeleme yöntemleri.

    ELVİN NASIBOV

    Yüksek Lisans

    Türkçe

    Türkçe

    2012

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. BURAK ORDİN

  2. Bulanık veri madenciliği ve sermaye piyasalarına uygulanması

    Fuzzy data mining and its application to capital markets

    ALİ SERHAN KOYUNCUGİL

    Doktora

    Türkçe

    Türkçe

    2006

    İstatistikAnkara Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF.DR. ÖMER GEBİZLİOĞLU

  3. Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

    Forecasting the spread of covid-19 using deep learning and big data analytics methods

    CYLAS KIGANDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  4. Wide-area measurement-based early prediction and corrective control for transient stability in power systems

    Güç sistemlerinde geçici hal kararlılığı için geniş alan ölçümlerine dayalı erken kestirim ve düzeltici kontrol

    MOHAMMED S.M. MAHDI

    Doktora

    İngilizce

    İngilizce

    2018

    Elektrik ve Elektronik Mühendisliğiİstanbul Teknik Üniversitesi

    Elektrik Mühendisliği Ana Bilim Dalı

    DOÇ. DR. VEYSEL MURAT İSTEMİHAN GENÇ

  5. Bulanık C- ortalamalar ve EM algoritması kullanarak bulanık kümeleme analizi

    Fuzzy Culustering analysis using Fuzzy K-Means and EM algorithm

    MOHAMMED I. S. SOBOH

    Doktora

    Türkçe

    Türkçe

    2022

    İstatistikEskişehir Osmangazi Üniversitesi

    İstatistik Ana Bilim Dalı

    PROF. DR. ZEKİ YILDIZ