Geri Dön

K- ortalamalar algoritması ile ileriye dönük modellemeler

Forecasting modellings based on K- means algorithm

  1. Tez No: 507198
  2. Yazar: KEMAL KOŞUTA
  3. Danışmanlar: PROF. DR. AYLA ŞAYLI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
  6. Anahtar Kelimeler: Kümeleme Analizi, K- Ortalamalar Algoritması, Dirsek Yöntemi, Kümeleme Değerlendirme Kriterleri, Cluster Analysis, K-Means Algorithm, Elbow Method, Cluster Validation Techniques
  7. Yıl: 2018
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Matematik Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 86

Özet

Çağımızdaki üretilen verilerin sayısı hızla artmaktadır ve sürekli artmaya devam edecektir. Makine öğrenmesi, popülerliği gün geçtikçe artmakta olan bir araştırma alanıdır. Makine öğrenmesi algoritmaları veriye dayalı modeller kurulmasına olanak sağlar. Elde edilen veriden faydalanıp değerli bilgilerin çıkarımı yapılması oldukça önemlidir. Bu alanın alt başlıkları ise genel olarak, denetimli öğrenme algoritmaları, kümeleme algoritmaları, birliktelik kuralları olarak adlandırılmıştır. Tez kapsamında kümeleme yöntemlerinden faydalanılacaktır. Yapılan çalışma ile veri kümesinin kaç kümeye ayrılması gerektiği ve daha sonra kümelenen veriler ile rezervasyon işlemleri için ne yapabileceğimiz belirlenecektir. Bu tezin amacı, kümeleme algoritmalarına ile ileriye dönük modellemeler gerçekleştirmektir. Kümeleme algoritmalarından hiyerarşik ve K - Ortalamalar algoritması üzerinde çalışılmıştır. Hiyerarşik kümelemede elde edilen sonuçlar ile uygun olmadığı anlaşıldığından çalışmanın devamı için K-Ortalamalar algoritması ile detaylı çalışılmasına karar verilmiştir. K-ortalamalar algoritması kullanılarak dinamik bir kümeleme yapılması sağlanmıştır. Aykırı değer analizi, veri dönüştürme, eksik gözlemleri doldurma gibi veri ön hazırlık aşamalarından sonra Gap istatistik değeri ve Elbow yöntemi ile veri kümesinin kaç kümeye ayrılması gerektiğine karar verilmiştir. Bu aşamada belirlenecek olan k değeri ilk aşamada geniş bir aralıkta tutulmaktadır. Yapılan uygulamada k değeri 2 ile 15 arasında seçilip, her bir k değeri için Gap İstatistik değeri ve Dirsek yöntemi hata terimi hesaplandıktan sonra, çizdirilen grafikler yardımıyla seçilmesi gereken doğru k değeri belirlenmiştir. Belirlenen değerler için K-Ortalamalar algoritması ile kümeleme yapılır. Bu yöntemlere göre belirlenen k değerlerinin farklı çıkması durumunda Davies - Bouldin, Dunn, Calinski – Harabasz, Wemmert Gancarski, ve Silhouette'nun kümeleme değerlendirme kriterleri ile bulunan k değerlerinden hangisinin daha doğru olduğu kesin olarak belirlenmiştir. Bu çalışma ile doğru k değerini belirleme yöntemleri ile kümeleme değerlendirme kriterleri birlikte kullanılıp, veri kümesini kaç kümeye ayırmak gerekir sorusuna cevap verilmiştir. Yapılan çalışma sonucu Turizm sektörü üzerinde, gerçek veriler kullanılarak on farklı modelleme gerçekleştirilmiştir. Elde edilen sonuçlar kıyaslanmıştır ve modellemelerden en kayda değer başarıya sahip olan belirlenmiştir.

Özet (Çeviri)

The number of collected data in our epoch is increasing rapidly and will continue to increase continuously. Machine learning, a research field that is growing popularity day by day. Machine learning algorithms allow for the build models based on the data. It is very important to take advantages of the data and to extract valuable knowledges. Sub-headings of this field are generally called supervised learning algorithms, clustering algorithms and association rules. We will use clustering algorithms within the thesis. The study will determine how many clusters should be separated and then what we can do with the clustered data for reservation processes. The purpose of this thesis is to realize reservation optimization with the prediction of the conversion rate based on clustering algorithms. Hierarchical and K- Means algorithms have been studied. Since it is understood that the results obtained from the hierarchical clustering are not appropriate, therefore it has been decided to study in detail by K-means algorithms for the continuation of the study. A dynamic clustering is also achieved by using the K-means algorithm. After the data preparation steps such as outlier analysis, data scaling, filling in missing observations, it was decided how many clusters of data should be separated by Gap statistic value and Elbow method. The k to be determined at this stage is kept in a wide range in the first stage. The true k value between 2 to 15 is selected by the plotted graphs is determined by the Gap statistic and the Elbow method. Their errors are calculated. After the determined values, the clustering is done by K-means algorithms. If the true k values determined by these methods are different, the k values found with the clustering validation criteria by Davies - Bouldin, Dunn, Calinski - Harabasz, Wemmert Gancarski and Silhouette are more precisely determined. In this study, the optimal k value determination methods and clustering evaluation criteria are used together, and the answer is given to how many clusters of data should be separated. A conclusion of the study, on the tourism sector, we work on ten forecasting models by the use of the real data for tourism company. The results from the forecasting models are found, compared and then the model with a remarkable success is obtained.

Benzer Tezler

  1. Spot 6 uydu görüntüleri üzerinde uzaktan algılama sınıflandırma yöntemleriyle orman arazisinde azalma tespiti

    Determination of forest area clearcutting on optical satellite imagery with classification techniques in remote sensing

    GÜLŞAH BAYHAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    İletişim Sistemleri Ana Bilim Dalı

    PROF. DR. SEDEF KENT PINAR

  2. Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini

    Forecasting the spread of covid-19 using deep learning and big data analytics methods

    CYLAS KIGANDA

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    PROF. DR. MUHAMMET ALİ AKCAYOL

  3. Akıllı kart verilerinin toplu ulaşım talebi analizinde değerlendirilmesi

    Evaluation of smart-card data in public transportation demand analysis

    OĞUZ KÖSE

    Yüksek Lisans

    Türkçe

    Türkçe

    2017

    İnşaat MühendisliğiBalıkesir Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    PROF. DR. TURGUT ÖZDEMİR

  4. Stok yönetimi için gri tahminleme ve sürü zekası esaslı bir karar verme metodolojisi önerisi

    Proposal of a decision making methodology for inventory management using particle swarm optimization and grey forecasting

    FATİH YİĞİT

    Doktora

    Türkçe

    Türkçe

    2019

    Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-Cerrahpaşa

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. ŞAKİR ESNAF

  5. Histopatolojik görüntülerin grafik işlemci kullanılarak bölütlenmesi

    Segmentation of histopathological images using graphics processing unit

    ERDAL YENİALP

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HABİL KALKAN