K- ortalamalar algoritması ile ileriye dönük modellemeler

Forecasting modellings based on K- means algorithm

PDF İndir

Tez No: 507198
Yazar: KEMAL KOŞUTA
Danışmanlar: PROF. DR. AYLA ŞAYLI
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
Anahtar Kelimeler: Kümeleme Analizi, K- Ortalamalar Algoritması, Dirsek Yöntemi, Kümeleme Değerlendirme Kriterleri, Cluster Analysis, K-Means Algorithm, Elbow Method, Cluster Validation Techniques
Yıl: 2018
Dil: Türkçe
Üniversite: Yıldız Teknik Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
Bilim Dalı: Matematik Mühendisliği Bilim Dalı
Sayfa Sayısı: 86

Özet

Çağımızdaki üretilen verilerin sayısı hızla artmaktadır ve sürekli artmaya devam edecektir. Makine öğrenmesi, popülerliği gün geçtikçe artmakta olan bir araştırma alanıdır. Makine öğrenmesi algoritmaları veriye dayalı modeller kurulmasına olanak sağlar. Elde edilen veriden faydalanıp değerli bilgilerin çıkarımı yapılması oldukça önemlidir. Bu alanın alt başlıkları ise genel olarak, denetimli öğrenme algoritmaları, kümeleme algoritmaları, birliktelik kuralları olarak adlandırılmıştır. Tez kapsamında kümeleme yöntemlerinden faydalanılacaktır. Yapılan çalışma ile veri kümesinin kaç kümeye ayrılması gerektiği ve daha sonra kümelenen veriler ile rezervasyon işlemleri için ne yapabileceğimiz belirlenecektir. Bu tezin amacı, kümeleme algoritmalarına ile ileriye dönük modellemeler gerçekleştirmektir. Kümeleme algoritmalarından hiyerarşik ve K - Ortalamalar algoritması üzerinde çalışılmıştır. Hiyerarşik kümelemede elde edilen sonuçlar ile uygun olmadığı anlaşıldığından çalışmanın devamı için K-Ortalamalar algoritması ile detaylı çalışılmasına karar verilmiştir. K-ortalamalar algoritması kullanılarak dinamik bir kümeleme yapılması sağlanmıştır. Aykırı değer analizi, veri dönüştürme, eksik gözlemleri doldurma gibi veri ön hazırlık aşamalarından sonra Gap istatistik değeri ve Elbow yöntemi ile veri kümesinin kaç kümeye ayrılması gerektiğine karar verilmiştir. Bu aşamada belirlenecek olan k değeri ilk aşamada geniş bir aralıkta tutulmaktadır. Yapılan uygulamada k değeri 2 ile 15 arasında seçilip, her bir k değeri için Gap İstatistik değeri ve Dirsek yöntemi hata terimi hesaplandıktan sonra, çizdirilen grafikler yardımıyla seçilmesi gereken doğru k değeri belirlenmiştir. Belirlenen değerler için K-Ortalamalar algoritması ile kümeleme yapılır. Bu yöntemlere göre belirlenen k değerlerinin farklı çıkması durumunda Davies - Bouldin, Dunn, Calinski – Harabasz, Wemmert Gancarski, ve Silhouette'nun kümeleme değerlendirme kriterleri ile bulunan k değerlerinden hangisinin daha doğru olduğu kesin olarak belirlenmiştir. Bu çalışma ile doğru k değerini belirleme yöntemleri ile kümeleme değerlendirme kriterleri birlikte kullanılıp, veri kümesini kaç kümeye ayırmak gerekir sorusuna cevap verilmiştir. Yapılan çalışma sonucu Turizm sektörü üzerinde, gerçek veriler kullanılarak on farklı modelleme gerçekleştirilmiştir. Elde edilen sonuçlar kıyaslanmıştır ve modellemelerden en kayda değer başarıya sahip olan belirlenmiştir.

Özet (Çeviri)

The number of collected data in our epoch is increasing rapidly and will continue to increase continuously. Machine learning, a research field that is growing popularity day by day. Machine learning algorithms allow for the build models based on the data. It is very important to take advantages of the data and to extract valuable knowledges. Sub-headings of this field are generally called supervised learning algorithms, clustering algorithms and association rules. We will use clustering algorithms within the thesis. The study will determine how many clusters should be separated and then what we can do with the clustered data for reservation processes. The purpose of this thesis is to realize reservation optimization with the prediction of the conversion rate based on clustering algorithms. Hierarchical and K- Means algorithms have been studied. Since it is understood that the results obtained from the hierarchical clustering are not appropriate, therefore it has been decided to study in detail by K-means algorithms for the continuation of the study. A dynamic clustering is also achieved by using the K-means algorithm. After the data preparation steps such as outlier analysis, data scaling, filling in missing observations, it was decided how many clusters of data should be separated by Gap statistic value and Elbow method. The k to be determined at this stage is kept in a wide range in the first stage. The true k value between 2 to 15 is selected by the plotted graphs is determined by the Gap statistic and the Elbow method. Their errors are calculated. After the determined values, the clustering is done by K-means algorithms. If the true k values determined by these methods are different, the k values found with the clustering validation criteria by Davies - Bouldin, Dunn, Calinski - Harabasz, Wemmert Gancarski and Silhouette are more precisely determined. In this study, the optimal k value determination methods and clustering evaluation criteria are used together, and the answer is given to how many clusters of data should be separated. A conclusion of the study, on the tourism sector, we work on ten forecasting models by the use of the real data for tourism company. The results from the forecasting models are found, compared and then the model with a remarkable success is obtained.

Benzer Tezler

Tez No
392929
Spot 6 uydu görüntüleri üzerinde uzaktan algılama sınıflandırma yöntemleriyle orman arazisinde azalma tespiti
Determination of forest area clearcutting on optical satellite imagery with classification techniques in remote sensing
GÜLŞAH BAYHAN
Yüksek Lisans
Türkçe
2015
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
İletişim Sistemleri Ana Bilim Dalı
PROF. DR. SEDEF KENT PINAR
Tez No
827860
Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Gazi Üniversitesi
Bilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
Tez No
501472
Akıllı kart verilerinin toplu ulaşım talebi analizinde değerlendirilmesi
Evaluation of smart-card data in public transportation demand analysis
OĞUZ KÖSE
Yüksek Lisans
Türkçe
2017
İnşaat Mühendisliği Balıkesir Üniversitesi
İnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. TURGUT ÖZDEMİR
Tez No
944874
Multi-agent planning with automated curriculum learning
Otomatik müfredat öğrenmesi ile çoklu ajan planlaması
ONUR AKGÜN
Doktora
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Mekatronik Mühendisliği Ana Bilim Dalı
DOÇ. DR. NAZIM KEMAL ÜRE
Tez No
586015
Stok yönetimi için gri tahminleme ve sürü zekası esaslı bir karar verme metodolojisi önerisi
Proposal of a decision making methodology for inventory management using particle swarm optimization and grey forecasting
FATİH YİĞİT
Doktora
Türkçe
2019
Endüstri ve Endüstri Mühendisliği İstanbul Üniversitesi-Cerrahpaşa
Endüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAKİR ESNAF

Geri Dön