K- ortalamalar algoritması ile ileriye dönük modellemeler
Forecasting modellings based on K- means algorithm
- Tez No: 507198
- Danışmanlar: PROF. DR. AYLA ŞAYLI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Matematik, Computer Engineering and Computer Science and Control, Mathematics
- Anahtar Kelimeler: Kümeleme Analizi, K- Ortalamalar Algoritması, Dirsek Yöntemi, Kümeleme Değerlendirme Kriterleri, Cluster Analysis, K-Means Algorithm, Elbow Method, Cluster Validation Techniques
- Yıl: 2018
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Matematik Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Matematik Mühendisliği Bilim Dalı
- Sayfa Sayısı: 86
Özet
Çağımızdaki üretilen verilerin sayısı hızla artmaktadır ve sürekli artmaya devam edecektir. Makine öğrenmesi, popülerliği gün geçtikçe artmakta olan bir araştırma alanıdır. Makine öğrenmesi algoritmaları veriye dayalı modeller kurulmasına olanak sağlar. Elde edilen veriden faydalanıp değerli bilgilerin çıkarımı yapılması oldukça önemlidir. Bu alanın alt başlıkları ise genel olarak, denetimli öğrenme algoritmaları, kümeleme algoritmaları, birliktelik kuralları olarak adlandırılmıştır. Tez kapsamında kümeleme yöntemlerinden faydalanılacaktır. Yapılan çalışma ile veri kümesinin kaç kümeye ayrılması gerektiği ve daha sonra kümelenen veriler ile rezervasyon işlemleri için ne yapabileceğimiz belirlenecektir. Bu tezin amacı, kümeleme algoritmalarına ile ileriye dönük modellemeler gerçekleştirmektir. Kümeleme algoritmalarından hiyerarşik ve K - Ortalamalar algoritması üzerinde çalışılmıştır. Hiyerarşik kümelemede elde edilen sonuçlar ile uygun olmadığı anlaşıldığından çalışmanın devamı için K-Ortalamalar algoritması ile detaylı çalışılmasına karar verilmiştir. K-ortalamalar algoritması kullanılarak dinamik bir kümeleme yapılması sağlanmıştır. Aykırı değer analizi, veri dönüştürme, eksik gözlemleri doldurma gibi veri ön hazırlık aşamalarından sonra Gap istatistik değeri ve Elbow yöntemi ile veri kümesinin kaç kümeye ayrılması gerektiğine karar verilmiştir. Bu aşamada belirlenecek olan k değeri ilk aşamada geniş bir aralıkta tutulmaktadır. Yapılan uygulamada k değeri 2 ile 15 arasında seçilip, her bir k değeri için Gap İstatistik değeri ve Dirsek yöntemi hata terimi hesaplandıktan sonra, çizdirilen grafikler yardımıyla seçilmesi gereken doğru k değeri belirlenmiştir. Belirlenen değerler için K-Ortalamalar algoritması ile kümeleme yapılır. Bu yöntemlere göre belirlenen k değerlerinin farklı çıkması durumunda Davies - Bouldin, Dunn, Calinski – Harabasz, Wemmert Gancarski, ve Silhouette'nun kümeleme değerlendirme kriterleri ile bulunan k değerlerinden hangisinin daha doğru olduğu kesin olarak belirlenmiştir. Bu çalışma ile doğru k değerini belirleme yöntemleri ile kümeleme değerlendirme kriterleri birlikte kullanılıp, veri kümesini kaç kümeye ayırmak gerekir sorusuna cevap verilmiştir. Yapılan çalışma sonucu Turizm sektörü üzerinde, gerçek veriler kullanılarak on farklı modelleme gerçekleştirilmiştir. Elde edilen sonuçlar kıyaslanmıştır ve modellemelerden en kayda değer başarıya sahip olan belirlenmiştir.
Özet (Çeviri)
The number of collected data in our epoch is increasing rapidly and will continue to increase continuously. Machine learning, a research field that is growing popularity day by day. Machine learning algorithms allow for the build models based on the data. It is very important to take advantages of the data and to extract valuable knowledges. Sub-headings of this field are generally called supervised learning algorithms, clustering algorithms and association rules. We will use clustering algorithms within the thesis. The study will determine how many clusters should be separated and then what we can do with the clustered data for reservation processes. The purpose of this thesis is to realize reservation optimization with the prediction of the conversion rate based on clustering algorithms. Hierarchical and K- Means algorithms have been studied. Since it is understood that the results obtained from the hierarchical clustering are not appropriate, therefore it has been decided to study in detail by K-means algorithms for the continuation of the study. A dynamic clustering is also achieved by using the K-means algorithm. After the data preparation steps such as outlier analysis, data scaling, filling in missing observations, it was decided how many clusters of data should be separated by Gap statistic value and Elbow method. The k to be determined at this stage is kept in a wide range in the first stage. The true k value between 2 to 15 is selected by the plotted graphs is determined by the Gap statistic and the Elbow method. Their errors are calculated. After the determined values, the clustering is done by K-means algorithms. If the true k values determined by these methods are different, the k values found with the clustering validation criteria by Davies - Bouldin, Dunn, Calinski - Harabasz, Wemmert Gancarski and Silhouette are more precisely determined. In this study, the optimal k value determination methods and clustering evaluation criteria are used together, and the answer is given to how many clusters of data should be separated. A conclusion of the study, on the tourism sector, we work on ten forecasting models by the use of the real data for tourism company. The results from the forecasting models are found, compared and then the model with a remarkable success is obtained.
Benzer Tezler
- Spot 6 uydu görüntüleri üzerinde uzaktan algılama sınıflandırma yöntemleriyle orman arazisinde azalma tespiti
Determination of forest area clearcutting on optical satellite imagery with classification techniques in remote sensing
GÜLŞAH BAYHAN
Yüksek Lisans
Türkçe
2015
Mühendislik Bilimleriİstanbul Teknik Üniversitesiİletişim Sistemleri Ana Bilim Dalı
PROF. DR. SEDEF KENT PINAR
- Derin öğrenme ve büyük veri analitiği yöntemleriKullanarak Covid-19 yayılımının ileriye dönük tahmini
Forecasting the spread of covid-19 using deep learning and big data analytics methods
CYLAS KIGANDA
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
PROF. DR. MUHAMMET ALİ AKCAYOL
- Akıllı kart verilerinin toplu ulaşım talebi analizinde değerlendirilmesi
Evaluation of smart-card data in public transportation demand analysis
OĞUZ KÖSE
Yüksek Lisans
Türkçe
2017
İnşaat MühendisliğiBalıkesir Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
PROF. DR. TURGUT ÖZDEMİR
- Stok yönetimi için gri tahminleme ve sürü zekası esaslı bir karar verme metodolojisi önerisi
Proposal of a decision making methodology for inventory management using particle swarm optimization and grey forecasting
FATİH YİĞİT
Doktora
Türkçe
2019
Endüstri ve Endüstri Mühendisliğiİstanbul Üniversitesi-CerrahpaşaEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. ŞAKİR ESNAF
- Histopatolojik görüntülerin grafik işlemci kullanılarak bölütlenmesi
Segmentation of histopathological images using graphics processing unit
ERDAL YENİALP
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSüleyman Demirel ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HABİL KALKAN