Clustering and recommendation system on Turkey hotel dataset

Türkiye otel verileri üzerinde kümeleme ve öneri sistemi

PDF İndir

Tez No: 814288
Yazar: ÖMER ARİFOĞULLARI
Danışmanlar: DOÇ. DR. GÜNCE KEZİBAN ORMAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2023
Dil: İngilizce
Üniversite: Galatasaray Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
Bilim Dalı: Veri Bilimi Bilim Dalı
Sayfa Sayısı: 89

Özet

Çoğu sektörde olduğu gibi, turizmde de akıllı bir öneri sisteminin geliştirilmesi önemli bir konu olmuştur. Turizm acenteleri, müşterilerine en iyi ve en uygun otelleri önermek için maksimum efor sarf etmektedirler. Turizm acenteleri, otellerle kurdukları kurumsal ilişkilerin de yardımı ile, otel özellikleri hakkında büyük veri kümeleri tutmaktadırlar. Büyük hacimli verinin özetlenmesi ya da açıklanması, veri analizi yöntemlerini gerektirmektedir. Ayrıca turizm verisi kültürel ve coğrafi olarak eşsizdir. Böylelikle, her bir veri seti özelleştirilmiş bir analitik süreç gerektirir. Ancak, seyrek karakterli ikilik matris şeklindeki otel özelliklerinin ham veri seti, analitik işlemler için teknik zorluklara yol açmaktadır. Bu tez, bu türden gerçek otel verileriyle farklı kümeleme metodolojilerinin kıyaslanmasını, boyut indirgeme tekniklerini sunmaktadır. Veri seti, Türkiye'deki otellerin %61'ini barındırmaktadır. Otel önerisi elde etmek için, kümeleme ilk adımdır. Doğru bir öneri sistemi oluşturmak için çok katmanlı bir sistem tasarlanmıştır. Bu çok katmanlı yapının bir başka katmanı ise; müşterilerin, gittiği daha önceki otellere ve hatta otellerin tespit edilen kümelerine göre gruplanmasıdır. Yaklaşımımız, hibrit öneri sistemi olarak anılan, işbirlikçi filtrelemenin iki tipinin birleşimiyle sonuçlanmıştır. Böylelikle yaklaşımımız hem ziyaretçi şablonuna hem de otellerin özelliklerine dayanarak kişiselleştirilmiş bir otel öneri sistemiyle sonuçlanmıştır. İkilik değerlerle açıklanmış olan otel verilerinin en iyi otel kümeleme keşfini sunan deneysel bir yaklaşımın sunulması da çalışmamızdaki katkılardan birisi olmuştur. Çalışmadaki teknik detaylara bakıldığında, bu çalışmadaki aşılması gereken ilk aşama ham veri setleridir. Çalıştığımız otel veri setinin tamamı ikilik değişkenlerden oluşmaktadır. Sayısal verilerin anlamsal keşfi için pek çok metrik, algoritma ve teknik varken, ikilik değerlerin işlenmesi için metodolojiler kısıtlıdır. Bu yöntemde farklı boyut indirgeme teknikleri kullanılarak, ikilik veri setini sayısal değerlere dönüştürülmüştür. Ardından iyi bilinen kümeleme algoritmaları uygulanmış ve çeşitli başarım kriterleri ile değerlendirilmiştir. En başarılı kümeleme algoritması olarak OPTICS'e karar verilmiştir. Algoritma, doğası gereği, gürültü etiketli oteller de yaratmıştır. Gürültü etiketli otellerin elenmesi için otel özellikleri üzerinden hesaplanan kosinüs benzerliği kullanılmıştır. Bu, sürecin ilk adımı olduğundan, ön kümelerin yorumlanmasına odaklanmak yerine, en iyi küme sayılarını belirleme, en iyi ayrıştırılmış kümeleri belirleme ve basitçe otel kümelemesi için en iyi algoritmayı seçme gibi analitik problemleri çözmeye odaklanılmıştır. Öneri motorunun tasarımında ürün ve kullanıcı özelliklerini içeren işbirlikçi filtreleme metodu kullanılmıştır. Nihai olarak tasarlanan öneri motoru, hibrit bir öneri sistemi halini almıştır. Kullanıcılar (müşteriler) arasında tasarlanan benzerlik matrisine göre, hedef kullanıcı son ziyaret edilen otellerin oluşturduğu belirli sayıda öneriler almaktadır. Kullanıcılar arasındaki benzerlik ise onların ziyaret ettikleri otellere göre ölçülmüştür. Böylece her bir kullanıcı için en azından bir tane benzer kullanıcı tespit edilmiş ve bu tespit edilen kullanıcıların analiz tablomuzda da en az bir siparişi bulunmaktadır. Öneri dizileri yaratılırken; sonuçlar, yalnızca son satışı içeren satış test tablosundaki verilerle kontrol edilmiştir. Değerlendirme adımında ise: eğer hedef müşteri için ayrılan test değeri; önerilen dizinin üyelerinden birisi ise, öneri başarılı sayılmıştır. Tasarladığımız ikilik etiketli başarım kriteri (başarılı ya da başarısız) çok gevşek bir yöntem olmasına rağmen, öneri motorumuz beklenen başarım oranını sağlayamamıştır. Tezde son olarak, veri hazırlama, kullanılan modeller ve öneri sistemi sonuçları tartışılmış ve başarım oranlarının sebepleri açıklanmıştır.

Özet (Çeviri)

As in most sectors, the development of an intelligent recommendation system in tourism becomes an important issue. Tourism agencies are putting maximum effort into suggesting the best and most valuable hotels for their customers. With the help of B2B relations between agencies and hotels, tourism agencies hold large feature datasets about hotels. Summarizing or interpretation of huge amount of data, requires the implementation of data analysis methodologies. Also, the tourism data is unique in terms of geography and culture. Thus, every new dataset requires a dedicated analytical process. Furthermore, raw data is in the form of a sparse binary matrix of hotel features, it poses a technical challenge for any analytical process. This thesis presents a comparison of different clustering and dimension reduction methodologies for real-world hotel data of this nature. The dataset represents 61% of the hotels in Turkey. Hotel clustering is the first step to acquire the hotel recommendations. To generate matching recommendations for customers, multiple level system is designed. Another layer of this cascade structure is clustering of the users according to their previous hotels moreover clusters of hotels. Our approach has resulted with linkage of two type of collaborative filtering which called as hybrid recommendation system. Thereby the suggested system provides personalized hotel recommendations based on the hotel's amenities and visitor patterns. The first challenge in this work is the nature of the raw data set. The hotel features that we work with are all binary variables. While there are plenty of metrics, algorithms, and techniques dedicated to discovering knowledge from numerical variables, the methods for processing binary ones are limited. Thus, one of our contributions is to propose an experimental methodology for discovering the best clusters for the hotels, which are explained with binary features. In this methodology, we transform the sparse binary data set into numerical ones by using different dimension reduction techniques. Then, well-known clustering algorithms are applied and evaluated by various success criteria metrics. The most succeeded clustering algorithm has been decided as OPTICS. Due to the nature of the algorithm, noise labeled hotels has been created by the results of the algorithm. Cosine similarity between hotel features is calculated and the result has been used for elimination of the noise labeled hotels. Since this is the first step in the process, rather than focusing on the interpretation of preliminary clusters, we have focused on solving analytical problems such as determining the number of the best clusters, identifying the most distinguished clusters, and simply selecting the best algorithm for hotel clustering. During the recommendation engine design, we used collaborative filtering method which consist of item and user features. Thereby the engine can be considered as a hybrid system. According to designed similarity matrix between users, the target user (customer) receives a bunch of last visited hotels. Similarity between users has been decided based on their clusters of already visited hotels. Thereby every user has at least one similar user, and these users have at least one order in our analysis table. While creating recommendation arrays, the results checked with sales test table which consist only latest orders. If the test value for target customer matches with one of the members of recommendation array, the recommendation considered as success. Even though the binary labeled success criteria (success or fail) which is very loose method, the recommendation engine has not achieved the expected success ratio. At last, data preparation steps, used models and recommendation system results has been discussed and the reasons of the success rates are explained in this thesis.

Benzer Tezler

Tez No
255460
An evaluation of clustering and districting models for household socio-economic indicators in address based population register system
Adrese dayalı nüfus kayıt sistemi hanehalkı sosyo-ekonomik indikatörlerinin kümeleme ve bölge tasarımı modelleri ile değerlendirilmesi
ŞEYMA ÖZCAN YAVUZOĞLU
Yüksek Lisans
İngilizce
2009
Coğrafya Orta Doğu Teknik Üniversitesi
Jeodezi ve Coğrafi Bilgi Teknolojileri Ana Bilim Dalı
DOÇ. DR. H. ŞEBNEM DÜZGÜN
Tez No
637335
Raylı sistem yatırımlarının mekânsal ve sosyoekonomik yapıya etkisi üzerine bir inceleme: İzmir İZBAN örneği
An investigation on the spatial and socio-economic impacts of rail system investments: the case of İZBAN (commuter rail) in İzmir
GİZEM UÇAR
Yüksek Lisans
Türkçe
2020
Şehircilik ve Bölge Planlama İstanbul Teknik Üniversitesi
Şehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. EDA BEYAZIT
Tez No
511285
Makine öğrenme algoritmalarıyla hatalı ürün tahmini
Prediction of defective product with machine learning algorithms
ENES ŞANLITÜRK
Yüksek Lisans
Türkçe
2018
Bilim ve Teknoloji İstanbul Teknik Üniversitesi
İşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
Tez No
920528
A data-driven approach to identifying and selecting temporary disaster debris management sites: The case of Istanbul
Geçici afet moloz yönetim alanlarının belirlenmesi ve seçimi için veri odaklı bir yaklaşım: İstanbul örneği
BURAK KABAKLI
Yüksek Lisans
İngilizce
2025
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DOÇ. DR. ŞEYDA SERDAR ASAN
Tez No
392488
Understanding residential electricity consumption considering efficiency policies and the impact on the electricity system
Verimlilik politikalarını değerlendirerek hanelerde elektrik tüketiminin anlaşılması ve elektrik sistemi üzerine etkisinin incelenmesi
MERYEM NUR MORGÜL
Yüksek Lisans
İngilizce
2014
Endüstri ve Endüstri Mühendisliği İstanbul Şehir Üniversitesi
Endüstri ve Sistemler Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HATİCE TEKİNER MOĞULKOÇ

Geri Dön