Clustering and recommendation system on Turkey hotel dataset
Türkiye otel verileri üzerinde kümeleme ve öneri sistemi
- Tez No: 814288
- Danışmanlar: DOÇ. DR. GÜNCE KEZİBAN ORMAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2023
- Dil: İngilizce
- Üniversite: Galatasaray Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
- Bilim Dalı: Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 89
Özet
Çoğu sektörde olduğu gibi, turizmde de akıllı bir öneri sisteminin geliştirilmesi önemli bir konu olmuştur. Turizm acenteleri, müşterilerine en iyi ve en uygun otelleri önermek için maksimum efor sarf etmektedirler. Turizm acenteleri, otellerle kurdukları kurumsal ilişkilerin de yardımı ile, otel özellikleri hakkında büyük veri kümeleri tutmaktadırlar. Büyük hacimli verinin özetlenmesi ya da açıklanması, veri analizi yöntemlerini gerektirmektedir. Ayrıca turizm verisi kültürel ve coğrafi olarak eşsizdir. Böylelikle, her bir veri seti özelleştirilmiş bir analitik süreç gerektirir. Ancak, seyrek karakterli ikilik matris şeklindeki otel özelliklerinin ham veri seti, analitik işlemler için teknik zorluklara yol açmaktadır. Bu tez, bu türden gerçek otel verileriyle farklı kümeleme metodolojilerinin kıyaslanmasını, boyut indirgeme tekniklerini sunmaktadır. Veri seti, Türkiye'deki otellerin %61'ini barındırmaktadır. Otel önerisi elde etmek için, kümeleme ilk adımdır. Doğru bir öneri sistemi oluşturmak için çok katmanlı bir sistem tasarlanmıştır. Bu çok katmanlı yapının bir başka katmanı ise; müşterilerin, gittiği daha önceki otellere ve hatta otellerin tespit edilen kümelerine göre gruplanmasıdır. Yaklaşımımız, hibrit öneri sistemi olarak anılan, işbirlikçi filtrelemenin iki tipinin birleşimiyle sonuçlanmıştır. Böylelikle yaklaşımımız hem ziyaretçi şablonuna hem de otellerin özelliklerine dayanarak kişiselleştirilmiş bir otel öneri sistemiyle sonuçlanmıştır. İkilik değerlerle açıklanmış olan otel verilerinin en iyi otel kümeleme keşfini sunan deneysel bir yaklaşımın sunulması da çalışmamızdaki katkılardan birisi olmuştur. Çalışmadaki teknik detaylara bakıldığında, bu çalışmadaki aşılması gereken ilk aşama ham veri setleridir. Çalıştığımız otel veri setinin tamamı ikilik değişkenlerden oluşmaktadır. Sayısal verilerin anlamsal keşfi için pek çok metrik, algoritma ve teknik varken, ikilik değerlerin işlenmesi için metodolojiler kısıtlıdır. Bu yöntemde farklı boyut indirgeme teknikleri kullanılarak, ikilik veri setini sayısal değerlere dönüştürülmüştür. Ardından iyi bilinen kümeleme algoritmaları uygulanmış ve çeşitli başarım kriterleri ile değerlendirilmiştir. En başarılı kümeleme algoritması olarak OPTICS'e karar verilmiştir. Algoritma, doğası gereği, gürültü etiketli oteller de yaratmıştır. Gürültü etiketli otellerin elenmesi için otel özellikleri üzerinden hesaplanan kosinüs benzerliği kullanılmıştır. Bu, sürecin ilk adımı olduğundan, ön kümelerin yorumlanmasına odaklanmak yerine, en iyi küme sayılarını belirleme, en iyi ayrıştırılmış kümeleri belirleme ve basitçe otel kümelemesi için en iyi algoritmayı seçme gibi analitik problemleri çözmeye odaklanılmıştır. Öneri motorunun tasarımında ürün ve kullanıcı özelliklerini içeren işbirlikçi filtreleme metodu kullanılmıştır. Nihai olarak tasarlanan öneri motoru, hibrit bir öneri sistemi halini almıştır. Kullanıcılar (müşteriler) arasında tasarlanan benzerlik matrisine göre, hedef kullanıcı son ziyaret edilen otellerin oluşturduğu belirli sayıda öneriler almaktadır. Kullanıcılar arasındaki benzerlik ise onların ziyaret ettikleri otellere göre ölçülmüştür. Böylece her bir kullanıcı için en azından bir tane benzer kullanıcı tespit edilmiş ve bu tespit edilen kullanıcıların analiz tablomuzda da en az bir siparişi bulunmaktadır. Öneri dizileri yaratılırken; sonuçlar, yalnızca son satışı içeren satış test tablosundaki verilerle kontrol edilmiştir. Değerlendirme adımında ise: eğer hedef müşteri için ayrılan test değeri; önerilen dizinin üyelerinden birisi ise, öneri başarılı sayılmıştır. Tasarladığımız ikilik etiketli başarım kriteri (başarılı ya da başarısız) çok gevşek bir yöntem olmasına rağmen, öneri motorumuz beklenen başarım oranını sağlayamamıştır. Tezde son olarak, veri hazırlama, kullanılan modeller ve öneri sistemi sonuçları tartışılmış ve başarım oranlarının sebepleri açıklanmıştır.
Özet (Çeviri)
As in most sectors, the development of an intelligent recommendation system in tourism becomes an important issue. Tourism agencies are putting maximum effort into suggesting the best and most valuable hotels for their customers. With the help of B2B relations between agencies and hotels, tourism agencies hold large feature datasets about hotels. Summarizing or interpretation of huge amount of data, requires the implementation of data analysis methodologies. Also, the tourism data is unique in terms of geography and culture. Thus, every new dataset requires a dedicated analytical process. Furthermore, raw data is in the form of a sparse binary matrix of hotel features, it poses a technical challenge for any analytical process. This thesis presents a comparison of different clustering and dimension reduction methodologies for real-world hotel data of this nature. The dataset represents 61% of the hotels in Turkey. Hotel clustering is the first step to acquire the hotel recommendations. To generate matching recommendations for customers, multiple level system is designed. Another layer of this cascade structure is clustering of the users according to their previous hotels moreover clusters of hotels. Our approach has resulted with linkage of two type of collaborative filtering which called as hybrid recommendation system. Thereby the suggested system provides personalized hotel recommendations based on the hotel's amenities and visitor patterns. The first challenge in this work is the nature of the raw data set. The hotel features that we work with are all binary variables. While there are plenty of metrics, algorithms, and techniques dedicated to discovering knowledge from numerical variables, the methods for processing binary ones are limited. Thus, one of our contributions is to propose an experimental methodology for discovering the best clusters for the hotels, which are explained with binary features. In this methodology, we transform the sparse binary data set into numerical ones by using different dimension reduction techniques. Then, well-known clustering algorithms are applied and evaluated by various success criteria metrics. The most succeeded clustering algorithm has been decided as OPTICS. Due to the nature of the algorithm, noise labeled hotels has been created by the results of the algorithm. Cosine similarity between hotel features is calculated and the result has been used for elimination of the noise labeled hotels. Since this is the first step in the process, rather than focusing on the interpretation of preliminary clusters, we have focused on solving analytical problems such as determining the number of the best clusters, identifying the most distinguished clusters, and simply selecting the best algorithm for hotel clustering. During the recommendation engine design, we used collaborative filtering method which consist of item and user features. Thereby the engine can be considered as a hybrid system. According to designed similarity matrix between users, the target user (customer) receives a bunch of last visited hotels. Similarity between users has been decided based on their clusters of already visited hotels. Thereby every user has at least one similar user, and these users have at least one order in our analysis table. While creating recommendation arrays, the results checked with sales test table which consist only latest orders. If the test value for target customer matches with one of the members of recommendation array, the recommendation considered as success. Even though the binary labeled success criteria (success or fail) which is very loose method, the recommendation engine has not achieved the expected success ratio. At last, data preparation steps, used models and recommendation system results has been discussed and the reasons of the success rates are explained in this thesis.
Benzer Tezler
- An evaluation of clustering and districting models for household socio-economic indicators in address based population register system
Adrese dayalı nüfus kayıt sistemi hanehalkı sosyo-ekonomik indikatörlerinin kümeleme ve bölge tasarımı modelleri ile değerlendirilmesi
ŞEYMA ÖZCAN YAVUZOĞLU
Yüksek Lisans
İngilizce
2009
CoğrafyaOrta Doğu Teknik ÜniversitesiJeodezi ve Coğrafi Bilgi Teknolojileri Ana Bilim Dalı
DOÇ. DR. H. ŞEBNEM DÜZGÜN
- Raylı sistem yatırımlarının mekânsal ve sosyoekonomik yapıya etkisi üzerine bir inceleme: İzmir İZBAN örneği
An investigation on the spatial and socio-economic impacts of rail system investments: the case of İZBAN (commuter rail) in İzmir
GİZEM UÇAR
Yüksek Lisans
Türkçe
2020
Şehircilik ve Bölge Planlamaİstanbul Teknik ÜniversitesiŞehir ve Bölge Planlama Ana Bilim Dalı
DOÇ. DR. EDA BEYAZIT
- Makine öğrenme algoritmalarıyla hatalı ürün tahmini
Prediction of defective product with machine learning algorithms
ENES ŞANLITÜRK
Yüksek Lisans
Türkçe
2018
Bilim ve Teknolojiİstanbul Teknik Üniversitesiİşletme Mühendisliği Ana Bilim Dalı
PROF. DR. FERHAN ÇEBİ
- Understanding residential electricity consumption considering efficiency policies and the impact on the electricity system
Verimlilik politikalarını değerlendirerek hanelerde elektrik tüketiminin anlaşılması ve elektrik sistemi üzerine etkisinin incelenmesi
MERYEM NUR MORGÜL
Yüksek Lisans
İngilizce
2014
Endüstri ve Endüstri Mühendisliğiİstanbul Şehir ÜniversitesiEndüstri ve Sistemler Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. HATİCE TEKİNER MOĞULKOÇ
- A new model and approach for assessing equity in public transport
Toplu taşımada eşitliğin değerlendirilmesi için yeni bir model ve yaklaşım
KAYA KASIMOĞLU
Doktora
İngilizce
2024
Ulaşımİstanbul Teknik ÜniversitesiUlaştırma Mühendisliği Ana Bilim Dalı
DOÇ. DR. MURAT ERGÜN