Geri Dön

Clustering and recommendation system on Turkey hotel dataset

Türkiye otel verileri üzerinde kümeleme ve öneri sistemi

  1. Tez No: 814288
  2. Yazar: ÖMER ARİFOĞULLARI
  3. Danışmanlar: DOÇ. DR. GÜNCE KEZİBAN ORMAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2023
  8. Dil: İngilizce
  9. Üniversite: Galatasaray Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
  12. Bilim Dalı: Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 89

Özet

Çoğu sektörde olduğu gibi, turizmde de akıllı bir öneri sisteminin geliştirilmesi önemli bir konu olmuştur. Turizm acenteleri, müşterilerine en iyi ve en uygun otelleri önermek için maksimum efor sarf etmektedirler. Turizm acenteleri, otellerle kurdukları kurumsal ilişkilerin de yardımı ile, otel özellikleri hakkında büyük veri kümeleri tutmaktadırlar. Büyük hacimli verinin özetlenmesi ya da açıklanması, veri analizi yöntemlerini gerektirmektedir. Ayrıca turizm verisi kültürel ve coğrafi olarak eşsizdir. Böylelikle, her bir veri seti özelleştirilmiş bir analitik süreç gerektirir. Ancak, seyrek karakterli ikilik matris şeklindeki otel özelliklerinin ham veri seti, analitik işlemler için teknik zorluklara yol açmaktadır. Bu tez, bu türden gerçek otel verileriyle farklı kümeleme metodolojilerinin kıyaslanmasını, boyut indirgeme tekniklerini sunmaktadır. Veri seti, Türkiye'deki otellerin %61'ini barındırmaktadır. Otel önerisi elde etmek için, kümeleme ilk adımdır. Doğru bir öneri sistemi oluşturmak için çok katmanlı bir sistem tasarlanmıştır. Bu çok katmanlı yapının bir başka katmanı ise; müşterilerin, gittiği daha önceki otellere ve hatta otellerin tespit edilen kümelerine göre gruplanmasıdır. Yaklaşımımız, hibrit öneri sistemi olarak anılan, işbirlikçi filtrelemenin iki tipinin birleşimiyle sonuçlanmıştır. Böylelikle yaklaşımımız hem ziyaretçi şablonuna hem de otellerin özelliklerine dayanarak kişiselleştirilmiş bir otel öneri sistemiyle sonuçlanmıştır. İkilik değerlerle açıklanmış olan otel verilerinin en iyi otel kümeleme keşfini sunan deneysel bir yaklaşımın sunulması da çalışmamızdaki katkılardan birisi olmuştur. Çalışmadaki teknik detaylara bakıldığında, bu çalışmadaki aşılması gereken ilk aşama ham veri setleridir. Çalıştığımız otel veri setinin tamamı ikilik değişkenlerden oluşmaktadır. Sayısal verilerin anlamsal keşfi için pek çok metrik, algoritma ve teknik varken, ikilik değerlerin işlenmesi için metodolojiler kısıtlıdır. Bu yöntemde farklı boyut indirgeme teknikleri kullanılarak, ikilik veri setini sayısal değerlere dönüştürülmüştür. Ardından iyi bilinen kümeleme algoritmaları uygulanmış ve çeşitli başarım kriterleri ile değerlendirilmiştir. En başarılı kümeleme algoritması olarak OPTICS'e karar verilmiştir. Algoritma, doğası gereği, gürültü etiketli oteller de yaratmıştır. Gürültü etiketli otellerin elenmesi için otel özellikleri üzerinden hesaplanan kosinüs benzerliği kullanılmıştır. Bu, sürecin ilk adımı olduğundan, ön kümelerin yorumlanmasına odaklanmak yerine, en iyi küme sayılarını belirleme, en iyi ayrıştırılmış kümeleri belirleme ve basitçe otel kümelemesi için en iyi algoritmayı seçme gibi analitik problemleri çözmeye odaklanılmıştır. Öneri motorunun tasarımında ürün ve kullanıcı özelliklerini içeren işbirlikçi filtreleme metodu kullanılmıştır. Nihai olarak tasarlanan öneri motoru, hibrit bir öneri sistemi halini almıştır. Kullanıcılar (müşteriler) arasında tasarlanan benzerlik matrisine göre, hedef kullanıcı son ziyaret edilen otellerin oluşturduğu belirli sayıda öneriler almaktadır. Kullanıcılar arasındaki benzerlik ise onların ziyaret ettikleri otellere göre ölçülmüştür. Böylece her bir kullanıcı için en azından bir tane benzer kullanıcı tespit edilmiş ve bu tespit edilen kullanıcıların analiz tablomuzda da en az bir siparişi bulunmaktadır. Öneri dizileri yaratılırken; sonuçlar, yalnızca son satışı içeren satış test tablosundaki verilerle kontrol edilmiştir. Değerlendirme adımında ise: eğer hedef müşteri için ayrılan test değeri; önerilen dizinin üyelerinden birisi ise, öneri başarılı sayılmıştır. Tasarladığımız ikilik etiketli başarım kriteri (başarılı ya da başarısız) çok gevşek bir yöntem olmasına rağmen, öneri motorumuz beklenen başarım oranını sağlayamamıştır. Tezde son olarak, veri hazırlama, kullanılan modeller ve öneri sistemi sonuçları tartışılmış ve başarım oranlarının sebepleri açıklanmıştır.

Özet (Çeviri)

As in most sectors, the development of an intelligent recommendation system in tourism becomes an important issue. Tourism agencies are putting maximum effort into suggesting the best and most valuable hotels for their customers. With the help of B2B relations between agencies and hotels, tourism agencies hold large feature datasets about hotels. Summarizing or interpretation of huge amount of data, requires the implementation of data analysis methodologies. Also, the tourism data is unique in terms of geography and culture. Thus, every new dataset requires a dedicated analytical process. Furthermore, raw data is in the form of a sparse binary matrix of hotel features, it poses a technical challenge for any analytical process. This thesis presents a comparison of different clustering and dimension reduction methodologies for real-world hotel data of this nature. The dataset represents 61% of the hotels in Turkey. Hotel clustering is the first step to acquire the hotel recommendations. To generate matching recommendations for customers, multiple level system is designed. Another layer of this cascade structure is clustering of the users according to their previous hotels moreover clusters of hotels. Our approach has resulted with linkage of two type of collaborative filtering which called as hybrid recommendation system. Thereby the suggested system provides personalized hotel recommendations based on the hotel's amenities and visitor patterns. The first challenge in this work is the nature of the raw data set. The hotel features that we work with are all binary variables. While there are plenty of metrics, algorithms, and techniques dedicated to discovering knowledge from numerical variables, the methods for processing binary ones are limited. Thus, one of our contributions is to propose an experimental methodology for discovering the best clusters for the hotels, which are explained with binary features. In this methodology, we transform the sparse binary data set into numerical ones by using different dimension reduction techniques. Then, well-known clustering algorithms are applied and evaluated by various success criteria metrics. The most succeeded clustering algorithm has been decided as OPTICS. Due to the nature of the algorithm, noise labeled hotels has been created by the results of the algorithm. Cosine similarity between hotel features is calculated and the result has been used for elimination of the noise labeled hotels. Since this is the first step in the process, rather than focusing on the interpretation of preliminary clusters, we have focused on solving analytical problems such as determining the number of the best clusters, identifying the most distinguished clusters, and simply selecting the best algorithm for hotel clustering. During the recommendation engine design, we used collaborative filtering method which consist of item and user features. Thereby the engine can be considered as a hybrid system. According to designed similarity matrix between users, the target user (customer) receives a bunch of last visited hotels. Similarity between users has been decided based on their clusters of already visited hotels. Thereby every user has at least one similar user, and these users have at least one order in our analysis table. While creating recommendation arrays, the results checked with sales test table which consist only latest orders. If the test value for target customer matches with one of the members of recommendation array, the recommendation considered as success. Even though the binary labeled success criteria (success or fail) which is very loose method, the recommendation engine has not achieved the expected success ratio. At last, data preparation steps, used models and recommendation system results has been discussed and the reasons of the success rates are explained in this thesis.

Benzer Tezler

  1. An evaluation of clustering and districting models for household socio-economic indicators in address based population register system

    Adrese dayalı nüfus kayıt sistemi hanehalkı sosyo-ekonomik indikatörlerinin kümeleme ve bölge tasarımı modelleri ile değerlendirilmesi

    ŞEYMA ÖZCAN YAVUZOĞLU

    Yüksek Lisans

    İngilizce

    İngilizce

    2009

    CoğrafyaOrta Doğu Teknik Üniversitesi

    Jeodezi ve Coğrafi Bilgi Teknolojileri Ana Bilim Dalı

    DOÇ. DR. H. ŞEBNEM DÜZGÜN

  2. Raylı sistem yatırımlarının mekânsal ve sosyoekonomik yapıya etkisi üzerine bir inceleme: İzmir İZBAN örneği

    An investigation on the spatial and socio-economic impacts of rail system investments: the case of İZBAN (commuter rail) in İzmir

    GİZEM UÇAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2020

    Şehircilik ve Bölge Planlamaİstanbul Teknik Üniversitesi

    Şehir ve Bölge Planlama Ana Bilim Dalı

    DOÇ. DR. EDA BEYAZIT

  3. Makine öğrenme algoritmalarıyla hatalı ürün tahmini

    Prediction of defective product with machine learning algorithms

    ENES ŞANLITÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilim ve Teknolojiİstanbul Teknik Üniversitesi

    İşletme Mühendisliği Ana Bilim Dalı

    PROF. DR. FERHAN ÇEBİ

  4. Understanding residential electricity consumption considering efficiency policies and the impact on the electricity system

    Verimlilik politikalarını değerlendirerek hanelerde elektrik tüketiminin anlaşılması ve elektrik sistemi üzerine etkisinin incelenmesi

    MERYEM NUR MORGÜL

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Endüstri ve Endüstri Mühendisliğiİstanbul Şehir Üniversitesi

    Endüstri ve Sistemler Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. HATİCE TEKİNER MOĞULKOÇ

  5. A new model and approach for assessing equity in public transport

    Toplu taşımada eşitliğin değerlendirilmesi için yeni bir model ve yaklaşım

    KAYA KASIMOĞLU

    Doktora

    İngilizce

    İngilizce

    2024

    Ulaşımİstanbul Teknik Üniversitesi

    Ulaştırma Mühendisliği Ana Bilim Dalı

    DOÇ. DR. MURAT ERGÜN