A comparison of LSTM and GNN based session recommendation systems

LSTM ve GNN tabanlı oturum öneri sistemlerinin karşılaştırılması

PDF İndir

Tez No: 676377
Yazar: ÇAĞRI EMRE YILDIZ
Danışmanlar: DR. ÖĞR. ÜYESİ YUSUF YASLAN
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2021
Dil: İngilizce
Üniversite: İstanbul Teknik Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 71

Özet

Makine öğrenmesi ve derin öğrenme yöntemleri temel alınarak geliştirilen çözüm sistemleri, günlük yaşamımızın pek çok noktasına dokunmaktadır ve insan hayatına olan etkileri gün geçtikçe artmaktadır. E-ticaret, sağlık, finans, otonom sistemler, görüntü işleme, ses işleme gibi alanlarda karşılaşılan problemlerin, yüksek başarıma sahip modellerle ifade edilmeye başlanması, daha karmaşık ve anlamsal derin öğrenme modellerinin geliştirilmesi ve artan işlemci gücünün birer sonucu olarak görülebilir. Öte yandan, bilgisayar dünyasında yaşanan gelişmelerin doğal bir sonucu olarak, günlük işlenen ve depolanan veri miktarı, her gün daha yüksek ivmeli bir şekilde artmaya devam etmektedir. Özellikle e-ticaret alanında, biriken bu verileri kullanarak, kullanıcılara fayda, kurumlara ise kar sağlayacak farklı kapsamlarda çalışmalar yürütülmektedir. Bu çalışmalar kapsamında, kullanıcılarını iyi tanıyabilen ve onlara özel fırsatlar önerebilen firmalar, bu alandaki diğer firmalardan bir adım önde olacaktır. Bu bağlamda kullanıcılarına ilgilenebilecekleri en doğru ürünü önerebilme yeteneği ön plana çıkmaktadır. Kullanıcının yalnızca mevcut oturumda ilgilendiği ürünlerden yola çıkarak yapılan ürün önerme çalışması, bu alanda son yıllarda oldukça popüler bir noktaya gelmiştir. Oturum tabanlı ürün önerme modelleri incelendiğinde, veri olarak yalnızca ilgili oturumda bulunan bilgileri kullandıkları görülür. Bu noktada, oturum ile ilişkilendirilmiş mevcut veriden elde edilebilecek anlamlı bilgiler, benzer bir oturum için yapılacak ürün önerme işlemi için kıymetlidir. Mevcut oturum bilgisinden yola çıkılarak, ürünler arasındaki ilişkinin temsil edilmesi ve belirli bir oturum için daha anlamlı olabilecek özelliklerin elde edilmesi bu alanda yürütülen çalışmaların temelini oluşturmaktadır. Bu çalışma ile birlikte sunulan modele temel oluşturan çalışmalar, belirli bir oturumda bulunan sıralı ürünler arasındaki ilişkiyi öğrenip bir sonraki ürünün ne olacağını tahmin etme üzerine kurulmuş çalışmalardır. Bu yöntemlerin arasındaki farklar, her bir oturumu farklı bir yöntemle ifade etme, modelin sonunda yapılan tahminleme işlemi sırasında dikkate alınan parametreler ve yapılan tahminlemelerin değerlendirme kriterleri olarak sıralanabilir. Bu yöntemlerden ilki, NARM, kapsamında veri kümesinde yer alan kullanıcıların davranışlarını modellemek için oto-kodlayıcı ağının hemen ardından bir ilgi mekanizması eklenmiştir. Böylelikle oturum boyunca kullanıcının davranışı daha anlamlı bir şekilde modellenmesi amaçlanmıştır. Bir sonraki yöntemde, STAMP, ise, NARM ile tanıtılan modele ek olarak, son tahminlemenin yapıldığı anda, oturum boyunca hesaplanan uzun süreli ilgi mekanizmasının tek başına yeterli olmayacağı ileri sürülüp, uzun süreli ilgi mekanizmasının yanında bir de kısa süreli ilgi mekanizması eklenmiştir. Son olarak, SR-GNN yönteminde her bir oturum birer çizge olarak ifade edilmiş, bu çizgelerde yer alan ürünlerin gömme değerleri hesaplanmıştır. Bu işlem için çizgede yer alan her bir düğümün, diğer düğümlerle yapmış olduğu bağlantıya göre ağırlıklı ortalaması alınarak, her bir düğümün gömme değeri hesaplanmıştır. Elde edilen bu değerler, modelin bir sonraki adımı olan, kapılı çizge yapay sinir ağı kısmına girdi verisi olarak gönderilip, bu kısımdan tahminleme değerleri elde edilmiştir. Bu çalışmada, oturum bazlı öneri sistemleri için farklı yapay sinir ağı modelleri karşılaştırılmıştır. Bu amaçla, bu alanda oldukça başarılı olan iki farklı mimari seçilmiştir. İlk mimari LSTM adı verilen daha çok zamana bağlı serilerden çıkarım yapmak için kullanılan bir modeldir. Diğer mimari ise GNN adı verilen ve çizgeler üzerinde çalışan bir modeldir. LSTM mimarisi için daha önce yayınlanmış ancak kaynak kodu paylaşılmamış STAMP adlı bir model referans alınmış ve yayınına uygun bir şekilde yeniden oluşturulmuştur. GNN mimarisini test etmek için ise bu alanda en gelişkin çözümler olan SR-GNN ve TAGNN modelleri kullanılmıştır. Modellerin test edilmesi için daha önce de benzer çalışmalarda karşılaştırma veri seti olarak kullanılan YOOCHOOSE ve DIGINETICA veri setleri seçilmiştir. Bu veri setleri sırasıyla 2015 ACM RecSys Challenge ve 2016 CIKCM Cup yarışmalarında yayınlanmış ve yayınladığı günden beri oturum tabanlı öneri sistemleri için standart haline gelmiştir. Mimarilerin karşılaştırılması; modellerin farklı konfigürasyonlarda çalıştırılması sonucu elde ettikleri başarılar üzerinden ölçümlenmiştir. Bu kapsamda hem çalıştırma parametrelerde değişiklikler yapılmış hem de veri seti farklı gömme yöntemleri ile eğitilerek modellerin farklı gömme yöntemleri ile ilişkisi gözlemlenmiştir. Gömme yöntemi olarak sırasıyla SVD, Laplacian Eigenmaps, node2vec, word2vec, LINE ve DeepWalk kullanılmış, bunlara ek olarak bu çalışma için geliştirilmiş olan ve AERBM olarak adlandırılan oto kodlayıcı tabanlı bir yöntem de eğitilmiştir. Modellerin başarısının ölçümünde, yine bu alanda standart haline gelen duyarlık (P@20) ve ortalama karşılıklı sırası (MRR@20) metrikleri tercih edilmiştir. Modellerin karşılaştırılmasına ilk adım olarak orijinal sonuçların teyit edilmesi ve LSTM tabanlı STAMP modelinin kodlanması ile başlanmıştır. SR-GNN ve TAGNN için yayınlarında verilen değerlere benzer sonuçlar elde edilmiş, ancak STAMP modeli yayındaki başarının altında kalmıştır. Daha sonra veri setleri farklı gömme modelleri ile eğitilmiş ve gömme vektörleri hesaplanmıştır. Bu gömme vektörleri modellere ilk ağırlık olarak ve statik ağırlık olarak iki farklı şekilde verilmiş ve başarım ölçülmüştür. Sonuçlar incelendiğinde her iki mimari için de gömme işlemi fark yaratmıştır. Bu fark, LSTM mimarisinin kullanıldığı STAMP modelinde daha nettir. Ürün gömme vektörlerinin kullanılması STAMP modelinde başarımı neredeyse üç katına çıkarırken, TAGNN modelinde başarım yaklaşık %4 oranında azalmıştır. SR-GNN modelinde ise sadece önerilen AERBM gömme modeli yaklaşık %0,5 başarı sağlarken diğer modeller yaklaşık %1 daha düşük başarı elde etmiştir. Gömme vektörlerinin statik olarak verildiği deneylerde ise bütün modeller için başarımın ilk ağırlık olarak verilmesine kıyasla düştüğü görülmüştür. Bu sonuçtan gömme yöntemlerinin yeterince başarılı olarak veri setini ifade edemediği çıkarımı yapılabilir. Çünkü verilen gömme değerlerinin ilk ağırlık olarak verilmesi ve modelle birlikte eğitilmeye devam etmesi daha yüksek başarım getirmiştir. Her iki yöntemde de modelin eğitim süresinin kısaldığı görülmüştür. Bu fark statik ağırlık verilen deneylerde daha belirgindir. GNN tabanlı modellerde gömme yönteminin değiştirilmesi çoğunlukla negatif etki yaratmıştır. TAGNN modelinin yayını incelendiğinde, ince ayarlanmış bir hedef dikkat mekanizması olduğu görülür. Bu hedef dikkat mekanizmasının oluşturulması sırasında varsayılan ürün gömme yöntemi üzerine geliştirme yapıldığı, bu nedenle de farklı bir gömme yöntemi kullanıldığında hedef mekanizmasının zayıfladığı görülür. Bu şekilde özel geliştirilmiş bir hedef dikkat mekanizması olmayan SR-GNN'de ürün gömme ağırlıklarının TAGNN'e kıyasla daha az negatif etkisinin olması bu şekilde açıklanabilir. STAMP modelinde ise ürün gömme ağırlıklarının düzenlenmesi başarımı ciddi miktarda arttırmış, yayında belirtilen başarımdan daha üst bir noktaya getirmiştir. Çizge tabanlı gömme yöntemlerinin LSTM mimarisi üzerindeki başarısı ve aynı şekilde laplacian eigenmaps gömmesinin etkisizliği ayrı bir çalışma olarak incelenebilir. GNN ve LSTM mimarilerinin temel farkı kullandıkları gizli katman düğümlerinin yapısıdır. Deney sonuçlarında iki farklı hafıza türü olan LSTM modelinde ürün gömme değişiminin etkisi daha yüksek gözlenmiştir. Deney sonucunda ortaya çıkan bir diğer bulgu ise STAMP modeli MRR@20 metriğine göre GNN'den çok daha yüksek başarı elde etmiştir. Bunun anlamı doğru tahmin edilen ürünler genel olarak ilk sıralarda yer almaktadır. P@20 ve MRR@20 yerine daha küçük bir küme değeri kullanıldığında (5,10 vb.) STAMP modelinin GNN'den daha başarılı olduğu gözlemlenmiştir. Sonuç olarak, farklı gömme yöntemleri GNN ve LSTM bazlı modellerde farklı etkiler yaratmıştır. GNN bazlı modellerde sadece oto-kodlayıcı temelli AERBM gömme yöntemi %1'lik bir başarım artışı sağlarken, diğer gömme yöntemlerinde herhangi bir başarı sağlanmamış, başarım negatif etkilenmiştir. LSTM bazlı STAMP modelinde ise hem pozitif hem negatif yönde ciddi başarım değişiklikleri oluşmuştur. Laplacian eigenmaps veya SVD gibi sabit vektör üreten gömme yöntemleri başarımı negatif etkilerken, çizge tabanlı sinir ağları kullanan gömme yöntemleri kullanıldığında STAMP modelinin başarımı GNN bazlı modelleri geçerek literatürde bilinen en başarılı yöntem haline gelmiştir.

Özet (Çeviri)

Machine learning is an important part of daily life today. Whether it is recommending shoes to your latest shirt purchase, or driving people to airports, it is indispensable to humans. Thanks to the major improvements in hardware and continuous research in this field, almost every corporation is using these techniques. One of the early adaptors and industry leaders are e-commerce companies. Recommending products based on customer needs and history is a well-known and well-researched field. Recommendations can be based on the purchase history of the user, the similarity of the purchased/selected product with other items, or similarities between different users. Since all of these recommendations are based on historical data, in the absence of it there is a problem called 'cold start'. To solve or assist the no data issue, sessionbased recommendation systems are introduced. Session-based recommendation systems are based on limited data which user generates throughout the existing session. By using this data and combining it with previously generated item characteristics, a prediction is generated. In this work, LSTM and GNN neural networks and their performance on session-based recommendation systems are compared. For comparison, three state-of-art models named STAMP, SR-GNN, and TA-GNN have been used. Currently, SR-GNN and TA-GNN are the best performing GNN models for session-based recommendation systems while STAMP is the best LSTM model in the session-based recommendation and all three models are already tested with mentioned datasets. Their performance is tested on two e-commerce benchmark datasets DIGINETICA and YOOCHOOSE. Additionally, the impact of item embedding on these models were analyzed with six well-known embedding methods and one proposed item embedding method. Item embeddings are applied to benchmark datasets and these embedding results are fed to models as item embedding and embedding initial weights. According to the obtained results, both item embedding and item embedding initial weights have an effect on model results directly. While LSTM based STAMP model gained a significant advantage, item embeddings had a mostly negative effect on GNN based TAGNN model. SR-GNN had similar results to TAGNN, but the item embedding effect was narrow. It is also observed that using item embeddings significantly reduces the training duration. On the other hand, using item embeddings as final weights slightly reduces precision if the embeddings are not fully trained to represent items. Using pre-trained item embeddings as initial weights looks promising in the GNN model since it reduces training times by almost half while providing better performance in a few cases. Using embeddings as final weights in LSTM models dramatically reduces the training time without negative precision impact. Another important observation is using graph traversal-based embeddings on LSTM networks generates extremely successful results. This behavior should be investigated further research and it is a candidate for future work. Additionally, LSTM models have a higher MRR rate compared to GNN models and they should be preferred over GNN models if the order of the item is more important.

Benzer Tezler

Tez No
810296
Yapay zekâ ve makine öğrenimi araçları ile elektrik tüketimi tahmini
Electricity consumption forecasting via artificial intelligence and machine learning tools
UMUT YILDIZ
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İzmir Katip Çelebi Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. SILA ÖVGÜ KORKUT UYSAL
Tez No
637430
Sayısal modülasyonlu işaretlerin radyometre ve derin öğrenme yöntemleri ile tespiti ve başarımı
Empirical analysis of the performance of radiometer and deep learning methods for digitally modulated signals
GAMZE KİRMAN TOKGÖZ
Yüksek Lisans
Türkçe
2020
Elektrik ve Elektronik Mühendisliği İstanbul Ticaret Üniversitesi
Elektronik ve Haberleşme Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERHAN YARKAN
Tez No
692595
Building sensor-based real-time predictive maintenance system by utilizing artificial intelligent techniques
Yapay akıllı teknikleri kullanarak sensör tabanlı gerçek zaman tahminli bakım sistemi kurulması
RAGHAD MOHAMMED KHORSHEED
Doktora
İngilizce
2021
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
Endüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ÖMER FARUK BEYCA
Tez No
787322
Türkiye'deki finansal yatırım araçlarına yönelik tahminlemede zaman serileri analizi ve derin öğrenme tekniklerinin karşılaştırılması
Comparison of time series analysis and deep learning techniques in forecasting financial investment instruments in Turkey
MERVENUR TELATAR
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Okan Üniversitesi
Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ FERİDUN CEMAL ÖZÇAKIR
Tez No
886056
Makine öğrenme yöntemlerini kullanarak çok değişkenli zaman serisi analizi ve tahmin
Multivariate time series analysis and forecasting using machine learning methods
LUBNA ALANIS
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Mersin Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. HAMZA EROL

Geri Dön