Deep learning based hybrid recommender system
Derin öğrenme tabanlı öneri sistemi
- Tez No: 574950
- Danışmanlar: PROF. DR. ŞULE ÖĞÜDÜCÜ
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2019
- Dil: İngilizce
- Üniversite: İstanbul Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 61
Özet
Son yıllarda internet üzerindeki çevrimiçi bilgi hacminin sürekli olarak artmasıyla birlikte öneri sistemleri çok daha kritik ve kaçınılmaz bir role sahip olmaya başladı. Özellikle doğal dil işleme ve bilgisayarlı görü gibi metin ve resimdeki büyük miktardaki veriyi işleyip muazzam sonuçlar üreten derin öğrenme tabanlı yaklaşımlar öneri sistemlerinde de uygulanmaya başlandı. Bu tez kapsamında da derin öğrenme tekniklerinden yararlanılmıştır. Öneri sistemleri alanında yapılan çalışmaların birçoğu ya işbirlikçi filtreleme ya da içerik-tabanlı öneri sistemleri üzerine yoğunlaşırken, bu tez kapsamında bu iki yaklaşımın beraber kullanıldığı hibrit bir öneri sistemi algoritması sunulmuştur. Bizim kurduğumuz hibrit öneri modelinin işbirlikçi filtreleme tarafında ID(kimlik) gömme tekniğinden yararlanılmıştır. Bu teknik kullanıcı ve ürünlerin ID'lerini alarak onları bir vektör şeklinde temsil eder. Kimlik gömme tekniğinde tüm kullanıcılar(ürünler) tek sıcak kodlama(one-hot encoding) işlemi yapılarak toplam kullanıcı sayısı kadar uzunlukta olan bir vektörle temsil edilirler. Daha sonra gömme tekniği kullanılarak önceden belirlenen kestirim faktörü (predictive factor)'nün boyutu kadar bir vektöre küçültülür. Kullanıcı ve ürünlerin ID'lerinden elde edilen vektörler klasik matris ayrıştırma tekniklerinin aksine daha esnek bir yapının yani daha fazla parametrenin kullanıldığı doğrusal ve doğrusal olmayan ayarlarla genişletilebilen bir matris ayrıştırma tekniği kullanılmıştır. Diğer taraftan kullanıcı ve ürünlerin kategorik özellikleri benzer gömme tekniği kullanılarak, sürekli değerler alan özellikler için ise normalizasyon işlemi yapılarak özellik vektörleri elde edilmiştir. Kullanıcı ve üründen ayrı ayrı gelen özellik vektörleri birleştirilerek oluşturulan derin sinir ağı modeline input olarak verilmiştir. Yapay sinir ağı modelinde çok katmanlı algılayıcılar kullanılmış, katmanlardaki ağırlık vektörleri ve yanlılık parametreleri ile birlikte kullanıcı ve ürün arasındaki etkileşim sağlanmıştır. Yapay sinir ağının çıktısı olan özellik vektörüyle matris ayrıştırma yönteminden gelen özellik vektörü hibrit sistemin etkileşim katmanında birleştirilerek sonuç elde edilmiştir. Bu hibrit sistem kullanıcı ve ürün etkileşimini modellemek için matris ayrıştırma işleminden gelen doğrusallık ile derin sinir ağının doğrusal olmayan özelliğinin güçlerini birleştirir. Öneri sistemlerinde öneri işlemini gerçekleştirmek için kullanıcının ürün hakkındaki açık ve/veya net olmayan yani zımni geri bildirimlerinden yararlanılır. Açık geri bildirim puan, yorum ve beğen/beğenme gibi işlemlerle kullanıcının ürün hakkındaki tercihini direkt olarak yansıtıyor iken, zımni geri bildirimde olumsuz geri bildirimi kestirmek mümkün olamadığı için kullanıcı memnuniyeti gözlemlenemez. Bu yüzden kullanması zor olmaktadır. Kitap, müzik ve film önerisi gibi çoğu öneri problemlerinde puan ve yorum gibi kullanıcının direkt memnuniyetini yansıtan geri bildirimler varken, çevrimiçi tanışma ve çevrimiçi işe alım siteleri gibi bazı problemlerde yalnızca zımni geri bildirimden yararlanmak durumunda kalınabiliyor. Bu tez çalışmasında, internet üzerinden iş başvurularının yapıldığı websitesinden elde edilen veri kümesi üzerine yoğunlaşılmaktadır. İş öneri sistemleri, çevrimiçi tanışma siteleri gibi karşılıklı öneri sağlar. Hem iş arayanlara profillerine uygun olan iş ilanları listelenir hem de işe alım uzmanlarının kolaylıkla elde edebileceği iş ilanı için özgeçmişi en uygun adayların listesi çıkartılır. Yaygın olarak kullanılan öneri sistemlerinde film izleme, ürün satın alma ve ürüne tıklama gibi bilgiler kullanılıyor iken, bu çalışmada iş önerisi için iş başvuru bilgisi kullanılmıştır. İş başvuru bilgisine ek olarak, iş başvurusu yapan tüm kullanıcıların yaş, cinsiyet, askerlik durumu, çalışma durumu, yaşadığı şehir, bitirdiği üniversite ve departman kullanılıyor iken iş ilanı için işe alınacak aday sayısı, tecih edilen cinsiyet, pozisyon tipi, pozisyon seviyesi ve eğitim durumu bilgileri kullanılmaktadır. Yapılan iş başvuruları pozitif geri bildirim olarak düşünülürken, negatif geri bildirimler gözlemlenmeyen etkileşimler arasından rastgele seçilmektedir. Veriseti iki veya daha fazla iş başvurusu bulunan adaylar arasından seçilmektedir. Bu veri seti eğitim ve test kümesi olarak ikiye ayrılmaktadır. Öncelikle her adayın başvuruları başvuru gününe göre sıralanmaktadır, ve adayın son iş başvurusu test kümesine önceki iş başvuruları eğitim kümesine dahil edilmektedir. Eğitim kümesindeki her iş başvurusu pozitif geri bildirim olarak düşünülürken her pozitif geri bildirime karşılık belirli sayıda (m) rastgele olarak adayın başvurmadığı ilanlar arasından negatif örnek seçilmektedir. Önerilen model eğitim kümesindeki bu verilerle eğitildikten sonra test kümesindeki her bir kullanıcı(her bir kullanıcı için bir başvuru) için başvurabileceği ilanlar arasından rastgele bir ilan kümesi seçilerek test edilir. Doğrudan geribildirimin olduğu öneri sistemlerinde kullanıcının sağladığı etkileşim genellikle ürüne bir puan verme şeklinde gerçekleştirilir. Bu yüzden bu sistemlerde derecelendirme tahmini yapılmaktadır. Kullanıcının ürünle etkileşiminin olup olmamasının pozitif ve negatif olarak değerlendirildiği öneri sistemlerinde ise daha çok top-k sıralama kullanılmaktadır. Öncelikle öneri yapılabilecek aday kümesi seçilmektedir ve daha sonra bu aday kümesi içerisinden en yakın k tanesi skora göre sıralanmaktadır. Bizim hibrit modelimiz iki farklı ağ üzerinden elde edilen gizli özellikleri birleştirerek skor üretir. Önerilen modelin çıktısı ikili sınıflandırma sonucu olarak düşünülebilir çünkü eğer kullanıcı ve ürün arasında bir etkileşim söz konusu ise pozitif geri bildirim olarak 1 alınır, ama herhangi bir etkileşim yoksa 0 olarak düşünülür. Hedef fonksiyon olarak ikili çapraz entropi kaybı optimize edilmektedir. top-k önerisinin kullanıldığı sistemlerde değerlendirme ölçütü olarak isabet oranı(hit ratio) ve normalleştirilmiş indirimli birikimli kazanç(normalized discounted cummulative gain) kullanılmaktadır. Bu çalışmada da bu iki değerlendirme ölçütü kullanılarak baz alınan metodlarla karşılaştırmalar yapılmıştır. Değerlendirme hem kullanıcı önerisi hem de ürün önerisi olmak üzere iki farklı kümeye ayrılmış veriler üzerinde yapılmıştır. Yapılan detaylı deneyler sonucunda önerilen hibrit model hem ürün önerisi için hem de kullanıcı önerisi için önemli bir gelişme kaydetmiştir. Ama değerlendirme ölçütlerinin sonuçları kullanıcı önerisinin ürün önerisinden daha düşük skor ürettiğini göstermektedir. Çünkü bir iş ilanı için seçilebilecek aday kümesinin boyutu, bir adayın başvurabileceği işlerin sayısından oldukça fazladır. Gelecekte Doğal Dil İşleme yaklaşımları kullanılarak kullanıcı ve ürünlerin metin tabanlı özellikleri üzerine çalışmalar yapılması hedeflenmektedir. Örneğin iş öneri sistemlerinde iş ilanı açıklaması, deneyim detayları ya da adayın vasıfları derin öğrenme yaklaşımının girdisi olan gizli özellik uzayını zenginleştirmektedir. Ayrıca top-k sıralama işlemi için kullanılan ve rastgele seçilen negatif örneklerin seçimi yerine öncelikle seçilebilecek adayların kümesi belirlenir ve bu küme için top-k ürün (kullanıcı) listesi oluşturulur. Çünkü bir kullanıcı için rastgele seçilen ürün kümesindeki tüm elemanların hepsi aday profiliyle alakasız olabilir ve test kümesi için değerlendirme ölçütleri çok yüksek sonuçlar üretmesine rağmen kullanıcıya önerilen ürünler başarılı olmayabilir. Bu yüzden çeşitli kümeleme algoritmaları kullanılarak daha alakalı aday kümesi seçilmesi hedeflenmektedir.
Özet (Çeviri)
Recommender systems have been playing a vital and unavoidable role to overcome information overload with steadily increasing volume of online information. In recent years, deep learning has gained tremendous success on natural language processing, computer vision, and speech recognition. This success has triggered the adaptation of deep learning techniques on recommender systems by giving more opportunity to improve recommendation performance. While there are several studies that purely focus on collaborative and content-based filtering approaches, we combine these two techniques under a hybrid system. Our hybrid system uses ID embeddings for collaborative filtering side under a matrix factorization technique, and content information such as categorical and continuous features of users and items are processed under a deep neural network architecture. It combines the strengths of non-linearity of DNN and linearity of MF to model user - item interaction. In recommendation systems, recommendation tasks utilize explicit and/or implicit feedback of users. While explicit feedback directly reflects preferences of users through ratings, reviews, and like/unlikes, it is more challenging to use implicit feedback since user satisfication is not observed because of natural deficiency of negative feedback. While some types of datasets have explicit feedback that is easy to separate positive and negative feedback from each other, there is only implicit feedback for some recommendation problems. In this study, we specifically use a dataset from an e-recruitment website. Job recommendation task being a kind of reciprocal recommendation both provides job seekers to find the most proper job openings and helps recruiters to select the most suitable candidates. In job recommendation, job application information is considered as positive feedback, and negative feedback is randomly selected from unobserved interactions. Our hybrid model obtains latent features from two different networks, and calculates a score by concatenating all feature vectors. The output of the proposed model can be thought as binary classification result since the interaction between users and items is taken as 1 for positive feedback or 0 for negative feedback, then binary cross entropy loss (log loss) is optimized. Also, top-k recommendation task is performed instead of rating prediction because of using implicit feedback. Hit Ratio (HR) and NDCG (Normalized Discounted Cummulative Gain) are used as evaluation metrices to realize top-k recommendation task. Detailed experiments on this job-site dataset show considerable improvements of the proposed hybrid model over the state of art models.
Benzer Tezler
- Hybrid reciprocal recommendation with advanced feature representations
Gelişmiş özellik gösterimleri ile hibrit çift taraflı öneri sistemleri
EZGİ YILDIRIM
Doktora
İngilizce
2021
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE ÖĞÜDÜCÜ
- Hybrid deep multi-criteria recommender system model
Hibrit derin çok kriterli öneri sistemi modeli
ABDULRAHMAN ALNAHHAS
Yüksek Lisans
İngilizce
2021
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. YUSUF İLKER TOPCU
- A hybrid article recommendation system based on deep learning and co-publication network analytics
Derin öğrenme ve ortak yayın ağı analitiklerine dayalı bir hibrit bilimsel makale öneri sistemi
BÜŞRA ATLANEL
Yüksek Lisans
İngilizce
2019
Mühendislik BilimleriBoğaziçi ÜniversitesiYönetim Bilişim Sistemleri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AHMET ONUR DURAHİM
- Bilgisayar ağı güvenliği için hibrit öznitelik azaltma ile makine öğrenmesine dayalı bir saldırı tespit sistemi tasarımı
Designing a machine learning based intrusion detection system with hybrid feature reduction for network security
MUHAMMED SAFA BIÇAKCI
Yüksek Lisans
Türkçe
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. SİNAN TOKLU
- Hierarchical deep bidirectional self-attention model for recommendation
Hiyerarşik çift yönlü öz dikkat tabanlı derin öğrenme tavsiye modeli
İREM İŞLEK
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ