Effects of binary similarity measures on collaborative filtering

İkili benzerlik ölçütlerinin ortak filtrelemeye etkileri

PDF İndir

Tez No: 334849
Yazar: EDİP ŞENYÜREK
Danışmanlar: DOÇ. DR. HÜSEYİN POLAT
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Benzerlik ölçütü, tahmin, en-iyi-N önerisi, doğruluk, performans, Similarity measures, prediction, top-N recommendation, accuracy, performance
Yıl: 2012
Dil: İngilizce
Üniversite: Anadolu Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 59

Özet

İnternet'in popülerliği arttıkça, İnternet üzerinden sanal satıcılar aracılığıyla alışveriş yapmak da artan bir ilgi görmektedir. Müşteriler kendilerine uygun ürünleri satın almak isterler. Diğer bir deyişle, beğenebilecekleri ürünleri seçmeye çalışmaktadırlar. Müşterilerine bu süreçte yardımcı olmak için birçok sanal şirket ortak filtreleme sistemlerinden yararlanmaktadır. Bu sistemler iki tür hizmet sunmaktadır. Bunlar tahmin ve en-iyi-N öneri üretmedir. Bu hizmetlerin kalitesi temel olarak ortak filtreleme algoritmalarının en benzer varlıkları belirlemede kullandığı benzerlik ölçütlerine dayanmaktadır. Ortak filtreleme işlemleri için derlenen veriler sayısal ya da ikili değerler içerebilir. Sayısal değerler için önerilen benzerlik ölçütlerini karşılaştırmak üzere birçok çalışma sunulmuştur. Ancak ikili değerler üzerinde işlem yapan birçok benzerlik ölçütü bulunmasına rağmen, bunların ortak filtreleme sistemlerinin doğruluğu ve performansı üzerindeki etkisi detaylı biçimde çalışılmamıştır.Bu tezde yedi adet ikili oy-tabanlı benzerlik ölçütünün, tahmin üretme ve en-iyi-N listeleri önerisi için hem doğruluk hem de çevrimiçi performans kriterleri bakımından değerlendirmesi yapılmıştır. Yediden daha fazla sayıda ölçüt bulunmasına rağmen, birçok veri madenciliği uygulamalarında sıkça kullanılanlar üzerine yoğunlaşılmıştır. Bu ölçütleri doğruluk ve verimlilik açısından karşılaştırabilmek için iki iyi bilinen gerçek veri seti üzerinde birçok deneyler yapıldı. Farklı benzerlik ölçütlerini, her defasında farklı en benzer kullanıcıların tercihlerinin dahil olduğu ortak filtreleme süreçlerini kullanarak tahminler ve en-iyi-N listeleri üretildi. Ayrıca farklı benzerlik ölçütleriyle, değişen kontrol parametrelerinin performansa olan etkisi araştırıldı. Deneysel sonuçlar doğruluk ve performans açısından analiz edildi.

Özet (Çeviri)

With increasing popularity of the Internet, shopping over the Internet through several online vendors is also receiving increasing attention. Customers want to purchase the appropriate products. In other words, they try to select those products that they might like. In order to help their customers, many online companies utilize collaborative filtering systems. Such systems provide two services, namely prediction and top-N recommendations. Quality of these two services mainly depends on similarity measures that collaborative filtering algorithms use in order to determine the most similar entities. Data collected for collaborative filtering purposes might include either numeric or binary ratings. Several studies have been conducted to compare different similarity measures proposed for numeric data. Although there are various binary ratings-based similarity metrics, their effects on accuracy and performance in collaborative filtering systems have not been deeply studied.In this thesis, we investigate seven binary ratings-based similarity metrics in terms of both accuracy and online performance while providing predictions for single items and top-N lists. Although there are more than seven measures, we consider the most widely used ones in various data mining applications. To compare them in terms of correctness and efficiency, we perform several experiments based on two well-known real data sets. We produce both predictions and top-N lists while using different similarity metrics, where we propose to modify prediction and top-N recommendation algorithms in such a way so that the most similar users? data are involved in collaborative filtering process. We also study how varying controlling parameters affect overall performance with different similarity metrics. We analyze our empirical results in terms of preciseness and performance.

Benzer Tezler

Tez No
639449
An experimental study on homophily and in-group bias in poverty and pension games
Yoksulluk ve emeklilik oyunlarında homofili ve grup içi yanlılık üzerine deneysel bir çalışma
EMİNE ÖZGE YURDAKURBAN
Yüksek Lisans
İngilizce
2020
Ekonomi Galatasaray Üniversitesi
İktisat Ana Bilim Dalı
DOÇ. DR. BİLGE ÖZTÜRK GÖKTUNA
Tez No
382394
Uzaklık ve benzerlik ölçülerinin istatistik alanındaki kullanımı
The usage of dissimilarity and similarity measures in statistics
HASAN YILDIRIM
Yüksek Lisans
Türkçe
2015
İstatistik Çukurova Üniversitesi
İstatistik Ana Bilim Dalı
PROF. DR. SADULLAH SAKALLIOĞLU
Tez No
442135
Cluster based model diagnostic for logistic regression
Lojistik regresyonda kümeye dayalı model seçimi
ÖZGE TANJU
Yüksek Lisans
İngilizce
2016
İstatistik Orta Doğu Teknik Üniversitesi
İstatistik Ana Bilim Dalı
DOÇ. DR. ZEYNEP IŞIL KALAYLIOĞLU AKYILDIZ
Tez No
46148
Yeni bir yöneylem araştırması yaklaşımı: Bilişsel haritalar
Başlık çevirisi yok
ŞULE ÖNSEL
Yüksek Lisans
Türkçe
1995
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
DOÇ.DR. FÜSUN ÖLENGİN
Tez No
19275
Grup teknolojisi imalat sistemi ve sezgisel bir kümelendirme yöntemi
Group technology manufacturing system and a heuristic clustering method
A. KAMİL ATALAR
Yüksek Lisans
Türkçe
1991
Endüstri ve Endüstri Mühendisliği İstanbul Teknik Üniversitesi
PROF.DR. ATAÇ SOYSAL

Geri Dön