Duplicate product record detection engine for e-commerce platforms
E-ticaret platformları için mükerrer ürün kaydı tespit motoru
- Tez No: 668553
- Danışmanlar: DOÇ. DR. TEVFİK AYTEKİN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2021
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 48
Özet
Temiz ve sektör standartlarını karşılayabilen bir ürün kataloğuna sahip olabilmek ve eldeki ürün kataloğunu sektör standartlarının altına düşmeden yaşatabilmek e-ticaret şirketlerinin temel uğraşlarından biridir. Binlerce ürün sağlayıcısı tarafından sisteme girilen yeni ürün bilgileri şirketleri zorlu bir problemle karşı karşıya bırakır: Mükerrer ürün kayıtları. Herhangi bir ürünü birbirinden farklı kelimelerle, farklı resimlerle ve bileşenlerle tanımlamak mümkün olduğundan, mükerrer ürün kayıtlarını tespit edebilmek üstesinden gelmesi zor bir görevdir. Bu çalışmada, bir e-ticaret firması olan Hepsiburada.com için özgün bir mükerrer ürün kaydı tespit motoru önerilmiştir. Motor, Hepsiburada.com'un gerçek verileri temel alınarak geliştirilmiştir. Ham veriden, eğitilebilir bir veri seti oluşturabilmek için çeşitli metin benzerliği algoritmaları, e-ticarete özel kurallandırılmış metin benzerliği metrikleri ve görsel benzerlik metrikleri kullanılmıştır. Metin benzerliği hesaplamaları için Jaccar benzerliği, TF-IDF kosinüs benzerliği ve edit uzaklığı gibi geleneksel metin benzerliği yöntemlerine başvurulmuştur. Görsel benzerlik hesaplamaları için bir Siyam (İkiz) Sinir Ağı eğitilmiştir. Herhangi iki ürünün mükerrer olup olmadığını tespit edebilmek için oluşturulan veri seti kullanılarak iki sınıflı sınıflandırma modelleri eğitilmiştir. Deneysel sonuçlar, önerilen motorun, Hepsiburada.com içerisindeki mükerrer ürün kayıtlarını geleneksel yöntemlerden daha başarılı şekilde tespit edebildiğini göstermiştir.
Özet (Çeviri)
Having a clean product catalog and keeping it complying with the standards of the industry is one of the essential concerns of e-commerce companies. Integrating the product data from multiple providers confronts the companies with a challenging issue: Duplicate product records. Since it is possible to describe a product with a variety of different words, images and attributes, detecting duplicate product records is a difficult task to overcome with. In this thesis, a novel duplicate record detection engine is proposed for an e-commerce company, Hepsiburada.com. The engine is developed based on a real-world data set. A number of different text similarity algorithms, domain-specific distance metrics, image similarity metrics are used to form a training data set. Traditional text similarity algorithms such as Jaccard similarity, TF-IDF cosine similarity and edit distance are used for text similarity calculations. A Siamese (Twin) Neural Network is trained and used for image similarity calculations. Two-class classification models are trained using the data set created to determine whether any two products are duplicated or not. The experimental results show that our engine is able to use product information for duplicate record detection and outperforms the accuracy of non-adaptive methodologies.
Benzer Tezler
- Improving ids alerts to improve the quality of the network security by using data mining techniques
Veri madenciliği tekniklerini kullanarak ağ güvenliğinin kalitesinin iyileştirilmesi için ıds alertını geliştirme
ISAM KAREEM THAJEEL THAJEEL
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş ÜniversitesiPROF. DR. OSMAN NURİ UÇAN
- Türkçe yazım denetleyen editör
Turkish spelling checker editor
K.MESUT YARIMBIYIKLI
Yüksek Lisans
Türkçe
1992
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ. DR. TAKUHİ NADİA ERDOĞAN
- Farklı açıda yerleştirilmiş implantlarda ölçü hassasiyetinin değerlendirilmesi
Evaluation of impression accuracy for implants at different angulations
HANDE ÇITIR YÜCEL
Diş Hekimliği Uzmanlık
Türkçe
2017
Diş HekimliğiSelçuk ÜniversitesiProtetik Diş Tedavisi Ana Bilim Dalı
PROF. DR. ÖZGÜR İNAN
- Sağlık sektöründe veri madenciliği
Data mining in health sector
LEVENT YALÇIN
Yüksek Lisans
Türkçe
2019
Mühendislik BilimleriMilli Savunma ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ SABAHATTİN KEREM AYTULUN
- Hata raportörünün itibarının hesaplanması ve itibarın hata çözüm süresine etkisi
Measuring bug reporter's reputation and its effect on bug resolution time
MUHAMMED KADİR YÜCEL
Yüksek Lisans
Türkçe
2022
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ AYŞE TOSUN KÜHN