Geri Dön

Duplicate product record detection engine for e-commerce platforms

E-ticaret platformları için mükerrer ürün kaydı tespit motoru

  1. Tez No: 668553
  2. Yazar: OSMAN SEMİH ALBAYRAK
  3. Danışmanlar: DOÇ. DR. TEVFİK AYTEKİN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2021
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 48

Özet

Temiz ve sektör standartlarını karşılayabilen bir ürün kataloğuna sahip olabilmek ve eldeki ürün kataloğunu sektör standartlarının altına düşmeden yaşatabilmek e-ticaret şirketlerinin temel uğraşlarından biridir. Binlerce ürün sağlayıcısı tarafından sisteme girilen yeni ürün bilgileri şirketleri zorlu bir problemle karşı karşıya bırakır: Mükerrer ürün kayıtları. Herhangi bir ürünü birbirinden farklı kelimelerle, farklı resimlerle ve bileşenlerle tanımlamak mümkün olduğundan, mükerrer ürün kayıtlarını tespit edebilmek üstesinden gelmesi zor bir görevdir. Bu çalışmada, bir e-ticaret firması olan Hepsiburada.com için özgün bir mükerrer ürün kaydı tespit motoru önerilmiştir. Motor, Hepsiburada.com'un gerçek verileri temel alınarak geliştirilmiştir. Ham veriden, eğitilebilir bir veri seti oluşturabilmek için çeşitli metin benzerliği algoritmaları, e-ticarete özel kurallandırılmış metin benzerliği metrikleri ve görsel benzerlik metrikleri kullanılmıştır. Metin benzerliği hesaplamaları için Jaccar benzerliği, TF-IDF kosinüs benzerliği ve edit uzaklığı gibi geleneksel metin benzerliği yöntemlerine başvurulmuştur. Görsel benzerlik hesaplamaları için bir Siyam (İkiz) Sinir Ağı eğitilmiştir. Herhangi iki ürünün mükerrer olup olmadığını tespit edebilmek için oluşturulan veri seti kullanılarak iki sınıflı sınıflandırma modelleri eğitilmiştir. Deneysel sonuçlar, önerilen motorun, Hepsiburada.com içerisindeki mükerrer ürün kayıtlarını geleneksel yöntemlerden daha başarılı şekilde tespit edebildiğini göstermiştir.

Özet (Çeviri)

Having a clean product catalog and keeping it complying with the standards of the industry is one of the essential concerns of e-commerce companies. Integrating the product data from multiple providers confronts the companies with a challenging issue: Duplicate product records. Since it is possible to describe a product with a variety of different words, images and attributes, detecting duplicate product records is a difficult task to overcome with. In this thesis, a novel duplicate record detection engine is proposed for an e-commerce company, Hepsiburada.com. The engine is developed based on a real-world data set. A number of different text similarity algorithms, domain-specific distance metrics, image similarity metrics are used to form a training data set. Traditional text similarity algorithms such as Jaccard similarity, TF-IDF cosine similarity and edit distance are used for text similarity calculations. A Siamese (Twin) Neural Network is trained and used for image similarity calculations. Two-class classification models are trained using the data set created to determine whether any two products are duplicated or not. The experimental results show that our engine is able to use product information for duplicate record detection and outperforms the accuracy of non-adaptive methodologies.

Benzer Tezler

  1. Improving ids alerts to improve the quality of the network security by using data mining techniques

    Veri madenciliği tekniklerini kullanarak ağ güvenliğinin kalitesinin iyileştirilmesi için ıds alertını geliştirme

    ISAM KAREEM THAJEEL THAJEEL

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAltınbaş Üniversitesi

    PROF. DR. OSMAN NURİ UÇAN

  2. Türkçe yazım denetleyen editör

    Turkish spelling checker editor

    K.MESUT YARIMBIYIKLI

    Yüksek Lisans

    Türkçe

    Türkçe

    1992

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    DOÇ. DR. TAKUHİ NADİA ERDOĞAN

  3. Farklı açıda yerleştirilmiş implantlarda ölçü hassasiyetinin değerlendirilmesi

    Evaluation of impression accuracy for implants at different angulations

    HANDE ÇITIR YÜCEL

    Diş Hekimliği Uzmanlık

    Türkçe

    Türkçe

    2017

    Diş HekimliğiSelçuk Üniversitesi

    Protetik Diş Tedavisi Ana Bilim Dalı

    PROF. DR. ÖZGÜR İNAN

  4. Sağlık sektöründe veri madenciliği

    Data mining in health sector

    LEVENT YALÇIN

    Yüksek Lisans

    Türkçe

    Türkçe

    2019

    Mühendislik BilimleriMilli Savunma Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SABAHATTİN KEREM AYTULUN

  5. Hata raportörünün itibarının hesaplanması ve itibarın hata çözüm süresine etkisi

    Measuring bug reporter's reputation and its effect on bug resolution time

    MUHAMMED KADİR YÜCEL

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ AYŞE TOSUN KÜHN