Geri Dön

Named entity recognition for e-commerce search queries in Turkish

Türkçe e-ticaret arama sorguları için adlandırılmış varlık tanıma

  1. Tez No: 898266
  2. Yazar: BEYZANUR SARAÇLAR
  3. Danışmanlar: DOÇ. DR. MUSTAFA AĞAOĞLU
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Marmara Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Veri Bilimi Bilim Dalı
  13. Sayfa Sayısı: 48

Özet

E-ticaretin gelişmesi, çevrimiçi işlemlerin sayısında hızlı bir artışa yol açarak, arama motorlarını tüketicilerin ürün ve hizmetleri bulmasında önemli bir araç haline getirdi. Adlandırılmış Varlık Tanıma'nın (NER) kullanıcı sorgularına uygulanması, e-ticaret platformlarının ürün keşfi ve kullanıcı deneyimini geliştirmek için ağırlıklı olarak kullanıcı arama sorgularına dayanması nedeniyle özellikle önemli hale gelmektedir. Bu araştırma, Türkçe dilinde e-ticaret arama sorgularına NER yönteminin uygulanmasına daklanmaktadır. Bu amaçla Türkçe dilinde açıklamalı bir e-ticaret arama sorgusu veri kümesi oluşturduk. Çalışmada ön eğitimli modellere ince ayar yaparak varlık tanımada yüksek performans elde etmek için kelime yerleştirme ve dönüştürücü modeller kullanılmıştır. Önceden eğitilmiş modeller, eğitim aşamalarında devasa derlemler üzerinde kodlanan dil bilgisinden yararlanarak dilin yapısı ve bağlamsal özellikleri sunması açısından önemli bir avantaj sunar. Bu yaklaşım, NER sisteminin, alana özgü kapsamlı eğitim verileri gerektirmeden, e-ticaret Türkçe arama sorgularına özgü bağlamsal ve dilsel özellikleri kavramasını sağlar. Sonuçlara göre tüm Transformers tabanlı modeller, tüm ölçümlerde temel modellerden daha iyi performans gösteriyor ve bu da büyük miktarda veriyle ön eğitimin üstün performansını gösteriyor. Bireysel transformatör modelleri arasında ELECTRA %91,97 ve %84,27 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score'une elde etmiştir. Öte yandan ön eğitimli BERT word ebedding amacıyla Bi-LSTM+CRF modeli ile kombinasyonu, tüm modeller arasında %92,49 ve %84,34 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score'une elde etmiştir. Ayrıca yapılan deneyler göstermektedir ki kaynakların kısıtlı olduğu ortamlar için DistilBERT ve ConvBERT, performans ve verimlilik arasında dengeli bir uzlaşma sunabilirken, maksimum performans gerektiren görevlerde, daha yüksek kaynak gereksinimlerine rağmen BERT+Bi-LSTM+CRF ve ELECTRA tercih edilebilir. Buna ilaveten BERT modelinin tek başına performans ve verimlilik arasında iyi bir denge kurduğu gözlemlenmiştir.

Özet (Çeviri)

The progress in e-commerce has led to a rapid rise in online transactions, making search engines an essential tool for consumers searching for products and services. The application of Named Entity Recognition (NER) to user queries has become particularly important for e-commerce platforms, as they heavily rely on user search queries to enhance product discovery and user experience. This research focuses on the application of NER methods to e-commerce search queries in the Turkish language. To this end, we have created an annotated dataset of e-commerce search queries in Turkish. In the study, word embeddings and transformer models were used to achieve high performance in entity recognition by fine-tuning pre-trained models. The use of pre-trained models offers a substantial advantage through the utilization of language structure and contextual features encoded in massive corpora during training stages. This approach enables the NER system to grasp the contextual and linguistic characteristics specific to Turkish e-commerce search queries without requiring extensive domain-specific training data. According to the results, all transformer-based models outperform baseline models across all metrics, demonstrating the superior performance of pre-training with large amounts of data. Among individual transformer models, ELECTRA achieved the highest weighted and macro avg. F1-scores with 91.97% and 84.27%, respectively. However, the combination of the pre-trained BERT model with the Bi-LSTM+CRF model for word embeddings achieved the highest weighted and macro avg. F1-scores among all models, with 92.49% and 84.34%, respectively. Additionally, experiments indicate that in resource-constrained environments, DistilBERT and ConvBERT offer a balanced trade-off between performance and efficiency, while for tasks requiring maximum performance, BERT+Bi-LSTM+CRF and ELECTRA may be preferred despite their higher resource requirements. Furthermore, BERT alone was observed to strike a good balance between performance and efficiency.

Benzer Tezler

  1. A feature based simple machine learning approach with word embeddings to named entity recognition on tweets

    Kavram tanıma üzerine özellik tabanlı bir makine öğrenmesi yaklaşımı

    METE TAŞPINAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. TANKUT ACARMAN

  2. Türkçe'de varlık ismi tanıma

    Named entity recognition in Turkish

    ASIM GÜNEŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  3. Deep neural networks for named entity recognition on social media

    Sosyal medya üzerinde varlık ismi tanıma için derin sinir ağları

    EMRE KAĞAN AKKAYA

    Yüksek Lisans

    İngilizce

    İngilizce

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR

  4. İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti

    ITU NER - named entity recognition on Turkish texts

    GÖKHAN AKIN ŞEKER

    Yüksek Lisans

    Türkçe

    Türkçe

    2015

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Bilimleri Ana Bilim Dalı

    DOÇ. DR. GÜLŞEN ERYİĞİT

  5. Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma

    Named entity recognition by conditional random fields from Turkish informal texts

    SERAP ÖZKAYA

    Yüksek Lisans

    Türkçe

    Türkçe

    2013

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BANU DİRİ