Named entity recognition for e-commerce search queries in Turkish
Türkçe e-ticaret arama sorguları için adlandırılmış varlık tanıma
- Tez No: 898266
- Danışmanlar: DOÇ. DR. MUSTAFA AĞAOĞLU
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Marmara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Veri Bilimi Bilim Dalı
- Sayfa Sayısı: 48
Özet
E-ticaretin gelişmesi, çevrimiçi işlemlerin sayısında hızlı bir artışa yol açarak, arama motorlarını tüketicilerin ürün ve hizmetleri bulmasında önemli bir araç haline getirdi. Adlandırılmış Varlık Tanıma'nın (NER) kullanıcı sorgularına uygulanması, e-ticaret platformlarının ürün keşfi ve kullanıcı deneyimini geliştirmek için ağırlıklı olarak kullanıcı arama sorgularına dayanması nedeniyle özellikle önemli hale gelmektedir. Bu araştırma, Türkçe dilinde e-ticaret arama sorgularına NER yönteminin uygulanmasına daklanmaktadır. Bu amaçla Türkçe dilinde açıklamalı bir e-ticaret arama sorgusu veri kümesi oluşturduk. Çalışmada ön eğitimli modellere ince ayar yaparak varlık tanımada yüksek performans elde etmek için kelime yerleştirme ve dönüştürücü modeller kullanılmıştır. Önceden eğitilmiş modeller, eğitim aşamalarında devasa derlemler üzerinde kodlanan dil bilgisinden yararlanarak dilin yapısı ve bağlamsal özellikleri sunması açısından önemli bir avantaj sunar. Bu yaklaşım, NER sisteminin, alana özgü kapsamlı eğitim verileri gerektirmeden, e-ticaret Türkçe arama sorgularına özgü bağlamsal ve dilsel özellikleri kavramasını sağlar. Sonuçlara göre tüm Transformers tabanlı modeller, tüm ölçümlerde temel modellerden daha iyi performans gösteriyor ve bu da büyük miktarda veriyle ön eğitimin üstün performansını gösteriyor. Bireysel transformatör modelleri arasında ELECTRA %91,97 ve %84,27 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score'une elde etmiştir. Öte yandan ön eğitimli BERT word ebedding amacıyla Bi-LSTM+CRF modeli ile kombinasyonu, tüm modeller arasında %92,49 ve %84,34 ile sırasıyla en yüksek wegihted ve ortalama macro F1-score'une elde etmiştir. Ayrıca yapılan deneyler göstermektedir ki kaynakların kısıtlı olduğu ortamlar için DistilBERT ve ConvBERT, performans ve verimlilik arasında dengeli bir uzlaşma sunabilirken, maksimum performans gerektiren görevlerde, daha yüksek kaynak gereksinimlerine rağmen BERT+Bi-LSTM+CRF ve ELECTRA tercih edilebilir. Buna ilaveten BERT modelinin tek başına performans ve verimlilik arasında iyi bir denge kurduğu gözlemlenmiştir.
Özet (Çeviri)
The progress in e-commerce has led to a rapid rise in online transactions, making search engines an essential tool for consumers searching for products and services. The application of Named Entity Recognition (NER) to user queries has become particularly important for e-commerce platforms, as they heavily rely on user search queries to enhance product discovery and user experience. This research focuses on the application of NER methods to e-commerce search queries in the Turkish language. To this end, we have created an annotated dataset of e-commerce search queries in Turkish. In the study, word embeddings and transformer models were used to achieve high performance in entity recognition by fine-tuning pre-trained models. The use of pre-trained models offers a substantial advantage through the utilization of language structure and contextual features encoded in massive corpora during training stages. This approach enables the NER system to grasp the contextual and linguistic characteristics specific to Turkish e-commerce search queries without requiring extensive domain-specific training data. According to the results, all transformer-based models outperform baseline models across all metrics, demonstrating the superior performance of pre-training with large amounts of data. Among individual transformer models, ELECTRA achieved the highest weighted and macro avg. F1-scores with 91.97% and 84.27%, respectively. However, the combination of the pre-trained BERT model with the Bi-LSTM+CRF model for word embeddings achieved the highest weighted and macro avg. F1-scores among all models, with 92.49% and 84.34%, respectively. Additionally, experiments indicate that in resource-constrained environments, DistilBERT and ConvBERT offer a balanced trade-off between performance and efficiency, while for tasks requiring maximum performance, BERT+Bi-LSTM+CRF and ELECTRA may be preferred despite their higher resource requirements. Furthermore, BERT alone was observed to strike a good balance between performance and efficiency.
Benzer Tezler
- A feature based simple machine learning approach with word embeddings to named entity recognition on tweets
Kavram tanıma üzerine özellik tabanlı bir makine öğrenmesi yaklaşımı
METE TAŞPINAR
Yüksek Lisans
İngilizce
2017
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGalatasaray ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. TANKUT ACARMAN
- Türkçe'de varlık ismi tanıma
Named entity recognition in Turkish
ASIM GÜNEŞ
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Deep neural networks for named entity recognition on social media
Sosyal medya üzerinde varlık ismi tanıma için derin sinir ağları
EMRE KAĞAN AKKAYA
Yüksek Lisans
İngilizce
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ BURCU CAN BUĞLALILAR
- İTÜ NER - Türkçe metinlerde adlandırılmış varlık tespiti
ITU NER - named entity recognition on Turkish texts
GÖKHAN AKIN ŞEKER
Yüksek Lisans
Türkçe
2015
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Bilimleri Ana Bilim Dalı
DOÇ. DR. GÜLŞEN ERYİĞİT
- Türkçe metinlerde şartlı rastgele alanlarla varlık ismi tanıma
Named entity recognition by conditional random fields from Turkish informal texts
SERAP ÖZKAYA
Yüksek Lisans
Türkçe
2013
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. BANU DİRİ