Geri Dön

Semantic search on Turkish e-commerce data: Benchmarking language models

Türkçe e-ticaret verisi üzerinde semantik arama: Dil modelleri karşılaştırması

  1. Tez No: 902950
  2. Yazar: SELAMİ UĞUR CİVELEK
  3. Danışmanlar: YRD. DOÇ. DUYGU ÇAKIR YENİDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Mühendislik ve Doğa Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 51

Özet

Arama sistemleri ile olan kullanıcı etkileşimleri çoğunlukla yapılandırılmamış metin üzerinden gerçekleştiği için, girilen ifadelerdeki dilsel ilişkileri çözümlemek döndürülen öğelerin gerçekten alakalı ve kullanıcı niyetini karşılar nitelikte olması açısından önem arz etmektedir. Geleneksel arama motorları, genellikle anahtar kelime tabanlı eşleştirmeye dayandığı için terimler arasındaki gizli ilişkileri ve sorgulardaki bağlamsal kalıpları sıklıkla gözden kaçırmaktadır. Bu çalışma, bu klasik yaklaşımların sınırlamalarını ele alırken, modern dil modelleri yardımı ile elde edilebilen, kalıplama (embedding) olarak da bilinen vektörel temsillerin mümkün kıldığı semantik yaklaşımların potansiyelini keşfetmektedir. Özel olarak, bu araştırma, Türkçe dil içeriği ile internet üzerinden satış yapan endüstriyel bir markanın ürün veri setinden anlamsal içerik çıkarmada ve sonrasında bu verinin arama ile sorgulanmasında farklı kalıplama modellerinin nasıl performans gösterdiğini değerlendirmektedir. Çalışma, Türkçe BERT, LLaMA 3.1-8B ve Voyage AI'ın Multilingual-2 modelleri kullanılarak oluşturulan kalıplamaların alakalı sonuçları getirme konusundaki performansını karşılaştırmaktadır. Belirlenen dil modelleri üzerinden yapılan karşılaştırmalı analiz yoluyla, çalışma, Türkçe kullanıcı sorgularının doğru bir şekilde yorumlanması ve yanıtlanmasında semantik arama yaklaşımının gücünü ortaya koymaktadır.

Özet (Çeviri)

Since user interactions with search systems basically rely on unstructured text, correctly analyzing the linguistic properties in a given input emerges as an important problem to address in order to retrieve the most relevant results for the user query. Traditional search engines, relying predominantly on keyword-based matching, most of the time fail to capture the nuanced relationships between terms and the contextual patterns inherent in the queries. This study addresses the limitations of these classical approaches by instead exploring the potential of semantic-based methods, which leverage state-of-the-art language models to enhance query understanding and retrieval accuracy, by employing vectoral representations known as embeddings. Specifically, this research evaluates the performance of various embedding models in extracting semantic content from a product data set of an online seller brand. The study compares the retrieval performances of embeddings extracted using Turkish BERT, LLaMA 3.1-8B, and Voyage AI's Multilingual-2 models when incorporated into a search system. Through comparative analysis on these language models, the study demonstrates the power of semantic search approach in accurately interpreting and responding to Turkish user queries.

Benzer Tezler

  1. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Arama sorguları üzerinde görev tabanlı kümeleme

    Task-based clustering on search queries

    ALMILA SELCEN AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  3. Building semantic based public transportation geoportal compliant with the INSPIRE transport network data theme

    Semantik tabanlı toplu taşıma geoportalının INSPIRE ulaşım veri modeline uyumlu olarak geliştirilmesi

    ARİF GÜNAY

    Doktora

    İngilizce

    İngilizce

    2013

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET ORHAN ALTAN

  4. Evaluation of vector and graph-based search methods in a banking knowledge platform using advanced language models

    Bankacılık bilgi platformu için vektör ve grafik temelli arama yöntemlerinin gelişmiş dil modelleriyle değerlendirilmesi

    BÜNYAMİN BAKIR

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Büyük Veri ve İş Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SÜHA TUNA

  5. BDM tabanlı akıllı kütüphane tarama ve diyalog sistemi

    BDM based smart library browsing and dialogue system

    SUAT GÖK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgi ve Belge YönetimiBatman Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAFZULLAH İŞ