Geri Dön

Semantic search on Turkish e-commerce data: Benchmarking language models

Türkçe e-ticaret verisi üzerinde semantik arama: Dil modelleri karşılaştırması

  1. Tez No: 902950
  2. Yazar: SELAMİ UĞUR CİVELEK
  3. Danışmanlar: YRD. DOÇ. DUYGU ÇAKIR YENİDOĞAN
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Bahçeşehir Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Mühendislik ve Doğa Bilimleri Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 51

Özet

Arama sistemleri ile olan kullanıcı etkileşimleri çoğunlukla yapılandırılmamış metin üzerinden gerçekleştiği için, girilen ifadelerdeki dilsel ilişkileri çözümlemek döndürülen öğelerin gerçekten alakalı ve kullanıcı niyetini karşılar nitelikte olması açısından önem arz etmektedir. Geleneksel arama motorları, genellikle anahtar kelime tabanlı eşleştirmeye dayandığı için terimler arasındaki gizli ilişkileri ve sorgulardaki bağlamsal kalıpları sıklıkla gözden kaçırmaktadır. Bu çalışma, bu klasik yaklaşımların sınırlamalarını ele alırken, modern dil modelleri yardımı ile elde edilebilen, kalıplama (embedding) olarak da bilinen vektörel temsillerin mümkün kıldığı semantik yaklaşımların potansiyelini keşfetmektedir. Özel olarak, bu araştırma, Türkçe dil içeriği ile internet üzerinden satış yapan endüstriyel bir markanın ürün veri setinden anlamsal içerik çıkarmada ve sonrasında bu verinin arama ile sorgulanmasında farklı kalıplama modellerinin nasıl performans gösterdiğini değerlendirmektedir. Çalışma, Türkçe BERT, LLaMA 3.1-8B ve Voyage AI'ın Multilingual-2 modelleri kullanılarak oluşturulan kalıplamaların alakalı sonuçları getirme konusundaki performansını karşılaştırmaktadır. Belirlenen dil modelleri üzerinden yapılan karşılaştırmalı analiz yoluyla, çalışma, Türkçe kullanıcı sorgularının doğru bir şekilde yorumlanması ve yanıtlanmasında semantik arama yaklaşımının gücünü ortaya koymaktadır.

Özet (Çeviri)

Since user interactions with search systems basically rely on unstructured text, correctly analyzing the linguistic properties in a given input emerges as an important problem to address in order to retrieve the most relevant results for the user query. Traditional search engines, relying predominantly on keyword-based matching, most of the time fail to capture the nuanced relationships between terms and the contextual patterns inherent in the queries. This study addresses the limitations of these classical approaches by instead exploring the potential of semantic-based methods, which leverage state-of-the-art language models to enhance query understanding and retrieval accuracy, by employing vectoral representations known as embeddings. Specifically, this research evaluates the performance of various embedding models in extracting semantic content from a product data set of an online seller brand. The study compares the retrieval performances of embeddings extracted using Turkish BERT, LLaMA 3.1-8B, and Voyage AI's Multilingual-2 models when incorporated into a search system. Through comparative analysis on these language models, the study demonstrates the power of semantic search approach in accurately interpreting and responding to Turkish user queries.

Benzer Tezler

  1. Improving self-attention based transformer performance for morphologically rich languages

    Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi

    YİĞİT BEKİR KAYA

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DOÇ. DR. AHMET CÜNEYD TANTUĞ

  2. Arama sorguları üzerinde görev tabanlı kümeleme

    Task-based clustering on search queries

    ALMILA SELCEN AKGÜN

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ YUSUF YASLAN

  3. Building semantic based public transportation geoportal compliant with the INSPIRE transport network data theme

    Semantik tabanlı toplu taşıma geoportalının INSPIRE ulaşım veri modeline uyumlu olarak geliştirilmesi

    ARİF GÜNAY

    Doktora

    İngilizce

    İngilizce

    2013

    Jeodezi ve Fotogrametriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET ORHAN ALTAN

  4. Veri akış denklemlerinin çözümü ile kod optimizasyonu

    Code optimization by solving data flow equations

    EROL AKARSU

  5. Semantik veri modellerinde bellekte kalıcı girişler için indeks seçimi

    Selection of indexes to memory-resident entities for data models

    EDA SÜRÜCÜ

    Yüksek Lisans

    Türkçe

    Türkçe

    1993

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    DOÇ.DR. MİTHAT UYSAL