Semantic search on Turkish e-commerce data: Benchmarking language models
Türkçe e-ticaret verisi üzerinde semantik arama: Dil modelleri karşılaştırması
- Tez No: 902950
- Danışmanlar: YRD. DOÇ. DUYGU ÇAKIR YENİDOĞAN
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Bahçeşehir Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Mühendislik ve Doğa Bilimleri Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 51
Özet
Arama sistemleri ile olan kullanıcı etkileşimleri çoğunlukla yapılandırılmamış metin üzerinden gerçekleştiği için, girilen ifadelerdeki dilsel ilişkileri çözümlemek döndürülen öğelerin gerçekten alakalı ve kullanıcı niyetini karşılar nitelikte olması açısından önem arz etmektedir. Geleneksel arama motorları, genellikle anahtar kelime tabanlı eşleştirmeye dayandığı için terimler arasındaki gizli ilişkileri ve sorgulardaki bağlamsal kalıpları sıklıkla gözden kaçırmaktadır. Bu çalışma, bu klasik yaklaşımların sınırlamalarını ele alırken, modern dil modelleri yardımı ile elde edilebilen, kalıplama (embedding) olarak da bilinen vektörel temsillerin mümkün kıldığı semantik yaklaşımların potansiyelini keşfetmektedir. Özel olarak, bu araştırma, Türkçe dil içeriği ile internet üzerinden satış yapan endüstriyel bir markanın ürün veri setinden anlamsal içerik çıkarmada ve sonrasında bu verinin arama ile sorgulanmasında farklı kalıplama modellerinin nasıl performans gösterdiğini değerlendirmektedir. Çalışma, Türkçe BERT, LLaMA 3.1-8B ve Voyage AI'ın Multilingual-2 modelleri kullanılarak oluşturulan kalıplamaların alakalı sonuçları getirme konusundaki performansını karşılaştırmaktadır. Belirlenen dil modelleri üzerinden yapılan karşılaştırmalı analiz yoluyla, çalışma, Türkçe kullanıcı sorgularının doğru bir şekilde yorumlanması ve yanıtlanmasında semantik arama yaklaşımının gücünü ortaya koymaktadır.
Özet (Çeviri)
Since user interactions with search systems basically rely on unstructured text, correctly analyzing the linguistic properties in a given input emerges as an important problem to address in order to retrieve the most relevant results for the user query. Traditional search engines, relying predominantly on keyword-based matching, most of the time fail to capture the nuanced relationships between terms and the contextual patterns inherent in the queries. This study addresses the limitations of these classical approaches by instead exploring the potential of semantic-based methods, which leverage state-of-the-art language models to enhance query understanding and retrieval accuracy, by employing vectoral representations known as embeddings. Specifically, this research evaluates the performance of various embedding models in extracting semantic content from a product data set of an online seller brand. The study compares the retrieval performances of embeddings extracted using Turkish BERT, LLaMA 3.1-8B, and Voyage AI's Multilingual-2 models when incorporated into a search system. Through comparative analysis on these language models, the study demonstrates the power of semantic search approach in accurately interpreting and responding to Turkish user queries.
Benzer Tezler
- Improving self-attention based transformer performance for morphologically rich languages
Morfolojik açıdan zengin diller için öz dikkat tabanlı dönüştürücü performansının iyileştirilmesi
YİĞİT BEKİR KAYA
Doktora
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DOÇ. DR. AHMET CÜNEYD TANTUĞ
- Arama sorguları üzerinde görev tabanlı kümeleme
Task-based clustering on search queries
ALMILA SELCEN AKGÜN
Yüksek Lisans
Türkçe
2018
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ YUSUF YASLAN
- Building semantic based public transportation geoportal compliant with the INSPIRE transport network data theme
Semantik tabanlı toplu taşıma geoportalının INSPIRE ulaşım veri modeline uyumlu olarak geliştirilmesi
ARİF GÜNAY
Doktora
İngilizce
2013
Jeodezi ve Fotogrametriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET ORHAN ALTAN
- Veri akış denklemlerinin çözümü ile kod optimizasyonu
Code optimization by solving data flow equations
EROL AKARSU
Yüksek Lisans
Türkçe
1993
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiDOÇ.DR. NADİA ERDOĞAN
- Semantik veri modellerinde bellekte kalıcı girişler için indeks seçimi
Selection of indexes to memory-resident entities for data models
EDA SÜRÜCÜ