Geri Dön

Turkuaz Türkçe anlamsal temsil modeli ve çok bağlamlı bilgi getirimi kıyaslama veri kümesi

Turkuaz Turkish semantic representation model and multi-context information retrieval benchmark

  1. Tez No: 957587
  2. Yazar: ENES SADİ UYSAL
  3. Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Yıldız Teknik Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 71

Özet

Günümüzde Büyük Dil Modelleri, soru-cevap sistemlerinin temel bileşeni olarak dikkat çekmektedir. Ancak bu modeller, yalnızca eğitim verilerinden öğrendikleri bilgilerle yanıt üretmeleri nedeniyle çeşitli sınırlamalara sahiptir. Özellikle güncel veya alanlara özgü bilgiler gerektiren durumlarda, yanıtlar güvenilirliğini yitirebilmekte ve“halüsinasyon”olarak adlandırılan hatalı üretimlere yol açabilmektedir. Bu sorunu kısmen aşmak amacıyla, bilgi getirimini üretim sürecine entegre eden Erişim Destekli Üretim sistemleri geliştirilmiştir. Bu tez kapsamında, Türkçe Doğal Dil İşleme alanında iki temel katkı sunulmaktadır. İlk olarak, Türkçe çoklu bağlamlı bilgi getirimi görevleri için geliştirilen“Turkuaz-RAG”veri kümesi tanıtılmaktadır. Bu veri kümesi, yaygın bir haber arşivinden türetilmiş yaklaşık 2.500 örnek içermekte ve karşılaştırma veya zamana bağlılık gibi farklı bağlamsal bilgi türlerini gerektiren soruları içermektedir. Bu sayede, Türkçede daha önce ele alınmamış olan çoklu bağlam getirimi konusuna odaklanan ilk kıyaslama veri kümesi (benchmark) sunulmuştur. İkinci olarak, Türkçe için özel olarak optimize edilmiş yeni bir anlamsal temsil modeli olan“Turkuaz-Embeddings”tanıtılmaktadır. Bu model, mevcut çok dilli ve Türkçe anlamsal temsil modellerine kıyasla bilgi getirimi performansında anlamlı iyileşmeler sağlamaktadır. Ortalama %9, bazı senaryolarda ise %20'ye varan başarım artışı elde edilmiştir. Ayrıca, morfolojik karmaşıklığı yüksek olan Türkçe gibi dillerde geleneksel sözcük tabanlı (lexical) arama yöntemlerinin eksiklerini gidermek amacıyla, lemmatizasyon ve kök bulma (stemming) yöntemlerine ihtiyaç duymadan çalışan yenilikçi bir alt-kelime (token) tabanlı sözcüksel arama yöntemi önerilmektedir. Bu yöntem ise, bilgi getirimi değerlendirmelerinde ortalama %5 ve en fazla %10'a varan performans artışı sağlamaktadır. Bu üç katkı bir araya geldiğinde, Türkçe Erişim Destekli Üretim sistemleri için daha doğru, güvenilir ve bağlama duyarlı bilgi getirimi sağlayan altyapılar sunulmakta ve Türkçenin düşük kaynaklı (low-resourced) dil yapısına rağmen güçlü bir temel oluşturulmaktadır.

Özet (Çeviri)

Today, Large Language Models (LLMs) stand out as a core component of question-answering systems. However, since these models generate responses solely based on the information learned from their training data, they face several limitations. Especially in cases requiring up-to-date or domain-specific knowledge, the responses may lose reliability and lead to incorrect generations known as“hallucinations.”To partially overcome this issue, Retrieval-Augmented Generation (RAG) systems have been developed, which integrate information retrieval into the generation process. In this thesis, two key contributions are presented in the field of Turkish natural language processing. First, a novel dataset called“Turkuaz-RAG”is introduced for Turkish multi-context information retrieval tasks. This dataset, consisting of approximately 2,500 samples derived from a widely used news archive, includes questions that require different types of contextual information such as comparison or time-based reasoning. As such, it represents the first benchmark dataset specifically focused on multi-context retrieval in Turkish. Second, a new embedding model named“Turkuaz-Embeddings”, specifically optimized for Turkish, is introduced. Compared to existing multilingual and Turkish embedding models, this model significantly improves retrieval performance by achieving an average of 9% and up to 20% improvement in certain scenarios. Additionally, to address the shortcomings of traditional lexical search methods in morphologically complex languages like Turkish, an innovative subword-based (token-based) lexical search method is proposed. This approach operates without relying on lemmatization or stemming and offers up to 10% improvement, with an average of 5% across information retrieval evaluation tasks. Together, these three contributions provide foundational components that enable more accurate, reliable, and context-aware information retrieval for Turkish RAG systems, establishing a strong basis despite Turkish being a low-resource language.

Benzer Tezler

  1. Türk hukukunda Turkuaz Kart

    Turquois Card in Turkish law

    MERVE ÖMERCİOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    HukukAntalya Bilim Üniversitesi

    Özel Hukuk Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÜVEN YARAR

  2. Kesikli sistemde ultraviyole ışık uygulamasının yoğurdun küf sayısı ve ürün kalitesi üzerine etkisi

    The effect of batch system ultraviolet light application on the mold growth and the quality of yoghurt

    TURKUAZ ECEM SAATLİ OĞUL

    Yüksek Lisans

    Türkçe

    Türkçe

    2018

    Gıda MühendisliğiEge Üniversitesi

    Gıda Mühendisliği Ana Bilim Dalı

    DOÇ. DR. NURCAN KOCA

  3. Turkuaz rengin Türk kültür ve sanatında serüveni

    The adventure of turquoise color in Turkish culture and art

    ŞULE VARDAR

    Yüksek Lisans

    Türkçe

    Türkçe

    2023

    Güzel SanatlarKarabük Üniversitesi

    Resim Ana Sanat Dalı

    DR. ÖĞR. ÜYESİ EVRİM ÇAĞLAYAN

  4. Remazol turkuaz mavi tekstil boyar maddesinin sulu çözeltilerden elektrokoagülasyon yöntemi ile giderimi

    Removal of remazol turquoise blue textile dye from aqueous solutions by electrocoagulation

    CİHAN UYSAL

    Yüksek Lisans

    Türkçe

    Türkçe

    2011

    KimyaGebze Yüksek Teknoloji Enstitüsü

    Kimya Ana Bilim Dalı

    PROF. DR. ERHAN DEMİRBAŞ

  5. Büyük Selçuklu Dönemi turkuaz sırlı seramiklerinin özellikleri ve turkuaz sırlı yeni seramik tasarımları

    Turquoise glazed ceramics of the Great Seljuk's period and new turquoise glazed ceramics design

    EZGİ ÖRGEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2007

    Güzel SanatlarDokuz Eylül Üniversitesi

    Geleneksel Türk El Sanatları Ana Sanat Dalı

    YRD. DOÇ. DR. ATİLLA C. KILIÇ