Turkuaz Türkçe anlamsal temsil modeli ve çok bağlamlı bilgi getirimi kıyaslama veri kümesi
Turkuaz Turkish semantic representation model and multi-context information retrieval benchmark
- Tez No: 957587
- Danışmanlar: PROF. DR. MEHMET FATİH AMASYALI
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Yıldız Teknik Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 71
Özet
Günümüzde Büyük Dil Modelleri, soru-cevap sistemlerinin temel bileşeni olarak dikkat çekmektedir. Ancak bu modeller, yalnızca eğitim verilerinden öğrendikleri bilgilerle yanıt üretmeleri nedeniyle çeşitli sınırlamalara sahiptir. Özellikle güncel veya alanlara özgü bilgiler gerektiren durumlarda, yanıtlar güvenilirliğini yitirebilmekte ve“halüsinasyon”olarak adlandırılan hatalı üretimlere yol açabilmektedir. Bu sorunu kısmen aşmak amacıyla, bilgi getirimini üretim sürecine entegre eden Erişim Destekli Üretim sistemleri geliştirilmiştir. Bu tez kapsamında, Türkçe Doğal Dil İşleme alanında iki temel katkı sunulmaktadır. İlk olarak, Türkçe çoklu bağlamlı bilgi getirimi görevleri için geliştirilen“Turkuaz-RAG”veri kümesi tanıtılmaktadır. Bu veri kümesi, yaygın bir haber arşivinden türetilmiş yaklaşık 2.500 örnek içermekte ve karşılaştırma veya zamana bağlılık gibi farklı bağlamsal bilgi türlerini gerektiren soruları içermektedir. Bu sayede, Türkçede daha önce ele alınmamış olan çoklu bağlam getirimi konusuna odaklanan ilk kıyaslama veri kümesi (benchmark) sunulmuştur. İkinci olarak, Türkçe için özel olarak optimize edilmiş yeni bir anlamsal temsil modeli olan“Turkuaz-Embeddings”tanıtılmaktadır. Bu model, mevcut çok dilli ve Türkçe anlamsal temsil modellerine kıyasla bilgi getirimi performansında anlamlı iyileşmeler sağlamaktadır. Ortalama %9, bazı senaryolarda ise %20'ye varan başarım artışı elde edilmiştir. Ayrıca, morfolojik karmaşıklığı yüksek olan Türkçe gibi dillerde geleneksel sözcük tabanlı (lexical) arama yöntemlerinin eksiklerini gidermek amacıyla, lemmatizasyon ve kök bulma (stemming) yöntemlerine ihtiyaç duymadan çalışan yenilikçi bir alt-kelime (token) tabanlı sözcüksel arama yöntemi önerilmektedir. Bu yöntem ise, bilgi getirimi değerlendirmelerinde ortalama %5 ve en fazla %10'a varan performans artışı sağlamaktadır. Bu üç katkı bir araya geldiğinde, Türkçe Erişim Destekli Üretim sistemleri için daha doğru, güvenilir ve bağlama duyarlı bilgi getirimi sağlayan altyapılar sunulmakta ve Türkçenin düşük kaynaklı (low-resourced) dil yapısına rağmen güçlü bir temel oluşturulmaktadır.
Özet (Çeviri)
Today, Large Language Models (LLMs) stand out as a core component of question-answering systems. However, since these models generate responses solely based on the information learned from their training data, they face several limitations. Especially in cases requiring up-to-date or domain-specific knowledge, the responses may lose reliability and lead to incorrect generations known as“hallucinations.”To partially overcome this issue, Retrieval-Augmented Generation (RAG) systems have been developed, which integrate information retrieval into the generation process. In this thesis, two key contributions are presented in the field of Turkish natural language processing. First, a novel dataset called“Turkuaz-RAG”is introduced for Turkish multi-context information retrieval tasks. This dataset, consisting of approximately 2,500 samples derived from a widely used news archive, includes questions that require different types of contextual information such as comparison or time-based reasoning. As such, it represents the first benchmark dataset specifically focused on multi-context retrieval in Turkish. Second, a new embedding model named“Turkuaz-Embeddings”, specifically optimized for Turkish, is introduced. Compared to existing multilingual and Turkish embedding models, this model significantly improves retrieval performance by achieving an average of 9% and up to 20% improvement in certain scenarios. Additionally, to address the shortcomings of traditional lexical search methods in morphologically complex languages like Turkish, an innovative subword-based (token-based) lexical search method is proposed. This approach operates without relying on lemmatization or stemming and offers up to 10% improvement, with an average of 5% across information retrieval evaluation tasks. Together, these three contributions provide foundational components that enable more accurate, reliable, and context-aware information retrieval for Turkish RAG systems, establishing a strong basis despite Turkish being a low-resource language.
Benzer Tezler
- Türk hukukunda Turkuaz Kart
Turquois Card in Turkish law
MERVE ÖMERCİOĞLU
Yüksek Lisans
Türkçe
2022
HukukAntalya Bilim ÜniversitesiÖzel Hukuk Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÜVEN YARAR
- Kesikli sistemde ultraviyole ışık uygulamasının yoğurdun küf sayısı ve ürün kalitesi üzerine etkisi
The effect of batch system ultraviolet light application on the mold growth and the quality of yoghurt
TURKUAZ ECEM SAATLİ OĞUL
Yüksek Lisans
Türkçe
2018
Gıda MühendisliğiEge ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
DOÇ. DR. NURCAN KOCA
- Turkuaz rengin Türk kültür ve sanatında serüveni
The adventure of turquoise color in Turkish culture and art
ŞULE VARDAR
Yüksek Lisans
Türkçe
2023
Güzel SanatlarKarabük ÜniversitesiResim Ana Sanat Dalı
DR. ÖĞR. ÜYESİ EVRİM ÇAĞLAYAN
- Remazol turkuaz mavi tekstil boyar maddesinin sulu çözeltilerden elektrokoagülasyon yöntemi ile giderimi
Removal of remazol turquoise blue textile dye from aqueous solutions by electrocoagulation
CİHAN UYSAL
Yüksek Lisans
Türkçe
2011
KimyaGebze Yüksek Teknoloji EnstitüsüKimya Ana Bilim Dalı
PROF. DR. ERHAN DEMİRBAŞ
- Büyük Selçuklu Dönemi turkuaz sırlı seramiklerinin özellikleri ve turkuaz sırlı yeni seramik tasarımları
Turquoise glazed ceramics of the Great Seljuk's period and new turquoise glazed ceramics design
EZGİ ÖRGEN
Yüksek Lisans
Türkçe
2007
Güzel SanatlarDokuz Eylül ÜniversitesiGeleneksel Türk El Sanatları Ana Sanat Dalı
YRD. DOÇ. DR. ATİLLA C. KILIÇ