Veri temsili yöntemlerinin hibrit kullanımının dil modeli başarısına etkileri
The impact of hybrid usage of data representation methods on the success of language models
- Tez No: 964381
- Danışmanlar: PROF. DR. MEHMET SERDAR GÜZEL
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Ankara Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 46
Özet
Bu tez, büyük dil modellerinde (LLM) yanıt kalitesini doğrudan etkileyen doğru bağlam geri getirme sorununu, bilgi grafiği (KG), yoğun vektör dizinleri ve ters indekslerin hibrit kullanımıyla incelemiştir. 4 810 Türkçe ve 190 İngilizce sorudan oluşan iki soru cevap kümesi, anlamsal parçalama sonrasında 37 095 metin birimine dönüştürülmüş, GPT-4o destekli tam otomatik şema keşfi ile 61 650 düğüm ve 134 087 ilişkiden oluşan bir KG oluşturulmuştur. Sadece bağlam taşıyan 42 602 düğüm için 3 072 boyutlu gömmeler üretilmiş ve Neo4j'de HNSW vektör ile BM25 tam metin dizinleri kurulmuştur. Beş geri getirme stratejisi karşılaştırılmıştır: yalnızca metin (Sparse Only), yalnızca vektör (Dense Only), vektör-metin hibriti (Document Only Dual Norm), KG merkezli hibrit (Cypher Hybrid) ve araştırmacı tarafından tasarlanan hibrit yaklaşım olan İlişki Farkındalıklı Çift Norm Birleşimi (Relation-Aware Dual-Norm Fusion / RADNF). Değerlendirme metrikleri“Doğru Kaynak Sayısı”,“İlk Doğru Kaynağın Sırası”ve“Doğru Kaynak Bulunamayan Soru”olarak seçilmiştir. RADNF, ortalama 1,93 doğru belge ve yalnızca 497 başarısız soru ile en düşük hata oranına ulaşmış, paralel dizin çağrısı sayesinde Dense Only çözüme denk bir bağlam hazırlama süresi sağlamıştır. Çalışma, KG sinyalini çift min-max normlu skor birleştirmeyle entegre eden RADNF tasarımının hibrit RAG literatürüne özgün katkısını göstermekte, tam otomatik KG inşası, çok dilli deney kurgusu ve maliyet raporlaması ile üretim senaryoları için pratik bir yol haritası sunmaktadır.
Özet (Çeviri)
This thesis explores the problem of accurate context retrieval, a decisive factor for answer quality in large language models (LLMs), by hybrid-combining knowledge graphs (KG), dense vector indices and sparse inverted indices. Two QA corpora, which have 4,810 Turkish and 190 English questions, were semantically chunked into 37,095 passages. A fully automated GPT-4o-driven schema discovery step produced a KG containing 61,650 nodes and 134,087 relations. Only the context-bearing nodes (42,602) were embedded with 3,072-dimensional vectors, and Neo4j was equipped with an HNSW vector index and a BM25 full-text index. Five retrieval strategies were evaluated: Sparse Only, Dense Only, Document-Only Dual-Norm, Cypher Hybrid, and the proposed Relation-Aware Dual-Norm Fusion (RADNF). Evaluation metrics comprised Correct Source Count, Earliest Correct Rank, and Missed-Document Questions. RADNF achieved the lowest error, with 497 questions with no correct document, and an average of 1.93 correct passages per query, while matching the latency of the Dense Only baseline via parallel index calls. This study demonstrates the unique contribution of the RADNF design to the hybrid RAG literature by integrating KG signals through dual min–max normalization. It also presents a fully automated KG construction pipeline, a multilingual experimental setup, cost reporting and offers a practical roadmap for production scenarios.
Benzer Tezler
- Efficient estimation of Shrinkage parameters in fuzzy Ridge and fuzzy Liu regression models using α-cut-based methods under multicollinearity
Çoklu bağıntı durumunda bulanık Ridge ve bulanık Liu regresyon modellerinde α-kesim tabanlı yöntemler kullanılarak Shrinkage parametrelerinin etkin tahmini
AMMAR HOMAIDA
- Hierarchical deep bidirectional self-attention model for recommendation
Hiyerarşik çift yönlü öz dikkat tabanlı derin öğrenme tavsiye modeli
İREM İŞLEK
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. ŞULE GÜNDÜZ ÖĞÜDÜCÜ
- Taxonomy and visualization of digital architecture knowledge: Proposal for a scientific online encyclopedia
Dijital mimarlık bilgisinin taksonomisi ve görselleştirilmesi: Bilimsel bir çevrim içi ansiklopedi önerisi
ESRANUR KARACİF
- Yapı teknolojisi eğitiminde parametrik YBM destekli pedagojik yöntemlerin değerlendirilmesi
Evaluation of parametric BIM-enabled pedagogical methods in construction technology education
MEHMET ÜMİT METERELLİYOZ
Doktora
Türkçe
2023
Mimarlıkİstanbul Teknik ÜniversitesiBilişim Ana Bilim Dalı
DOÇ. DR. OZAN ÖNDER ÖZENER
- A hybrid prediction approach using multiple linear regression and decision tree
Çoklu doğrusal regresyon ve karar ağacı kullanarak hibrit tahmin yaklaşım
MARYAM ARIF AZEEZ AZEEZ
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilgisayar ve Bilişim Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ KAYHAN AYAR