Evaluation of retrieval augmented generation on various types of large language models

Çeşitli büyük dil modelleri üzerinde bilgi getirme destekli üretimin değerlendirilmesi

PDF İndir

Tez No: 966083
Yazar: ÖMER KARTLI
Danışmanlar: PROF. DR. SELİM AKYOKUŞ, DR. ÖĞR. ÜYESİ SALİH SARP
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: İngilizce
Üniversite: İstanbul Medipol Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 69

Özet

Bu çalışma kapsamında, Büyük Dil Modellerinin (LLM) performansının, Bilgi Getirme Destekli Üretim (RAG) yöntemi ile optimize edilmesi amaçlanmaktadır. Büyük dil modelin eğitim verileri sınırlı zaman dilimlerinden ve belirli kaynaklardan geldiğinden, güncel olmayan bilgilerle yanıltıcı veya eksik çıktılar üretebilmektedir. Bu eksikliği gidermek için RAG yöntemi bağlamsal doğruluğu artırmakta ve modelin yanıt oluşturma sürecine harici bilgi kaynaklarını (vektör veri tabanları gibi) dahil ederek güncel bilgilere erişim sağlamaktadır. Bu yöntemle, dil modellerinin mevcut bilgi sınırlamalarını aşması, bağlam içinde daha tutarlı yanıtlar üretmesi ve alana özel veri kümelerinde daha güvenilir çıktılar sağlaması amaçlanmaktadır. RAG mimarisi üç temel aşamadan oluşmaktadır: Belge indeksleme, anlamsal benzerliğe dayalı belge alma ve bu belgelerin model yanıt oluşturma sürecine entegre edilmesi. Bu mimari sayesinde dil modelleri, yalnızca kendi parametrelerine güvenmek yerine gerekli bilgileri harici kaynaklardan çekerek daha doğru yanıtlar üretebilmektedir. Model çıktılarını değerlendirmek için insan müdahalesi gerektirmeyen Bilgi Getirme Destekli Üretimi Otomatik Değerlendirme (RAGAS) sistemi kullanıldı. RAGAS, bağlam hatırlama, bilgiye sadakat ve yanıt alaka düzeyi gibi metriklerle yanıtların güvenilirliğini ve doğruluğunu istatistiksel olarak değerlendirir. Bu sistem hem açık kaynaklı hem de kapalı kaynaklı ticari modellerin performansını nesnel olarak karşılaştırmak için etkili bir çerçeve sunar. Bu çalışmada, OpenAI GPT-4o gibi kapalı kaynaklı modeller ve Llama 3.1 8B Instant, Llama 3.3 70B Versatile ve Gemini 1.5 Flash gibi açık kaynaklı modeller RAG entegrasyonu ile test edildi. Bu amaçla, veri setleri OpenAIEmbeddings (model=“text-embedding-3-small”) gömlemelemesi ile (embeddinglerle) test edilmiştir. Ayrıca performans değerlendirmesi için BERTScore F1, BLEU, ROUGE, METEOR gibi ölçütler kullanılmıştır. Modellerin başarıları, Fas Tarihi Soru Cevap (Morocco History QA) ve Stanford Soru Cevaplama Veri seti (SQuAD) olmak üzere iki farklı alandan veri seti kullanılarak ölçüldü. Özellikle, GPT-4o modeli yanıt hızı ve doğruluk ve yanıt alaka düzeyi gibi birçok açıdan üstün performans gösterse de diğer açık kaynaklı modeller de bazı değerlendirme metriklerinde yüksek performans göstermişler ve bu modele yakın sonuçlar ortaya koymuşlardır. Sonuçlar yalnızca modellerin bireysel performanslarını değil, aynı zamanda RAG sisteminin farklı modeller ve farklı veri setleri üzerindeki etkisini de ortaya koydu. Böylece, RAG destekli büyük dil modelinin kullanımı hem akademik araştırma hem de pratik uygulamalar için somut önerilerle desteklenmiştir. Çalışmada, veri çeşitliliği, yanıt doğruluğu, kaynak güncelliği ve otomatik değerlendirme gibi temel kriterler doğrultusunda kapsamlı bir yol haritası sunulmuştur.

Özet (Çeviri)

This study aims to optimize the performance of Large Language Models (LLMs) using the Retrieval Augmented Generation (RAG) method. Because the training data for large language models comes from limited time periods and specific sources, they can produce misleading or incomplete outputs due to outdated information. To address this shortcoming, the RAG method increases contextual accuracy and provides access to up-to-date information by incorporating external information sources (such as vector databases) into the model's response generation process. The objective of this technique to help the language models surpass current knowledge limitations and generate more consistent responses in context and reliable outputs on domain-specific datasets. RAG architecture consists of three different steps. First, document indexing takes place. Then, documents are retrieved based on semantic similarity, and finally, the generation of the model response happens by integrating these documents. Through this architecture, language models can produce more precise responses by acquiring the information they require from external sources, rather than relying solely on their parameters. The model outputs were assessed using the Retrieval Augmented Generation Automated Assessment (RAGAS) which requires no human intervention. RAGAS strategically measures the reliability and accuracy of responses through context recall, information fidelity, response relevance, and more evaluation metrics. This system helps to compare the performance of open-source and closed-source commercial models fairly and without any bias. The research investigated closed-source models such as OpenAI GPT-4o and open-source models such as Llama 3.1 8B Instant, Llama 3.3 70B Versatile and Gemini 1.5 Flash with RAG integration. The datasets were tested with commercial embedding i.e. OpenAIEmbeddings (model=“text-embedding-3-small”). Additionally, metrics such as BERTScore F1, BLEU, ROUGE and METEOR were used for performance evaluation. The models' performance was measured using datasets from two different domains: Morocco History QA and Stanford Question Answering (SQuAD). While the GPT-4o model demonstrated superior performance in many aspects such as response speed, accuracy and response relevance, other open-source models also demonstrated superior performance in some evaluation metrics and yielded results similar to this model. The results demonstrate not only the individual performance of the models but also the effectiveness of the RAG system on different models and different datasets. Thus, the use of the RAG-powered large language model is supported by concrete recommendations for both academic research and practical applications. The study presents a comprehensive roadmap based on key criteria such as data diversity, response accuracy, source timeliness and automated evaluation.

Benzer Tezler

Tez No
884293
Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration
Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu
ISMAIL OUBAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Aydın Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELCUK SENER
Tez No
961756
Benchmarking generative ai in structured domains: A critical evaluation of LLM–RAG architectures for flight recommendations
Yapılandırılmış alanlarda üretken yapay zekanın kıyaslanması: Uçuş tavsiyeleri için LLM–RAG mimarilerinin eleştirel bir değerlendirmesi
TUQA RAHMAN
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Teknik Üniversitesi
Büyük Veri ve İş Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ IBRAHEEM SHAYEA
DR. ÖĞR. ÜYESİ MERYEM UZUN-PER
Tez No
958966
Yapay zeka destekli proje bilgi sistemleri: Horizon Europe projeleri üzerinden bir chatbot modeli
Ai-powered project information systems: A chatbot model based on Horizon Europe projects
BÜŞRA TAŞDELEN
Yüksek Lisans
Türkçe
2025
Bilim ve Teknoloji Ankara Üniversitesi
Enformatik Ana Bilim Dalı
DOÇ. DR. ERİNÇ KARATAŞ
Tez No
957363
BDM tabanlı akıllı kütüphane tarama ve diyalog sistemi
BDM based smart library browsing and dialogue system
SUAT GÖK
Yüksek Lisans
Türkçe
2025
Bilgi ve Belge Yönetimi Batman Üniversitesi
Bilgi Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAFZULLAH İŞ
Tez No
921425
Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search
Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma
DERYA TANYILDIZ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET FATİH AMASYALI
DOÇ. DR. SERKAN AYVAZ

Geri Dön