Geri Dön

Evaluation of retrieval augmented generation on various types of large language models

Çeşitli büyük dil modelleri üzerinde bilgi getirme destekli üretimin değerlendirilmesi

  1. Tez No: 966083
  2. Yazar: ÖMER KARTLI
  3. Danışmanlar: PROF. DR. SELİM AKYOKUŞ, DR. ÖĞR. ÜYESİ SALİH SARP
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Mühendislik Bilimleri, Computer Engineering and Computer Science and Control, Engineering Sciences
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: İngilizce
  9. Üniversite: İstanbul Medipol Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 69

Özet

Bu çalışma kapsamında, Büyük Dil Modellerinin (LLM) performansının, Bilgi Getirme Destekli Üretim (RAG) yöntemi ile optimize edilmesi amaçlanmaktadır. Büyük dil modelin eğitim verileri sınırlı zaman dilimlerinden ve belirli kaynaklardan geldiğinden, güncel olmayan bilgilerle yanıltıcı veya eksik çıktılar üretebilmektedir. Bu eksikliği gidermek için RAG yöntemi bağlamsal doğruluğu artırmakta ve modelin yanıt oluşturma sürecine harici bilgi kaynaklarını (vektör veri tabanları gibi) dahil ederek güncel bilgilere erişim sağlamaktadır. Bu yöntemle, dil modellerinin mevcut bilgi sınırlamalarını aşması, bağlam içinde daha tutarlı yanıtlar üretmesi ve alana özel veri kümelerinde daha güvenilir çıktılar sağlaması amaçlanmaktadır. RAG mimarisi üç temel aşamadan oluşmaktadır: Belge indeksleme, anlamsal benzerliğe dayalı belge alma ve bu belgelerin model yanıt oluşturma sürecine entegre edilmesi. Bu mimari sayesinde dil modelleri, yalnızca kendi parametrelerine güvenmek yerine gerekli bilgileri harici kaynaklardan çekerek daha doğru yanıtlar üretebilmektedir. Model çıktılarını değerlendirmek için insan müdahalesi gerektirmeyen Bilgi Getirme Destekli Üretimi Otomatik Değerlendirme (RAGAS) sistemi kullanıldı. RAGAS, bağlam hatırlama, bilgiye sadakat ve yanıt alaka düzeyi gibi metriklerle yanıtların güvenilirliğini ve doğruluğunu istatistiksel olarak değerlendirir. Bu sistem hem açık kaynaklı hem de kapalı kaynaklı ticari modellerin performansını nesnel olarak karşılaştırmak için etkili bir çerçeve sunar. Bu çalışmada, OpenAI GPT-4o gibi kapalı kaynaklı modeller ve Llama 3.1 8B Instant, Llama 3.3 70B Versatile ve Gemini 1.5 Flash gibi açık kaynaklı modeller RAG entegrasyonu ile test edildi. Bu amaçla, veri setleri OpenAIEmbeddings (model=“text-embedding-3-small”) gömlemelemesi ile (embeddinglerle) test edilmiştir. Ayrıca performans değerlendirmesi için BERTScore F1, BLEU, ROUGE, METEOR gibi ölçütler kullanılmıştır. Modellerin başarıları, Fas Tarihi Soru Cevap (Morocco History QA) ve Stanford Soru Cevaplama Veri seti (SQuAD) olmak üzere iki farklı alandan veri seti kullanılarak ölçüldü. Özellikle, GPT-4o modeli yanıt hızı ve doğruluk ve yanıt alaka düzeyi gibi birçok açıdan üstün performans gösterse de diğer açık kaynaklı modeller de bazı değerlendirme metriklerinde yüksek performans göstermişler ve bu modele yakın sonuçlar ortaya koymuşlardır. Sonuçlar yalnızca modellerin bireysel performanslarını değil, aynı zamanda RAG sisteminin farklı modeller ve farklı veri setleri üzerindeki etkisini de ortaya koydu. Böylece, RAG destekli büyük dil modelinin kullanımı hem akademik araştırma hem de pratik uygulamalar için somut önerilerle desteklenmiştir. Çalışmada, veri çeşitliliği, yanıt doğruluğu, kaynak güncelliği ve otomatik değerlendirme gibi temel kriterler doğrultusunda kapsamlı bir yol haritası sunulmuştur.

Özet (Çeviri)

This study aims to optimize the performance of Large Language Models (LLMs) using the Retrieval Augmented Generation (RAG) method. Because the training data for large language models comes from limited time periods and specific sources, they can produce misleading or incomplete outputs due to outdated information. To address this shortcoming, the RAG method increases contextual accuracy and provides access to up-to-date information by incorporating external information sources (such as vector databases) into the model's response generation process. The objective of this technique to help the language models surpass current knowledge limitations and generate more consistent responses in context and reliable outputs on domain-specific datasets. RAG architecture consists of three different steps. First, document indexing takes place. Then, documents are retrieved based on semantic similarity, and finally, the generation of the model response happens by integrating these documents. Through this architecture, language models can produce more precise responses by acquiring the information they require from external sources, rather than relying solely on their parameters. The model outputs were assessed using the Retrieval Augmented Generation Automated Assessment (RAGAS) which requires no human intervention. RAGAS strategically measures the reliability and accuracy of responses through context recall, information fidelity, response relevance, and more evaluation metrics. This system helps to compare the performance of open-source and closed-source commercial models fairly and without any bias. The research investigated closed-source models such as OpenAI GPT-4o and open-source models such as Llama 3.1 8B Instant, Llama 3.3 70B Versatile and Gemini 1.5 Flash with RAG integration. The datasets were tested with commercial embedding i.e. OpenAIEmbeddings (model=“text-embedding-3-small”). Additionally, metrics such as BERTScore F1, BLEU, ROUGE and METEOR were used for performance evaluation. The models' performance was measured using datasets from two different domains: Morocco History QA and Stanford Question Answering (SQuAD). While the GPT-4o model demonstrated superior performance in many aspects such as response speed, accuracy and response relevance, other open-source models also demonstrated superior performance in some evaluation metrics and yielded results similar to this model. The results demonstrate not only the individual performance of the models but also the effectiveness of the RAG system on different models and different datasets. Thus, the use of the RAG-powered large language model is supported by concrete recommendations for both academic research and practical applications. The study presents a comprehensive roadmap based on key criteria such as data diversity, response accuracy, source timeliness and automated evaluation.

Benzer Tezler

  1. Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration

    Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu

    ISMAIL OUBAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SELCUK SENER

  2. Benchmarking generative ai in structured domains: A critical evaluation of LLM–RAG architectures for flight recommendations

    Yapılandırılmış alanlarda üretken yapay zekanın kıyaslanması: Uçuş tavsiyeleri için LLM–RAG mimarilerinin eleştirel bir değerlendirmesi

    TUQA RAHMAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Büyük Veri ve İş Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ IBRAHEEM SHAYEA

    DR. ÖĞR. ÜYESİ MERYEM UZUN-PER

  3. Yapay zeka destekli proje bilgi sistemleri: Horizon Europe projeleri üzerinden bir chatbot modeli

    Ai-powered project information systems: A chatbot model based on Horizon Europe projects

    BÜŞRA TAŞDELEN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilim ve TeknolojiAnkara Üniversitesi

    Enformatik Ana Bilim Dalı

    DOÇ. DR. ERİNÇ KARATAŞ

  4. BDM tabanlı akıllı kütüphane tarama ve diyalog sistemi

    BDM based smart library browsing and dialogue system

    SUAT GÖK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgi ve Belge YönetimiBatman Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAFZULLAH İŞ

  5. Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search

    Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma

    DERYA TANYILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET FATİH AMASYALI

    DOÇ. DR. SERKAN AYVAZ