Enhancing retrieval-augmented generation: Optimizing document splits and parameters for improved language model responses

Alımla zenginleştirişmiş üretı̇mı̇n gelı̇ştı̇rı̇lmesı̇: Gelı̇şmı̇ş dı̇l modelı̇ yanıtları ı̇çı̇n belge ayrımlarının ve parametrelerı̇n optı̇mı̇ze edı̇lmesı̇

PDF İndir

Tez No: 895612
Yazar: CABİR ÇELİK
Danışmanlar: DOÇ. DR. BEYTULLAH YILDIZ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: Atılım Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
Sayfa Sayısı: 83

Özet

Doğal Dil İşleme (NLP) alanındaki son gelişmeler, özellikle de çeşitli alanlarda güçlü uygulamalar sunan Büyük Dil Modellerinin (LLM) ortaya çıkmasıyla oldukça heyecan vericidir. Bu tez, sağlık alanında etkili bir asistan oluşturmada LLM'leri desteklemek için Alımla-Zeninleştrilmiş Üretim (RAG) çerçevesinde bir iyileştirme sunmaktadır. Sağlıkla ilgili belge analizinde RAG süreçlerini geliştirmek için cümle duyarlı algoritmalarla döküman bölmeye odaklanılmaktadır. Araştırmada, seçilmiş kitaplardan oluşan bir veri kümesi kullanarak RAG'de cümle duyarlı döküman bölmelerin etkinliğini incelemektedir. Bu belgeler, derin öğrenme modelleri veya geleneksel karakter tabanlı bölme yöntemleri kullanılarak bölünmekte ve bir vektör veritabanında saklanmaktadır. Test için seçilen sorular Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametreler kullanılarak veritabanında sorgulandı ve benzer bölümler getirildi. Benzerlik puanları hesaplanarak en alakalı bölünmeler belirlenir. Sonuçlar, cümle duyarlı bölmenin geleneksel karakter tabanlı bölmeden daha iyi performans gösterdiğini ve Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametrelerin RAG performansını önemli ölçüde artırdığını göstermektedir

Özet (Çeviri)

Recent developments in Natural Language Processing (NLP) are very exciting, especially with the advent of Large Language Models (LLMs), which offer powerful applications in various domains. This thesis presents an enhancement of the Retrieval-Augmented Generation (RAG) framework to support LLMs in creating an effective health-related assistant. The focus is on sentence-aware splitting algorithms to improve RAG processes in healthcare document analysis. The research investigates the effectiveness of sentence-aware splitting in RAG using a dataset of questions and books. These documents are split into different lengths based on sentence awareness, using either deep learning models or traditional character-based methods, and stored in a vector database. For testing, questions are selected and relevant splits are retrieved from the database using parameters such as Split Length, Top K, and Window Size. Similarity scores are calculated to identify the most relevant splits. The results show that sentence-aware splitting outperforms traditional character-based splitting and that parameters such as Split Length, Top K, and Window Size significantly improve RAG performance.

Benzer Tezler

Tez No
921425
Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search
Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma
DERYA TANYILDIZ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET FATİH AMASYALI
DOÇ. DR. SERKAN AYVAZ
Tez No
929435
Enhancing retrieval-augmented generation for data science: A comprehensive framework for academic literature navigation
Veri bilimi odaklı bir RAG modeli: Akademik literatür tarama için kapsamlı bir araç
AHMET YASİN AYTAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Veri Bilimi Ana Bilim Dalı
DOÇ. DR. KEMAL KILIÇ
DOÇ. DR. KAMER KAYA
Tez No
884293
Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration
Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu
ISMAIL OUBAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol İstanbul Aydın Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELCUK SENER
Tez No
946040
Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı
Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy
MEHMET ÇAĞRI ÇALIŞKAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Üsküdar Üniversitesi
Yapay Zeka Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKALP TULUM
Tez No
885663
Enhancing warehouse efficiency through geographic information system and genetic algorithm
Coğrafi bilgi sistemleri ve genetik algoritma ile depo verimliliğinin artırılması
ONUR YÜREKLİ
Yüksek Lisans
İngilizce
2024
Mühendislik Bilimleri İstanbul Teknik Üniversitesi
Geomatik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED ENES ATİK

Geri Dön