Geri Dön

Enhancing retrieval-augmented generation: Optimizing document splits and parameters for improved language model responses

Alımla zenginleştirişmiş üretı̇mı̇n gelı̇ştı̇rı̇lmesı̇: Gelı̇şmı̇ş dı̇l modelı̇ yanıtları ı̇çı̇n belge ayrımlarının ve parametrelerı̇n optı̇mı̇ze edı̇lmesı̇

  1. Tez No: 895612
  2. Yazar: CABİR ÇELİK
  3. Danışmanlar: DOÇ. DR. BEYTULLAH YILDIZ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Atılım Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yazılım Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yazılım Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 83

Özet

Doğal Dil İşleme (NLP) alanındaki son gelişmeler, özellikle de çeşitli alanlarda güçlü uygulamalar sunan Büyük Dil Modellerinin (LLM) ortaya çıkmasıyla oldukça heyecan vericidir. Bu tez, sağlık alanında etkili bir asistan oluşturmada LLM'leri desteklemek için Alımla-Zeninleştrilmiş Üretim (RAG) çerçevesinde bir iyileştirme sunmaktadır. Sağlıkla ilgili belge analizinde RAG süreçlerini geliştirmek için cümle duyarlı algoritmalarla döküman bölmeye odaklanılmaktadır. Araştırmada, seçilmiş kitaplardan oluşan bir veri kümesi kullanarak RAG'de cümle duyarlı döküman bölmelerin etkinliğini incelemektedir. Bu belgeler, derin öğrenme modelleri veya geleneksel karakter tabanlı bölme yöntemleri kullanılarak bölünmekte ve bir vektör veritabanında saklanmaktadır. Test için seçilen sorular Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametreler kullanılarak veritabanında sorgulandı ve benzer bölümler getirildi. Benzerlik puanları hesaplanarak en alakalı bölünmeler belirlenir. Sonuçlar, cümle duyarlı bölmenin geleneksel karakter tabanlı bölmeden daha iyi performans gösterdiğini ve Bölme Uzunluğu, Top K ve Pencere Boyutu gibi parametrelerin RAG performansını önemli ölçüde artırdığını göstermektedir

Özet (Çeviri)

Recent developments in Natural Language Processing (NLP) are very exciting, especially with the advent of Large Language Models (LLMs), which offer powerful applications in various domains. This thesis presents an enhancement of the Retrieval-Augmented Generation (RAG) framework to support LLMs in creating an effective health-related assistant. The focus is on sentence-aware splitting algorithms to improve RAG processes in healthcare document analysis. The research investigates the effectiveness of sentence-aware splitting in RAG using a dataset of questions and books. These documents are split into different lengths based on sentence awareness, using either deep learning models or traditional character-based methods, and stored in a vector database. For testing, questions are selected and relevant splits are retrieved from the database using parameters such as Split Length, Top K, and Window Size. Similarity scores are calculated to identify the most relevant splits. The results show that sentence-aware splitting outperforms traditional character-based splitting and that parameters such as Split Length, Top K, and Window Size significantly improve RAG performance.

Benzer Tezler

  1. Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration

    Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu

    ISMAIL OUBAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SELCUK SENER

  2. Enhancing warehouse efficiency through geographic information system and genetic algorithm

    Coğrafi bilgi sistemleri ve genetik algoritma ile depo verimliliğinin artırılması

    ONUR YÜREKLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMED ENES ATİK

  3. Cloud based veins recognition and authentication using CNN

    CNN kullanarak bulut tabanlı damar tanıma ve doğrulama

    NATEK MOHAMMED SAKRAN SAKRAN

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÇankırı Karatekin Üniversitesi

    Elektronik ve Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ SEDA ŞAHİN

  4. Empowering multimodal multimedia information retrieval through semantic deep learning

    Semantik derin öğrenme yoluyla multimodal multimedya bilgi erişimini güçlendirme

    SAEID SATTARI

    Doktora

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET HALİT SEYFULLAH OĞUZTÜZÜN

    PROF. DR. ADNAN YAZICI

  5. Enhancing feature selection with contextual relatedness filtering using Wikipedia

    Wikipedia yolu ile bağlamsal ilişki filtrelemesi kullanarak geliştirilmiş özellik seçme

    MELİH BAYDAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİhsan Doğramacı Bilkent Üniversitesi

    Bilgisayar Bilimleri ve Mühendisliği Ana Bilim Dalı

    PROF. FAZLI CAN