Geri Dön

Enhancing retrieval-augmented generation for data science: A comprehensive framework for academic literature navigation

Veri bilimi odaklı bir RAG modeli: Akademik literatür tarama için kapsamlı bir araç

  1. Tez No: 929435
  2. Yazar: AHMET YASİN AYTAR
  3. Danışmanlar: DOÇ. DR. KEMAL KILIÇ, DOÇ. DR. KAMER KAYA
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: Sabancı Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 55

Özet

Hızla gelişen veri bilimi alanında, oldukça kapsamlı olan akademik literatürü etkili bir şekilde araştırmak, karar alımı ve innovasyon için oldukça önemlidir. Bu makale, veri bilimcilerin doğru ve bağlamsal olarak ilgili akademik kaynaklara erişmelerine yardımcı olmak amacıyla tasarlanmış bir Retrieval-Augmented Generation (RAG) uygulamasını sunmaktadır. Uygulama, GeneRation Of BIbliographic Data (GROBID), embedding modelini fine-tune etme, semantic chunking ve hiyerarşik bilgi çekme yöntemi gibi ileri teknikleri entegre ederek getirilen bilgilerin alaka düzeyini önemli ölçüde artırmaktadır. Retrieval-Augmented Generation Assessment System (RAGAS) çerçevesi kullanılarak yapılan kapsamlı bir değerlendirme, özellikle Context Relevancy (Bağlam Uyumu) metriği açısından önemli iyileştirmeler göstererek sistemin bilgi yükünü azaltma ve karar alma süreçlerini geliştirme konusundaki etkinliğini vurgulamaktadır. Bulgularımız, bu geliştirilmiş RAG sisteminin veri bilimi alanında akademik literatür taramasını dönüştürme potansiyelini ve araştırmacılar ile uygulayıcılar için değerli bir araç olma özelliğini ortaya koymaktadır.

Özet (Çeviri)

In the rapidly evolving field of data science, efficiently navigating the expansive body of academic literature is crucial for informed decision-making and innovation. This thesis presents an enhanced Retrieval-Augmented Generation (RAG) application designed to assist data scientists in accessing precise and contextually relevant academic resources. The application integrates advanced techniques, including GeneRation Of BIbliographic Data (GROBID), fine-tuning embedding model, semantic chunking, and an abstract-first retrieval method, to significantly improve the relevance and accuracy of the retrieved information. A comprehensive evaluation using the Retrieval-Augmented Generation Assessment System (RAGAS) framework demonstrates substantial improvements in key metrics, particularly Context Relevance, underscoring the system's effectiveness in reducing information overload and enhancing decision-making processes. Our findings highlight the potential of this enhanced RAG system to transform academic exploration within data science, providing a valuable tool for researchers and practitioners alike.

Benzer Tezler

  1. Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı

    Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy

    MEHMET ÇAĞRI ÇALIŞKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar Üniversitesi

    Yapay Zeka Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKALP TULUM

  2. Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search

    Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma

    DERYA TANYILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET FATİH AMASYALI

    DOÇ. DR. SERKAN AYVAZ

  3. Enhancing retrieval-augmented generation: Optimizing document splits and parameters for improved language model responses

    Alımla zenginleştirişmiş üretı̇mı̇n gelı̇ştı̇rı̇lmesı̇: Gelı̇şmı̇ş dı̇l modelı̇ yanıtları ı̇çı̇n belge ayrımlarının ve parametrelerı̇n optı̇mı̇ze edı̇lmesı̇

    CABİR ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BEYTULLAH YILDIZ

  4. Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration

    Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu

    ISMAIL OUBAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    YRD. DOÇ. DR. SELCUK SENER

  5. Enhancing warehouse efficiency through geographic information system and genetic algorithm

    Coğrafi bilgi sistemleri ve genetik algoritma ile depo verimliliğinin artırılması

    ONUR YÜREKLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMED ENES ATİK