Enhancing retrieval-augmented generation for data science: A comprehensive framework for academic literature navigation
Veri bilimi odaklı bir RAG modeli: Akademik literatür tarama için kapsamlı bir araç
- Tez No: 929435
- Danışmanlar: DOÇ. DR. KEMAL KILIÇ, DOÇ. DR. KAMER KAYA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: Sabancı Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Veri Bilimi Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 55
Özet
Hızla gelişen veri bilimi alanında, oldukça kapsamlı olan akademik literatürü etkili bir şekilde araştırmak, karar alımı ve innovasyon için oldukça önemlidir. Bu makale, veri bilimcilerin doğru ve bağlamsal olarak ilgili akademik kaynaklara erişmelerine yardımcı olmak amacıyla tasarlanmış bir Retrieval-Augmented Generation (RAG) uygulamasını sunmaktadır. Uygulama, GeneRation Of BIbliographic Data (GROBID), embedding modelini fine-tune etme, semantic chunking ve hiyerarşik bilgi çekme yöntemi gibi ileri teknikleri entegre ederek getirilen bilgilerin alaka düzeyini önemli ölçüde artırmaktadır. Retrieval-Augmented Generation Assessment System (RAGAS) çerçevesi kullanılarak yapılan kapsamlı bir değerlendirme, özellikle Context Relevancy (Bağlam Uyumu) metriği açısından önemli iyileştirmeler göstererek sistemin bilgi yükünü azaltma ve karar alma süreçlerini geliştirme konusundaki etkinliğini vurgulamaktadır. Bulgularımız, bu geliştirilmiş RAG sisteminin veri bilimi alanında akademik literatür taramasını dönüştürme potansiyelini ve araştırmacılar ile uygulayıcılar için değerli bir araç olma özelliğini ortaya koymaktadır.
Özet (Çeviri)
In the rapidly evolving field of data science, efficiently navigating the expansive body of academic literature is crucial for informed decision-making and innovation. This thesis presents an enhanced Retrieval-Augmented Generation (RAG) application designed to assist data scientists in accessing precise and contextually relevant academic resources. The application integrates advanced techniques, including GeneRation Of BIbliographic Data (GROBID), fine-tuning embedding model, semantic chunking, and an abstract-first retrieval method, to significantly improve the relevance and accuracy of the retrieved information. A comprehensive evaluation using the Retrieval-Augmented Generation Assessment System (RAGAS) framework demonstrates substantial improvements in key metrics, particularly Context Relevance, underscoring the system's effectiveness in reducing information overload and enhancing decision-making processes. Our findings highlight the potential of this enhanced RAG system to transform academic exploration within data science, providing a valuable tool for researchers and practitioners alike.
Benzer Tezler
- Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı
Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy
MEHMET ÇAĞRI ÇALIŞKAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar ÜniversitesiYapay Zeka Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKALP TULUM
- Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search
Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma
DERYA TANYILDIZ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET FATİH AMASYALI
DOÇ. DR. SERKAN AYVAZ
- Enhancing retrieval-augmented generation: Optimizing document splits and parameters for improved language model responses
Alımla zenginleştirişmiş üretı̇mı̇n gelı̇ştı̇rı̇lmesı̇: Gelı̇şmı̇ş dı̇l modelı̇ yanıtları ı̇çı̇n belge ayrımlarının ve parametrelerı̇n optı̇mı̇ze edı̇lmesı̇
CABİR ÇELİK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım ÜniversitesiYazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. BEYTULLAH YILDIZ
- Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration
Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu
ISMAIL OUBAH
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Aydın ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SELCUK SENER
- Enhancing warehouse efficiency through geographic information system and genetic algorithm
Coğrafi bilgi sistemleri ve genetik algoritma ile depo verimliliğinin artırılması
ONUR YÜREKLİ
Yüksek Lisans
İngilizce
2024
Mühendislik Bilimleriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED ENES ATİK