Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration

Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu

PDF İndir

Tez No: 884293
Yazar: ISMAIL OUBAH
Danışmanlar: YRD. DOÇ. DR. SELCUK SENER
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: İstanbul Aydın Üniversitesi
Enstitü: Lisansüstü Eğitim Enstitüsü
Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
Sayfa Sayısı: 99

Özet

Bu tez, Optical Character Recognition (OCR) teknolojileri ve transformer tabanlı dil modellerinin bir karışımını kullanan Retrieval-Augmented Generation (RAG) yaklaşımını entegre ederek çok dilli semantik arama için ileri düzey bir sistem tanıtmaktadır. Ana hedef, birden fazla dili ve çeşitli belge formatlarını işleyebilen sağlam bir Question-Answering (QA) sistemi geliştirmektir. Mevcut tek dilli QA veri kümelerinin sınırlamalarını ele alarak, çalışmada XQuAD, FQuAD ve MLQA gibi çok dilli veri kümelerinin artırılması ve OpenAI'nin GPT-3.5 Turbo modeli tarafından üretilen sentetik bir veri kümesi ile tamamlanarak özel bir veri kümesi oluşturulmuştur. Bu, kapsamlı ve bağlam açısından zengin cevapların sağlanmasını garanti eder. Sistem, PaddleOCR kullanarak Fransızca, İngilizce ve İspanyolca gibi birden fazla dilde taranmış belgelerden yüksek kaliteli metin çıkarmaktadır, ancak Arapça belgeler işlenirken bazı zorluklarla karşılaşmıştır. Metin çiftlerini (bağlam ve soru) işleme yeteneğini ve belge alma doğruluğunu artıran Multilingual E5 embedding modelini MultipleNegativesRankingLoss yaklaşımını kullanarak optimize ederek, alma süreci geliştirilmiştir. Metin üretimi için iki model kullanılmıştır: MT5 ve LLAMA 3 8b-instruct. MT5 modeli, bağlamsal anlayışını geliştirmek için başlangıçta QA veri kümeleri üzerinde ve daha sonra daha ayrıntılı cevaplar üretme yeteneğini artırmak için sentetik veri kümesi üzerinde ince ayar yapılmıştır. Gelişmiş dil üretim yetenekleriyle bilinen LLAMA 3, donanım kısıtlamalarına uyum sağlamak için quantization ve prompt tuning ile optimize edilmiştir. İki modelin kullanımı, performanslarını karşılaştırmak ve farklı hesaplama kaynaklarına uygunluklarını göstermek amacıyla yapılmıştır; MT5 daha CPU dostu, LLAMA 3 ise geniş GPU kullanımı gerektirmektedir. RAG sisteminin değerlendirilmesi bileşen bazında ve bir bütün olarak yapılmıştır. Embedding modelinin performansı InformationRetrievalEvaluator kullanılarak değerlendirilirken, jeneratör modeli F1, EM ve BLEU skorları gibi metrikler kullanılarak değerlendirilmiştir. Tam RAG sistemi, bağlam kesinliği, doğruluk, cevap uygunluğu, bağlam hatırlama, cevap doğruluğu ve cevap benzerliği gibi metriklere odaklanarak RAGAS çerçevesi kullanılarak değerlendirilmiştir. Sonuçlar, MT5 modelinin bağlam kesinliği ve uygunluğunda üstün olduğunu, LLAMA 3 modelinin ise cevap doğruluğu ve benzerliğinde üstün performans sergilediğini ve daha doğru ve bağlama uygun cevaplar üretebildiğini göstermiştir. Bu kapsamlı analiz, RAG sisteminin çok dilli semantik arama konusundaki etkinliğini vurgulamaktadır. İnce ayarlı transformer modelleri ve OCR teknolojilerinin entegrasyonu, sistemin gerçek dünya uygulamalarında kullanımını ve çok dilli QA sistemleri için sağlam bir çözüm sunmasını önemli ölçüde artırmaktadır. Bu çalışma, çok dilli belge işleme ve arama alanında gelecekteki ilerlemeler için bir temel oluşturmakta ve daha fazla optimizasyon ve araştırma için değerli içgörüler ve metodolojiler sunmaktadır.

Özet (Çeviri)

This thesis introduces an advanced system for multilingual semantic retrieval using a Retrieval-Augmented Generation (RAG) approach that integrates transformer-based language models and Optical Character Recognition (OCR) technologies. The primary aim is to develop a robust Question-Answering (QA) system that can handle multiple languages and various document formats. Addressing the limitations of existing monolingual QA datasets, the study involves the creation of a custom dataset by enhancing multilingual datasets like XQuAD, FQuAD, and MLQA, and augmenting them with a synthetic dataset generated by OpenAI's GPT-3.5 Turbo model. This ensures comprehensive and context-rich answers. The system employs PaddleOCR to extract high-quality text from scanned documents in multiple languages, including French, English, and Spanish, though it faced challenges with Arabic documents. The retrieval process is optimized by fine-tuning the Multilingual E5 embedding model using the MultipleNegativesRankingLoss approach, which improves the handling of text pairs (context and question) and enhances document retrieval accuracy. For text generation, two models were utilized: MT5 and LLAMA 3 8b-instruct. The MT5 model was fine-tuned initially on QA datasets to improve contextual understanding and later on the synthetic dataset to generate detailed answers. LLAMA 3, known for its advanced language generation capabilities, was optimized through quantization and prompt tuning to suit hardware constraints. The use of two models aimed to compare their performance and demonstrate their suitability for different computational resources, with MT5 being more CPU-friendly and LLAMA 3 requiring extensive GPU use. Evaluation of the RAG system was conducted both component-wise and as a whole. The embedding model's performance was assessed using the InformationRetrievalEvaluator, while the generator model was evaluated using metrics like F1, EM, and BLEU scores. The full RAG system was evaluated using the RAGAS framework, focusing on context precision, faithfulness, answer relevancy, context recall, answer correctness, and answer similarity. Results showed that the MT5 model excelled in context precision and relevancy, whereas the LLAMA 3 model demonstrated superior performance in answer correctness and similarity, indicating its better ability to generate accurate and contextually appropriate responses. This comprehensive analysis underscores the effectiveness of the RAG system in multilingual semantic retrieval. The integration of fine-tuned transformer models and OCR technologies significantly enhances the system's utility and versatility in real-world applications, providing a robust solution for multilingual QA systems. The work sets the stage for future advancements in multilingual document processing and retrieval, offering valuable insights and methodologies for further optimization and research.

Benzer Tezler

Tez No
921425
Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search
Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma
DERYA TANYILDIZ
Yüksek Lisans
İngilizce
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET FATİH AMASYALI
DOÇ. DR. SERKAN AYVAZ
Tez No
929435
Enhancing retrieval-augmented generation for data science: A comprehensive framework for academic literature navigation
Veri bilimi odaklı bir RAG modeli: Akademik literatür tarama için kapsamlı bir araç
AHMET YASİN AYTAR
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Sabancı Üniversitesi
Veri Bilimi Ana Bilim Dalı
DOÇ. DR. KEMAL KILIÇ
DOÇ. DR. KAMER KAYA
Tez No
964641
Sağlık verileri üzerinde büyük dil modeli ile yeni bir yaklaşım
A new large language model based approach on health data
BEHÇET ŞENTÜRK
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ankara Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. MEHMET SERDAR GÜZEL
Tez No
957363
BDM tabanlı akıllı kütüphane tarama ve diyalog sistemi
BDM based smart library browsing and dialogue system
SUAT GÖK
Yüksek Lisans
Türkçe
2025
Bilgi ve Belge Yönetimi Batman Üniversitesi
Bilgi Teknolojileri Ana Bilim Dalı
DR. ÖĞR. ÜYESİ HAFZULLAH İŞ
Tez No
946040
Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı
Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy
MEHMET ÇAĞRI ÇALIŞKAN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Üsküdar Üniversitesi
Yapay Zeka Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ GÖKALP TULUM

Geri Dön