Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration
Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu
- Tez No: 884293
- Danışmanlar: YRD. DOÇ. DR. SELCUK SENER
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Belirtilmemiş.
- Yıl: 2024
- Dil: İngilizce
- Üniversite: İstanbul Aydın Üniversitesi
- Enstitü: Lisansüstü Eğitim Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
- Sayfa Sayısı: 99
Özet
Bu tez, Optical Character Recognition (OCR) teknolojileri ve transformer tabanlı dil modellerinin bir karışımını kullanan Retrieval-Augmented Generation (RAG) yaklaşımını entegre ederek çok dilli semantik arama için ileri düzey bir sistem tanıtmaktadır. Ana hedef, birden fazla dili ve çeşitli belge formatlarını işleyebilen sağlam bir Question-Answering (QA) sistemi geliştirmektir. Mevcut tek dilli QA veri kümelerinin sınırlamalarını ele alarak, çalışmada XQuAD, FQuAD ve MLQA gibi çok dilli veri kümelerinin artırılması ve OpenAI'nin GPT-3.5 Turbo modeli tarafından üretilen sentetik bir veri kümesi ile tamamlanarak özel bir veri kümesi oluşturulmuştur. Bu, kapsamlı ve bağlam açısından zengin cevapların sağlanmasını garanti eder. Sistem, PaddleOCR kullanarak Fransızca, İngilizce ve İspanyolca gibi birden fazla dilde taranmış belgelerden yüksek kaliteli metin çıkarmaktadır, ancak Arapça belgeler işlenirken bazı zorluklarla karşılaşmıştır. Metin çiftlerini (bağlam ve soru) işleme yeteneğini ve belge alma doğruluğunu artıran Multilingual E5 embedding modelini MultipleNegativesRankingLoss yaklaşımını kullanarak optimize ederek, alma süreci geliştirilmiştir. Metin üretimi için iki model kullanılmıştır: MT5 ve LLAMA 3 8b-instruct. MT5 modeli, bağlamsal anlayışını geliştirmek için başlangıçta QA veri kümeleri üzerinde ve daha sonra daha ayrıntılı cevaplar üretme yeteneğini artırmak için sentetik veri kümesi üzerinde ince ayar yapılmıştır. Gelişmiş dil üretim yetenekleriyle bilinen LLAMA 3, donanım kısıtlamalarına uyum sağlamak için quantization ve prompt tuning ile optimize edilmiştir. İki modelin kullanımı, performanslarını karşılaştırmak ve farklı hesaplama kaynaklarına uygunluklarını göstermek amacıyla yapılmıştır; MT5 daha CPU dostu, LLAMA 3 ise geniş GPU kullanımı gerektirmektedir. RAG sisteminin değerlendirilmesi bileşen bazında ve bir bütün olarak yapılmıştır. Embedding modelinin performansı InformationRetrievalEvaluator kullanılarak değerlendirilirken, jeneratör modeli F1, EM ve BLEU skorları gibi metrikler kullanılarak değerlendirilmiştir. Tam RAG sistemi, bağlam kesinliği, doğruluk, cevap uygunluğu, bağlam hatırlama, cevap doğruluğu ve cevap benzerliği gibi metriklere odaklanarak RAGAS çerçevesi kullanılarak değerlendirilmiştir. Sonuçlar, MT5 modelinin bağlam kesinliği ve uygunluğunda üstün olduğunu, LLAMA 3 modelinin ise cevap doğruluğu ve benzerliğinde üstün performans sergilediğini ve daha doğru ve bağlama uygun cevaplar üretebildiğini göstermiştir. Bu kapsamlı analiz, RAG sisteminin çok dilli semantik arama konusundaki etkinliğini vurgulamaktadır. İnce ayarlı transformer modelleri ve OCR teknolojilerinin entegrasyonu, sistemin gerçek dünya uygulamalarında kullanımını ve çok dilli QA sistemleri için sağlam bir çözüm sunmasını önemli ölçüde artırmaktadır. Bu çalışma, çok dilli belge işleme ve arama alanında gelecekteki ilerlemeler için bir temel oluşturmakta ve daha fazla optimizasyon ve araştırma için değerli içgörüler ve metodolojiler sunmaktadır.
Özet (Çeviri)
This thesis introduces an advanced system for multilingual semantic retrieval using a Retrieval-Augmented Generation (RAG) approach that integrates transformer-based language models and Optical Character Recognition (OCR) technologies. The primary aim is to develop a robust Question-Answering (QA) system that can handle multiple languages and various document formats. Addressing the limitations of existing monolingual QA datasets, the study involves the creation of a custom dataset by enhancing multilingual datasets like XQuAD, FQuAD, and MLQA, and augmenting them with a synthetic dataset generated by OpenAI's GPT-3.5 Turbo model. This ensures comprehensive and context-rich answers. The system employs PaddleOCR to extract high-quality text from scanned documents in multiple languages, including French, English, and Spanish, though it faced challenges with Arabic documents. The retrieval process is optimized by fine-tuning the Multilingual E5 embedding model using the MultipleNegativesRankingLoss approach, which improves the handling of text pairs (context and question) and enhances document retrieval accuracy. For text generation, two models were utilized: MT5 and LLAMA 3 8b-instruct. The MT5 model was fine-tuned initially on QA datasets to improve contextual understanding and later on the synthetic dataset to generate detailed answers. LLAMA 3, known for its advanced language generation capabilities, was optimized through quantization and prompt tuning to suit hardware constraints. The use of two models aimed to compare their performance and demonstrate their suitability for different computational resources, with MT5 being more CPU-friendly and LLAMA 3 requiring extensive GPU use. Evaluation of the RAG system was conducted both component-wise and as a whole. The embedding model's performance was assessed using the InformationRetrievalEvaluator, while the generator model was evaluated using metrics like F1, EM, and BLEU scores. The full RAG system was evaluated using the RAGAS framework, focusing on context precision, faithfulness, answer relevancy, context recall, answer correctness, and answer similarity. Results showed that the MT5 model excelled in context precision and relevancy, whereas the LLAMA 3 model demonstrated superior performance in answer correctness and similarity, indicating its better ability to generate accurate and contextually appropriate responses. This comprehensive analysis underscores the effectiveness of the RAG system in multilingual semantic retrieval. The integration of fine-tuned transformer models and OCR technologies significantly enhances the system's utility and versatility in real-world applications, providing a robust solution for multilingual QA systems. The work sets the stage for future advancements in multilingual document processing and retrieval, offering valuable insights and methodologies for further optimization and research.
Benzer Tezler
- Enhancing warehouse efficiency through geographic information system and genetic algorithm
Coğrafi bilgi sistemleri ve genetik algoritma ile depo verimliliğinin artırılması
ONUR YÜREKLİ
Yüksek Lisans
İngilizce
2024
Mühendislik Bilimleriİstanbul Teknik ÜniversitesiGeomatik Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUHAMMED ENES ATİK
- Application areas of augmented reality and virtual reality in construction project management: A scoping review
İnşaat proje yönetiminde artırılmış gerçeklik ve sanal gerçeklik uygulama alanları: Kapsam incelemesi
MAHMOUD ALBAHBAH
Yüksek Lisans
İngilizce
2021
İnşaat MühendisliğiEskişehir Teknik Üniversitesiİnşaat Mühendisliği Ana Bilim Dalı
DOÇ. DR. SERKAN KIVRAK
- Otomotiv yedek parça tedarik zincirinde orijinallik denetlemesi ve yeniden kullanım/geri dönüşüm süreçleri için blok zincir tabanlı takip sistemi
Blockchain-based tracking system for originality verification and recycling processes in the automotive spare parts supply chain
TUĞBA BEKMAN
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik ÜniversitesiBilişim Uygulamaları Ana Bilim Dalı
PROF. DR. ENVER ÖZDEMİR
- Flexigpt: Engaging with documents
Flexıgpt: Belgelerle etkileşim
ABDALRHMAN AL-QUAARY
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya ÜniversitesiBilişim Sistemleri Mühendisliği Ana Bilim Dalı
PROF. DR. NUMAN ÇELEBİ
- Sınırlı alanlarda konu tespit ve takibi için genişletilmiş bir mimari yapı önerisi
Başlık çevirisi yok
GÜVEN KÖSE
Doktora
Türkçe
2014
Bilgi ve Belge YönetimiHacettepe ÜniversitesiBilgi ve Belge Yönetimi Ana Bilim Dalı
PROF. DR. YAŞAR TONTA