Geri Dön

Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration

Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu

  1. Tez No: 884293
  2. Yazar: ISMAIL OUBAH
  3. Danışmanlar: YRD. DOÇ. DR. SELCUK SENER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Aydın Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 99

Özet

Bu tez, Optical Character Recognition (OCR) teknolojileri ve transformer tabanlı dil modellerinin bir karışımını kullanan Retrieval-Augmented Generation (RAG) yaklaşımını entegre ederek çok dilli semantik arama için ileri düzey bir sistem tanıtmaktadır. Ana hedef, birden fazla dili ve çeşitli belge formatlarını işleyebilen sağlam bir Question-Answering (QA) sistemi geliştirmektir. Mevcut tek dilli QA veri kümelerinin sınırlamalarını ele alarak, çalışmada XQuAD, FQuAD ve MLQA gibi çok dilli veri kümelerinin artırılması ve OpenAI'nin GPT-3.5 Turbo modeli tarafından üretilen sentetik bir veri kümesi ile tamamlanarak özel bir veri kümesi oluşturulmuştur. Bu, kapsamlı ve bağlam açısından zengin cevapların sağlanmasını garanti eder. Sistem, PaddleOCR kullanarak Fransızca, İngilizce ve İspanyolca gibi birden fazla dilde taranmış belgelerden yüksek kaliteli metin çıkarmaktadır, ancak Arapça belgeler işlenirken bazı zorluklarla karşılaşmıştır. Metin çiftlerini (bağlam ve soru) işleme yeteneğini ve belge alma doğruluğunu artıran Multilingual E5 embedding modelini MultipleNegativesRankingLoss yaklaşımını kullanarak optimize ederek, alma süreci geliştirilmiştir. Metin üretimi için iki model kullanılmıştır: MT5 ve LLAMA 3 8b-instruct. MT5 modeli, bağlamsal anlayışını geliştirmek için başlangıçta QA veri kümeleri üzerinde ve daha sonra daha ayrıntılı cevaplar üretme yeteneğini artırmak için sentetik veri kümesi üzerinde ince ayar yapılmıştır. Gelişmiş dil üretim yetenekleriyle bilinen LLAMA 3, donanım kısıtlamalarına uyum sağlamak için quantization ve prompt tuning ile optimize edilmiştir. İki modelin kullanımı, performanslarını karşılaştırmak ve farklı hesaplama kaynaklarına uygunluklarını göstermek amacıyla yapılmıştır; MT5 daha CPU dostu, LLAMA 3 ise geniş GPU kullanımı gerektirmektedir. RAG sisteminin değerlendirilmesi bileşen bazında ve bir bütün olarak yapılmıştır. Embedding modelinin performansı InformationRetrievalEvaluator kullanılarak değerlendirilirken, jeneratör modeli F1, EM ve BLEU skorları gibi metrikler kullanılarak değerlendirilmiştir. Tam RAG sistemi, bağlam kesinliği, doğruluk, cevap uygunluğu, bağlam hatırlama, cevap doğruluğu ve cevap benzerliği gibi metriklere odaklanarak RAGAS çerçevesi kullanılarak değerlendirilmiştir. Sonuçlar, MT5 modelinin bağlam kesinliği ve uygunluğunda üstün olduğunu, LLAMA 3 modelinin ise cevap doğruluğu ve benzerliğinde üstün performans sergilediğini ve daha doğru ve bağlama uygun cevaplar üretebildiğini göstermiştir. Bu kapsamlı analiz, RAG sisteminin çok dilli semantik arama konusundaki etkinliğini vurgulamaktadır. İnce ayarlı transformer modelleri ve OCR teknolojilerinin entegrasyonu, sistemin gerçek dünya uygulamalarında kullanımını ve çok dilli QA sistemleri için sağlam bir çözüm sunmasını önemli ölçüde artırmaktadır. Bu çalışma, çok dilli belge işleme ve arama alanında gelecekteki ilerlemeler için bir temel oluşturmakta ve daha fazla optimizasyon ve araştırma için değerli içgörüler ve metodolojiler sunmaktadır.

Özet (Çeviri)

This thesis introduces an advanced system for multilingual semantic retrieval using a Retrieval-Augmented Generation (RAG) approach that integrates transformer-based language models and Optical Character Recognition (OCR) technologies. The primary aim is to develop a robust Question-Answering (QA) system that can handle multiple languages and various document formats. Addressing the limitations of existing monolingual QA datasets, the study involves the creation of a custom dataset by enhancing multilingual datasets like XQuAD, FQuAD, and MLQA, and augmenting them with a synthetic dataset generated by OpenAI's GPT-3.5 Turbo model. This ensures comprehensive and context-rich answers. The system employs PaddleOCR to extract high-quality text from scanned documents in multiple languages, including French, English, and Spanish, though it faced challenges with Arabic documents. The retrieval process is optimized by fine-tuning the Multilingual E5 embedding model using the MultipleNegativesRankingLoss approach, which improves the handling of text pairs (context and question) and enhances document retrieval accuracy. For text generation, two models were utilized: MT5 and LLAMA 3 8b-instruct. The MT5 model was fine-tuned initially on QA datasets to improve contextual understanding and later on the synthetic dataset to generate detailed answers. LLAMA 3, known for its advanced language generation capabilities, was optimized through quantization and prompt tuning to suit hardware constraints. The use of two models aimed to compare their performance and demonstrate their suitability for different computational resources, with MT5 being more CPU-friendly and LLAMA 3 requiring extensive GPU use. Evaluation of the RAG system was conducted both component-wise and as a whole. The embedding model's performance was assessed using the InformationRetrievalEvaluator, while the generator model was evaluated using metrics like F1, EM, and BLEU scores. The full RAG system was evaluated using the RAGAS framework, focusing on context precision, faithfulness, answer relevancy, context recall, answer correctness, and answer similarity. Results showed that the MT5 model excelled in context precision and relevancy, whereas the LLAMA 3 model demonstrated superior performance in answer correctness and similarity, indicating its better ability to generate accurate and contextually appropriate responses. This comprehensive analysis underscores the effectiveness of the RAG system in multilingual semantic retrieval. The integration of fine-tuned transformer models and OCR technologies significantly enhances the system's utility and versatility in real-world applications, providing a robust solution for multilingual QA systems. The work sets the stage for future advancements in multilingual document processing and retrieval, offering valuable insights and methodologies for further optimization and research.

Benzer Tezler

  1. Enhancing warehouse efficiency through geographic information system and genetic algorithm

    Coğrafi bilgi sistemleri ve genetik algoritma ile depo verimliliğinin artırılması

    ONUR YÜREKLİ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Mühendislik Bilimleriİstanbul Teknik Üniversitesi

    Geomatik Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUHAMMED ENES ATİK

  2. Application areas of augmented reality and virtual reality in construction project management: A scoping review

    İnşaat proje yönetiminde artırılmış gerçeklik ve sanal gerçeklik uygulama alanları: Kapsam incelemesi

    MAHMOUD ALBAHBAH

    Yüksek Lisans

    İngilizce

    İngilizce

    2021

    İnşaat MühendisliğiEskişehir Teknik Üniversitesi

    İnşaat Mühendisliği Ana Bilim Dalı

    DOÇ. DR. SERKAN KIVRAK

  3. Otomotiv yedek parça tedarik zincirinde orijinallik denetlemesi ve yeniden kullanım/geri dönüşüm süreçleri için blok zincir tabanlı takip sistemi

    Blockchain-based tracking system for originality verification and recycling processes in the automotive spare parts supply chain

    TUĞBA BEKMAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrolİstanbul Teknik Üniversitesi

    Bilişim Uygulamaları Ana Bilim Dalı

    PROF. DR. ENVER ÖZDEMİR

  4. Flexigpt: Engaging with documents

    Flexıgpt: Belgelerle etkileşim

    ABDALRHMAN AL-QUAARY

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSakarya Üniversitesi

    Bilişim Sistemleri Mühendisliği Ana Bilim Dalı

    PROF. DR. NUMAN ÇELEBİ

  5. Sınırlı alanlarda konu tespit ve takibi için genişletilmiş bir mimari yapı önerisi

    Başlık çevirisi yok

    GÜVEN KÖSE

    Doktora

    Türkçe

    Türkçe

    2014

    Bilgi ve Belge YönetimiHacettepe Üniversitesi

    Bilgi ve Belge Yönetimi Ana Bilim Dalı

    PROF. DR. YAŞAR TONTA