Geri Dön

Advanced retrieval augmented generation: Multilingual semantic retrieval across document types by finetuning transformer based language models and OCR integration

Gelişmiş erişim artirilmiş üretim: Belge türleri arasinda çok dilli anlamsal erişim için transformatör tabanli dil modellerini ince ayarlama ve OCR entegrasyonu

  1. Tez No: 884293
  2. Yazar: ISMAIL OUBAH
  3. Danışmanlar: YRD. DOÇ. DR. SELCUK SENER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: İstanbul Aydın Üniversitesi
  10. Enstitü: Lisansüstü Eğitim Enstitüsü
  11. Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Bilgisayar Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 99

Özet

Bu tez, Optical Character Recognition (OCR) teknolojileri ve transformer tabanlı dil modellerinin bir karışımını kullanan Retrieval-Augmented Generation (RAG) yaklaşımını entegre ederek çok dilli semantik arama için ileri düzey bir sistem tanıtmaktadır. Ana hedef, birden fazla dili ve çeşitli belge formatlarını işleyebilen sağlam bir Question-Answering (QA) sistemi geliştirmektir. Mevcut tek dilli QA veri kümelerinin sınırlamalarını ele alarak, çalışmada XQuAD, FQuAD ve MLQA gibi çok dilli veri kümelerinin artırılması ve OpenAI'nin GPT-3.5 Turbo modeli tarafından üretilen sentetik bir veri kümesi ile tamamlanarak özel bir veri kümesi oluşturulmuştur. Bu, kapsamlı ve bağlam açısından zengin cevapların sağlanmasını garanti eder. Sistem, PaddleOCR kullanarak Fransızca, İngilizce ve İspanyolca gibi birden fazla dilde taranmış belgelerden yüksek kaliteli metin çıkarmaktadır, ancak Arapça belgeler işlenirken bazı zorluklarla karşılaşmıştır. Metin çiftlerini (bağlam ve soru) işleme yeteneğini ve belge alma doğruluğunu artıran Multilingual E5 embedding modelini MultipleNegativesRankingLoss yaklaşımını kullanarak optimize ederek, alma süreci geliştirilmiştir. Metin üretimi için iki model kullanılmıştır: MT5 ve LLAMA 3 8b-instruct. MT5 modeli, bağlamsal anlayışını geliştirmek için başlangıçta QA veri kümeleri üzerinde ve daha sonra daha ayrıntılı cevaplar üretme yeteneğini artırmak için sentetik veri kümesi üzerinde ince ayar yapılmıştır. Gelişmiş dil üretim yetenekleriyle bilinen LLAMA 3, donanım kısıtlamalarına uyum sağlamak için quantization ve prompt tuning ile optimize edilmiştir. İki modelin kullanımı, performanslarını karşılaştırmak ve farklı hesaplama kaynaklarına uygunluklarını göstermek amacıyla yapılmıştır; MT5 daha CPU dostu, LLAMA 3 ise geniş GPU kullanımı gerektirmektedir. RAG sisteminin değerlendirilmesi bileşen bazında ve bir bütün olarak yapılmıştır. Embedding modelinin performansı InformationRetrievalEvaluator kullanılarak değerlendirilirken, jeneratör modeli F1, EM ve BLEU skorları gibi metrikler kullanılarak değerlendirilmiştir. Tam RAG sistemi, bağlam kesinliği, doğruluk, cevap uygunluğu, bağlam hatırlama, cevap doğruluğu ve cevap benzerliği gibi metriklere odaklanarak RAGAS çerçevesi kullanılarak değerlendirilmiştir. Sonuçlar, MT5 modelinin bağlam kesinliği ve uygunluğunda üstün olduğunu, LLAMA 3 modelinin ise cevap doğruluğu ve benzerliğinde üstün performans sergilediğini ve daha doğru ve bağlama uygun cevaplar üretebildiğini göstermiştir. Bu kapsamlı analiz, RAG sisteminin çok dilli semantik arama konusundaki etkinliğini vurgulamaktadır. İnce ayarlı transformer modelleri ve OCR teknolojilerinin entegrasyonu, sistemin gerçek dünya uygulamalarında kullanımını ve çok dilli QA sistemleri için sağlam bir çözüm sunmasını önemli ölçüde artırmaktadır. Bu çalışma, çok dilli belge işleme ve arama alanında gelecekteki ilerlemeler için bir temel oluşturmakta ve daha fazla optimizasyon ve araştırma için değerli içgörüler ve metodolojiler sunmaktadır.

Özet (Çeviri)

This thesis introduces an advanced system for multilingual semantic retrieval using a Retrieval-Augmented Generation (RAG) approach that integrates transformer-based language models and Optical Character Recognition (OCR) technologies. The primary aim is to develop a robust Question-Answering (QA) system that can handle multiple languages and various document formats. Addressing the limitations of existing monolingual QA datasets, the study involves the creation of a custom dataset by enhancing multilingual datasets like XQuAD, FQuAD, and MLQA, and augmenting them with a synthetic dataset generated by OpenAI's GPT-3.5 Turbo model. This ensures comprehensive and context-rich answers. The system employs PaddleOCR to extract high-quality text from scanned documents in multiple languages, including French, English, and Spanish, though it faced challenges with Arabic documents. The retrieval process is optimized by fine-tuning the Multilingual E5 embedding model using the MultipleNegativesRankingLoss approach, which improves the handling of text pairs (context and question) and enhances document retrieval accuracy. For text generation, two models were utilized: MT5 and LLAMA 3 8b-instruct. The MT5 model was fine-tuned initially on QA datasets to improve contextual understanding and later on the synthetic dataset to generate detailed answers. LLAMA 3, known for its advanced language generation capabilities, was optimized through quantization and prompt tuning to suit hardware constraints. The use of two models aimed to compare their performance and demonstrate their suitability for different computational resources, with MT5 being more CPU-friendly and LLAMA 3 requiring extensive GPU use. Evaluation of the RAG system was conducted both component-wise and as a whole. The embedding model's performance was assessed using the InformationRetrievalEvaluator, while the generator model was evaluated using metrics like F1, EM, and BLEU scores. The full RAG system was evaluated using the RAGAS framework, focusing on context precision, faithfulness, answer relevancy, context recall, answer correctness, and answer similarity. Results showed that the MT5 model excelled in context precision and relevancy, whereas the LLAMA 3 model demonstrated superior performance in answer correctness and similarity, indicating its better ability to generate accurate and contextually appropriate responses. This comprehensive analysis underscores the effectiveness of the RAG system in multilingual semantic retrieval. The integration of fine-tuned transformer models and OCR technologies significantly enhances the system's utility and versatility in real-world applications, providing a robust solution for multilingual QA systems. The work sets the stage for future advancements in multilingual document processing and retrieval, offering valuable insights and methodologies for further optimization and research.

Benzer Tezler

  1. Enhancing retrieval-augmented generation accuracy with dynamic chunking and optimized vector search

    Dinamik parçalama ve optimize edilmiş vektör araması ile bilgi getirme destekli üretim doğruluğunu artırma

    DERYA TANYILDIZ

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET FATİH AMASYALI

    DOÇ. DR. SERKAN AYVAZ

  2. Enhancing retrieval-augmented generation for data science: A comprehensive framework for academic literature navigation

    Veri bilimi odaklı bir RAG modeli: Akademik literatür tarama için kapsamlı bir araç

    AHMET YASİN AYTAR

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolSabancı Üniversitesi

    Veri Bilimi Ana Bilim Dalı

    DOÇ. DR. KEMAL KILIÇ

    DOÇ. DR. KAMER KAYA

  3. Sağlık verileri üzerinde büyük dil modeli ile yeni bir yaklaşım

    A new large language model based approach on health data

    BEHÇET ŞENTÜRK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAnkara Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. MEHMET SERDAR GÜZEL

  4. BDM tabanlı akıllı kütüphane tarama ve diyalog sistemi

    BDM based smart library browsing and dialogue system

    SUAT GÖK

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgi ve Belge YönetimiBatman Üniversitesi

    Bilgi Teknolojileri Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ HAFZULLAH İŞ

  5. Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı

    Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy

    MEHMET ÇAĞRI ÇALIŞKAN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolÜsküdar Üniversitesi

    Yapay Zeka Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ GÖKALP TULUM