Geri Dön

Optimizing large language models: A comparative study of retrieval-augmented generation, fine-tuning, and hybrid approaches

Büyük dil modellerinin optimize edilmesi: RAG, fine-tuning ve bunlarin birleşiminin (hibrit) modellerin karşilaştirilmasi

  1. Tez No: 898903
  2. Yazar: GÜLSÜM BUDAKOĞLU
  3. Danışmanlar: DR. ÖĞR. ÜYESİ HAKAN EMEKCİ
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2024
  8. Dil: İngilizce
  9. Üniversite: TED Üniversitesi
  10. Enstitü: Lisansüstü Programlar Enstitüsü
  11. Ana Bilim Dalı: Uygulamalı Veri Bilimi Ana Bilim Dalı
  12. Bilim Dalı: Belirtilmemiş.
  13. Sayfa Sayısı: 79

Özet

Günümüzde hızla gelişen dil modelleri ile birlikte, büyük dil modellerinin (LLMs) farklı uygulamalarda kullanılması çok kritik ve önemli bir hale gelmiştir. Bu çalışmada büyük dil modellerini geliştirmek için kullanılan, iki temel yöntem araştırıp, tartışılmıştır. Bu yöntemler Retrieval-Augmented Generation (RAG), Fine-Tuning ve bunları birleşiminden oluşan hibrit modeldir. Bu modellerin performansını ölçmek için veri seti olarak Stanford Soru Cevaplama Veri Seti (SQuAD) (Rajpurkar ve ark., 2016) kullanılmıştır. RAG yöntemi dışarıdan veri alarak beslenen bir yapıya sahiptir fakat diğer taraftan Fine-tuning yönteminin direk olarak modeli veri ile eğiterek, modelin parametrelerine ayar yapan bir yapısı vardır. Bu iki yöntemin birleşimiyle oluşan hibrit model ise sağlam veri odaklı bir yöntem sunmaktadır. Bu birleşim ile daha güçlü model oluşturabilir ve bu iki farklı yöntemin – RAG ve Fine-Tuning- negative boyutları azaltılabilir. RAG, hesaplama kaynağı gereksinimlerini azaltarak ölçeklenebilir bir çözüm sunarken, fine-tuning özellikle yüksek anlamsal hassasiyet gerektiren görevler için etkili bir yöntemdir. Hibrit model, anlamsal doğrulukta dengeli performans sağlayarak önemli bir potansiyel ortaya koyabilir ve bu da hem verimlilik hem de doğruluk gerektiren senaryolarda avantaj sağlayabilir. Bu çalışmadan çıkan bulgular kullanılan veri seti sınırlamalarına bağlı olarak her yöntemin özel uygulamalarını önermektedir. Bu çalışmada kullanılan RAG, fine- tuning ve hibrit modellerden, hangi durumlarda daha kullanışlı ve mantıklıdır bilgisini sunarken aynı zamanda bu alanda olabilecek gelecekteki çalışmalarada ışık tutmaktadır.

Özet (Çeviri)

In the rapidly advancing field of natural language processing, optimizing large language models (LLMs) for specific applications presents a crucial and intricate challenge. This paper undertakes a comprehensive comparative study of two principal optimization techniques—Retrieval-Augmented Generation (RAG) and fine-tuning— alongside a novel hybrid method that merges these approaches. The study evaluates the efficacy of these strategies using the Stanford Question Answering Dataset (SQuAD) (Rajpurkar et al., 2016). Our analysis explores the RAG method, which utilizes external data to enhance model responses, potentially easing computational demands during inference. In contrast, fine-tuning directly modifies model parameters to boost contextual accuracy and relevance, aligning the LLM's responses more closely with specific tasks. Additionally, our research examines a hybrid model that combines fine-tuning's contextual advantages with RAG's robust data-driven approach, aiming for an optimal balance between accuracy and computational efficiency. The experimental results delineate the strengths and weaknesses of each method. Fine-tuning emerges as particularly effective for tasks demanding high semantic precision, while RAG offers a scalable solution by reducing computational resource requirements. Although the hybrid model does not surpass fine-tuning in semantic accuracy, it demonstrates significant potential by providing balanced performance, which may be advantageous in scenarios requiring both efficiency and accuracy. The findings suggest tailored applications of each method depending on the specific requirements of the task and computational limitations. This study not only illuminates the nuanced trade-offs involved in selecting an LLM optimization strategy but also provides a foundation for further research and practical implementations in a variety of real-world settings.

Benzer Tezler

  1. Data augmentation for natural language processing

    Doğal dil işleme için veri artırma

    MUSTAFA ÇATALTAŞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

    DOÇ. DR. NURDAN BAYKAN

  2. Enhancing retrieval-augmented generation: Optimizing document splits and parameters for improved language model responses

    Alımla zenginleştirişmiş üretı̇mı̇n gelı̇ştı̇rı̇lmesı̇: Gelı̇şmı̇ş dı̇l modelı̇ yanıtları ı̇çı̇n belge ayrımlarının ve parametrelerı̇n optı̇mı̇ze edı̇lmesı̇

    CABİR ÇELİK

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolAtılım Üniversitesi

    Yazılım Mühendisliği Ana Bilim Dalı

    DOÇ. DR. BEYTULLAH YILDIZ

  3. Eğitim alanında derin öğrenme tekniklerini kullanan bir soru cevaplama sistemi

    A question answering system using deep learning techniques in the education domain

    ZEYNEP ŞANLI

    Yüksek Lisans

    İngilizce

    İngilizce

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolHacettepe Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. İLYAS ÇİÇEKLİ

  4. Ön eğitimli dil modellerinin kokan kod sınıflama performansının üçlü kayıp yöntemiyle iyileştirilmesi

    Optimizing the code smell classification performance of pretrained language models using the triple loss method

    ERTUĞRUL İSLAMOĞLU

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolFatih Sultan Mehmet Vakıf Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ ALİ NİZAM

  5. Sistem tanılama makine öğrenmesi ve derin öğrenme modelleri ile güneş radyasyonu tahmini

    Solar radiation forecasting using system identification machine learning and deep learning models

    GÖKSEL KADER

    Yüksek Lisans

    Türkçe

    Türkçe

    2022

    Enerjiİstanbul Teknik Üniversitesi

    Enerji Bilim ve Teknoloji Ana Bilim Dalı

    PROF. DR. ÖNDER GÜLER