Optimizing large language models: A comparative study of retrieval-augmented generation, fine-tuning, and hybrid approaches

Büyük dil modellerinin optimize edilmesi: RAG, fine-tuning ve bunlarin birleşiminin (hibrit) modellerin karşilaştirilmasi

PDF İndir

Tez No: 898903
Yazar: GÜLSÜM BUDAKOĞLU
Danışmanlar: DR. ÖĞR. ÜYESİ HAKAN EMEKCİ
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Bilim ve Teknoloji, Computer Engineering and Computer Science and Control, Science and Technology
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2024
Dil: İngilizce
Üniversite: TED Üniversitesi
Enstitü: Lisansüstü Programlar Enstitüsü
Ana Bilim Dalı: Uygulamalı Veri Bilimi Ana Bilim Dalı
Bilim Dalı: Belirtilmemiş.
Sayfa Sayısı: 79

Özet

Günümüzde hızla gelişen dil modelleri ile birlikte, büyük dil modellerinin (LLMs) farklı uygulamalarda kullanılması çok kritik ve önemli bir hale gelmiştir. Bu çalışmada büyük dil modellerini geliştirmek için kullanılan, iki temel yöntem araştırıp, tartışılmıştır. Bu yöntemler Retrieval-Augmented Generation (RAG), Fine-Tuning ve bunları birleşiminden oluşan hibrit modeldir. Bu modellerin performansını ölçmek için veri seti olarak Stanford Soru Cevaplama Veri Seti (SQuAD) (Rajpurkar ve ark., 2016) kullanılmıştır. RAG yöntemi dışarıdan veri alarak beslenen bir yapıya sahiptir fakat diğer taraftan Fine-tuning yönteminin direk olarak modeli veri ile eğiterek, modelin parametrelerine ayar yapan bir yapısı vardır. Bu iki yöntemin birleşimiyle oluşan hibrit model ise sağlam veri odaklı bir yöntem sunmaktadır. Bu birleşim ile daha güçlü model oluşturabilir ve bu iki farklı yöntemin – RAG ve Fine-Tuning- negative boyutları azaltılabilir. RAG, hesaplama kaynağı gereksinimlerini azaltarak ölçeklenebilir bir çözüm sunarken, fine-tuning özellikle yüksek anlamsal hassasiyet gerektiren görevler için etkili bir yöntemdir. Hibrit model, anlamsal doğrulukta dengeli performans sağlayarak önemli bir potansiyel ortaya koyabilir ve bu da hem verimlilik hem de doğruluk gerektiren senaryolarda avantaj sağlayabilir. Bu çalışmadan çıkan bulgular kullanılan veri seti sınırlamalarına bağlı olarak her yöntemin özel uygulamalarını önermektedir. Bu çalışmada kullanılan RAG, fine- tuning ve hibrit modellerden, hangi durumlarda daha kullanışlı ve mantıklıdır bilgisini sunarken aynı zamanda bu alanda olabilecek gelecekteki çalışmalarada ışık tutmaktadır.

Özet (Çeviri)

In the rapidly advancing field of natural language processing, optimizing large language models (LLMs) for specific applications presents a crucial and intricate challenge. This paper undertakes a comprehensive comparative study of two principal optimization techniques—Retrieval-Augmented Generation (RAG) and fine-tuning— alongside a novel hybrid method that merges these approaches. The study evaluates the efficacy of these strategies using the Stanford Question Answering Dataset (SQuAD) (Rajpurkar et al., 2016). Our analysis explores the RAG method, which utilizes external data to enhance model responses, potentially easing computational demands during inference. In contrast, fine-tuning directly modifies model parameters to boost contextual accuracy and relevance, aligning the LLM's responses more closely with specific tasks. Additionally, our research examines a hybrid model that combines fine-tuning's contextual advantages with RAG's robust data-driven approach, aiming for an optimal balance between accuracy and computational efficiency. The experimental results delineate the strengths and weaknesses of each method. Fine-tuning emerges as particularly effective for tasks demanding high semantic precision, while RAG offers a scalable solution by reducing computational resource requirements. Although the hybrid model does not surpass fine-tuning in semantic accuracy, it demonstrates significant potential by providing balanced performance, which may be advantageous in scenarios requiring both efficiency and accuracy. The findings suggest tailored applications of each method depending on the specific requirements of the task and computational limitations. This study not only illuminates the nuanced trade-offs involved in selecting an LLM optimization strategy but also provides a foundation for further research and practical implementations in a variety of real-world settings.

Benzer Tezler

Tez No
896660
Data augmentation for natural language processing
Doğal dil işleme için veri artırma
MUSTAFA ÇATALTAŞ
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İLYAS ÇİÇEKLİ
DOÇ. DR. NURDAN BAYKAN
Tez No
895612
Enhancing retrieval-augmented generation: Optimizing document splits and parameters for improved language model responses
Alımla zenginleştirişmiş üretı̇mı̇n gelı̇ştı̇rı̇lmesı̇: Gelı̇şmı̇ş dı̇l modelı̇ yanıtları ı̇çı̇n belge ayrımlarının ve parametrelerı̇n optı̇mı̇ze edı̇lmesı̇
CABİR ÇELİK
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Atılım Üniversitesi
Yazılım Mühendisliği Ana Bilim Dalı
DOÇ. DR. BEYTULLAH YILDIZ
Tez No
899334
Eğitim alanında derin öğrenme tekniklerini kullanan bir soru cevaplama sistemi
A question answering system using deep learning techniques in the education domain
ZEYNEP ŞANLI
Yüksek Lisans
İngilizce
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Hacettepe Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. İLYAS ÇİÇEKLİ
Tez No
875380
Ön eğitimli dil modellerinin kokan kod sınıflama performansının üçlü kayıp yöntemiyle iyileştirilmesi
Optimizing the code smell classification performance of pretrained language models using the triple loss method
ERTUĞRUL İSLAMOĞLU
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Fatih Sultan Mehmet Vakıf Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ALİ NİZAM
Tez No
714364
Sistem tanılama makine öğrenmesi ve derin öğrenme modelleri ile güneş radyasyonu tahmini
Solar radiation forecasting using system identification machine learning and deep learning models
GÖKSEL KADER
Yüksek Lisans
Türkçe
2022
Enerji İstanbul Teknik Üniversitesi
Enerji Bilim ve Teknoloji Ana Bilim Dalı
PROF. DR. ÖNDER GÜLER

Geri Dön