Post training of large language models for targeted natural language processing tasks
Hedefe yönelik doğal dil işleme görevleri için büyük dil modellerinin sonradan eğitilmesi
- Tez No: 966137
- Danışmanlar: PROF. DR. DERVİŞ KARABOĞA
- Tez Türü: Yüksek Lisans
- Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
- Anahtar Kelimeler: Denetimsiz Alan Uyumu (UDA), Parametre-Verimli İnce Ayar (PEFT), PEFT Kombinasyonu, Uyarlayıcı Ön Eğitim (APT), Tersinir Adaptörler, LoRA, Karışık Amaçlı Eğitim, Önceden Eğitilmiş Dil Modelleri (PrLMs), Unsupervised Domain Adaptation (UDA), Parameter-Efficient Fine-Tuning (PEFT), PEFT combination, Adaptive Pretraining (APT), Invertible Adapters, Lora, Mixed-Objective Training, Pretrained Language Models (PrLMs)
- Yıl: 2025
- Dil: İngilizce
- Üniversite: Erciyes Üniversitesi
- Enstitü: Fen Bilimleri Enstitüsü
- Ana Bilim Dalı: Bilgisayar Mühendisliği Ana Bilim Dalı
- Bilim Dalı: Belirtilmemiş.
- Sayfa Sayısı: 136
Özet
BERT ve RoBERTa gibi önceden eğitilmiş dil modelleri, büyük metin koleksiyonlarından zengin bağlamsal temsiller öğrenerek doğal dil işlemeyi dönüştürmüştür. Ancak, bu modellerin gerçek dünya senaryolarında kullanımı, performansı önemli ölçüde düşüren alan değişimleriyle (domain shift) karşılaşmaktadır ve bu durum etkili alan uyum tekniklerini gerekli kılmaktadır. Geleneksel denetimsiz alan uyumu yöntemleri bu sorunu ele alsa da, genellikle tüm model parametrelerinin tam ince ayarını gerektirir; bu da yüksek hesaplama maliyetine yol açar, felaket unutmaya (catastrophic forgetting) neden olabilir ve model boyutları 100 milyon parametrenin üzerine çıktıkça giderek uygulanamaz hale gelmektedir. Parametre-verimli ince ayar (PEFT) yöntemleri, yalnızca küçük bir parametre alt kümesini güncelleyerek umut verici bir alternatif sunmaktadır; ancak PEFT ile yapılan denetimsiz alan uyumu çalışmaları sınırlı etkililik göstermiştir ve birden fazla PEFT tekniğinin tamamlayıcı güçlü yönlerinden faydalanmak üzere birleştirilmesi tam anlamıyla keşfedilmemiştir. Bu tez, yüksek performansa ulaşırken parametre verimliliğini koruyarak denetimsiz alan uyumu için etkin ve etkili yöntemler geliştirme yönündeki kritik sorunu ele almaktadır. Özellikle üç temel sınırlamayı hedef almaktadır: alan uyumunda parametre verimliliği ile performans arasındaki denge, PEFT yöntem kombinasyonlarının sınırlı araştırılması ve karışık amaçlı eğitim yaklaşımlarının yetersiz değerlendirilmesi. Tersinir adaptörlerle Low-Rank Adaptation (LoRA)'yı birleştiren iki yeni yöntem öneriyoruz. İlk yaklaşımımız, etiketlenmemiş hedef alan verisi üzerinde Maskeleme Tabanlı Dil Modellemesi (MLM) kullanarak alan bilgisi kazanımına yönelik bir uyarlayıcı ön eğitim aşaması ve ardından etiketli kaynak alan verisi üzerinde görev odaklı uyum için denetimli ince ayar içeren, ardışık iki aşamalı bir eğitim metodolojisi kullanmaktadır. İkinci yaklaşımımız ise bu çalışmayı, kaynak alan verisi üzerinde sınıflandırma performansını ve hedef alan verisi üzerinde MLM yeniden yapılandırmasını aynı anda optimize eden UDALM'den esinlenen bir karışık amaçlı eğitim stratejisiyle genişletmektedir. Bu yaklaşım, alan uyumunun tamamlayıcı yönlerini yakalamak üzere farklı mimari özelliklere sahip tersinir adaptörler ve LoRA'nın özel bir birleşimini kullanmaktadır. Multi-Genre Natural Language Inference (MNLI) veri kümesi üzerinde 20 farklı alan değişiminde yapılan kapsamlı değerlendirmeler aracılığıyla, yöntemlerimiz mevcut en iyi parametre-verimli yöntemlerle (UDapter) ve geleneksel tam ince ayar temelli yöntemlerle (DANN, DSN) karşılaştırılmıştır. Deneysel sonuçlarımız, birden fazla PEFT yönteminin uygun eğitim stratejileriyle birleştirilmesinin, bireysel tekniklerin kullanılmasına kıyasla alan uyumu performansını önemli ölçüde artırdığını göstermektedir. Ardışık iki aşamalı eğitim yaklaşımı, mevcut en iyi parametre-verimli yönteme göre ortalama %0,46'lık bir iyileşme sağlamış, 20 alan geçişinin 13'ünde onu geçmiştir ve yalnızca tüm parametrelerin %7'si kadar eğitilebilir parametre kullanarak DANN ve DSN ile karşılaştırılabilir performans elde etmiştir. Öte yandan, PEFT kombinasyonlarıyla uygulanan karışık amaçlı eğitim yaklaşımımız, ortalama makro F1 skorunda mevcut parametre-verimli yöntemlere göre %1,41'lik bir artış sağlamış, tüm 17 alan geçişinde güncel en iyi yöntem UDapter'ı geride bırakmış ve %74,98'e kıyasla %76,39 F1 skoru elde etmiştir. Daha da önemlisi, bu yaklaşım yalnızca %7 eğitilebilir parametre kullanarak, geleneksel tam ince ayar yöntemleri DANN ve DSN'ye göre sırasıyla ortalama %1,26 ve %0,86'lık makro F1 artışı sağlamıştır. Bu bulgular, birden fazla parametre-verimli ince ayar yönteminin uygun eğitim stratejileriyle birleştirilmesinin, denetimsiz alan uyumunda son teknoloji düzeyinde performansa ulaşırken önemli hesaplama verimliliği sağlayabileceğini göstermekte; parametre-verimli alan uyumu için yeni ölçütler belirlemekte ve kaynak kısıtlı ortamlarda PEFT tabanlı uyumlamanın uygulanmasına yönelik pratik rehberlik sunmaktadır.
Özet (Çeviri)
Pre-trained language models such as BERT and RoBERTa have revolutionized natural language processing by learning rich contextual representations from massive text corpora, yet their deployment in real-world scenarios often encounter domain shifts that significantly degrade performance, necessitating effective domain adaptation techniques. While traditional unsupervised domain adaptation methods address this challenge, they typically require full fine-tuning of all model parameters, which is computationally expensive, prone to catastrophic forgetting, and increasingly impractical as model sizes continue to grow beyond 100 million parameters. Parameter-efficient fine-tuning methods offer a promising alternative by updating only a small subset of parameters, but existing approaches for unsupervised domain adaptation with PEFT have shown limited effectiveness and have not fully explored the potential of combining multiple PEFT techniques to leverage their complementary strengths. This thesis addresses the critical challenge of developing efficient and effective methods for unsupervised domain adaptation that can achieve high performance while maintaining parameter efficiency, specifically tackling three key limitations: the trade-off between parameter efficiency and performance in domain adaptation, the limited exploration of PEFT method combinations, and the insufficient evaluation of mixed-objective training approaches. We propose two novel methodological approaches that combine invertible adapters with Low-Rank Adaptation (LoRA) in a unified framework, where our first approach employs a sequential two-phase training methodology consisting of an initial adaptive pretraining phase using Masked Language Modeling on unlabeled target domain data to acquire domain-specific knowledge, followed by supervised fine-tuning on labeled source domain data for task-specific adaptation. Our second approach extends this work with a mixed-objective training strategy inspired by UDALM, which simultaneously optimizes classification performance on labeled source-domain data and MLM reconstruction on unlabeled target domain data, utilizing a custom union of invertible adapters and LoRA designed to capture complementary aspects of domain adaptation through their distinct architectural properties. Through comprehensive evaluations on the Multi-Genre Natural Language Inference (MNLI) dataset across 20 different domain shifts, comparing against state-of-the-art parameter-efficient methods (UDapter) and traditional fully-tuned baselines (DANN, DSN), our experimental results demonstrate that combining multiple PEFT methods with proper training strategies significantly enhances domain adaptation performance compared to using individual techniques. The sequential two-phase training approach achieves an average improvement of 0.46% over the current state-of-the-art parameter-efficient method, outperforming it in 13 out of 20 domain shifts, and was comparable to DANN and DSN while using only 7% of trainable parameters compared to full fine-tuning. On the other hand, our mixed-objective training approach with PEFT combinations achieves more superior performance with an average macro F1 score improvement of 1.41% over existing parameter efficient methods, outperforming the state-of-the-art UDapter in all 17 domain shifts and achieving 76.39% F1 score compared to 74.98%. More significantly, our approach achieved an average macro F1 score improvement of 1.26% and 0.86% over traditional fully-tuned methods DANN and DSN, respectively, while only utilizing 7% of trainable parameters. These findings contribute significantly to the field by demonstrating that combining multiple parameter-efficient fine-tuning methods with appropriate training strategies can achieve state-of-the-art performance in unsupervised domain adaptation while maintaining significant computational efficiency, establishing new benchmarks for parameter-efficient domain adaptation and providing practical guidelines for implementing PEFT-based adaptation in resource-constrained environments.
Benzer Tezler
- Exploring design based learning activities in 2nd grade science classrooms
2. sınıf bilim sınıflarında tasarım tabanlı öğrenme aktivitelerinin keşfedilmesi
ÖZLEM YAPRAK BOSTANCI
Yüksek Lisans
İngilizce
2024
Eğitim ve ÖğretimOrta Doğu Teknik ÜniversitesiEğitim Programları ve Öğretimi Ana Bilim Dalı
DR. ÖĞR. ÜYESİ ELİF ÖZTÜRK
- Çeviri-tabanlı açımlama veri setiyle Türkçe büyük dil modelinin sınanması
Testing a Turkish large language model with a translation-based paraphrasing dataset
GÖRKEM TEKER
Yüksek Lisans
Türkçe
2025
DilbilimDokuz Eylül ÜniversitesiGenel Dilbilim Ana Bilim Dalı
PROF. DR. ÖZGÜN KOŞANER
- Isı transferi eğitiminin etkileşimli bilgisayar ortamında jawa destekli WEB tarayıcısı formatı kullanılarak gerçekleştirilmesi
Başlık çevirisi yok
TAYFUN DURAN
Yüksek Lisans
Türkçe
1998
Eğitim ve Öğretimİstanbul Teknik ÜniversitesiGıda Mühendisliği Ana Bilim Dalı
DOÇ. DR. Y. ONUR DEVRES
- Uzman sisten ve otomotiv sektöründeki bir uygulama
Expert system and an application in the automotive sector
HÜSEYİN BURGUT
Yüksek Lisans
Türkçe
1999
Makine Mühendisliğiİstanbul Teknik ÜniversitesiMakine Mühendisliği Ana Bilim Dalı
YRD. DOÇ. DR. SERDAR TÜMKOR
- İlköğretim birinci kademe ingilizce öğretim programının çocuklara yabancı dil öğretiminin duyuşsal hedeflerini gerçekleştirme düzeyi
The extent to which key stage i english curriculum attains the affective objectives of primary efl
SÜLEYMAN NİHAT ŞAD
Doktora
Türkçe
2011
Eğitim ve Öğretimİnönü ÜniversitesiEğitim Bilimleri Ana Bilim Dalı
YRD. DOÇ. DR. OĞUZ GÜRBÜZTÜRK