Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı

Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy

PDF İndir

Tez No: 946040
Yazar: MEHMET ÇAĞRI ÇALIŞKAN
Danışmanlar: DR. ÖĞR. ÜYESİ GÖKALP TULUM
Tez Türü: Yüksek Lisans
Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
Anahtar Kelimeler: Belirtilmemiş.
Yıl: 2025
Dil: Türkçe
Üniversite: Üsküdar Üniversitesi
Enstitü: Fen Bilimleri Enstitüsü
Ana Bilim Dalı: Yapay Zeka Mühendisliği Ana Bilim Dalı
Bilim Dalı: Yapay Zeka Mühendisliği Bilim Dalı
Sayfa Sayısı: 114

Özet

Türkçe gibi düşük kaynaklı dillerde, küçük ölçekli Büyük Dil Modellerinin (LLM) soru-cevap ve Bilgi Getirmeli Üretim (RAG) görevlerindeki başarımını artırmak amacıyla veri verimli bir ince ayar stratejisi geliştirilmiştir. Bu kapsamda, Qwen-3-0.6B-Chat modeli, Düşük Sıra Uyarlaması (LoRA) tabanlı bir yöntemle iki özgün veri kümesi kullanılarak eğitilmiştir. Veri setlerinden biri tamamen Türkçe içeriklidir; diğeri ise %25 oranında İngilizce düşünce zinciri içeren Türkçe yanıt formatına sahip yapıdadır. Türkçe İleri Düzey Akıl Yürütme Değerlendirmesi (TARA) veri seti kıyaslamalı testler, İngilizce düşünce zinciriyle eğitilen 0,6 milyar parametreli modelin, temel modele kıyasla Bilimsel Açıklama kategorisinde %11 ve Tarihsel Nedensellik kategorisinde %18 daha başarılı olduğunu göstermiştir. Bu strateji 1,7 milyar parametreli daha büyük bir modele uyarlandığında, kazanım oranları düşmekle birlikte, kod üretimi gibi bazı alanlarda görülen hafif gerileme, uzmanlaşma-unutma arasında yaşanan ödünleşimi doğrulamıştır. Niteliksel analizler, İngilizce düşünce zincirinin, modelin kanıt hiyerarşisi kurma ve hipotez değerlendirme yeteneğini belirgin şekilde geliştirdiğini ortaya koymuştur. Sonuç olarak,“İngilizce düşün, Türkçe cevap ver”yaklaşımının, kaynak kısıtlı ortamlarda Türkçe RAG kalitesini yükseltmek için donanım dostu ve verimli bir çözüm olduğu saptanmıştır. Gelecek çalışmalar için daha büyük modeller ve alana özel Türkçe RAG verileriyle testler yapılması önerilmektedir.

Özet (Çeviri)

A data-efficient fine-tuning strategy has been developed to enhance the performance of small-scale Large Language Models (LLMs) in question-answering and Retrieval-Augmented Generation (RAG) tasks for low-resource languages like Turkish. In this context, the Qwen-3-0.6B-Chat model was trained using a Low-Rank Adaptation (LoRA) based method with two bespoke datasets: One containing entirely Turkish content, and the other incorporating a 25% format of English chain-of-thought + Turkish response. Tests on the Turkish Advanced Reasoning Assessment (TARA) benchmark showed that the 0.6-billion-parameter model trained with an English chain-of-thought outperformed the base model by 11 % in the Scientific Explanation category and 18 % in the Historical Causality category. When this strategy was adapted to a larger 1.7-billion-parameter model, the performance gains diminished, and a slight regression in areas such as code generation further confirmed the specialization–forgetting trade-off. Qualitative analyses have revealed that the English chain-of-thought significantly improves the model's ability to establish evidence hierarchies and evaluate hypotheses. Consequently, the Think in English Answer in Turkish approach has been identified as a hardware-friendly and efficient solution for enhancing Turkish RAG quality in resource-constrained environments. Future work should include testing with larger models and domain-specific Turkish RAG datasets.

Benzer Tezler

Tez No
955958
Dil modellerinin türkçe dilinde performanslarının iyileştirilmesi için farklı istem formatlarının kullanımı
The use of different prompt formats to improve the performance of language models in the turkish language
ERAY NURTEKİN
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Trakya Üniversitesi
Veri Bilimi ve Analitiği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ EMİR ÖZTÜRK
Tez No
778396
Identification of discourse relations in Turkish discourse bank
Türkçe söylem bankasında söylem bağıntılarının belirlenmesi
FERHAT KUTLU
Doktora
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Orta Doğu Teknik Üniversitesi
Bilişsel Bilim Ana Bilim Dalı
PROF. DR. DENİZ ZEYREK BOZŞAHİN
DR. MURATHAN KURFALI
Tez No
934186
Transfer öğrenme kullanarak ICD-10 kodu tahmini
Predicting ICD-10 codes using transfer learning
ELİF ALTINTAŞ
Yüksek Lisans
Türkçe
2024
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Ege Üniversitesi
Bilgisayar Mühendisliği Ana Bilim Dalı
PROF. DR. OĞUZ DİKENELLİ
Tez No
953585
Veri artırımında küçük modellerin eğitimi ile büyük modelleri kullanmanın karşılaştırılması
Comparison of training small models and using large models in data augmentation
ENES DOĞAN ŞANLI
Yüksek Lisans
Türkçe
2025
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol Yıldız Teknik Üniversitesi
Elektrik Tesisleri Ana Bilim Dalı
PROF. DR. MEHMET FATİH AMASYALI
Tez No
52823
Türkiye'deki terör örgütlerinin örgütlenme modelleri: Karşılaştırmalı bir analiz
The Organizational models of terror organizations in Turkey: A comparative analysis
YAVUZ AKKOÇ
Yüksek Lisans
Türkçe
1996
Kamu Yönetimi Hacettepe Üniversitesi
Y.DOÇ.DR. ALİ ÇAĞLAR

Geri Dön