Geri Dön

Küçük dil modellerinin türkçe bağlamlı soru-cevap ve çıkarım görevlerinde ingilizce akıl yürütme-türkçe yanıt stratejisiyle lora ince ayarı

Lora fine-tuning of small language models for turkish contextual question answering and inference via an english reasoning–turkish answer strategy

  1. Tez No: 946040
  2. Yazar: MEHMET ÇAĞRI ÇALIŞKAN
  3. Danışmanlar: DR. ÖĞR. ÜYESİ GÖKALP TULUM
  4. Tez Türü: Yüksek Lisans
  5. Konular: Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve Kontrol, Computer Engineering and Computer Science and Control
  6. Anahtar Kelimeler: Belirtilmemiş.
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Üsküdar Üniversitesi
  10. Enstitü: Fen Bilimleri Enstitüsü
  11. Ana Bilim Dalı: Yapay Zeka Mühendisliği Ana Bilim Dalı
  12. Bilim Dalı: Yapay Zeka Mühendisliği Bilim Dalı
  13. Sayfa Sayısı: 114

Özet

Türkçe gibi düşük kaynaklı dillerde, küçük ölçekli Büyük Dil Modellerinin (LLM) soru-cevap ve Bilgi Getirmeli Üretim (RAG) görevlerindeki başarımını artırmak amacıyla veri verimli bir ince ayar stratejisi geliştirilmiştir. Bu kapsamda, Qwen-3-0.6B-Chat modeli, Düşük Sıra Uyarlaması (LoRA) tabanlı bir yöntemle iki özgün veri kümesi kullanılarak eğitilmiştir. Veri setlerinden biri tamamen Türkçe içeriklidir; diğeri ise %25 oranında İngilizce düşünce zinciri içeren Türkçe yanıt formatına sahip yapıdadır. Türkçe İleri Düzey Akıl Yürütme Değerlendirmesi (TARA) veri seti kıyaslamalı testler, İngilizce düşünce zinciriyle eğitilen 0,6 milyar parametreli modelin, temel modele kıyasla Bilimsel Açıklama kategorisinde %11 ve Tarihsel Nedensellik kategorisinde %18 daha başarılı olduğunu göstermiştir. Bu strateji 1,7 milyar parametreli daha büyük bir modele uyarlandığında, kazanım oranları düşmekle birlikte, kod üretimi gibi bazı alanlarda görülen hafif gerileme, uzmanlaşma-unutma arasında yaşanan ödünleşimi doğrulamıştır. Niteliksel analizler, İngilizce düşünce zincirinin, modelin kanıt hiyerarşisi kurma ve hipotez değerlendirme yeteneğini belirgin şekilde geliştirdiğini ortaya koymuştur. Sonuç olarak,“İngilizce düşün, Türkçe cevap ver”yaklaşımının, kaynak kısıtlı ortamlarda Türkçe RAG kalitesini yükseltmek için donanım dostu ve verimli bir çözüm olduğu saptanmıştır. Gelecek çalışmalar için daha büyük modeller ve alana özel Türkçe RAG verileriyle testler yapılması önerilmektedir.

Özet (Çeviri)

A data-efficient fine-tuning strategy has been developed to enhance the performance of small-scale Large Language Models (LLMs) in question-answering and Retrieval-Augmented Generation (RAG) tasks for low-resource languages like Turkish. In this context, the Qwen-3-0.6B-Chat model was trained using a Low-Rank Adaptation (LoRA) based method with two bespoke datasets: One containing entirely Turkish content, and the other incorporating a 25% format of English chain-of-thought + Turkish response. Tests on the Turkish Advanced Reasoning Assessment (TARA) benchmark showed that the 0.6-billion-parameter model trained with an English chain-of-thought outperformed the base model by 11 % in the Scientific Explanation category and 18 % in the Historical Causality category. When this strategy was adapted to a larger 1.7-billion-parameter model, the performance gains diminished, and a slight regression in areas such as code generation further confirmed the specialization–forgetting trade-off. Qualitative analyses have revealed that the English chain-of-thought significantly improves the model's ability to establish evidence hierarchies and evaluate hypotheses. Consequently, the Think in English Answer in Turkish approach has been identified as a hardware-friendly and efficient solution for enhancing Turkish RAG quality in resource-constrained environments. Future work should include testing with larger models and domain-specific Turkish RAG datasets.

Benzer Tezler

  1. Dil modellerinin türkçe dilinde performanslarının iyileştirilmesi için farklı istem formatlarının kullanımı

    The use of different prompt formats to improve the performance of language models in the turkish language

    ERAY NURTEKİN

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolTrakya Üniversitesi

    Veri Bilimi ve Analitiği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ EMİR ÖZTÜRK

  2. Identification of discourse relations in Turkish discourse bank

    Türkçe söylem bankasında söylem bağıntılarının belirlenmesi

    FERHAT KUTLU

    Doktora

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolOrta Doğu Teknik Üniversitesi

    Bilişsel Bilim Ana Bilim Dalı

    PROF. DR. DENİZ ZEYREK BOZŞAHİN

    DR. MURATHAN KURFALI

  3. Transfer öğrenme kullanarak ICD-10 kodu tahmini

    Predicting ICD-10 codes using transfer learning

    ELİF ALTINTAŞ

    Yüksek Lisans

    Türkçe

    Türkçe

    2024

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolEge Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    PROF. DR. OĞUZ DİKENELLİ

  4. Veri artırımında küçük modellerin eğitimi ile büyük modelleri kullanmanın karşılaştırılması

    Comparison of training small models and using large models in data augmentation

    ENES DOĞAN ŞANLI

    Yüksek Lisans

    Türkçe

    Türkçe

    2025

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolYıldız Teknik Üniversitesi

    Elektrik Tesisleri Ana Bilim Dalı

    PROF. DR. MEHMET FATİH AMASYALI

  5. Türkiye'deki terör örgütlerinin örgütlenme modelleri: Karşılaştırmalı bir analiz

    The Organizational models of terror organizations in Turkey: A comparative analysis

    YAVUZ AKKOÇ

    Yüksek Lisans

    Türkçe

    Türkçe

    1996

    Kamu YönetimiHacettepe Üniversitesi

    Y.DOÇ.DR. ALİ ÇAĞLAR