Geri Dön

Çeviri-tabanlı açımlama veri setiyle Türkçe büyük dil modelinin sınanması

Testing a Turkish large language model with a translation-based paraphrasing dataset

  1. Tez No: 957777
  2. Yazar: GÖRKEM TEKER
  3. Danışmanlar: PROF. DR. ÖZGÜN KOŞANER
  4. Tez Türü: Yüksek Lisans
  5. Konular: Dilbilim, Linguistics
  6. Anahtar Kelimeler: Türkçe Açımlama, Türkçe Açımlama Derlemi, Türkçe Açımlama Üretimi, Türkçe Doğal Dil İşleme, Turkish Paraphrasing, Turkish Paraphrasing Corpus, Turkish Paraphrase Generation, Turkish Natural Language Processing
  7. Yıl: 2025
  8. Dil: Türkçe
  9. Üniversite: Dokuz Eylül Üniversitesi
  10. Enstitü: Sosyal Bilimler Enstitüsü
  11. Ana Bilim Dalı: Genel Dilbilim Ana Bilim Dalı
  12. Bilim Dalı: Genel Dilbilim Bilim Dalı
  13. Sayfa Sayısı: 126

Özet

En basit tanımıyla, tümce veya metnin anlamı korunarak sözcüksel ve/veya sözdizimsel değişikliklerle ifade edilmesi olan açımlama günlük hayatta çok da farkında olmadan sıklıkla kullanılmaktadır. Hem kuramsal hem uygulamalı alanda üzerine çalışmalar yapılan açımlama, Türkçe doğal dil işleme alanında İngilizceye kıyasla daha az yer bulmaktadır. Bu doğrultuda bu çalışmada çift elle etiketlenmiş bir açımlama derlemi oluşturularak daha sonra Türkçe büyük dil modeli üzerinde ince ayar yapılarak hem modelin hem de derlemin geçerliliğinin ortaya konulması hedeflenmiştir. Araştırma soruları arasında bilgisayar teknolojileri kullanılarak Türkçe açımlama derlemi üretmenin mümkün olup olmadığı, alanyazında bulunan İngilizce/Türkçe açımlama derlem/veri setleri ve bunların kapsamının neler olduğu, Büyük ölçekli çeviri-tabanlı (elle etiketlenmiş) Türkçe açımlama derleminin nasıl oluşturulacağı ve açımlama üretim modeli çeviri-tabanlı (elle etiketlenmiş) Türkçe açımlama derlemiyle eğitildiğinde elde edilecek sonuçların neler olacağı bulunmaktadır. Bu doğrultuda öncelikle hem İngilizce hem Türkçe açımlama çalışmaları ve büyük dil modelleri ele alınmıştır. Bu çalışmalardan hareketle Türkçe için derlem dilbilim çerçevesinde bir açımlama derlemi oluşturulmadığı fark edilmiştir. Büyük ölçekli elle etiketlenmiş açımlama derlemi oluşturmak için İngilizce dört farklı kaynak seçilmiş ve bu kaynaklar dört farklı çeviri aracıyla çevrilmiştir. Hem çeviri öncesi hem çeviri sonrası etiketleme ile hatalı satırlar en aza indirgemeye çalışılmıştır. Son olarak, derlem üçüncü kez gözden geçirilerek kontrol yapılmıştır. Böylece 56.073 satırdan oluşan Türkçe açımlama derlemi ortaya çıkmıştır. Oluşturulan derlem daha sonra Türkçe büyük dil modeli olan TURNA üzerinde ince ayar yapılmıştır. Hiperparametreler ayarlandıktan sonra dört farklı görev modu için eğitim gerçekleştirilmiştir. Eğitilen modeller otomatik değerlendirme skorları (BLEU, Rouge1, Rouge2, RougeL, METEOR) ve elle değerlendirmeyle sınanmıştır. İnce ayar yaptığımız modellerden en iyi otomatik değerlendirme skorunu veren modelin“NLU”olduğunu ve elle değerlendirmesinde modellerin kısa tümcelerden ziyade uzun tümcelerde daha iyi açımlama oluşturduğu ortaya çıkmıştır.

Özet (Çeviri)

Paraphrasing, in its simplest definition, is the expression of a sentence or text with lexical and/or syntactic changes while preserving its meaning. Paraphrasing, which has been studied both theoretical and applied, is less common in Turkish natural language processing than in English. Accordingly, the aim of this study is to generate a double human-annotated paraphrase corpus and then fine-tune the Turkish large language model to demonstrate the validity of both the model and the corpus. Accordingly the research questions include whether it is possible to produce a Turkish paraphrase corpus using computer technologies, the English/Turkish paraphrase corpora/datasets available in the literature and their scope, how to create a large-scale translation-based (human annotated) Turkish paraphrase corpus, and what the results will be when the paraphrase production model is trained with the translation-based (human annotated) Turkish paraphrase corpus. In this respect, firstly, both English and Turkish paraphrasing studies and large language models were reviewed. Based on these studies, it was realized that no paraphrasing corpus has been created for Turkish within the framework of corpus linguistics. In order to create a large-scale manually labeled paraphrase corpus, four different sources in English were selected and these sources were translated with four different translation tools. Both pre-translation and post translation annotation were used to minimize the number of incorrect lines. Finally, the corpus was checked for the third time. This resulted in a Turkish paraphrase corpus of 56,073 lines. The generated corpus was then fine-tuned on the Turkish large language model TURNA. After the hyperparameters were set, training was performed for four different task modes. The trained models were tested with automatic evaluation scores (BLEU, Rouge1, Rouge2, RougeL, METEOR) and manual evaluation. We found that“NLU”gave the best automatic evaluation score among the models we fine-tuned, and the human evaluation revealed that the models produced better paraphrases in long sentences rather than short sentences.

Benzer Tezler

  1. Enhancing human resource decision making with image-based OSMI data analysis: leveraging PIX2PIX for accurate workplace mental health insights

    İş yeri mental sağlık incelemeleri için PIX2PIX kullanarak, görüntü tabanlı OSMI veri analiziyle insan kaynakları karar süreçlerini geliştirme

    FARIBA FARID

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Endüstri ve Endüstri Mühendisliğiİstanbul Teknik Üniversitesi

    Endüstri Mühendisliği Ana Bilim Dalı

    PROF. DR. NİZAMETTİN BAYYURT

  2. Fake news classification using machine learning and deep learning approaches

    Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması

    SAJA ABDULHALEEM MAHMOOD AL-OBAIDI

    Yüksek Lisans

    İngilizce

    İngilizce

    2023

    Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi Üniversitesi

    Bilgisayar Mühendisliği Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR

  3. Jane Austen in Turkish context: A critical study of re/translations and their reception

    Türkiye'de Jane Austen: Çeviri, yeniden çeviri ve alımlama üzerine eleştirel bir inceleme

    AYŞE SIRMA YALÇINDAĞ

    Yüksek Lisans

    İngilizce

    İngilizce

    2014

    Mütercim-TercümanlıkDokuz Eylül Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    YRD. DOÇ. MÜGE IŞIKLAR KOÇAK

  4. The role of re/translations in the reception of Virginia Woolf in Turkey

    Türkiye'de Virginia Woolf'un alımlanmasında çeviri ve yeniden çevirilerin rolü

    SİTEM İNCE

    Yüksek Lisans

    İngilizce

    İngilizce

    2017

    Mütercim-TercümanlıkDokuz Eylül Üniversitesi

    Mütercim Tercümanlık Ana Bilim Dalı

    YRD. DOÇ. DR. PELİN ŞULHA

  5. Building energy efficiency: A data-driven machine learning approach for energy optimization

    Bina enerji verimliliği: Enerji optimizasyonu için veriye dayalı makine öğrenmesi yaklaşımı

    AHMAD REZA DARABI

    Yüksek Lisans

    İngilizce

    İngilizce

    2025

    Enerjiİstanbul Teknik Üniversitesi

    Enerji Bilim ve Teknoloji Ana Bilim Dalı

    DR. ÖĞR. ÜYESİ MUSTAFA BERKER YURTSEVEN