Çeviri-tabanlı açımlama veri setiyle Türkçe büyük dil modelinin sınanması
Testing a Turkish large language model with a translation-based paraphrasing dataset
- Tez No: 957777
- Danışmanlar: PROF. DR. ÖZGÜN KOŞANER
- Tez Türü: Yüksek Lisans
- Konular: Dilbilim, Linguistics
- Anahtar Kelimeler: Türkçe Açımlama, Türkçe Açımlama Derlemi, Türkçe Açımlama Üretimi, Türkçe Doğal Dil İşleme, Turkish Paraphrasing, Turkish Paraphrasing Corpus, Turkish Paraphrase Generation, Turkish Natural Language Processing
- Yıl: 2025
- Dil: Türkçe
- Üniversite: Dokuz Eylül Üniversitesi
- Enstitü: Sosyal Bilimler Enstitüsü
- Ana Bilim Dalı: Genel Dilbilim Ana Bilim Dalı
- Bilim Dalı: Genel Dilbilim Bilim Dalı
- Sayfa Sayısı: 126
Özet
En basit tanımıyla, tümce veya metnin anlamı korunarak sözcüksel ve/veya sözdizimsel değişikliklerle ifade edilmesi olan açımlama günlük hayatta çok da farkında olmadan sıklıkla kullanılmaktadır. Hem kuramsal hem uygulamalı alanda üzerine çalışmalar yapılan açımlama, Türkçe doğal dil işleme alanında İngilizceye kıyasla daha az yer bulmaktadır. Bu doğrultuda bu çalışmada çift elle etiketlenmiş bir açımlama derlemi oluşturularak daha sonra Türkçe büyük dil modeli üzerinde ince ayar yapılarak hem modelin hem de derlemin geçerliliğinin ortaya konulması hedeflenmiştir. Araştırma soruları arasında bilgisayar teknolojileri kullanılarak Türkçe açımlama derlemi üretmenin mümkün olup olmadığı, alanyazında bulunan İngilizce/Türkçe açımlama derlem/veri setleri ve bunların kapsamının neler olduğu, Büyük ölçekli çeviri-tabanlı (elle etiketlenmiş) Türkçe açımlama derleminin nasıl oluşturulacağı ve açımlama üretim modeli çeviri-tabanlı (elle etiketlenmiş) Türkçe açımlama derlemiyle eğitildiğinde elde edilecek sonuçların neler olacağı bulunmaktadır. Bu doğrultuda öncelikle hem İngilizce hem Türkçe açımlama çalışmaları ve büyük dil modelleri ele alınmıştır. Bu çalışmalardan hareketle Türkçe için derlem dilbilim çerçevesinde bir açımlama derlemi oluşturulmadığı fark edilmiştir. Büyük ölçekli elle etiketlenmiş açımlama derlemi oluşturmak için İngilizce dört farklı kaynak seçilmiş ve bu kaynaklar dört farklı çeviri aracıyla çevrilmiştir. Hem çeviri öncesi hem çeviri sonrası etiketleme ile hatalı satırlar en aza indirgemeye çalışılmıştır. Son olarak, derlem üçüncü kez gözden geçirilerek kontrol yapılmıştır. Böylece 56.073 satırdan oluşan Türkçe açımlama derlemi ortaya çıkmıştır. Oluşturulan derlem daha sonra Türkçe büyük dil modeli olan TURNA üzerinde ince ayar yapılmıştır. Hiperparametreler ayarlandıktan sonra dört farklı görev modu için eğitim gerçekleştirilmiştir. Eğitilen modeller otomatik değerlendirme skorları (BLEU, Rouge1, Rouge2, RougeL, METEOR) ve elle değerlendirmeyle sınanmıştır. İnce ayar yaptığımız modellerden en iyi otomatik değerlendirme skorunu veren modelin“NLU”olduğunu ve elle değerlendirmesinde modellerin kısa tümcelerden ziyade uzun tümcelerde daha iyi açımlama oluşturduğu ortaya çıkmıştır.
Özet (Çeviri)
Paraphrasing, in its simplest definition, is the expression of a sentence or text with lexical and/or syntactic changes while preserving its meaning. Paraphrasing, which has been studied both theoretical and applied, is less common in Turkish natural language processing than in English. Accordingly, the aim of this study is to generate a double human-annotated paraphrase corpus and then fine-tune the Turkish large language model to demonstrate the validity of both the model and the corpus. Accordingly the research questions include whether it is possible to produce a Turkish paraphrase corpus using computer technologies, the English/Turkish paraphrase corpora/datasets available in the literature and their scope, how to create a large-scale translation-based (human annotated) Turkish paraphrase corpus, and what the results will be when the paraphrase production model is trained with the translation-based (human annotated) Turkish paraphrase corpus. In this respect, firstly, both English and Turkish paraphrasing studies and large language models were reviewed. Based on these studies, it was realized that no paraphrasing corpus has been created for Turkish within the framework of corpus linguistics. In order to create a large-scale manually labeled paraphrase corpus, four different sources in English were selected and these sources were translated with four different translation tools. Both pre-translation and post translation annotation were used to minimize the number of incorrect lines. Finally, the corpus was checked for the third time. This resulted in a Turkish paraphrase corpus of 56,073 lines. The generated corpus was then fine-tuned on the Turkish large language model TURNA. After the hyperparameters were set, training was performed for four different task modes. The trained models were tested with automatic evaluation scores (BLEU, Rouge1, Rouge2, RougeL, METEOR) and manual evaluation. We found that“NLU”gave the best automatic evaluation score among the models we fine-tuned, and the human evaluation revealed that the models produced better paraphrases in long sentences rather than short sentences.
Benzer Tezler
- Enhancing human resource decision making with image-based OSMI data analysis: leveraging PIX2PIX for accurate workplace mental health insights
İş yeri mental sağlık incelemeleri için PIX2PIX kullanarak, görüntü tabanlı OSMI veri analiziyle insan kaynakları karar süreçlerini geliştirme
FARIBA FARID
Yüksek Lisans
İngilizce
2023
Endüstri ve Endüstri Mühendisliğiİstanbul Teknik ÜniversitesiEndüstri Mühendisliği Ana Bilim Dalı
PROF. DR. NİZAMETTİN BAYYURT
- Fake news classification using machine learning and deep learning approaches
Makine öğrenimi ve derin öğrenme yaklaşımlarını kullanarak sahte haber sınıflandırması
SAJA ABDULHALEEM MAHMOOD AL-OBAIDI
Yüksek Lisans
İngilizce
2023
Bilgisayar Mühendisliği Bilimleri-Bilgisayar ve KontrolGazi ÜniversitesiBilgisayar Mühendisliği Ana Bilim Dalı
DR. ÖĞR. ÜYESİ TUBA ÇAĞLIKANTAR
- Jane Austen in Turkish context: A critical study of re/translations and their reception
Türkiye'de Jane Austen: Çeviri, yeniden çeviri ve alımlama üzerine eleştirel bir inceleme
AYŞE SIRMA YALÇINDAĞ
Yüksek Lisans
İngilizce
2014
Mütercim-TercümanlıkDokuz Eylül ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
YRD. DOÇ. MÜGE IŞIKLAR KOÇAK
- The role of re/translations in the reception of Virginia Woolf in Turkey
Türkiye'de Virginia Woolf'un alımlanmasında çeviri ve yeniden çevirilerin rolü
SİTEM İNCE
Yüksek Lisans
İngilizce
2017
Mütercim-TercümanlıkDokuz Eylül ÜniversitesiMütercim Tercümanlık Ana Bilim Dalı
YRD. DOÇ. DR. PELİN ŞULHA
- Building energy efficiency: A data-driven machine learning approach for energy optimization
Bina enerji verimliliği: Enerji optimizasyonu için veriye dayalı makine öğrenmesi yaklaşımı
AHMAD REZA DARABI
Yüksek Lisans
İngilizce
2025
Enerjiİstanbul Teknik ÜniversitesiEnerji Bilim ve Teknoloji Ana Bilim Dalı
DR. ÖĞR. ÜYESİ MUSTAFA BERKER YURTSEVEN